Training in progress, step 110000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9a3fc6351d09bd039d306f53b05fa03590011ea2849b43bd52529e0bd8514b9
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:5077b4837e7db854bd139cb7b83c4884833063cbbcc0c135891079eb84eb5023
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61dde823420dc7042c5bb2d699d112697bdd3010f540547619caa8b07f20d030
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:b862e1a9d6ed89097b4519d1b3cde5a169841069d056cef214437ef6987452e1
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:330f3cda58bd3cda7fe4052bcd097fef510e7fce1d130c443ec32e1f5486a104
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a28dddede4fc4bc0b2366a2adf3a2a7cc15aa053d48f5784818c30e8f581c8c
+size 14567

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db9a8646bfa77c67b79c4b30fed86fd905de2821912180ec33d06ceff7f9e882
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9027fde6d34c0d3df23bed16cbdb4322526cc2d0a788564dc5bdbc1a2a3cc939
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcf4e8fe75afcd199d62b4b9a4e3758f2eaf0ffa4730fdb2d98d4bb191801698
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ba2bcf5cf6c5910865dc9ad1b993b583122f7246dff018513acde53be4e1cef
 size 14439

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80c9489f4e58dc887e83e88882e5e1382e1ee3173dcbda417ffbbdcb858a9d65
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c0ded2329ef53920cb585a63eb47585e2a859a8641b80120f9a203cf7e7c919
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf0f5ebb927172859f9f7bd6df79a9456d1222e97acfe9ef9113e346912ff663
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0b2023ad615bca290ded4b09be5cde4d541c3da29f7726a5a43e59cc6dddea5
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1dae2826d240394f23ebead2538e7f8ab9151433f5d76c787e8de37065711b2b
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:41b811cc0631c90302be59bb28064c0b766f48934ca956ae5177890d0b44ff21
+size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d1a3d037a53cd82051029fcc53619c43fd8479867f8522cbd8ad58f9ba5a632
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ace9c134526b185b1490c715e5c10cccba9ced2c0bbb4bf14ec35ff87f84192
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c028788cc8743c6a98b2e0f67f4bc6d1434318ea95a0cdb39b9728727ca1342
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:094bb976952135775a16c6a0f91bc9d97a98726f15f9c9198b320fb5dc6d70ce
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7786e0d240c1817a80f936fe537093f6b0f81238abcccea2c0e618f1ac9e9438
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a36392859753540b5ff28a6690e0fb35c1157de322529d1ae210898db91ddda7
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.063819357210699,
-  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2006,11 +2006,211 @@
       "eval_samples_per_second": 1897.09,
       "eval_steps_per_second": 30.353,
       "step": 100000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 3.1948474238890725e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.370201292931769,
+  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1897.09,
       "eval_steps_per_second": 30.353,
       "step": 100000
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.0002822947773032956,
+      "loss": 0.3743,
+      "step": 100500
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 0.0002820644686063602,
+      "loss": 0.3743,
+      "step": 101000
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.7854102253913879,
+      "eval_runtime": 0.541,
+      "eval_samples_per_second": 1848.349,
+      "eval_steps_per_second": 29.574,
+      "step": 101000
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 0.00028183277035275363,
+      "loss": 0.374,
+      "step": 101500
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 0.0002815996850762909,
+      "loss": 0.374,
+      "step": 102000
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.7880498170852661,
+      "eval_runtime": 0.5283,
+      "eval_samples_per_second": 1892.948,
+      "eval_steps_per_second": 30.287,
+      "step": 102000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 0.00028136521532595515,
+      "loss": 0.3737,
+      "step": 102500
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 0.00028112936366587023,
+      "loss": 0.3734,
+      "step": 103000
+    },
+    {
+      "epoch": 3.16,
+      "eval_loss": 0.7864383459091187,
+      "eval_runtime": 0.5228,
+      "eval_samples_per_second": 1912.628,
+      "eval_steps_per_second": 30.602,
+      "step": 103000
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 0.00028089213267527184,
+      "loss": 0.3733,
+      "step": 103500
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 0.0002806535249484803,
+      "loss": 0.3731,
+      "step": 104000
+    },
+    {
+      "epoch": 3.19,
+      "eval_loss": 0.783866822719574,
+      "eval_runtime": 0.5321,
+      "eval_samples_per_second": 1879.482,
+      "eval_steps_per_second": 30.072,
+      "step": 104000
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.00028041354309487135,
+      "loss": 0.3728,
+      "step": 104500
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.0002801721897388482,
+      "loss": 0.3723,
+      "step": 105000
+    },
+    {
+      "epoch": 3.22,
+      "eval_loss": 0.784348726272583,
+      "eval_runtime": 0.5158,
+      "eval_samples_per_second": 1938.703,
+      "eval_steps_per_second": 31.019,
+      "step": 105000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.0002799294675198124,
+      "loss": 0.3723,
+      "step": 105500
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 0.00027968537909213524,
+      "loss": 0.372,
+      "step": 106000
+    },
+    {
+      "epoch": 3.25,
+      "eval_loss": 0.7889582514762878,
+      "eval_runtime": 0.5199,
+      "eval_samples_per_second": 1923.296,
+      "eval_steps_per_second": 30.773,
+      "step": 106000
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 0.0002794399271251287,
+      "loss": 0.3721,
+      "step": 106500
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 0.0002791931143030162,
+      "loss": 0.3714,
+      "step": 107000
+    },
+    {
+      "epoch": 3.28,
+      "eval_loss": 0.7859266400337219,
+      "eval_runtime": 0.5189,
+      "eval_samples_per_second": 1926.987,
+      "eval_steps_per_second": 30.832,
+      "step": 107000
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 0.00027894494332490315,
+      "loss": 0.3715,
+      "step": 107500
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.0002786954169047476,
+      "loss": 0.3711,
+      "step": 108000
+    },
+    {
+      "epoch": 3.31,
+      "eval_loss": 0.7798612117767334,
+      "eval_runtime": 0.5242,
+      "eval_samples_per_second": 1907.581,
+      "eval_steps_per_second": 30.521,
+      "step": 108000
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 0.0002784445377713306,
+      "loss": 0.3711,
+      "step": 108500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.0002781923086682261,
+      "loss": 0.371,
+      "step": 109000
+    },
+    {
+      "epoch": 3.34,
+      "eval_loss": 0.7840728759765625,
+      "eval_runtime": 0.5137,
+      "eval_samples_per_second": 1946.758,
+      "eval_steps_per_second": 31.148,
+      "step": 109000
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 0.0002779387323537711,
+      "loss": 0.3704,
+      "step": 109500
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 0.0002776838116010356,
+      "loss": 0.3705,
+      "step": 110000
+    },
+    {
+      "epoch": 3.37,
+      "eval_loss": 0.7811622023582458,
+      "eval_runtime": 0.5403,
+      "eval_samples_per_second": 1850.736,
+      "eval_steps_per_second": 29.612,
+      "step": 110000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 3.5143345626635724e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61dde823420dc7042c5bb2d699d112697bdd3010f540547619caa8b07f20d030
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:b862e1a9d6ed89097b4519d1b3cde5a169841069d056cef214437ef6987452e1
 size 102501541