Training in progress, step 110000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:229f1f5ff8c8c98bdcec06bdaa6629d9502e6ccb2217aeaa76f4e33e88972e4f
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c0c13c2b4862e7a34ebc8b922768e1e9178a36b674a1308c54623a6b682441d
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68cdcd4cdbc673fcb49958bfe32cced5d0dfd7765e48765f4a191aa568bbef48
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a822dc652f5b5007dd659ff9a97261c9af2e549d16d025cb7bff7d5d1f73941
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b376139e7a9e28339f66d6b916608b35982b8acd6efb16cc7b604be132a5044c
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b376139e7a9e28339f66d6b916608b35982b8acd6efb16cc7b604be132a5044c
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b376139e7a9e28339f66d6b916608b35982b8acd6efb16cc7b604be132a5044c
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b376139e7a9e28339f66d6b916608b35982b8acd6efb16cc7b604be132a5044c
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b376139e7a9e28339f66d6b916608b35982b8acd6efb16cc7b604be132a5044c
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b376139e7a9e28339f66d6b916608b35982b8acd6efb16cc7b604be132a5044c
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b376139e7a9e28339f66d6b916608b35982b8acd6efb16cc7b604be132a5044c
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b376139e7a9e28339f66d6b916608b35982b8acd6efb16cc7b604be132a5044c
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d85ea74361bfabc4dca40ed2a4dec24f25124d91f625a1176acad7044d70175
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe4bb2f202e1c5bfac6f58d7d7aff54991c6919cce0ee2976f31297f1718992f
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.127450980392156,
-  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2006,11 +2006,211 @@
       "eval_samples_per_second": 767.786,
       "eval_steps_per_second": 12.285,
       "step": 100000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 1.6016199656363503e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.740196078431373,
+  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 767.786,
       "eval_steps_per_second": 12.285,
       "step": 100000
+    },
+    {
+      "epoch": 6.16,
+      "learning_rate": 0.00042171081131341917,
+      "loss": 0.4877,
+      "step": 100500
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 0.00041991636704523497,
+      "loss": 0.4868,
+      "step": 101000
+    },
+    {
+      "epoch": 6.19,
+      "eval_loss": 0.8239555954933167,
+      "eval_runtime": 1.2567,
+      "eval_samples_per_second": 795.735,
+      "eval_steps_per_second": 12.732,
+      "step": 101000
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 0.00041811689596287893,
+      "loss": 0.4864,
+      "step": 101500
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 0.0004163124767810454,
+      "loss": 0.4861,
+      "step": 102000
+    },
+    {
+      "epoch": 6.25,
+      "eval_loss": 0.8212010264396667,
+      "eval_runtime": 1.2247,
+      "eval_samples_per_second": 816.535,
+      "eval_steps_per_second": 13.065,
+      "step": 102000
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 0.00041450318843087506,
+      "loss": 0.4858,
+      "step": 102500
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 0.00041268911005650166,
+      "loss": 0.4854,
+      "step": 103000
+    },
+    {
+      "epoch": 6.31,
+      "eval_loss": 0.8242572546005249,
+      "eval_runtime": 1.357,
+      "eval_samples_per_second": 736.942,
+      "eval_steps_per_second": 11.791,
+      "step": 103000
+    },
+    {
+      "epoch": 6.34,
+      "learning_rate": 0.00041087032101159006,
+      "loss": 0.4851,
+      "step": 103500
+    },
+    {
+      "epoch": 6.37,
+      "learning_rate": 0.00040904690085586515,
+      "loss": 0.4847,
+      "step": 104000
+    },
+    {
+      "epoch": 6.37,
+      "eval_loss": 0.8227641582489014,
+      "eval_runtime": 1.3326,
+      "eval_samples_per_second": 750.437,
+      "eval_steps_per_second": 12.007,
+      "step": 104000
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 0.0004072189293516316,
+      "loss": 0.4844,
+      "step": 104500
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 0.0004053864864602847,
+      "loss": 0.4841,
+      "step": 105000
+    },
+    {
+      "epoch": 6.43,
+      "eval_loss": 0.8184976577758789,
+      "eval_runtime": 1.3395,
+      "eval_samples_per_second": 746.538,
+      "eval_steps_per_second": 11.945,
+      "step": 105000
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 0.00040354965233881297,
+      "loss": 0.4846,
+      "step": 105500
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 0.0004017085073362913,
+      "loss": 0.4837,
+      "step": 106000
+    },
+    {
+      "epoch": 6.5,
+      "eval_loss": 0.8177208304405212,
+      "eval_runtime": 1.2838,
+      "eval_samples_per_second": 778.932,
+      "eval_steps_per_second": 12.463,
+      "step": 106000
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 0.00039986313199036664,
+      "loss": 0.4828,
+      "step": 106500
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 0.00039801360702373484,
+      "loss": 0.4827,
+      "step": 107000
+    },
+    {
+      "epoch": 6.56,
+      "eval_loss": 0.8140051364898682,
+      "eval_runtime": 1.3554,
+      "eval_samples_per_second": 737.763,
+      "eval_steps_per_second": 11.804,
+      "step": 107000
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 0.00039616001334060954,
+      "loss": 0.4824,
+      "step": 107500
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 0.00039430243202318314,
+      "loss": 0.4819,
+      "step": 108000
+    },
+    {
+      "epoch": 6.62,
+      "eval_loss": 0.8147432208061218,
+      "eval_runtime": 1.3502,
+      "eval_samples_per_second": 740.632,
+      "eval_steps_per_second": 11.85,
+      "step": 108000
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 0.00039244094432808034,
+      "loss": 0.4816,
+      "step": 108500
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 0.0003905756316828033,
+      "loss": 0.4813,
+      "step": 109000
+    },
+    {
+      "epoch": 6.68,
+      "eval_loss": 0.8172094225883484,
+      "eval_runtime": 1.4168,
+      "eval_samples_per_second": 705.811,
+      "eval_steps_per_second": 11.293,
+      "step": 109000
+    },
+    {
+      "epoch": 6.71,
+      "learning_rate": 0.00038870657568216963,
+      "loss": 0.4808,
+      "step": 109500
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 0.00038683385808474416,
+      "loss": 0.4807,
+      "step": 110000
+    },
+    {
+      "epoch": 6.74,
+      "eval_loss": 0.8148666024208069,
+      "eval_runtime": 1.2865,
+      "eval_samples_per_second": 777.303,
+      "eval_steps_per_second": 12.437,
+      "step": 110000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 1.7617879685021544e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68cdcd4cdbc673fcb49958bfe32cced5d0dfd7765e48765f4a191aa568bbef48
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a822dc652f5b5007dd659ff9a97261c9af2e549d16d025cb7bff7d5d1f73941
 size 25761253