Training in progress, step 190000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8eebb295812a5e59b8cc81c26f38269a2b08ced33ac052f5cd4b925818f5ad7
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae8b37bb3ef93266027d70d0e00d87efb44bc4019ad917063c09c81cee6c0fef
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cad91391dc5d3c8f6ec4db59f2a7b1f5a82dacf011d8f90595ac52d0f99d9d8
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:eef92818d243a4d1828d62172dbe43bff5dcd02b87cc9982faba5e24c9f7d637
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90eeea7f53a505f798ef8d829ace86d5cfaf983bbaaec27adfb70669887b824d
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c27ac61f2483d09b304f5bf47988fc50deadbc74a73d6e7fefa73c39e537290c
+size 14439

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:661c5515c8356a401fd066b8dfe773c64b8d80125a03d5ce30709a3a7883c490
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e0fb22612ddda1e707530c7b94de033aded05bbe199ff38f1fecf009e4774c0
+size 14439

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91d12617c44eee325f10a9bfc4a4d50be13d022c2f2b636ad533f25275cb2ce6
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2215278ab48eb111ec43fff1ae065a4f7afae50fbcb1a654d0f802e588d405a9
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cf7bfc913575f8c458dbba1253c52eaa4a215c1e077041531924e651fe1b687
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dd18359c537f071111eb3e8deb7a71a5fcf4dbb9405ac62ad7e7fda32e4ae8a
+size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e827d4a09db28f6f15911529cb7e65d53bf0d6e77e09abaca568307ff57a5e8d
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:382b413dfab48b07c22c47e33b4e458bbb779fe715bce1ce251c374236864125
 size 14439

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ce0c65fe2433cee8a1d4fc61a73546de1da6376b2797efc2e963c2e94a2a3d4
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bb8e841c948ba30f2f4604f711e7d297aa99f75c94f47e268088ac349f37f65
+size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f6c93cf27841b4116537c16edba24b72b1b9aa431a487c8e03a40b2f1160bf8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c349e058fdec7be9df0364808b4348ab83fd3dc0926ee604186a2bf094abe0b
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93072fbc8e9c76b2b9e666aaadf09c064512ce4d01764f763a49ebfaf01f5177
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e7ced809382dda0f6a1445f89e0ce2bdd33b73bdfa295160cd94e6048944943
+size 14439

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a265c146087c7b525f93e19ac9e51ad44bfb6af09ebd3ea4e38ee99de52c725
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0439027dd6f55adc764cb1317d963df8ccf36442066dafecce10b3f538efa8e
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.514874842979258,
-  "global_step": 180000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3606,11 +3606,211 @@
       "eval_samples_per_second": 1866.879,
       "eval_steps_per_second": 29.87,
       "step": 180000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 5.750728558181121e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.821256778700328,
+  "global_step": 190000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1866.879,
       "eval_steps_per_second": 29.87,
       "step": 180000
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 0.00022984029903546578,
+      "loss": 0.3492,
+      "step": 180500
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 0.00022942919143113572,
+      "loss": 0.3493,
+      "step": 181000
+    },
+    {
+      "epoch": 5.55,
+      "eval_loss": 0.7854596376419067,
+      "eval_runtime": 0.5507,
+      "eval_samples_per_second": 1815.925,
+      "eval_steps_per_second": 29.055,
+      "step": 181000
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 0.0002290172698810927,
+      "loss": 0.3508,
+      "step": 181500
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 0.00022860453889004493,
+      "loss": 0.3489,
+      "step": 182000
+    },
+    {
+      "epoch": 5.58,
+      "eval_loss": 0.7816638350486755,
+      "eval_runtime": 0.5378,
+      "eval_samples_per_second": 1859.411,
+      "eval_steps_per_second": 29.751,
+      "step": 182000
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 0.00022819100297155235,
+      "loss": 0.349,
+      "step": 182500
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 0.0002277766666479774,
+      "loss": 0.3492,
+      "step": 183000
+    },
+    {
+      "epoch": 5.61,
+      "eval_loss": 0.7852403521537781,
+      "eval_runtime": 0.5329,
+      "eval_samples_per_second": 1876.357,
+      "eval_steps_per_second": 30.022,
+      "step": 183000
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 0.00022736153445043595,
+      "loss": 0.3487,
+      "step": 183500
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 0.00022694561091874706,
+      "loss": 0.349,
+      "step": 184000
+    },
+    {
+      "epoch": 5.64,
+      "eval_loss": 0.7810923457145691,
+      "eval_runtime": 0.5168,
+      "eval_samples_per_second": 1934.966,
+      "eval_steps_per_second": 30.959,
+      "step": 184000
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 0.00022652890060138387,
+      "loss": 0.3486,
+      "step": 184500
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 0.00022611140805542366,
+      "loss": 0.3483,
+      "step": 185000
+    },
+    {
+      "epoch": 5.67,
+      "eval_loss": 0.78509521484375,
+      "eval_runtime": 0.541,
+      "eval_samples_per_second": 1848.302,
+      "eval_steps_per_second": 29.573,
+      "step": 185000
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 0.00022569313784649798,
+      "loss": 0.3483,
+      "step": 185500
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 0.0002252740945487429,
+      "loss": 0.3482,
+      "step": 186000
+    },
+    {
+      "epoch": 5.7,
+      "eval_loss": 0.7885275483131409,
+      "eval_runtime": 0.5166,
+      "eval_samples_per_second": 1935.833,
+      "eval_steps_per_second": 30.973,
+      "step": 186000
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 0.00022485428274474867,
+      "loss": 0.348,
+      "step": 186500
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 0.00022443370702551,
+      "loss": 0.3479,
+      "step": 187000
+    },
+    {
+      "epoch": 5.73,
+      "eval_loss": 0.7895678877830505,
+      "eval_runtime": 0.5259,
+      "eval_samples_per_second": 1901.494,
+      "eval_steps_per_second": 30.424,
+      "step": 187000
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 0.00022401237199037565,
+      "loss": 0.3476,
+      "step": 187500
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 0.0002235902822469979,
+      "loss": 0.3477,
+      "step": 188000
+    },
+    {
+      "epoch": 5.76,
+      "eval_loss": 0.7867687940597534,
+      "eval_runtime": 0.5223,
+      "eval_samples_per_second": 1914.598,
+      "eval_steps_per_second": 30.634,
+      "step": 188000
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 0.00022316744241128268,
+      "loss": 0.3476,
+      "step": 188500
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 0.00022274385710733855,
+      "loss": 0.3489,
+      "step": 189000
+    },
+    {
+      "epoch": 5.79,
+      "eval_loss": 0.7812724709510803,
+      "eval_runtime": 0.5275,
+      "eval_samples_per_second": 1895.908,
+      "eval_steps_per_second": 30.335,
+      "step": 189000
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 0.00022231953096742672,
+      "loss": 0.3471,
+      "step": 189500
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 0.00022189446863190974,
+      "loss": 0.3473,
+      "step": 190000
+    },
+    {
+      "epoch": 5.82,
+      "eval_loss": 0.7800177931785583,
+      "eval_runtime": 0.5216,
+      "eval_samples_per_second": 1917.115,
+      "eval_steps_per_second": 30.674,
+      "step": 190000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 6.070215696955621e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cad91391dc5d3c8f6ec4db59f2a7b1f5a82dacf011d8f90595ac52d0f99d9d8
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:eef92818d243a4d1828d62172dbe43bff5dcd02b87cc9982faba5e24c9f7d637
 size 102501541