Training in progress, step 100000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8be6802b9d992ac2c3994565edfc5567d3f523032a5e6e5411ff08074758c58f
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:229f1f5ff8c8c98bdcec06bdaa6629d9502e6ccb2217aeaa76f4e33e88972e4f
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0ed0a890cada09375208ef03bdfdd6d63ca0c33270b092aa04ab6ca525c88e1
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:68cdcd4cdbc673fcb49958bfe32cced5d0dfd7765e48765f4a191aa568bbef48
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6f8570c2dac95236cdc5d351a3c8ca55f21ec8e5bc0a65475a416cca474cb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6f8570c2dac95236cdc5d351a3c8ca55f21ec8e5bc0a65475a416cca474cb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6f8570c2dac95236cdc5d351a3c8ca55f21ec8e5bc0a65475a416cca474cb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6f8570c2dac95236cdc5d351a3c8ca55f21ec8e5bc0a65475a416cca474cb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6f8570c2dac95236cdc5d351a3c8ca55f21ec8e5bc0a65475a416cca474cb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6f8570c2dac95236cdc5d351a3c8ca55f21ec8e5bc0a65475a416cca474cb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6f8570c2dac95236cdc5d351a3c8ca55f21ec8e5bc0a65475a416cca474cb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c6f8570c2dac95236cdc5d351a3c8ca55f21ec8e5bc0a65475a416cca474cb1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dcfba93a07c8445e392e88db40749e6e684f371330279ce6dcb90e24daa020a
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36f11c380127c9b2248f3452b83eb7e7a6efc224b0b84b63651e3db0e819c91c
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d85ea74361bfabc4dca40ed2a4dec24f25124d91f625a1176acad7044d70175
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.514705882352941,
-  "global_step": 90000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1806,11 +1806,211 @@
       "eval_samples_per_second": 793.671,
       "eval_steps_per_second": 12.699,
       "step": 90000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 1.4414619732741613e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.127450980392156,
+  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 793.671,
       "eval_steps_per_second": 12.699,
       "step": 90000
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 0.00045642490670472436,
+      "loss": 0.4947,
+      "step": 90500
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 0.0004547471653280225,
+      "loss": 0.4946,
+      "step": 91000
+    },
+    {
+      "epoch": 5.58,
+      "eval_loss": 0.8400516510009766,
+      "eval_runtime": 1.2358,
+      "eval_samples_per_second": 809.182,
+      "eval_steps_per_second": 12.947,
+      "step": 91000
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 0.00045306287352519543,
+      "loss": 0.4939,
+      "step": 91500
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 0.00045137210497262333,
+      "loss": 0.4935,
+      "step": 92000
+    },
+    {
+      "epoch": 5.64,
+      "eval_loss": 0.8373098969459534,
+      "eval_runtime": 1.3142,
+      "eval_samples_per_second": 760.929,
+      "eval_steps_per_second": 12.175,
+      "step": 92000
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 0.0004496749336299999,
+      "loss": 0.4931,
+      "step": 92500
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 0.0004479714337370977,
+      "loss": 0.4929,
+      "step": 93000
+    },
+    {
+      "epoch": 5.7,
+      "eval_loss": 0.840123176574707,
+      "eval_runtime": 1.2896,
+      "eval_samples_per_second": 775.451,
+      "eval_steps_per_second": 12.407,
+      "step": 93000
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 0.00044626167981052036,
+      "loss": 0.4924,
+      "step": 93500
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 0.00044454574664044404,
+      "loss": 0.492,
+      "step": 94000
+    },
+    {
+      "epoch": 5.76,
+      "eval_loss": 0.8355880379676819,
+      "eval_runtime": 1.2671,
+      "eval_samples_per_second": 789.19,
+      "eval_steps_per_second": 12.627,
+      "step": 94000
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 0.000442823709287344,
+      "loss": 0.4916,
+      "step": 94500
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 0.0004410956430787129,
+      "loss": 0.4912,
+      "step": 95000
+    },
+    {
+      "epoch": 5.82,
+      "eval_loss": 0.8333644866943359,
+      "eval_runtime": 1.299,
+      "eval_samples_per_second": 769.834,
+      "eval_steps_per_second": 12.317,
+      "step": 95000
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 0.0004393616236057647,
+      "loss": 0.4912,
+      "step": 95500
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 0.00043762172672012875,
+      "loss": 0.4904,
+      "step": 96000
+    },
+    {
+      "epoch": 5.88,
+      "eval_loss": 0.8280515074729919,
+      "eval_runtime": 1.2803,
+      "eval_samples_per_second": 781.038,
+      "eval_steps_per_second": 12.497,
+      "step": 96000
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 0.0004358760285305312,
+      "loss": 0.4901,
+      "step": 96500
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.0004341246053994663,
+      "loss": 0.4898,
+      "step": 97000
+    },
+    {
+      "epoch": 5.94,
+      "eval_loss": 0.8338386416435242,
+      "eval_runtime": 1.3216,
+      "eval_samples_per_second": 756.685,
+      "eval_steps_per_second": 12.107,
+      "step": 97000
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 0.00043236753393985534,
+      "loss": 0.4892,
+      "step": 97500
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.0004306048910116964,
+      "loss": 0.4891,
+      "step": 98000
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.8300430774688721,
+      "eval_runtime": 1.316,
+      "eval_samples_per_second": 759.879,
+      "eval_steps_per_second": 12.158,
+      "step": 98000
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 0.0004288367537187012,
+      "loss": 0.4887,
+      "step": 98500
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 0.00042706319940492284,
+      "loss": 0.4882,
+      "step": 99000
+    },
+    {
+      "epoch": 6.07,
+      "eval_loss": 0.8262238502502441,
+      "eval_runtime": 1.3745,
+      "eval_samples_per_second": 727.548,
+      "eval_steps_per_second": 11.641,
+      "step": 99000
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 0.00042528430565137254,
+      "loss": 0.488,
+      "step": 99500
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 0.00042350015027262593,
+      "loss": 0.4876,
+      "step": 100000
+    },
+    {
+      "epoch": 6.13,
+      "eval_loss": 0.8171582221984863,
+      "eval_runtime": 1.3024,
+      "eval_samples_per_second": 767.786,
+      "eval_steps_per_second": 12.285,
+      "step": 100000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 1.6016199656363503e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0ed0a890cada09375208ef03bdfdd6d63ca0c33270b092aa04ab6ca525c88e1
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:68cdcd4cdbc673fcb49958bfe32cced5d0dfd7765e48765f4a191aa568bbef48
 size 25761253