Training in progress, step 460000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7cf25044f894af33b58ee33e839ca67a9010ce216694a7f4c91e8f90caf02e3
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3851379e290e595ff406c21b8b10ddb1e73359dd0f6752ee66fd50b92159710
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f48e297dd8d43fe26955c08bdc18374b43b5c5c7bf58df74b63ccfce891d130
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:51cc55a03d0db3d8e5de6630971dddba20e9587291496d77623230dc60cf541c
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d0eaf38f8d76dc97fc60763011f1de34c7a2cb3c95faaa0610cc0f4af72cd60
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca511f19607ffe13077a404fa6aa93a3f99da5d803f11fc8cc4ffd982f7eaa96
+size 14439

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1aee1e0607f38b87a3b735ae98b8e01339f7cc72ffa6ccf3c213d28824ed54a9
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4c5e63367d8a48da7291ac4cad9dbf22e45f23c04ad6dc36fb819eee5567b30
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cceb842179d613224b3b5f8d750e75368fc012474b9befae3962586a3fa07c34
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5ef310867dca4f3b22b044f838f0a52fca0a2ae9be44b0e97a33f54ca14b37c
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e777f0df33e0c44b8c16c09cacb56ca419e02a262aa3b9ece5534f0249ba6105
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:07690c863ee7f95b67ca0330c6c558692a4c5296256a3c0c1e6edf6ee11f4a99
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44ab8fd99918dee712abc63025e4d8d70437de212ab6324f5ae0cbe74ed24f94
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd623ae3bafd7bee294fb51f9ab76259bcc1a1e3cb80be656ec13fa7aea6663f
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef227953f09853ae7340813887aac1a30150643cccf7844f37d1f0ff5cb9042d
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:18f7a345bdac720f75c3e4ebf8a9d6d8895e230a0405992893aeb1c567a9dd75
+size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7caa6c821a93c7fa5649d2fba3a2ebec3c3cd1a1620660f06157dc5569333b5a
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:099663ce4dbefceb2b014dd475ab003207ed8b9ddbfafed2491187b9c10f927a
+size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee0e57d5d9717a7b27c7acd3b2ffc6fc1518aa4d2ebf016d3b2d036634f60df0
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4435aedaa43e7ef631652a5bc79634e81959ca100d2c5dc8b85db021834925b4
+size 14439

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc29c434fb0390a8f4f90d65ac745a0b4f381dbd06e857762d450d4a464c7045
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:d60fd80961b777bf4901f5c7189278f8f31f61a50c51a19e170f6a1919a5ce33
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 13.787187107448144,
-  "global_step": 450000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9006,11 +9006,211 @@
       "eval_samples_per_second": 1989.909,
       "eval_steps_per_second": 31.839,
       "step": 450000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.4376817401476814e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.093569043169214,
+  "global_step": 460000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1989.909,
       "eval_steps_per_second": 31.839,
       "step": 450000
+    },
+    {
+      "epoch": 13.8,
+      "learning_rate": 1.770155470293445e-05,
+      "loss": 0.3141,
+      "step": 450500
+    },
+    {
+      "epoch": 13.82,
+      "learning_rate": 1.7548110926261522e-05,
+      "loss": 0.3144,
+      "step": 451000
+    },
+    {
+      "epoch": 13.82,
+      "eval_loss": 0.7752067446708679,
+      "eval_runtime": 0.5146,
+      "eval_samples_per_second": 1943.251,
+      "eval_steps_per_second": 31.092,
+      "step": 451000
+    },
+    {
+      "epoch": 13.83,
+      "learning_rate": 1.7396170301425777e-05,
+      "loss": 0.3141,
+      "step": 451500
+    },
+    {
+      "epoch": 13.85,
+      "learning_rate": 1.7245734490025544e-05,
+      "loss": 0.3142,
+      "step": 452000
+    },
+    {
+      "epoch": 13.85,
+      "eval_loss": 0.7712000012397766,
+      "eval_runtime": 0.5015,
+      "eval_samples_per_second": 1994.171,
+      "eval_steps_per_second": 31.907,
+      "step": 452000
+    },
+    {
+      "epoch": 13.86,
+      "learning_rate": 1.7096805137202738e-05,
+      "loss": 0.3139,
+      "step": 452500
+    },
+    {
+      "epoch": 13.88,
+      "learning_rate": 1.6949383871624917e-05,
+      "loss": 0.3139,
+      "step": 453000
+    },
+    {
+      "epoch": 13.88,
+      "eval_loss": 0.7725095152854919,
+      "eval_runtime": 0.5022,
+      "eval_samples_per_second": 1991.07,
+      "eval_steps_per_second": 31.857,
+      "step": 453000
+    },
+    {
+      "epoch": 13.89,
+      "learning_rate": 1.6803472305467368e-05,
+      "loss": 0.3137,
+      "step": 453500
+    },
+    {
+      "epoch": 13.91,
+      "learning_rate": 1.665907203439568e-05,
+      "loss": 0.3139,
+      "step": 454000
+    },
+    {
+      "epoch": 13.91,
+      "eval_loss": 0.7726877927780151,
+      "eval_runtime": 0.5045,
+      "eval_samples_per_second": 1982.357,
+      "eval_steps_per_second": 31.718,
+      "step": 454000
+    },
+    {
+      "epoch": 13.93,
+      "learning_rate": 1.6516184637548058e-05,
+      "loss": 0.3138,
+      "step": 454500
+    },
+    {
+      "epoch": 13.94,
+      "learning_rate": 1.6374811677518142e-05,
+      "loss": 0.314,
+      "step": 455000
+    },
+    {
+      "epoch": 13.94,
+      "eval_loss": 0.7759785056114197,
+      "eval_runtime": 0.5189,
+      "eval_samples_per_second": 1927.23,
+      "eval_steps_per_second": 30.836,
+      "step": 455000
+    },
+    {
+      "epoch": 13.96,
+      "learning_rate": 1.6234954700338025e-05,
+      "loss": 0.3135,
+      "step": 455500
+    },
+    {
+      "epoch": 13.97,
+      "learning_rate": 1.6096615235461148e-05,
+      "loss": 0.3135,
+      "step": 456000
+    },
+    {
+      "epoch": 13.97,
+      "eval_loss": 0.773828387260437,
+      "eval_runtime": 0.5012,
+      "eval_samples_per_second": 1995.149,
+      "eval_steps_per_second": 31.922,
+      "step": 456000
+    },
+    {
+      "epoch": 13.99,
+      "learning_rate": 1.59597947957458e-05,
+      "loss": 0.3138,
+      "step": 456500
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 1.5824494877438344e-05,
+      "loss": 0.3137,
+      "step": 457000
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.7719975709915161,
+      "eval_runtime": 0.5107,
+      "eval_samples_per_second": 1958.237,
+      "eval_steps_per_second": 31.332,
+      "step": 457000
+    },
+    {
+      "epoch": 14.02,
+      "learning_rate": 1.569071696015702e-05,
+      "loss": 0.3135,
+      "step": 457500
+    },
+    {
+      "epoch": 14.03,
+      "learning_rate": 1.555846250687569e-05,
+      "loss": 0.3138,
+      "step": 458000
+    },
+    {
+      "epoch": 14.03,
+      "eval_loss": 0.7755674123764038,
+      "eval_runtime": 0.5013,
+      "eval_samples_per_second": 1994.642,
+      "eval_steps_per_second": 31.914,
+      "step": 458000
+    },
+    {
+      "epoch": 14.05,
+      "learning_rate": 1.542773296390789e-05,
+      "loss": 0.3134,
+      "step": 458500
+    },
+    {
+      "epoch": 14.06,
+      "learning_rate": 1.5298529760890945e-05,
+      "loss": 0.3135,
+      "step": 459000
+    },
+    {
+      "epoch": 14.06,
+      "eval_loss": 0.7749778032302856,
+      "eval_runtime": 0.5253,
+      "eval_samples_per_second": 1903.509,
+      "eval_steps_per_second": 30.456,
+      "step": 459000
+    },
+    {
+      "epoch": 14.08,
+      "learning_rate": 1.5170854310770376e-05,
+      "loss": 0.3136,
+      "step": 459500
+    },
+    {
+      "epoch": 14.09,
+      "learning_rate": 1.5044708009784457e-05,
+      "loss": 0.3134,
+      "step": 460000
+    },
+    {
+      "epoch": 14.09,
+      "eval_loss": 0.7761635184288025,
+      "eval_runtime": 0.5003,
+      "eval_samples_per_second": 1998.696,
+      "eval_steps_per_second": 31.979,
+      "step": 460000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.4696296552299338e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f48e297dd8d43fe26955c08bdc18374b43b5c5c7bf58df74b63ccfce891d130
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:51cc55a03d0db3d8e5de6630971dddba20e9587291496d77623230dc60cf541c
 size 102501541