Training in progress, step 230000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23bbc0287788b2c03b401006764ab5c51beca76144630361bf7232a38c305bb2
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:c73f6ebf98667b9d415618c592fcc151813c952d53aa83593aeea350ae20ad82
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:536b6de0b75a81a1046eda925f6ee0d8ba9e4b19c73ef4c848e57b42c2ce63b3
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f49e8c0a7fe5574e03000ae8a462d71703d3111453eca27095f6af063a3ac4e
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be7ce3b05940caed2419a487b770c6b4c383452e171183ad5c457321fb063b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e201bd9c4e3306c102fdf93d9794a7db518406ab08c5c5b2a75cbf98841961b7
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be7ce3b05940caed2419a487b770c6b4c383452e171183ad5c457321fb063b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e201bd9c4e3306c102fdf93d9794a7db518406ab08c5c5b2a75cbf98841961b7
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be7ce3b05940caed2419a487b770c6b4c383452e171183ad5c457321fb063b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e201bd9c4e3306c102fdf93d9794a7db518406ab08c5c5b2a75cbf98841961b7
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be7ce3b05940caed2419a487b770c6b4c383452e171183ad5c457321fb063b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e201bd9c4e3306c102fdf93d9794a7db518406ab08c5c5b2a75cbf98841961b7
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be7ce3b05940caed2419a487b770c6b4c383452e171183ad5c457321fb063b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e201bd9c4e3306c102fdf93d9794a7db518406ab08c5c5b2a75cbf98841961b7
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be7ce3b05940caed2419a487b770c6b4c383452e171183ad5c457321fb063b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e201bd9c4e3306c102fdf93d9794a7db518406ab08c5c5b2a75cbf98841961b7
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be7ce3b05940caed2419a487b770c6b4c383452e171183ad5c457321fb063b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e201bd9c4e3306c102fdf93d9794a7db518406ab08c5c5b2a75cbf98841961b7
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0be7ce3b05940caed2419a487b770c6b4c383452e171183ad5c457321fb063b3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e201bd9c4e3306c102fdf93d9794a7db518406ab08c5c5b2a75cbf98841961b7
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49c292ab14a993919881f01d5b74688df2db2f4ea7c017c2175d0fea64e57565
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:cde8387b01007811ac1b94d9590ed8f2f119f8e7b49d5ce42fb838c1939b856b
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 13.480392156862745,
-  "global_step": 220000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4406,11 +4406,211 @@
       "eval_samples_per_second": 765.469,
       "eval_steps_per_second": 12.247,
       "step": 220000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 3.5235659265006937e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.093137254901961,
+  "global_step": 230000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 765.469,
       "eval_steps_per_second": 12.247,
       "step": 220000
+    },
+    {
+      "epoch": 13.51,
+      "learning_rate": 3.2176382151888054e-05,
+      "loss": 0.4414,
+      "step": 220500
+    },
+    {
+      "epoch": 13.54,
+      "learning_rate": 3.1440176210975204e-05,
+      "loss": 0.4412,
+      "step": 221000
+    },
+    {
+      "epoch": 13.54,
+      "eval_loss": 0.7996479272842407,
+      "eval_runtime": 1.3112,
+      "eval_samples_per_second": 762.651,
+      "eval_steps_per_second": 12.202,
+      "step": 221000
+    },
+    {
+      "epoch": 13.57,
+      "learning_rate": 3.071593666296585e-05,
+      "loss": 0.4411,
+      "step": 221500
+    },
+    {
+      "epoch": 13.6,
+      "learning_rate": 3.000369518844396e-05,
+      "loss": 0.4411,
+      "step": 222000
+    },
+    {
+      "epoch": 13.6,
+      "eval_loss": 0.8002747297286987,
+      "eval_runtime": 1.2963,
+      "eval_samples_per_second": 771.412,
+      "eval_steps_per_second": 12.343,
+      "step": 222000
+    },
+    {
+      "epoch": 13.63,
+      "learning_rate": 2.9303482943159077e-05,
+      "loss": 0.4411,
+      "step": 222500
+    },
+    {
+      "epoch": 13.66,
+      "learning_rate": 2.861533055666306e-05,
+      "loss": 0.4411,
+      "step": 223000
+    },
+    {
+      "epoch": 13.66,
+      "eval_loss": 0.7992754578590393,
+      "eval_runtime": 1.2911,
+      "eval_samples_per_second": 774.504,
+      "eval_steps_per_second": 12.392,
+      "step": 223000
+    },
+    {
+      "epoch": 13.69,
+      "learning_rate": 2.793926813097066e-05,
+      "loss": 0.4411,
+      "step": 223500
+    },
+    {
+      "epoch": 13.73,
+      "learning_rate": 2.7275325239242546e-05,
+      "loss": 0.4411,
+      "step": 224000
+    },
+    {
+      "epoch": 13.73,
+      "eval_loss": 0.800546407699585,
+      "eval_runtime": 6.2685,
+      "eval_samples_per_second": 159.527,
+      "eval_steps_per_second": 2.552,
+      "step": 224000
+    },
+    {
+      "epoch": 13.76,
+      "learning_rate": 2.6623530924491626e-05,
+      "loss": 0.4409,
+      "step": 224500
+    },
+    {
+      "epoch": 13.79,
+      "learning_rate": 2.5983913698312782e-05,
+      "loss": 0.4409,
+      "step": 225000
+    },
+    {
+      "epoch": 13.79,
+      "eval_loss": 0.8013263940811157,
+      "eval_runtime": 1.3128,
+      "eval_samples_per_second": 761.734,
+      "eval_steps_per_second": 12.188,
+      "step": 225000
+    },
+    {
+      "epoch": 13.82,
+      "learning_rate": 2.5356501539635512e-05,
+      "loss": 0.441,
+      "step": 225500
+    },
+    {
+      "epoch": 13.85,
+      "learning_rate": 2.4741321893500244e-05,
+      "loss": 0.4409,
+      "step": 226000
+    },
+    {
+      "epoch": 13.85,
+      "eval_loss": 0.8015850782394409,
+      "eval_runtime": 1.3378,
+      "eval_samples_per_second": 747.504,
+      "eval_steps_per_second": 11.96,
+      "step": 226000
+    },
+    {
+      "epoch": 13.88,
+      "learning_rate": 2.4138401669857587e-05,
+      "loss": 0.4408,
+      "step": 226500
+    },
+    {
+      "epoch": 13.91,
+      "learning_rate": 2.3547767242391212e-05,
+      "loss": 0.4409,
+      "step": 227000
+    },
+    {
+      "epoch": 13.91,
+      "eval_loss": 0.7994450926780701,
+      "eval_runtime": 1.2846,
+      "eval_samples_per_second": 778.448,
+      "eval_steps_per_second": 12.455,
+      "step": 227000
+    },
+    {
+      "epoch": 13.94,
+      "learning_rate": 2.2969444447364498e-05,
+      "loss": 0.4409,
+      "step": 227500
+    },
+    {
+      "epoch": 13.97,
+      "learning_rate": 2.240345858248992e-05,
+      "loss": 0.4408,
+      "step": 228000
+    },
+    {
+      "epoch": 13.97,
+      "eval_loss": 0.8022862672805786,
+      "eval_runtime": 1.3268,
+      "eval_samples_per_second": 753.683,
+      "eval_steps_per_second": 12.059,
+      "step": 228000
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 2.184983440582284e-05,
+      "loss": 0.4408,
+      "step": 228500
+    },
+    {
+      "epoch": 14.03,
+      "learning_rate": 2.1308596134678134e-05,
+      "loss": 0.4407,
+      "step": 229000
+    },
+    {
+      "epoch": 14.03,
+      "eval_loss": 0.8013246059417725,
+      "eval_runtime": 1.2694,
+      "eval_samples_per_second": 787.747,
+      "eval_steps_per_second": 12.604,
+      "step": 229000
+    },
+    {
+      "epoch": 14.06,
+      "learning_rate": 2.0779767444571236e-05,
+      "loss": 0.4406,
+      "step": 229500
+    },
+    {
+      "epoch": 14.09,
+      "learning_rate": 2.0263371468182175e-05,
+      "loss": 0.4406,
+      "step": 230000
+    },
+    {
+      "epoch": 14.09,
+      "eval_loss": 0.8037849068641663,
+      "eval_runtime": 1.356,
+      "eval_samples_per_second": 737.479,
+      "eval_steps_per_second": 11.8,
+      "step": 230000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 3.6837239188628827e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:536b6de0b75a81a1046eda925f6ee0d8ba9e4b19c73ef4c848e57b42c2ce63b3
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f49e8c0a7fe5574e03000ae8a462d71703d3111453eca27095f6af063a3ac4e
 size 25761253