Training in progress, step 360000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e2593684e29fbdab18ceae698c9db337e08a0411716ce5539ab2231b908aa6e
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbce419654e8e44df2eb4f9682536b881548d65724339ba4c292532cb71337f7
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaa6c11004791ef4e8c50d4145229be69aa0fee3306608bd403b2eb4d637219a
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf27ccfc5825e3575b2b31b80d5eae840d89a2e45fea29d5a456ebd076f43b0c
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2250a0c64e809cea437709ab2245b0ac11e166c80e52d01a00381d2aba90145d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:038137270b1b91e0cf2030358ba2f522fddbf586ecfbe80c6c2eb72908a158a2
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2250a0c64e809cea437709ab2245b0ac11e166c80e52d01a00381d2aba90145d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:038137270b1b91e0cf2030358ba2f522fddbf586ecfbe80c6c2eb72908a158a2
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2250a0c64e809cea437709ab2245b0ac11e166c80e52d01a00381d2aba90145d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:038137270b1b91e0cf2030358ba2f522fddbf586ecfbe80c6c2eb72908a158a2
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2250a0c64e809cea437709ab2245b0ac11e166c80e52d01a00381d2aba90145d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:038137270b1b91e0cf2030358ba2f522fddbf586ecfbe80c6c2eb72908a158a2
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2250a0c64e809cea437709ab2245b0ac11e166c80e52d01a00381d2aba90145d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:038137270b1b91e0cf2030358ba2f522fddbf586ecfbe80c6c2eb72908a158a2
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2250a0c64e809cea437709ab2245b0ac11e166c80e52d01a00381d2aba90145d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:038137270b1b91e0cf2030358ba2f522fddbf586ecfbe80c6c2eb72908a158a2
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2250a0c64e809cea437709ab2245b0ac11e166c80e52d01a00381d2aba90145d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:038137270b1b91e0cf2030358ba2f522fddbf586ecfbe80c6c2eb72908a158a2
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2250a0c64e809cea437709ab2245b0ac11e166c80e52d01a00381d2aba90145d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:038137270b1b91e0cf2030358ba2f522fddbf586ecfbe80c6c2eb72908a158a2
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aecc6465a886ff601ea303358a61f89a30e07c965e206675258095a3d963058
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6e54422706a010aa16b679660182e5a0c0f546c43656852cb88a82c1d45dccf
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.806923625981442,
-  "global_step": 350000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7006,11 +7006,211 @@
       "eval_samples_per_second": 1146.703,
       "eval_steps_per_second": 17.972,
       "step": 350000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 1.1181850677277593e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.029978586723768,
+  "global_step": 360000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1146.703,
       "eval_steps_per_second": 17.972,
       "step": 350000
+    },
+    {
+      "epoch": 7.82,
+      "learning_rate": 7.529152489465592e-05,
+      "loss": 0.2638,
+      "step": 350500
+    },
+    {
+      "epoch": 7.83,
+      "learning_rate": 7.489140439617708e-05,
+      "loss": 0.2632,
+      "step": 351000
+    },
+    {
+      "epoch": 7.83,
+      "eval_loss": 0.2466663420200348,
+      "eval_runtime": 1.9675,
+      "eval_samples_per_second": 1167.492,
+      "eval_steps_per_second": 18.298,
+      "step": 351000
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 7.449215995246522e-05,
+      "loss": 0.263,
+      "step": 351500
+    },
+    {
+      "epoch": 7.85,
+      "learning_rate": 7.409379592959367e-05,
+      "loss": 0.2631,
+      "step": 352000
+    },
+    {
+      "epoch": 7.85,
+      "eval_loss": 0.24644367396831512,
+      "eval_runtime": 1.9998,
+      "eval_samples_per_second": 1148.612,
+      "eval_steps_per_second": 18.002,
+      "step": 352000
+    },
+    {
+      "epoch": 7.86,
+      "learning_rate": 7.369631668400746e-05,
+      "loss": 0.2632,
+      "step": 352500
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 7.3299726562476e-05,
+      "loss": 0.2629,
+      "step": 353000
+    },
+    {
+      "epoch": 7.87,
+      "eval_loss": 0.24639040231704712,
+      "eval_runtime": 1.996,
+      "eval_samples_per_second": 1150.775,
+      "eval_steps_per_second": 18.036,
+      "step": 353000
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 7.290402990204531e-05,
+      "loss": 0.2628,
+      "step": 353500
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 7.250923102999073e-05,
+      "loss": 0.2629,
+      "step": 354000
+    },
+    {
+      "epoch": 7.9,
+      "eval_loss": 0.24618536233901978,
+      "eval_runtime": 1.9784,
+      "eval_samples_per_second": 1161.045,
+      "eval_steps_per_second": 18.197,
+      "step": 354000
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 7.211533426376934e-05,
+      "loss": 0.2629,
+      "step": 354500
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 7.172234391097317e-05,
+      "loss": 0.2625,
+      "step": 355000
+    },
+    {
+      "epoch": 7.92,
+      "eval_loss": 0.24593985080718994,
+      "eval_runtime": 2.059,
+      "eval_samples_per_second": 1115.596,
+      "eval_steps_per_second": 17.484,
+      "step": 355000
+    },
+    {
+      "epoch": 7.93,
+      "learning_rate": 7.133026426928173e-05,
+      "loss": 0.2626,
+      "step": 355500
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 7.093909962641514e-05,
+      "loss": 0.2626,
+      "step": 356000
+    },
+    {
+      "epoch": 7.94,
+      "eval_loss": 0.24694356322288513,
+      "eval_runtime": 1.9849,
+      "eval_samples_per_second": 1157.222,
+      "eval_steps_per_second": 18.137,
+      "step": 356000
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 7.054885426008737e-05,
+      "loss": 0.2624,
+      "step": 356500
+    },
+    {
+      "epoch": 7.96,
+      "learning_rate": 7.015953243795907e-05,
+      "loss": 0.2625,
+      "step": 357000
+    },
+    {
+      "epoch": 7.96,
+      "eval_loss": 0.24489082396030426,
+      "eval_runtime": 2.0439,
+      "eval_samples_per_second": 1123.842,
+      "eval_steps_per_second": 17.614,
+      "step": 357000
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 6.97711384175914e-05,
+      "loss": 0.2623,
+      "step": 357500
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 6.938367644639911e-05,
+      "loss": 0.4432,
+      "step": 358000
+    },
+    {
+      "epoch": 7.99,
+      "eval_loss": 0.6783205270767212,
+      "eval_runtime": 2.0172,
+      "eval_samples_per_second": 1138.683,
+      "eval_steps_per_second": 17.846,
+      "step": 358000
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 6.899715076160425e-05,
+      "loss": 0.6785,
+      "step": 358500
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 6.861156559018986e-05,
+      "loss": 0.6774,
+      "step": 359000
+    },
+    {
+      "epoch": 8.01,
+      "eval_loss": 0.6766601204872131,
+      "eval_runtime": 2.0317,
+      "eval_samples_per_second": 1130.554,
+      "eval_steps_per_second": 17.719,
+      "step": 359000
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 6.822692514885346e-05,
+      "loss": 0.6773,
+      "step": 359500
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 6.784323364396135e-05,
+      "loss": 0.6773,
+      "step": 360000
+    },
+    {
+      "epoch": 8.03,
+      "eval_loss": 0.6772929430007935,
+      "eval_runtime": 2.0141,
+      "eval_samples_per_second": 1140.463,
+      "eval_steps_per_second": 17.874,
+      "step": 360000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 1.1501309361790678e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaa6c11004791ef4e8c50d4145229be69aa0fee3306608bd403b2eb4d637219a
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf27ccfc5825e3575b2b31b80d5eae840d89a2e45fea29d5a456ebd076f43b0c
 size 102501541