mattbonnell commited on Sep 26, 2024

Commit

e876662

verified ·

1 Parent(s): bf6962a

Training in progress, step 8000, checkpoint

Browse files

Files changed (17) hide show

last-checkpoint/global_step8000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step8000/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8000/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8000/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8000/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8000/zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8000/zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +73 -3

last-checkpoint/global_step8000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c58e87c0f03991d738e3335bae09acac1c1dd7681fc36f3d913b1d0ab4fd95a2
+size 197282509

last-checkpoint/global_step8000/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21be6599b774db66dedc1b7b5eac08b789506bba6c492917c2021a6862c8578d
+size 180416968

last-checkpoint/global_step8000/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf491a3ec6351e35110667cef3d18242de4dfff3f81721ddb42590e1a51cf795
+size 180416776

last-checkpoint/global_step8000/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9c03b48010e9d4b0adb5eaa84d78f062729e9fb40b05e49ec71c7670a67b111
+size 180416776

last-checkpoint/global_step8000/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e5b1cf33c9473bc545551cc835151766ce57be522c0687f70931e375eb47c66
+size 180416904

last-checkpoint/global_step8000/zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a38dd41f89589d0faf33c397f98c618a9cce62a597a7964a499f42d586ed6c08
+size 180416712

last-checkpoint/global_step8000/zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ac4a14cde9deb49575b5dbeb11aa1e0c75610607c361a8494f726651ba46b8b
+size 180417096

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step7500~~


1	+ global_step8000

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c706dc1178504f6752d44e929c9d8cc9de149880b704897aa6bf74772ef87e1
 size 188836816

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e2ccd66b0d3eac61fdd022c65f61fec2848db2ff54d1c43e2a14a9f026c0394
 size 188836816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c816547398c9d0c74280904d885bc91a841220695d82f2bc47c4c7abf13ab004
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea500e099e374ab8f40a21f5238cc4b753325af0d8cddf9294790e0f04153e7a
 size 15536

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ba2aff0e2022b2a3436dfb2c1c98f832679546299b17ebacc71b2eb1f71e7c0
-size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:11e26d2216e18df43db8309fcc95dba493bd2243b1ee081f23d44d1d51767fbd
+size 15536

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21e5d58d64a65caff661f48ed778a1cb549164f46e7b194156674f2eb7f3b6a8
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5dbf9199d9fbbe4519352983976ccd7fc8c6c8f988fbb95736f5368013dce0c
 size 15536

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1d0ad31b3a46ded17b3d98149040c14eccbf6a59c2b8f783c377ab81e0ada96
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:83e6add4149c20ee1bbd11a39e647cd83b6d5e92df39787f3e4dd6d4c2c9362a
 size 15536

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a4b45074227cc785b28692a49aaa5abb18222039da56fa536ad532e5a17f55f
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdd4141f9ac586703ff022ae4a72874450b5b0b99397d5a0cb6dd7caffc6ebd4
 size 15536

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65ce51281925c22814f6a24cbafab5e4eed2ab27e1b0a722b553ca852278e137
-size 15600

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca1450055d7dfb8743ae0d1ace8a5ace9c1bef6e7e75026e510a4b2960a133be
+size 15472

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27c642e391a124150c03fa09402ee539bc1d9ff837a5db4c2246095593216182
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:cad4268cfb586000e1a64ea1e79a3a6d50e4d70a575ea40791dc76489a8bd7bb
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 202.7027027027027,
   "eval_steps": 1500,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1093,6 +1093,76 @@
       "eval_steps_per_second": 0.168,
       "eval_wer": 0.19167904903417535,
       "step": 7500
     }
   ],
   "logging_steps": 50,
@@ -1112,7 +1182,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.1053996452835597e+20,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 216.21621621621622,
   "eval_steps": 1500,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.168,
       "eval_wer": 0.19167904903417535,
       "step": 7500
+    },
+    {
+      "epoch": 204.05405405405406,
+      "grad_norm": 0.3734581470489502,
+      "learning_rate": 0.0001,
+      "loss": 0.0234,
+      "step": 7550
+    },
+    {
+      "epoch": 205.40540540540542,
+      "grad_norm": 0.4595019519329071,
+      "learning_rate": 0.0001,
+      "loss": 0.0229,
+      "step": 7600
+    },
+    {
+      "epoch": 206.75675675675674,
+      "grad_norm": 0.2700786888599396,
+      "learning_rate": 0.0001,
+      "loss": 0.0227,
+      "step": 7650
+    },
+    {
+      "epoch": 208.1081081081081,
+      "grad_norm": 0.24691906571388245,
+      "learning_rate": 0.0001,
+      "loss": 0.0229,
+      "step": 7700
+    },
+    {
+      "epoch": 209.45945945945945,
+      "grad_norm": 0.3328978717327118,
+      "learning_rate": 0.0001,
+      "loss": 0.0217,
+      "step": 7750
+    },
+    {
+      "epoch": 210.8108108108108,
+      "grad_norm": 0.286808580160141,
+      "learning_rate": 0.0001,
+      "loss": 0.0205,
+      "step": 7800
+    },
+    {
+      "epoch": 212.16216216216216,
+      "grad_norm": 0.27080458402633667,
+      "learning_rate": 0.0001,
+      "loss": 0.0202,
+      "step": 7850
+    },
+    {
+      "epoch": 213.51351351351352,
+      "grad_norm": 0.398179292678833,
+      "learning_rate": 0.0001,
+      "loss": 0.0215,
+      "step": 7900
+    },
+    {
+      "epoch": 214.86486486486487,
+      "grad_norm": 0.3541491627693176,
+      "learning_rate": 0.0001,
+      "loss": 0.0218,
+      "step": 7950
+    },
+    {
+      "epoch": 216.21621621621622,
+      "grad_norm": 0.3138297498226166,
+      "learning_rate": 0.0001,
+      "loss": 0.022,
+      "step": 8000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.2456068419295904e+20,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null