mattbonnell commited on Sep 26, 2024

Commit

3c03d57

verified ·

1 Parent(s): 14e7c29

Training in progress, step 8500, checkpoint

Browse files

Files changed (17) hide show

last-checkpoint/global_step8500/mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step8500/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8500/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8500/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8500/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8500/zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step8500/zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +73 -3

last-checkpoint/global_step8500/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b00bfac3db53b521d614ce880e37feda5c474c7fba505a80a6d87d89fa371d6
+size 197282509

last-checkpoint/global_step8500/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91cd20ad8ecf66c964fee0c8463fbedecf792a1a57c7fdec1d0fad4e4e1d8b35
+size 180416968

last-checkpoint/global_step8500/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b04765786097e4990a2170914e6f9d7c27447c8ec041bca13a538f7ff9b0eecc
+size 180416776

last-checkpoint/global_step8500/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:549824e4bab052048978b41ec5aa592913f15740cf737e38321c0b486d0527a9
+size 180416776

last-checkpoint/global_step8500/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b82f439bd80358859433ccfec8b6f84a61360667568e37f9ff58752b32be9b5
+size 180416904

last-checkpoint/global_step8500/zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b8e2d0d67801717d7ec7333d951d1911fdc8344f8fa1ce8a7c4fd95796ec354
+size 180416712

last-checkpoint/global_step8500/zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a29df9d086627bd5788f2c85fc4c8e2f1f7f432ae7fe8b1242018731c04f2930
+size 180417096

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step8000~~


1	+ global_step8500

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e2ccd66b0d3eac61fdd022c65f61fec2848db2ff54d1c43e2a14a9f026c0394
 size 188836816

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7d95a2a6398a3976684f9f296988a5e39dde3afb33e0d969993bcbd7dcacaca
 size 188836816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea500e099e374ab8f40a21f5238cc4b753325af0d8cddf9294790e0f04153e7a
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:564a5d159c6784b209d5ba2261c4de8c25ee8803b9c92f51fd1e9fd52c1b3fc4
 size 15536

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11e26d2216e18df43db8309fcc95dba493bd2243b1ee081f23d44d1d51767fbd
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:4cbf33bcff4e9bc7aead0f12ef6877a895f2040493ae419349b5a3b110b5036e
 size 15536

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5dbf9199d9fbbe4519352983976ccd7fc8c6c8f988fbb95736f5368013dce0c
 size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ce0b2876ec405f01219dce5c2551d896b5f10a920f11726ba040105793eaabb
 size 15536

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83e6add4149c20ee1bbd11a39e647cd83b6d5e92df39787f3e4dd6d4c2c9362a
-size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:59a83285a5f0517959619b1f7f7827cf51e67685851a9aed6f10647402c51355
+size 15472

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdd4141f9ac586703ff022ae4a72874450b5b0b99397d5a0cb6dd7caffc6ebd4
-size 15536

 version https://git-lfs.github.com/spec/v1
+oid sha256:d45bda445d230c33252857d7ba14a68c6656232ceb63109a76eba6e8e0d43306
+size 15472

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca1450055d7dfb8743ae0d1ace8a5ace9c1bef6e7e75026e510a4b2960a133be
-size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:976477c91777116536dc7d0dffbe92366832796b5f9e9ba3c59be4799747b19a
+size 15536

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cad4268cfb586000e1a64ea1e79a3a6d50e4d70a575ea40791dc76489a8bd7bb
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b71db0e061be5d6991df2e521349de0fd5a5ff99a4bfc1c920bc3894a6254c9f
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 216.21621621621622,
   "eval_steps": 1500,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1163,6 +1163,76 @@
       "learning_rate": 0.0001,
       "loss": 0.022,
       "step": 8000
     }
   ],
   "logging_steps": 50,
@@ -1182,7 +1252,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2456068419295904e+20,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 229.72972972972974,
   "eval_steps": 1500,
+  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0001,
       "loss": 0.022,
       "step": 8000
+    },
+    {
+      "epoch": 217.56756756756758,
+      "grad_norm": 0.38513001799583435,
+      "learning_rate": 0.0001,
+      "loss": 0.0215,
+      "step": 8050
+    },
+    {
+      "epoch": 218.9189189189189,
+      "grad_norm": 0.400036484003067,
+      "learning_rate": 0.0001,
+      "loss": 0.021,
+      "step": 8100
+    },
+    {
+      "epoch": 220.27027027027026,
+      "grad_norm": 0.3203113377094269,
+      "learning_rate": 0.0001,
+      "loss": 0.0207,
+      "step": 8150
+    },
+    {
+      "epoch": 221.6216216216216,
+      "grad_norm": 0.3765117824077606,
+      "learning_rate": 0.0001,
+      "loss": 0.0197,
+      "step": 8200
+    },
+    {
+      "epoch": 222.97297297297297,
+      "grad_norm": 0.3336365222930908,
+      "learning_rate": 0.0001,
+      "loss": 0.0211,
+      "step": 8250
+    },
+    {
+      "epoch": 224.32432432432432,
+      "grad_norm": 0.29828354716300964,
+      "learning_rate": 0.0001,
+      "loss": 0.0188,
+      "step": 8300
+    },
+    {
+      "epoch": 225.67567567567568,
+      "grad_norm": 0.34553930163383484,
+      "learning_rate": 0.0001,
+      "loss": 0.0199,
+      "step": 8350
+    },
+    {
+      "epoch": 227.02702702702703,
+      "grad_norm": 0.3510328531265259,
+      "learning_rate": 0.0001,
+      "loss": 0.0215,
+      "step": 8400
+    },
+    {
+      "epoch": 228.3783783783784,
+      "grad_norm": 0.48810675740242004,
+      "learning_rate": 0.0001,
+      "loss": 0.0217,
+      "step": 8450
+    },
+    {
+      "epoch": 229.72972972972974,
+      "grad_norm": 0.34023284912109375,
+      "learning_rate": 0.0001,
+      "loss": 0.0225,
+      "step": 8500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.3861586914904637e+20,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null