g4rg commited on Oct 13, 2024

Commit

d83e0ab

verified ·

1 Parent(s): ff9c7a7

Training in progress, step 156, checkpoint

Browse files

Files changed (22) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step156/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step156/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step156/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step156/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step156/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step156/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step156/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step156/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step156/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step156/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step156/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step156/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +200 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8da66d7ae6c07456dfdb2566c5efbc9cb757f30489aab971f6c4fa69c36c8240
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fe1ad4171d926386230d848a46310ce0b399fc2595309237966d052326b2c91
 size 763470136

last-checkpoint/global_step156/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9af0a20f9aab8b1961501dfd88a27fedcadef853a290dd52fda76c6f4f58f69b
+size 385019984

last-checkpoint/global_step156/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b57622b769e1a5f2ed8d89bfeca21f571a422c3049648849cbe1440752e8699d
+size 385019984

last-checkpoint/global_step156/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d2cf3c76a91f08fb756d56f8034186f477de3e75d33b8c66e6a55dbf6b36315
+size 385019984

last-checkpoint/global_step156/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be26379bfbd821ca7e767990e1cb7d6dc7bf4ba16bb9072ce5c6b6d6f31a7e0f
+size 385019984

last-checkpoint/global_step156/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68df53721671c8a3db9ed1c3fdfe63cd2a3d62198e59eb82e9ef29a2fccfd1cc
+size 385019984

last-checkpoint/global_step156/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:165d49d0943d415996f0708a528cf54bbe0cdb750774f3d0cd46302800b28d19
+size 385019984

last-checkpoint/global_step156/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:521d9bb07a8747668fb10f1d71c93bd17ad48055712d7f58cfca2d81d9623159
+size 348711830

last-checkpoint/global_step156/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:815dcb46d147aabf203590daeda1f3bbeb3f7d970f655e34b881af3aae863b28
+size 348711830

last-checkpoint/global_step156/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db9206c07c0be00a83dfc25dc652b29d1e36f9fbe9fcd84718dceeefc43ce8d2
+size 348711830

last-checkpoint/global_step156/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:638509ff7ba6288482e9c7ce0785567ced0304b4f4156dcd5c3c77f9c0205fff
+size 348711830

last-checkpoint/global_step156/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0a856df646bc6bb599758efa053864cd1eccc29d51b174bff471e839cdb374f
+size 348711830

last-checkpoint/global_step156/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60cd8f2bf30b93d5c24768728861029d7230edeb8a6ea86069fe671de809ff81
+size 348711830

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step128~~


1	+ global_step156

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74fbe9c3428ed3e9c35b612dab93cb88760e9a705b6c000851dabad16e459b72
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8600cbed3923c306f0963183049a7010cb62ef282ba4a5d15afec51a4e6ae8c
 size 15472

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09696d37ecf847e753dcf238b8abaa5cd29c004c3225bbd9bb36e502bbd3e1d2
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c24f9f422a75f3cb9ebdf8ab104ee47eb4b9af16da24aa9ae507d6b8d156644
 size 15472

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fddcb8b3b958d20b652b04c28b148d9888da159024072edc127f9894cb6961c
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:f691f8bf929b3388ad5dc17400a623eefa09e469d41c7a2446d4119c42804026
 size 15472

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f28a47ba026f0903768f763280985efa3436a6168461fd9e14c78c1da328d9c
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cb572ec4e38872993b94ddd3029a6d241c1e90580b219e6b116893fe14f3080
 size 15472

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183a725b6dcc281ea67c71bdd66ade19c4182db0091e458e1ec13520873d8d61
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:45ce4c33ab631efebf26d1508c9e0fc8d5f1f8a71d03cbf0f5b8d59fdd6f3126
 size 15472

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea090671e9e0107c57eb483ad64dfda3f8f03477d846083978fd325481ad13ae
 size 15472

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4c8f45a3245a65d7841da3bddd87ab402a2b064d40da551488e9bdaaafe5d6b
 size 15472

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3b8cc489c9f7d5c810d95c1d7bed07638ecb58d3cdf988fa074bd79e5349fe0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:881bf6de9276e1519f4ce875bf9d33f3046848320cfb9914c4c1daef1db2313d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8258064516129032,
   "eval_steps": 32,
-  "global_step": 128,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -943,6 +943,202 @@
       "eval_samples_per_second": 1.606,
       "eval_steps_per_second": 0.064,
       "step": 128
     }
   ],
   "logging_steps": 1,
@@ -957,12 +1153,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 262078904401920.0,
   "train_batch_size": 5,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0064516129032257,
   "eval_steps": 32,
+  "global_step": 156,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.606,
       "eval_steps_per_second": 0.064,
       "step": 128
+    },
+    {
+      "epoch": 0.832258064516129,
+      "grad_norm": 0.2930692349121967,
+      "learning_rate": 9.236211973370124e-06,
+      "loss": 1.2804,
+      "step": 129
+    },
+    {
+      "epoch": 0.8387096774193549,
+      "grad_norm": 0.3514011035647982,
+      "learning_rate": 8.937556821538201e-06,
+      "loss": 1.3527,
+      "step": 130
+    },
+    {
+      "epoch": 0.8451612903225807,
+      "grad_norm": 0.3509271601664881,
+      "learning_rate": 8.64880628824269e-06,
+      "loss": 1.2336,
+      "step": 131
+    },
+    {
+      "epoch": 0.8516129032258064,
+      "grad_norm": 0.369286535470622,
+      "learning_rate": 8.370114446083686e-06,
+      "loss": 1.2204,
+      "step": 132
+    },
+    {
+      "epoch": 0.8580645161290322,
+      "grad_norm": 0.3376899684032205,
+      "learning_rate": 8.101630000506864e-06,
+      "loss": 1.114,
+      "step": 133
+    },
+    {
+      "epoch": 0.864516129032258,
+      "grad_norm": 0.34528372468606205,
+      "learning_rate": 7.843496210456687e-06,
+      "loss": 1.2915,
+      "step": 134
+    },
+    {
+      "epoch": 0.8709677419354839,
+      "grad_norm": 0.3271748537414322,
+      "learning_rate": 7.595850811935759e-06,
+      "loss": 1.2242,
+      "step": 135
+    },
+    {
+      "epoch": 0.8774193548387097,
+      "grad_norm": 0.34552044795509895,
+      "learning_rate": 7.358825944511101e-06,
+      "loss": 1.2238,
+      "step": 136
+    },
+    {
+      "epoch": 0.8838709677419355,
+      "grad_norm": 0.3645405834936748,
+      "learning_rate": 7.132548080806653e-06,
+      "loss": 1.1925,
+      "step": 137
+    },
+    {
+      "epoch": 0.8903225806451613,
+      "grad_norm": 0.39117823625181364,
+      "learning_rate": 6.917137959019528e-06,
+      "loss": 1.1295,
+      "step": 138
+    },
+    {
+      "epoch": 0.896774193548387,
+      "grad_norm": 0.3256830351093455,
+      "learning_rate": 6.712710518496049e-06,
+      "loss": 1.2506,
+      "step": 139
+    },
+    {
+      "epoch": 0.9032258064516129,
+      "grad_norm": 0.4262467981624931,
+      "learning_rate": 6.519374838401997e-06,
+      "loss": 1.1759,
+      "step": 140
+    },
+    {
+      "epoch": 0.9096774193548387,
+      "grad_norm": 0.35503437951993716,
+      "learning_rate": 6.337234079519728e-06,
+      "loss": 1.1777,
+      "step": 141
+    },
+    {
+      "epoch": 0.9161290322580645,
+      "grad_norm": 0.3897540509188695,
+      "learning_rate": 6.166385429203269e-06,
+      "loss": 1.1239,
+      "step": 142
+    },
+    {
+      "epoch": 0.9225806451612903,
+      "grad_norm": 0.36016445939620884,
+      "learning_rate": 6.006920049520701e-06,
+      "loss": 1.2692,
+      "step": 143
+    },
+    {
+      "epoch": 0.9290322580645162,
+      "grad_norm": 0.4413576798023392,
+      "learning_rate": 5.858923028611572e-06,
+      "loss": 1.1879,
+      "step": 144
+    },
+    {
+      "epoch": 0.9354838709677419,
+      "grad_norm": 0.37955599088497055,
+      "learning_rate": 5.722473335285244e-06,
+      "loss": 1.205,
+      "step": 145
+    },
+    {
+      "epoch": 0.9419354838709677,
+      "grad_norm": 0.35919500181972724,
+      "learning_rate": 5.597643776884412e-06,
+      "loss": 1.1617,
+      "step": 146
+    },
+    {
+      "epoch": 0.9483870967741935,
+      "grad_norm": 0.3022686971058462,
+      "learning_rate": 5.4845009604363e-06,
+      "loss": 1.2059,
+      "step": 147
+    },
+    {
+      "epoch": 0.9548387096774194,
+      "grad_norm": 0.30291369490101205,
+      "learning_rate": 5.38310525711221e-06,
+      "loss": 1.2672,
+      "step": 148
+    },
+    {
+      "epoch": 0.9612903225806452,
+      "grad_norm": 0.33599320279905975,
+      "learning_rate": 5.293510770014475e-06,
+      "loss": 1.2755,
+      "step": 149
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 0.2903929279243622,
+      "learning_rate": 5.215765305307886e-06,
+      "loss": 1.1675,
+      "step": 150
+    },
+    {
+      "epoch": 0.9741935483870968,
+      "grad_norm": 0.3305110382050327,
+      "learning_rate": 5.149910346711126e-06,
+      "loss": 1.2342,
+      "step": 151
+    },
+    {
+      "epoch": 0.9806451612903225,
+      "grad_norm": 0.33304378208594904,
+      "learning_rate": 5.095981033361725e-06,
+      "loss": 1.1312,
+      "step": 152
+    },
+    {
+      "epoch": 0.9870967741935484,
+      "grad_norm": 0.3479102720763047,
+      "learning_rate": 5.05400614106637e-06,
+      "loss": 1.1753,
+      "step": 153
+    },
+    {
+      "epoch": 0.9935483870967742,
+      "grad_norm": 0.31384042987234395,
+      "learning_rate": 5.024008066946621e-06,
+      "loss": 1.2077,
+      "step": 154
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.5248637716000059,
+      "learning_rate": 5.006002817488162e-06,
+      "loss": 1.1639,
+      "step": 155
+    },
+    {
+      "epoch": 1.0064516129032257,
+      "grad_norm": 0.359683648131272,
+      "learning_rate": 5e-06,
+      "loss": 1.2093,
+      "step": 156
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 319408664739840.0,
   "train_batch_size": 5,
   "trial_name": null,
   "trial_params": null