Training in progress, step 120, checkpoint

Browse files

Files changed (10) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step120/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step120/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step120/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step120/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +221 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cd39093da46c760bf0ad6acee7d3afbdc458b320613d02a1b9b87bf1dfd3d57
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b3445853db2177d069f37119bdbd70bd0ba40586305619d4889c69fce58f4e2
 size 763470136

last-checkpoint/global_step120/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c2455bdbf7ed8211f4bca0afdca943386a46d27f3fd0bb34935bdc2f028024f
+size 1152331664

last-checkpoint/global_step120/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:034bf708f022804840c2a7a2a35e2eaf1b23a7b6e3eb07cd9831ba9fb2c905eb
+size 1152331664

last-checkpoint/global_step120/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78e966d883cf2dbb7a88ea91bee8a0e48df3eeca5f8e29b5276b0b83199dd6b2
+size 348711830

last-checkpoint/global_step120/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85b5ed1170e353a722624f40f020b904997b3571404b9c60761792611dc32657
+size 348711830

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step90~~


1	+ global_step120

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:402dc8f05e787a8bd1f6017a51a44dd402264604e6e8b23372c047903d00e275
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e581c9b63b766f1f594238a5cca71c1532d5b91bc7cec6c92f09a1bc37dbbb3
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:385e4b7d88dae501cd7416828b65c0f6787ac9f75fe1a28f84bf64ac6675909d
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:d032b1956d2c5ccbb0c6a5d0103db1f906cfb41ee1cfca2520e952693334eddb
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac3936d03564e869c0f8be0c0a24855f0fbaa9d17a65502bfe26d2b6f28ba7ad
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:05b4ad7a9c00749c967e1489fcc0f9309722f8de3a5b956bd6a3ec0903f70bf4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6010016694490818,
   "eval_steps": 30,
-  "global_step": 90,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -669,6 +669,224 @@
       "eval_samples_per_second": 0.314,
       "eval_steps_per_second": 0.157,
       "step": 90
     }
   ],
   "logging_steps": 1,
@@ -688,7 +906,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0736256317128704e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8013355592654424,
   "eval_steps": 30,
+  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.314,
       "eval_steps_per_second": 0.157,
       "step": 90
+    },
+    {
+      "epoch": 0.6076794657762938,
+      "grad_norm": 0.6753979170246298,
+      "learning_rate": 2.200234086189738e-05,
+      "loss": 1.2537,
+      "step": 91
+    },
+    {
+      "epoch": 0.6143572621035058,
+      "grad_norm": 0.7571262328179167,
+      "learning_rate": 2.1514170974749814e-05,
+      "loss": 1.3105,
+      "step": 92
+    },
+    {
+      "epoch": 0.6210350584307178,
+      "grad_norm": 0.7480070184420193,
+      "learning_rate": 2.1029015132779617e-05,
+      "loss": 1.3479,
+      "step": 93
+    },
+    {
+      "epoch": 0.6277128547579299,
+      "grad_norm": 0.9346466324934937,
+      "learning_rate": 2.054711762656369e-05,
+      "loss": 1.26,
+      "step": 94
+    },
+    {
+      "epoch": 0.6343906510851419,
+      "grad_norm": 0.735894594411153,
+      "learning_rate": 2.006872110600875e-05,
+      "loss": 1.1731,
+      "step": 95
+    },
+    {
+      "epoch": 0.6410684474123539,
+      "grad_norm": 0.46805067393219063,
+      "learning_rate": 1.959406645816979e-05,
+      "loss": 1.0025,
+      "step": 96
+    },
+    {
+      "epoch": 0.6477462437395659,
+      "grad_norm": 0.9111162797078164,
+      "learning_rate": 1.9123392685956238e-05,
+      "loss": 1.5097,
+      "step": 97
+    },
+    {
+      "epoch": 0.654424040066778,
+      "grad_norm": 0.6156378595227986,
+      "learning_rate": 1.8656936787786722e-05,
+      "loss": 1.6741,
+      "step": 98
+    },
+    {
+      "epoch": 0.66110183639399,
+      "grad_norm": 0.5608580027505492,
+      "learning_rate": 1.8194933638253293e-05,
+      "loss": 1.555,
+      "step": 99
+    },
+    {
+      "epoch": 0.667779632721202,
+      "grad_norm": 0.5554367825501167,
+      "learning_rate": 1.7737615869854944e-05,
+      "loss": 1.1984,
+      "step": 100
+    },
+    {
+      "epoch": 0.674457429048414,
+      "grad_norm": 0.6763768384451961,
+      "learning_rate": 1.72852137558602e-05,
+      "loss": 1.3085,
+      "step": 101
+    },
+    {
+      "epoch": 0.6811352253756261,
+      "grad_norm": 0.6496940883289803,
+      "learning_rate": 1.6837955094357533e-05,
+      "loss": 1.3538,
+      "step": 102
+    },
+    {
+      "epoch": 0.6878130217028381,
+      "grad_norm": 1.2157878682730905,
+      "learning_rate": 1.63960650935522e-05,
+      "loss": 1.3221,
+      "step": 103
+    },
+    {
+      "epoch": 0.6944908180300501,
+      "grad_norm": 0.6089604075942624,
+      "learning_rate": 1.5959766258367115e-05,
+      "loss": 1.2486,
+      "step": 104
+    },
+    {
+      "epoch": 0.7011686143572621,
+      "grad_norm": 0.5711464513081075,
+      "learning_rate": 1.552927827840493e-05,
+      "loss": 1.4322,
+      "step": 105
+    },
+    {
+      "epoch": 0.7078464106844741,
+      "grad_norm": 1.0441092347273087,
+      "learning_rate": 1.5104817917327696e-05,
+      "loss": 1.2896,
+      "step": 106
+    },
+    {
+      "epoch": 0.7145242070116862,
+      "grad_norm": 0.7066829352817637,
+      "learning_rate": 1.468659890370983e-05,
+      "loss": 1.32,
+      "step": 107
+    },
+    {
+      "epoch": 0.7212020033388982,
+      "grad_norm": 0.8630447275071343,
+      "learning_rate": 1.427483182341936e-05,
+      "loss": 1.1892,
+      "step": 108
+    },
+    {
+      "epoch": 0.7278797996661102,
+      "grad_norm": 0.6704662442015654,
+      "learning_rate": 1.3869724013581556e-05,
+      "loss": 1.0981,
+      "step": 109
+    },
+    {
+      "epoch": 0.7345575959933222,
+      "grad_norm": 0.6697560044361581,
+      "learning_rate": 1.3471479458178499e-05,
+      "loss": 1.431,
+      "step": 110
+    },
+    {
+      "epoch": 0.7412353923205343,
+      "grad_norm": 0.6301335224370612,
+      "learning_rate": 1.3080298685336958e-05,
+      "loss": 1.1401,
+      "step": 111
+    },
+    {
+      "epoch": 0.7479131886477463,
+      "grad_norm": 0.661516675824236,
+      "learning_rate": 1.2696378666356468e-05,
+      "loss": 1.3862,
+      "step": 112
+    },
+    {
+      "epoch": 0.7545909849749582,
+      "grad_norm": 0.8883090872439409,
+      "learning_rate": 1.2319912716528328e-05,
+      "loss": 1.3937,
+      "step": 113
+    },
+    {
+      "epoch": 0.7612687813021702,
+      "grad_norm": 0.618788476335029,
+      "learning_rate": 1.1951090397795546e-05,
+      "loss": 1.3605,
+      "step": 114
+    },
+    {
+      "epoch": 0.7679465776293823,
+      "grad_norm": 1.4912422269122867,
+      "learning_rate": 1.1590097423302684e-05,
+      "loss": 1.3289,
+      "step": 115
+    },
+    {
+      "epoch": 0.7746243739565943,
+      "grad_norm": 0.7244062524660102,
+      "learning_rate": 1.1237115563883693e-05,
+      "loss": 1.2132,
+      "step": 116
+    },
+    {
+      "epoch": 0.7813021702838063,
+      "grad_norm": 0.5640894490902431,
+      "learning_rate": 1.0892322556534839e-05,
+      "loss": 1.35,
+      "step": 117
+    },
+    {
+      "epoch": 0.7879799666110183,
+      "grad_norm": 1.0680883572048787,
+      "learning_rate": 1.0555892014918756e-05,
+      "loss": 1.1928,
+      "step": 118
+    },
+    {
+      "epoch": 0.7946577629382304,
+      "grad_norm": 0.5835392499890589,
+      "learning_rate": 1.022799334194475e-05,
+      "loss": 1.2834,
+      "step": 119
+    },
+    {
+      "epoch": 0.8013355592654424,
+      "grad_norm": 0.9118286380479439,
+      "learning_rate": 9.90879164446933e-06,
+      "loss": 1.3667,
+      "step": 120
+    },
+    {
+      "epoch": 0.8013355592654424,
+      "eval_loss": 0.9900997877120972,
+      "eval_runtime": 319.025,
+      "eval_samples_per_second": 0.313,
+      "eval_steps_per_second": 0.157,
+      "step": 120
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.4315053922648064e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null