Training in progress, step 150, checkpoint

Browse files

Files changed (10) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step150/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step150/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step150/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step150/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +222 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b3445853db2177d069f37119bdbd70bd0ba40586305619d4889c69fce58f4e2
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:7020135db63cb4ce205e55f2bf1b54a6e092538d96adc09673d817259d9dc072
 size 763470136

last-checkpoint/global_step150/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:262f79b2db927260dc457209d15ec0579d1534c4799b7c168d64e942f3fc5fc7
+size 1152331664

last-checkpoint/global_step150/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7e7c223c729493e6dabb1c815c65e64e29201c34b3cfe789fe76c63994b6d8b
+size 1152331664

last-checkpoint/global_step150/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5448b04a18520b61a9edc7b5031e5cf83d93e804a7cfdbc7f2970c6eda915613
+size 348711830

last-checkpoint/global_step150/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b38473f7237b72ed42ae392b743ddc0885459c27eb14262736b1d2573ef06b11
+size 348711830

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step120~~


1	+ global_step150

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e581c9b63b766f1f594238a5cca71c1532d5b91bc7cec6c92f09a1bc37dbbb3
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dbf6ae6ebcd74cbebff77f00d6f2ad11df94d5b1fbbe75814b940bac064e081
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d032b1956d2c5ccbb0c6a5d0103db1f906cfb41ee1cfca2520e952693334eddb
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f04cbedb984b29722aaa95ebf3b42954331b486654dbc47f4293b3287172d95
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05b4ad7a9c00749c967e1489fcc0f9309722f8de3a5b956bd6a3ec0903f70bf4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d931f30b34023e9634aa7bafa5dd596bd4eabae6ccf87c8eeba542f2e7de26e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8013355592654424,
   "eval_steps": 30,
-  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -887,6 +887,224 @@
       "eval_samples_per_second": 0.313,
       "eval_steps_per_second": 0.157,
       "step": 120
     }
   ],
   "logging_steps": 1,
@@ -901,12 +1119,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.4315053922648064e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.001669449081803,
   "eval_steps": 30,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.313,
       "eval_steps_per_second": 0.157,
       "step": 120
+    },
+    {
+      "epoch": 0.8080133555926544,
+      "grad_norm": 0.8360077319999617,
+      "learning_rate": 9.59844765015993e-06,
+      "loss": 1.302,
+      "step": 121
+    },
+    {
+      "epoch": 0.8146911519198664,
+      "grad_norm": 0.6446987309963299,
+      "learning_rate": 9.297117626563687e-06,
+      "loss": 1.3057,
+      "step": 122
+    },
+    {
+      "epoch": 0.8213689482470785,
+      "grad_norm": 0.5858848837222707,
+      "learning_rate": 9.00495330242203e-06,
+      "loss": 1.1906,
+      "step": 123
+    },
+    {
+      "epoch": 0.8280467445742905,
+      "grad_norm": 10.398018166396698,
+      "learning_rate": 8.722101791270692e-06,
+      "loss": 1.3564,
+      "step": 124
+    },
+    {
+      "epoch": 0.8347245409015025,
+      "grad_norm": 0.8235165842943503,
+      "learning_rate": 8.448705517363609e-06,
+      "loss": 1.389,
+      "step": 125
+    },
+    {
+      "epoch": 0.8414023372287145,
+      "grad_norm": 0.5842066460612957,
+      "learning_rate": 8.184902143958014e-06,
+      "loss": 1.2718,
+      "step": 126
+    },
+    {
+      "epoch": 0.8480801335559266,
+      "grad_norm": 0.5373622797430296,
+      "learning_rate": 7.930824503996856e-06,
+      "loss": 1.1989,
+      "step": 127
+    },
+    {
+      "epoch": 0.8547579298831386,
+      "grad_norm": 0.5663037814900599,
+      "learning_rate": 7.686600533223395e-06,
+      "loss": 1.3443,
+      "step": 128
+    },
+    {
+      "epoch": 0.8614357262103506,
+      "grad_norm": 0.6476062047630753,
+      "learning_rate": 7.452353205761725e-06,
+      "loss": 1.1721,
+      "step": 129
+    },
+    {
+      "epoch": 0.8681135225375626,
+      "grad_norm": 0.710228017165703,
+      "learning_rate": 7.228200472195573e-06,
+      "loss": 1.3234,
+      "step": 130
+    },
+    {
+      "epoch": 0.8747913188647746,
+      "grad_norm": 0.7248764502921456,
+      "learning_rate": 7.014255200176644e-06,
+      "loss": 1.2848,
+      "step": 131
+    },
+    {
+      "epoch": 0.8814691151919867,
+      "grad_norm": 0.6695466576508436,
+      "learning_rate": 6.810625117592363e-06,
+      "loss": 1.4459,
+      "step": 132
+    },
+    {
+      "epoch": 0.8881469115191987,
+      "grad_norm": 0.7056169144488292,
+      "learning_rate": 6.617412758321627e-06,
+      "loss": 1.1978,
+      "step": 133
+    },
+    {
+      "epoch": 0.8948247078464107,
+      "grad_norm": 1.043195690391376,
+      "learning_rate": 6.434715410605914e-06,
+      "loss": 1.0937,
+      "step": 134
+    },
+    {
+      "epoch": 0.9015025041736227,
+      "grad_norm": 0.7994791814367975,
+      "learning_rate": 6.26262506806173e-06,
+      "loss": 1.3846,
+      "step": 135
+    },
+    {
+      "epoch": 0.9081803005008348,
+      "grad_norm": 0.49914896448919255,
+      "learning_rate": 6.1012283833590465e-06,
+      "loss": 1.4143,
+      "step": 136
+    },
+    {
+      "epoch": 0.9148580968280468,
+      "grad_norm": 0.6079970548926052,
+      "learning_rate": 5.950606624589065e-06,
+      "loss": 1.2448,
+      "step": 137
+    },
+    {
+      "epoch": 0.9215358931552587,
+      "grad_norm": 0.5776796506615264,
+      "learning_rate": 5.810835634343303e-06,
+      "loss": 1.1914,
+      "step": 138
+    },
+    {
+      "epoch": 0.9282136894824707,
+      "grad_norm": 1.0613164868436895,
+      "learning_rate": 5.681985791524546e-06,
+      "loss": 1.1904,
+      "step": 139
+    },
+    {
+      "epoch": 0.9348914858096828,
+      "grad_norm": 1.0019397876061995,
+      "learning_rate": 5.564121975908968e-06,
+      "loss": 1.3183,
+      "step": 140
+    },
+    {
+      "epoch": 0.9415692821368948,
+      "grad_norm": 0.7332315794754085,
+      "learning_rate": 5.457303535477202e-06,
+      "loss": 1.1111,
+      "step": 141
+    },
+    {
+      "epoch": 0.9482470784641068,
+      "grad_norm": 0.6707038470625136,
+      "learning_rate": 5.361584256530833e-06,
+      "loss": 1.2783,
+      "step": 142
+    },
+    {
+      "epoch": 0.9549248747913188,
+      "grad_norm": 0.7509454433889542,
+      "learning_rate": 5.277012336609403e-06,
+      "loss": 1.3497,
+      "step": 143
+    },
+    {
+      "epoch": 0.9616026711185309,
+      "grad_norm": 0.6892654980291844,
+      "learning_rate": 5.20363036022147e-06,
+      "loss": 1.2239,
+      "step": 144
+    },
+    {
+      "epoch": 0.9682804674457429,
+      "grad_norm": 2.6238164871857976,
+      "learning_rate": 5.141475277402042e-06,
+      "loss": 1.3766,
+      "step": 145
+    },
+    {
+      "epoch": 0.9749582637729549,
+      "grad_norm": 0.6105324893762883,
+      "learning_rate": 5.0905783851071216e-06,
+      "loss": 1.4916,
+      "step": 146
+    },
+    {
+      "epoch": 0.9816360601001669,
+      "grad_norm": 0.7216628681832833,
+      "learning_rate": 5.050965311454739e-06,
+      "loss": 1.3969,
+      "step": 147
+    },
+    {
+      "epoch": 0.988313856427379,
+      "grad_norm": 0.696061379100503,
+      "learning_rate": 5.022656002820422e-06,
+      "loss": 1.1597,
+      "step": 148
+    },
+    {
+      "epoch": 0.994991652754591,
+      "grad_norm": 0.7061572174055314,
+      "learning_rate": 5.005664713793603e-06,
+      "loss": 1.1694,
+      "step": 149
+    },
+    {
+      "epoch": 1.001669449081803,
+      "grad_norm": 1.5340986852071277,
+      "learning_rate": 5e-06,
+      "loss": 1.5343,
+      "step": 150
+    },
+    {
+      "epoch": 1.001669449081803,
+      "eval_loss": 0.9879436492919922,
+      "eval_runtime": 319.078,
+      "eval_samples_per_second": 0.313,
+      "eval_steps_per_second": 0.157,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.7893851528167424e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null