Training in progress, step 225, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f742d415aff28fad5820b93ca995139bfbf5d48576c37a834817953b34f7e15f
 size 1822364248

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e529757192ef5dc556b9470603ea65e3cc8c78faf5af23c6612ce22c413c212
 size 1822364248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b552e1af992974094092c9c4643ea82704c3039f8162149d84f54df3a12fa59b
 size 650683548

 version https://git-lfs.github.com/spec/v1
+oid sha256:13527376c2b15a01b0453cda0251ca5ff7a5afcd09d8baa908668c707b8e83ff
 size 650683548

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a803e6004d1369697efb3e5bc4932f2d5166e52e06ea951f7120e35a51ae6390
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3162581f3942edb8c96dc2f3201fd2bea68a9cc32a069e77933e7f946e387625
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:859ff0676471245c9481ca25d6d6778d1c7963c39b7877af46bb8ca30a9ead21
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f59a103009f3230e51c40288ef6a33247523fa398934878b1e22a81660cbade8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6,
   "eval_steps": 500,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,13 +1207,163 @@
       "learning_rate": 0.0002,
       "loss": 0.4536,
       "step": 200
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 2,
   "save_steps": 25,
-  "total_flos": 2.601838334381261e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8,
   "eval_steps": 500,
+  "global_step": 225,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.4536,
       "step": 200
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0002,
+      "loss": 0.4501,
+      "step": 201
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0002,
+      "loss": 0.4893,
+      "step": 202
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0002,
+      "loss": 0.4231,
+      "step": 203
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0002,
+      "loss": 0.446,
+      "step": 204
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0002,
+      "loss": 0.4262,
+      "step": 205
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0002,
+      "loss": 0.4258,
+      "step": 206
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0002,
+      "loss": 0.4337,
+      "step": 207
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0002,
+      "loss": 0.3736,
+      "step": 208
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0002,
+      "loss": 0.4079,
+      "step": 209
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0002,
+      "loss": 0.3848,
+      "step": 210
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0002,
+      "loss": 0.4034,
+      "step": 211
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0002,
+      "loss": 0.3581,
+      "step": 212
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0002,
+      "loss": 0.3691,
+      "step": 213
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0002,
+      "loss": 0.3856,
+      "step": 214
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0002,
+      "loss": 0.3688,
+      "step": 215
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0002,
+      "loss": 0.3378,
+      "step": 216
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0002,
+      "loss": 0.3663,
+      "step": 217
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0002,
+      "loss": 0.3173,
+      "step": 218
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0002,
+      "loss": 0.6313,
+      "step": 219
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0002,
+      "loss": 0.5564,
+      "step": 220
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0002,
+      "loss": 0.5533,
+      "step": 221
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0002,
+      "loss": 0.5213,
+      "step": 222
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0002,
+      "loss": 0.5716,
+      "step": 223
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0002,
+      "loss": 0.5287,
+      "step": 224
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0002,
+      "loss": 0.5217,
+      "step": 225
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 2,
   "save_steps": 25,
+  "total_flos": 2.9201598472912896e+16,
   "trial_name": null,
   "trial_params": null
 }