Training in progress, step 119000, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57312df35d1a759d1125b8cde191f19096f08bf7f3585c486f0ac69eddbc5b19
 size 6961088

 version https://git-lfs.github.com/spec/v1
+oid sha256:37e1df7a1d5af563d39dac4475c64a25a3d966d1f87494a9c847fe983f166bd8
 size 6961088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0edb8b443d3e74439d4e8af25da0dc55293b9cfa4bbf93848f5a4a068ae59ca
 size 3583418

 version https://git-lfs.github.com/spec/v1
+oid sha256:46b087cbcac1794815a736ae0610cb66f89b41ceefdbf2a98a7d64e4969a8e48
 size 3583418

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:088ef85c232e7d464d32fef0c355b7dfa446fac27a9e5b10b5535860b7e4c06b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a15c5c1eeb4142880599a7cf455fa16fb33ff35eaae83b03134bb5e6035bca7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45a9438c318fc6e63fadb9b0a23e4a1df10fa7a56afdc22fe2c5542c681f9eb0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e81870cc69b1580d1dc882ebfa95e380308fdb3a91bad7c4f448de107a49b57a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9752066115702479,
   "eval_steps": 1000,
-  "global_step": 118000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2603,6 +2603,28 @@
       "eval_samples_per_second": 6.882,
       "eval_steps_per_second": 6.882,
       "step": 118000
     }
   ],
   "logging_steps": 500,
@@ -2610,7 +2632,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 1000,
-  "total_flos": 3.000947490654474e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9834710743801653,
   "eval_steps": 1000,
+  "global_step": 119000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.882,
       "eval_steps_per_second": 6.882,
       "step": 118000
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 73.10523986816406,
+      "learning_rate": 4.132231404958678e-07,
+      "loss": 2.6807,
+      "step": 118500
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 17.360837936401367,
+      "learning_rate": 3.3057851239669426e-07,
+      "loss": 2.7351,
+      "step": 119000
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 2.436006546020508,
+      "eval_runtime": 139.6881,
+      "eval_samples_per_second": 6.887,
+      "eval_steps_per_second": 6.887,
+      "step": 119000
     }
   ],
   "logging_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 1000,
+  "total_flos": 3.026405427716183e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null