Training in progress, step 2020, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5f86dd9371b781155ba643a548b4de3e51acb102f7bc37f5826e1d50947b2f0
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7b6655782a983e665dba0e849d536995a49fc28327e1a340c6d0acb3e6a9346
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04e3e81d18fadc24063e623e9d4cc0d12eb575ca5424a5a8f3ebf2648240568b
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:7bf5ba4c5bdffdca097a4cab622da35d4625e043ff5ff81b133e63498d06dbfc
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2191a9ab0ab41e50985488533d64dae12c867360e85f064297a87e2f978e6536
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c676bb33648ee9263046f9d978c9dc81390c0ac42995b13679bcd936e804701
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16253ca7555b24e595f70e545999ce4ef3d7193309d16f3cd6b13443ca20da3e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1288e563fd14386ce1f1f209b36f861a91ceda68715fc12dfb92acd5d04d997
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7155635062611807,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1607,14 +1607,30 @@
       "loss": 0.4041,
       "num_input_tokens_seen": 1352944,
       "step": 2000
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 1352944,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 3.042293278438195e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7227191413237924,
   "eval_steps": 500,
+  "global_step": 2020,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.4041,
       "num_input_tokens_seen": 1352944,
       "step": 2000
+    },
+    {
+      "epoch": 0.7191413237924866,
+      "grad_norm": 0.3060110807418823,
+      "learning_rate": 5.6171735241502685e-05,
+      "loss": 0.3943,
+      "num_input_tokens_seen": 1359671,
+      "step": 2010
+    },
+    {
+      "epoch": 0.7227191413237924,
+      "grad_norm": 0.42584308981895447,
+      "learning_rate": 5.5456171735241505e-05,
+      "loss": 0.3982,
+      "num_input_tokens_seen": 1366487,
+      "step": 2020
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 1366487,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 3.0727467028740096e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null