Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6638d29deb2797875b6b7ea73679773560f05533895012d7a4f636bb12105954
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:44ea6b7a6a2fff075f708703afadf30e3e8c57e3163b493b4645497b86d2384f
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70295e49fa85a076268aa566f4c6ef9d4a75879dc008935976c485916dd382d5
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:f98d95db80478cfe0e9aee8fa102c9b668166fcc2a159d0c1e6bcd8518b7bc45
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b88a2b02a5ecabad292a0ab85bac7e2fb5ae0291cf62ebc51c5807b0bc02f8b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:572b27dd4aaf18aaca2cbee93be2b885a21373fc2b4cd02fc4f0e4185393316a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:337fb6485f673c443fc806f75192c189e4589e981ee99a1f7362abb2e1c82bb8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b2b446c840bb8969c73f2b1624f62cc7b296b26a6d87dc45e0852da9ec5c8d2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.11480703204870224,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-2500",
-  "epoch": 0.43909721612364977,
   "eval_steps": 100,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -557,6 +557,116 @@
       "eval_samples_per_second": 25.474,
       "eval_steps_per_second": 3.187,
       "step": 2500
     }
   ],
   "logging_steps": 50,
@@ -576,7 +686,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.21791578112e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.11349175125360489,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-3000",
+  "epoch": 0.5269166593483797,
   "eval_steps": 100,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.474,
       "eval_steps_per_second": 3.187,
       "step": 2500
+    },
+    {
+      "epoch": 0.44787916044612275,
+      "grad_norm": 9090.5810546875,
+      "learning_rate": 2.664061127700685e-05,
+      "loss": 0.1183,
+      "step": 2550
+    },
+    {
+      "epoch": 0.4566611047685958,
+      "grad_norm": 13992.6572265625,
+      "learning_rate": 2.657474090988934e-05,
+      "loss": 0.1204,
+      "step": 2600
+    },
+    {
+      "epoch": 0.4566611047685958,
+      "eval_loss": 0.11466159671545029,
+      "eval_runtime": 175.0561,
+      "eval_samples_per_second": 25.478,
+      "eval_steps_per_second": 3.188,
+      "step": 2600
+    },
+    {
+      "epoch": 0.46544304909106876,
+      "grad_norm": 10754.3505859375,
+      "learning_rate": 2.6508870542771825e-05,
+      "loss": 0.1233,
+      "step": 2650
+    },
+    {
+      "epoch": 0.47422499341354174,
+      "grad_norm": 10475.4765625,
+      "learning_rate": 2.6443000175654315e-05,
+      "loss": 0.1226,
+      "step": 2700
+    },
+    {
+      "epoch": 0.47422499341354174,
+      "eval_loss": 0.11424204707145691,
+      "eval_runtime": 174.9273,
+      "eval_samples_per_second": 25.496,
+      "eval_steps_per_second": 3.19,
+      "step": 2700
+    },
+    {
+      "epoch": 0.4830069377360148,
+      "grad_norm": 16770.1015625,
+      "learning_rate": 2.63771298085368e-05,
+      "loss": 0.1331,
+      "step": 2750
+    },
+    {
+      "epoch": 0.49178888205848775,
+      "grad_norm": 193283.25,
+      "learning_rate": 2.631125944141929e-05,
+      "loss": 0.1193,
+      "step": 2800
+    },
+    {
+      "epoch": 0.49178888205848775,
+      "eval_loss": 0.11391730606555939,
+      "eval_runtime": 175.0052,
+      "eval_samples_per_second": 25.485,
+      "eval_steps_per_second": 3.188,
+      "step": 2800
+    },
+    {
+      "epoch": 0.5005708263809607,
+      "grad_norm": 8650.1865234375,
+      "learning_rate": 2.6245389074301775e-05,
+      "loss": 0.1307,
+      "step": 2850
+    },
+    {
+      "epoch": 0.5093527707034338,
+      "grad_norm": 11343.3427734375,
+      "learning_rate": 2.6179518707184262e-05,
+      "loss": 0.1173,
+      "step": 2900
+    },
+    {
+      "epoch": 0.5093527707034338,
+      "eval_loss": 0.11382684111595154,
+      "eval_runtime": 175.1185,
+      "eval_samples_per_second": 25.468,
+      "eval_steps_per_second": 3.186,
+      "step": 2900
+    },
+    {
+      "epoch": 0.5181347150259067,
+      "grad_norm": 9844.486328125,
+      "learning_rate": 2.611364834006675e-05,
+      "loss": 0.1229,
+      "step": 2950
+    },
+    {
+      "epoch": 0.5269166593483797,
+      "grad_norm": 8915.7255859375,
+      "learning_rate": 2.6047777972949235e-05,
+      "loss": 0.125,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5269166593483797,
+      "eval_loss": 0.11349175125360489,
+      "eval_runtime": 175.2134,
+      "eval_samples_per_second": 25.455,
+      "eval_steps_per_second": 3.185,
+      "step": 3000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.461498937344e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null