Training in progress, step 3500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44ea6b7a6a2fff075f708703afadf30e3e8c57e3163b493b4645497b86d2384f
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:869559a5ae5ad7f1c26df10072eb69150c395ca8de50790bd49b4fe2680e9d2a
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f98d95db80478cfe0e9aee8fa102c9b668166fcc2a159d0c1e6bcd8518b7bc45
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:209a99db0577027fa2c361d3c3c432d63c3657ce2b73bf2d7a0cc3bbdd3a0773
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:572b27dd4aaf18aaca2cbee93be2b885a21373fc2b4cd02fc4f0e4185393316a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8441833b2ccddbdbfb81a5b41b410f598dfb2796bdfdf3689c4bebcaf3da6bb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b2b446c840bb8969c73f2b1624f62cc7b296b26a6d87dc45e0852da9ec5c8d2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:74b133c003556814e78a8921a1c25cb078726e4bad98aa7a030c1c78956cb745
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.11349175125360489,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-3000",
-  "epoch": 0.5269166593483797,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -667,6 +667,116 @@
       "eval_samples_per_second": 25.455,
       "eval_steps_per_second": 3.185,
       "step": 3000
     }
   ],
   "logging_steps": 50,
@@ -686,7 +796,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.461498937344e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.11222900450229645,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-3500",
+  "epoch": 0.6147361025731097,
   "eval_steps": 100,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.455,
       "eval_steps_per_second": 3.185,
       "step": 3000
+    },
+    {
+      "epoch": 0.5356986036708528,
+      "grad_norm": 9072.705078125,
+      "learning_rate": 2.5981907605831725e-05,
+      "loss": 0.1249,
+      "step": 3050
+    },
+    {
+      "epoch": 0.5444805479933257,
+      "grad_norm": 11936.0400390625,
+      "learning_rate": 2.591603723871421e-05,
+      "loss": 0.1205,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5444805479933257,
+      "eval_loss": 0.11320458352565765,
+      "eval_runtime": 174.8633,
+      "eval_samples_per_second": 25.506,
+      "eval_steps_per_second": 3.191,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5532624923157987,
+      "grad_norm": 11488.6748046875,
+      "learning_rate": 2.58501668715967e-05,
+      "loss": 0.1202,
+      "step": 3150
+    },
+    {
+      "epoch": 0.5620444366382717,
+      "grad_norm": 12126.583984375,
+      "learning_rate": 2.5784296504479185e-05,
+      "loss": 0.12,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5620444366382717,
+      "eval_loss": 0.11316446959972382,
+      "eval_runtime": 174.862,
+      "eval_samples_per_second": 25.506,
+      "eval_steps_per_second": 3.191,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5708263809607447,
+      "grad_norm": 14138.3876953125,
+      "learning_rate": 2.5718426137361675e-05,
+      "loss": 0.1272,
+      "step": 3250
+    },
+    {
+      "epoch": 0.5796083252832177,
+      "grad_norm": 6703.96728515625,
+      "learning_rate": 2.5652555770244158e-05,
+      "loss": 0.1245,
+      "step": 3300
+    },
+    {
+      "epoch": 0.5796083252832177,
+      "eval_loss": 0.11248895525932312,
+      "eval_runtime": 175.0938,
+      "eval_samples_per_second": 25.472,
+      "eval_steps_per_second": 3.187,
+      "step": 3300
+    },
+    {
+      "epoch": 0.5883902696056907,
+      "grad_norm": 14042.6962890625,
+      "learning_rate": 2.5586685403126648e-05,
+      "loss": 0.1135,
+      "step": 3350
+    },
+    {
+      "epoch": 0.5971722139281637,
+      "grad_norm": 11223.4375,
+      "learning_rate": 2.5520815036009135e-05,
+      "loss": 0.1192,
+      "step": 3400
+    },
+    {
+      "epoch": 0.5971722139281637,
+      "eval_loss": 0.11230960488319397,
+      "eval_runtime": 175.0029,
+      "eval_samples_per_second": 25.485,
+      "eval_steps_per_second": 3.189,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6059541582506367,
+      "grad_norm": 10186.056640625,
+      "learning_rate": 2.5454944668891625e-05,
+      "loss": 0.1133,
+      "step": 3450
+    },
+    {
+      "epoch": 0.6147361025731097,
+      "grad_norm": 11724.2939453125,
+      "learning_rate": 2.5389074301774108e-05,
+      "loss": 0.1191,
+      "step": 3500
+    },
+    {
+      "epoch": 0.6147361025731097,
+      "eval_loss": 0.11222900450229645,
+      "eval_runtime": 174.8917,
+      "eval_samples_per_second": 25.501,
+      "eval_steps_per_second": 3.191,
+      "step": 3500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.705082093568e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null