Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:869559a5ae5ad7f1c26df10072eb69150c395ca8de50790bd49b4fe2680e9d2a
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:708bb2c9822b1d19cfc1f711a1426a731d98c1d2dfede98878aeb66a671c5d3d
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:209a99db0577027fa2c361d3c3c432d63c3657ce2b73bf2d7a0cc3bbdd3a0773
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3e460fa778d644588069da89534b6210f9e1b28688b004d2b112bcf63437271
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8441833b2ccddbdbfb81a5b41b410f598dfb2796bdfdf3689c4bebcaf3da6bb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c62c604dba9a000f0608f1abd7fa224ff8ff313b4269759d1f9ec8d5f614e346
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74b133c003556814e78a8921a1c25cb078726e4bad98aa7a030c1c78956cb745
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:35a2f311d7dd68d3021f647c351f057c0b1803907e19da4973f0e7cb6dd34438
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.11222900450229645,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-3500",
-  "epoch": 0.6147361025731097,
   "eval_steps": 100,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -777,6 +777,116 @@
       "eval_samples_per_second": 25.501,
       "eval_steps_per_second": 3.191,
       "step": 3500
     }
   ],
   "logging_steps": 50,
@@ -796,7 +906,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.705082093568e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.11094118654727936,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-4000",
+  "epoch": 0.7025555457978396,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.501,
       "eval_steps_per_second": 3.191,
       "step": 3500
+    },
+    {
+      "epoch": 0.6235180468955827,
+      "grad_norm": 13531.3447265625,
+      "learning_rate": 2.5323203934656598e-05,
+      "loss": 0.1178,
+      "step": 3550
+    },
+    {
+      "epoch": 0.6322999912180557,
+      "grad_norm": 10695.3486328125,
+      "learning_rate": 2.5257333567539085e-05,
+      "loss": 0.1175,
+      "step": 3600
+    },
+    {
+      "epoch": 0.6322999912180557,
+      "eval_loss": 0.11206092685461044,
+      "eval_runtime": 174.9921,
+      "eval_samples_per_second": 25.487,
+      "eval_steps_per_second": 3.189,
+      "step": 3600
+    },
+    {
+      "epoch": 0.6410819355405287,
+      "grad_norm": 9945.763671875,
+      "learning_rate": 2.5191463200421568e-05,
+      "loss": 0.1122,
+      "step": 3650
+    },
+    {
+      "epoch": 0.6498638798630016,
+      "grad_norm": 21472.962890625,
+      "learning_rate": 2.5125592833304058e-05,
+      "loss": 0.1179,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6498638798630016,
+      "eval_loss": 0.11144611984491348,
+      "eval_runtime": 174.9363,
+      "eval_samples_per_second": 25.495,
+      "eval_steps_per_second": 3.19,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6586458241854747,
+      "grad_norm": 10160.6298828125,
+      "learning_rate": 2.5059722466186545e-05,
+      "loss": 0.1148,
+      "step": 3750
+    },
+    {
+      "epoch": 0.6674277685079476,
+      "grad_norm": 13687.66015625,
+      "learning_rate": 2.4993852099069035e-05,
+      "loss": 0.1166,
+      "step": 3800
+    },
+    {
+      "epoch": 0.6674277685079476,
+      "eval_loss": 0.1111949160695076,
+      "eval_runtime": 174.9122,
+      "eval_samples_per_second": 25.499,
+      "eval_steps_per_second": 3.19,
+      "step": 3800
+    },
+    {
+      "epoch": 0.6762097128304206,
+      "grad_norm": 9961.3818359375,
+      "learning_rate": 2.4927981731951518e-05,
+      "loss": 0.12,
+      "step": 3850
+    },
+    {
+      "epoch": 0.6849916571528937,
+      "grad_norm": 11952.0546875,
+      "learning_rate": 2.4862111364834008e-05,
+      "loss": 0.1227,
+      "step": 3900
+    },
+    {
+      "epoch": 0.6849916571528937,
+      "eval_loss": 0.11115138977766037,
+      "eval_runtime": 175.0741,
+      "eval_samples_per_second": 25.475,
+      "eval_steps_per_second": 3.187,
+      "step": 3900
+    },
+    {
+      "epoch": 0.6937736014753666,
+      "grad_norm": 7658.37255859375,
+      "learning_rate": 2.4796240997716494e-05,
+      "loss": 0.1178,
+      "step": 3950
+    },
+    {
+      "epoch": 0.7025555457978396,
+      "grad_norm": 9078.0087890625,
+      "learning_rate": 2.4730370630598984e-05,
+      "loss": 0.1079,
+      "step": 4000
+    },
+    {
+      "epoch": 0.7025555457978396,
+      "eval_loss": 0.11094118654727936,
+      "eval_runtime": 174.8603,
+      "eval_samples_per_second": 25.506,
+      "eval_steps_per_second": 3.191,
+      "step": 4000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.948665249792e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null