Training in progress, step 10000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +49 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e1f2a52271c8cfdc722db3684a53097db8aee70296a993415177e22b8b3c5e0
 size 267906392

 version https://git-lfs.github.com/spec/v1
+oid sha256:486af49129a31e1b7c1e43e65eab8e26b8c4cc8ddc136711eef3f671ce00c3ec
 size 267906392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b54f41f4d888087803f506752e2901f35a2c89665696ccb7156217f7828f3d6
 size 535874874

 version https://git-lfs.github.com/spec/v1
+oid sha256:bde14063113d3963bdceb328049937cf5555849d1cc907876d7f93ae43926358
 size 535874874

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44a41369b5f42949ac33bbe224edbd4520b7fe7d1b7605b66225d2966ebb6e77
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbb2ca652b13d24cd9ca0437acca204dd7dc408e95308fc4b43867a99c53a4ed
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2eda9f617ae6489ee1b2a0db69ddf3c24a61fa0c7670292a9c9be1991125aad
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:058930117d0715c41bf93049e22ed1e989ddac193b68a49ee9225dc685ba128a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9059617519378662,
-  "best_model_checkpoint": "/kaggle/working/results/checkpoint-8000",
-  "epoch": 0.6233928153978026,
   "eval_steps": 1000,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -183,6 +183,50 @@
       "eval_samples_per_second": 104.044,
       "eval_steps_per_second": 0.82,
       "step": 8000
     }
   ],
   "logging_steps": 500,
@@ -202,7 +246,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3926168444928e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8291246891021729,
+  "best_model_checkpoint": "/kaggle/working/results/checkpoint-10000",
+  "epoch": 0.7792410192472532,
   "eval_steps": 1000,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 104.044,
       "eval_steps_per_second": 0.82,
       "step": 8000
+    },
+    {
+      "epoch": 0.6623548663601652,
+      "grad_norm": 3.0767014026641846,
+      "learning_rate": 3.376451336398348e-05,
+      "loss": 0.497,
+      "step": 8500
+    },
+    {
+      "epoch": 0.7013169173225279,
+      "grad_norm": 3.861445903778076,
+      "learning_rate": 2.9868308267747215e-05,
+      "loss": 0.4688,
+      "step": 9000
+    },
+    {
+      "epoch": 0.7013169173225279,
+      "eval_loss": 0.8691270351409912,
+      "eval_runtime": 50.1753,
+      "eval_samples_per_second": 103.637,
+      "eval_steps_per_second": 0.817,
+      "step": 9000
+    },
+    {
+      "epoch": 0.7402789682848905,
+      "grad_norm": 3.7857894897460938,
+      "learning_rate": 2.5972103171510948e-05,
+      "loss": 0.4853,
+      "step": 9500
+    },
+    {
+      "epoch": 0.7792410192472532,
+      "grad_norm": 6.56783390045166,
+      "learning_rate": 2.2075898075274684e-05,
+      "loss": 0.483,
+      "step": 10000
+    },
+    {
+      "epoch": 0.7792410192472532,
+      "eval_loss": 0.8291246891021729,
+      "eval_runtime": 49.9917,
+      "eval_samples_per_second": 104.017,
+      "eval_steps_per_second": 0.82,
+      "step": 10000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.240771055616e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null