Training in progress, step 9000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb836486a08d083b7b894d25da52e76162af179301082404d283271cad95c54d
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:c61dc0d23c746a776fb71c6db18e58f3d7ee58c49709af2b68f3cd60b2b05597
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4e1caae54a6748055529a623a21d7278d4621242d7eaa9f6da41a75e89af6e0
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:a73653d2a28732f9feb60c8158dce6b6083589210ea76baed95254ba447c70b7
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f0078c995c0a1f7692e135d27dd71fdcbf3affc32f173a64d44dd714e0d5938
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3503e42fc861ccbd3ddfb9b88789bab6a4d3e2eb8ec1f89fd80f3ace0029d6bb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b19bed9a80268123689bf367dc93ecf09aff888bfe5efc180838ee789e8b295
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdf46ec856f5e9ea116316566a745b60cfe58cd9d7993812727afdb74f6eab30
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.10507776588201523,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-8500",
-  "epoch": 1.4929305348204092,
   "eval_steps": 100,
-  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1877,6 +1877,116 @@
       "eval_samples_per_second": 25.401,
       "eval_steps_per_second": 3.178,
       "step": 8500
     }
   ],
   "logging_steps": 50,
@@ -1896,7 +2006,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.140700520546304e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.10463293641805649,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-9000",
+  "epoch": 1.580749978045139,
   "eval_steps": 100,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.401,
       "eval_steps_per_second": 3.178,
       "step": 8500
+    },
+    {
+      "epoch": 1.5017124791428822,
+      "grad_norm": 9354.1494140625,
+      "learning_rate": 1.873616722290532e-05,
+      "loss": 0.1087,
+      "step": 8550
+    },
+    {
+      "epoch": 1.5104944234653552,
+      "grad_norm": 171124.34375,
+      "learning_rate": 1.867029685578781e-05,
+      "loss": 0.1106,
+      "step": 8600
+    },
+    {
+      "epoch": 1.5104944234653552,
+      "eval_loss": 0.10511680692434311,
+      "eval_runtime": 175.6013,
+      "eval_samples_per_second": 25.398,
+      "eval_steps_per_second": 3.178,
+      "step": 8600
+    },
+    {
+      "epoch": 1.5192763677878283,
+      "grad_norm": 10542.4892578125,
+      "learning_rate": 1.8604426488670297e-05,
+      "loss": 0.1042,
+      "step": 8650
+    },
+    {
+      "epoch": 1.5280583121103013,
+      "grad_norm": 8730.197265625,
+      "learning_rate": 1.8538556121552784e-05,
+      "loss": 0.1028,
+      "step": 8700
+    },
+    {
+      "epoch": 1.5280583121103013,
+      "eval_loss": 0.10496073216199875,
+      "eval_runtime": 175.5259,
+      "eval_samples_per_second": 25.409,
+      "eval_steps_per_second": 3.179,
+      "step": 8700
+    },
+    {
+      "epoch": 1.5368402564327743,
+      "grad_norm": 22947.765625,
+      "learning_rate": 1.847268575443527e-05,
+      "loss": 0.1106,
+      "step": 8750
+    },
+    {
+      "epoch": 1.5456222007552474,
+      "grad_norm": 12794.203125,
+      "learning_rate": 1.840681538731776e-05,
+      "loss": 0.1027,
+      "step": 8800
+    },
+    {
+      "epoch": 1.5456222007552474,
+      "eval_loss": 0.10489310324192047,
+      "eval_runtime": 175.3848,
+      "eval_samples_per_second": 25.43,
+      "eval_steps_per_second": 3.182,
+      "step": 8800
+    },
+    {
+      "epoch": 1.5544041450777202,
+      "grad_norm": 9543.232421875,
+      "learning_rate": 1.8340945020200247e-05,
+      "loss": 0.107,
+      "step": 8850
+    },
+    {
+      "epoch": 1.5631860894001932,
+      "grad_norm": 7341.599609375,
+      "learning_rate": 1.8275074653082734e-05,
+      "loss": 0.0986,
+      "step": 8900
+    },
+    {
+      "epoch": 1.5631860894001932,
+      "eval_loss": 0.10493362694978714,
+      "eval_runtime": 175.8527,
+      "eval_samples_per_second": 25.362,
+      "eval_steps_per_second": 3.173,
+      "step": 8900
+    },
+    {
+      "epoch": 1.5719680337226662,
+      "grad_norm": 9900.4501953125,
+      "learning_rate": 1.820920428596522e-05,
+      "loss": 0.1101,
+      "step": 8950
+    },
+    {
+      "epoch": 1.580749978045139,
+      "grad_norm": 9512.732421875,
+      "learning_rate": 1.8143333918847707e-05,
+      "loss": 0.1014,
+      "step": 9000
+    },
+    {
+      "epoch": 1.580749978045139,
+      "eval_loss": 0.10463293641805649,
+      "eval_runtime": 175.3499,
+      "eval_samples_per_second": 25.435,
+      "eval_steps_per_second": 3.182,
+      "step": 9000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.384283676770304e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null