Training in progress, step 8000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d44daa9f54039c6a7c112e61fc03e79ec195dfbc876d5e9ced3f4491bafe05b5
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:960ccc4c98033660ea4872dea982bb6f605830e2504ff79a8db1bf16ebe24d44
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5c2bc227bc3f6d19424b7e3fb6e1f890007183e4569ce0175d186b2f545cd1d
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef06fbfc0a013966537fe78757ac6ba4b087e8004e2b33a3accdd74d1b793632
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bd1a1233fd369cd2fe83300436739906b8c0f2d7a7cea881535c02b97b11121
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7798b130c38fd371f598d9d4ee07d9b5d45bacb7dac3afcdc6fdc2d93c9e53c0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feab8bd3d670dd033dd040441a4a555712fd3da457861c798e89356180e76612
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8838af9443e4cc6d8bbc7ede7a551a909b84e3a919f05d6b0080ae477122847b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.1062735840678215,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-7500",
-  "epoch": 1.3172916483709494,
   "eval_steps": 100,
-  "global_step": 7500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1657,6 +1657,116 @@
       "eval_samples_per_second": 25.29,
       "eval_steps_per_second": 3.164,
       "step": 7500
     }
   ],
   "logging_steps": 50,
@@ -1676,7 +1786,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.653534208098304e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.10532288253307343,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-8000",
+  "epoch": 1.4051110915956793,
   "eval_steps": 100,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.29,
       "eval_steps_per_second": 3.164,
       "step": 7500
+    },
+    {
+      "epoch": 1.3260735926934224,
+      "grad_norm": 9924.986328125,
+      "learning_rate": 2.005357456525558e-05,
+      "loss": 0.1018,
+      "step": 7550
+    },
+    {
+      "epoch": 1.3348555370158954,
+      "grad_norm": 14466.806640625,
+      "learning_rate": 1.9987704198138065e-05,
+      "loss": 0.1065,
+      "step": 7600
+    },
+    {
+      "epoch": 1.3348555370158954,
+      "eval_loss": 0.105972521007061,
+      "eval_runtime": 176.3022,
+      "eval_samples_per_second": 25.297,
+      "eval_steps_per_second": 3.165,
+      "step": 7600
+    },
+    {
+      "epoch": 1.3436374813383682,
+      "grad_norm": 13860.5234375,
+      "learning_rate": 1.992183383102055e-05,
+      "loss": 0.1096,
+      "step": 7650
+    },
+    {
+      "epoch": 1.3524194256608413,
+      "grad_norm": 9354.7333984375,
+      "learning_rate": 1.985596346390304e-05,
+      "loss": 0.1014,
+      "step": 7700
+    },
+    {
+      "epoch": 1.3524194256608413,
+      "eval_loss": 0.10594488680362701,
+      "eval_runtime": 176.4418,
+      "eval_samples_per_second": 25.277,
+      "eval_steps_per_second": 3.163,
+      "step": 7700
+    },
+    {
+      "epoch": 1.3612013699833143,
+      "grad_norm": 9179.8173828125,
+      "learning_rate": 1.9790093096785525e-05,
+      "loss": 0.0998,
+      "step": 7750
+    },
+    {
+      "epoch": 1.3699833143057873,
+      "grad_norm": 6730.38134765625,
+      "learning_rate": 1.972422272966801e-05,
+      "loss": 0.1029,
+      "step": 7800
+    },
+    {
+      "epoch": 1.3699833143057873,
+      "eval_loss": 0.10599970072507858,
+      "eval_runtime": 176.3495,
+      "eval_samples_per_second": 25.291,
+      "eval_steps_per_second": 3.164,
+      "step": 7800
+    },
+    {
+      "epoch": 1.3787652586282602,
+      "grad_norm": 9362.3427734375,
+      "learning_rate": 1.96583523625505e-05,
+      "loss": 0.1092,
+      "step": 7850
+    },
+    {
+      "epoch": 1.3875472029507332,
+      "grad_norm": 10184.53125,
+      "learning_rate": 1.9592481995432988e-05,
+      "loss": 0.1058,
+      "step": 7900
+    },
+    {
+      "epoch": 1.3875472029507332,
+      "eval_loss": 0.1059907078742981,
+      "eval_runtime": 176.2866,
+      "eval_samples_per_second": 25.3,
+      "eval_steps_per_second": 3.165,
+      "step": 7900
+    },
+    {
+      "epoch": 1.3963291472732062,
+      "grad_norm": 11201.806640625,
+      "learning_rate": 1.9526611628315475e-05,
+      "loss": 0.1143,
+      "step": 7950
+    },
+    {
+      "epoch": 1.4051110915956793,
+      "grad_norm": 6871.8662109375,
+      "learning_rate": 1.946074126119796e-05,
+      "loss": 0.1009,
+      "step": 8000
+    },
+    {
+      "epoch": 1.4051110915956793,
+      "eval_loss": 0.10532288253307343,
+      "eval_runtime": 176.6701,
+      "eval_samples_per_second": 25.245,
+      "eval_steps_per_second": 3.158,
+      "step": 8000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.897117364322304e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null