Training in progress, step 370, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3da1bc8e78d62a43f5fc08c54b7da66788aab90b181d1cce0dc0e44a0c7ead64
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:0aa6ce92e30f158e6ce454a1b7abd904940338fe632efee699ee6f467e3113e3
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa9f5ab26f7ae0259dbc2872ec134c30afd17bf2cb254c9c4159232de93a6a4c
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:d94ce2715dfd2b055f70ce7e6e940b21b7bfc9169091edc0a1e70a4b18f16713
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63df2ca6f0708e85ea13f7c75a1ee020a6142b982449338d6d6d3a95d80f4533
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:af46fe813686634b4c33424def7b0536c07d9ea633d05e1dc01d052114a4c31c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89431c5d37cecda04572e69a3e5ff0abc04241564413b5510718a518a469399c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:190428be784d5032d58b9493c0079ee4726eb5d4046a38ab5f17d6b642026e37
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.018574714660645,
-  "best_model_checkpoint": "miner_id_24/checkpoint-360",
-  "epoch": 0.01627081873855958,
   "eval_steps": 5,
-  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3111,6 +3111,92 @@
       "eval_samples_per_second": 52.838,
       "eval_steps_per_second": 26.422,
       "step": 360
     }
   ],
   "logging_steps": 1,
@@ -3139,7 +3225,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3782423347200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.018465042114258,
+  "best_model_checkpoint": "miner_id_24/checkpoint-370",
+  "epoch": 0.016722785925741793,
   "eval_steps": 5,
+  "global_step": 370,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.838,
       "eval_steps_per_second": 26.422,
       "step": 360
+    },
+    {
+      "epoch": 0.016316015457277802,
+      "grad_norm": 0.47562116384506226,
+      "learning_rate": 3.7151040211187635e-05,
+      "loss": 44.0571,
+      "step": 361
+    },
+    {
+      "epoch": 0.016361212175996023,
+      "grad_norm": 0.439248651266098,
+      "learning_rate": 3.665364408282305e-05,
+      "loss": 44.0292,
+      "step": 362
+    },
+    {
+      "epoch": 0.016406408894714244,
+      "grad_norm": 0.5355764031410217,
+      "learning_rate": 3.615885187503946e-05,
+      "loss": 44.1601,
+      "step": 363
+    },
+    {
+      "epoch": 0.016451605613432466,
+      "grad_norm": 0.5143962502479553,
+      "learning_rate": 3.566668392680662e-05,
+      "loss": 44.0829,
+      "step": 364
+    },
+    {
+      "epoch": 0.016496802332150687,
+      "grad_norm": 0.5054187178611755,
+      "learning_rate": 3.517716046922118e-05,
+      "loss": 44.144,
+      "step": 365
+    },
+    {
+      "epoch": 0.016496802332150687,
+      "eval_loss": 11.018515586853027,
+      "eval_runtime": 176.1346,
+      "eval_samples_per_second": 52.897,
+      "eval_steps_per_second": 26.451,
+      "step": 365
+    },
+    {
+      "epoch": 0.016541999050868908,
+      "grad_norm": 0.44439616799354553,
+      "learning_rate": 3.469030162467513e-05,
+      "loss": 44.0321,
+      "step": 366
+    },
+    {
+      "epoch": 0.01658719576958713,
+      "grad_norm": 0.5372561812400818,
+      "learning_rate": 3.4206127406028745e-05,
+      "loss": 44.0923,
+      "step": 367
+    },
+    {
+      "epoch": 0.01663239248830535,
+      "grad_norm": 0.48407748341560364,
+      "learning_rate": 3.372465771578771e-05,
+      "loss": 44.1126,
+      "step": 368
+    },
+    {
+      "epoch": 0.01667758920702357,
+      "grad_norm": 0.4682793915271759,
+      "learning_rate": 3.32459123452852e-05,
+      "loss": 44.0227,
+      "step": 369
+    },
+    {
+      "epoch": 0.016722785925741793,
+      "grad_norm": 0.4110027551651001,
+      "learning_rate": 3.276991097386831e-05,
+      "loss": 44.0354,
+      "step": 370
+    },
+    {
+      "epoch": 0.016722785925741793,
+      "eval_loss": 11.018465042114258,
+      "eval_runtime": 176.3082,
+      "eval_samples_per_second": 52.845,
+      "eval_steps_per_second": 26.425,
+      "step": 370
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3887490662400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null