Training in progress, step 4500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:708bb2c9822b1d19cfc1f711a1426a731d98c1d2dfede98878aeb66a671c5d3d
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:8556a691c4ab5fb89b6e13fbc99580121d0e3f94363e6ac2a01dd331ba85836b
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3e460fa778d644588069da89534b6210f9e1b28688b004d2b112bcf63437271
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eaf3ec360621c1ce85b720dd55783852c2df291d2c2dee679c14211f9f7d6ad
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c62c604dba9a000f0608f1abd7fa224ff8ff313b4269759d1f9ec8d5f614e346
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8a5efc71021ffa065719e3167f9e1a963daf4640f03e0c3b7abc98600034804
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35a2f311d7dd68d3021f647c351f057c0b1803907e19da4973f0e7cb6dd34438
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:13e5f31b24159dd112a4c253836ceb74f5ca9e31a7bde4abe64305021c33f511
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.11094118654727936,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-4000",
-  "epoch": 0.7025555457978396,
   "eval_steps": 100,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -887,6 +887,116 @@
       "eval_samples_per_second": 25.506,
       "eval_steps_per_second": 3.191,
       "step": 4000
     }
   ],
   "logging_steps": 50,
@@ -906,7 +1016,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.948665249792e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.11007058620452881,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-4500",
+  "epoch": 0.7903749890225696,
   "eval_steps": 100,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.506,
       "eval_steps_per_second": 3.191,
       "step": 4000
+    },
+    {
+      "epoch": 0.7113374901203127,
+      "grad_norm": 10273.943359375,
+      "learning_rate": 2.4664500263481468e-05,
+      "loss": 0.1122,
+      "step": 4050
+    },
+    {
+      "epoch": 0.7201194344427856,
+      "grad_norm": 9615.3408203125,
+      "learning_rate": 2.4598629896363958e-05,
+      "loss": 0.1178,
+      "step": 4100
+    },
+    {
+      "epoch": 0.7201194344427856,
+      "eval_loss": 0.11066293716430664,
+      "eval_runtime": 176.4782,
+      "eval_samples_per_second": 25.272,
+      "eval_steps_per_second": 3.162,
+      "step": 4100
+    },
+    {
+      "epoch": 0.7289013787652586,
+      "grad_norm": 9801.9638671875,
+      "learning_rate": 2.4532759529246444e-05,
+      "loss": 0.1235,
+      "step": 4150
+    },
+    {
+      "epoch": 0.7376833230877317,
+      "grad_norm": 14902.2216796875,
+      "learning_rate": 2.446688916212893e-05,
+      "loss": 0.1178,
+      "step": 4200
+    },
+    {
+      "epoch": 0.7376833230877317,
+      "eval_loss": 0.1100853979587555,
+      "eval_runtime": 176.5072,
+      "eval_samples_per_second": 25.268,
+      "eval_steps_per_second": 3.161,
+      "step": 4200
+    },
+    {
+      "epoch": 0.7464652674102046,
+      "grad_norm": 11338.7451171875,
+      "learning_rate": 2.4401018795011417e-05,
+      "loss": 0.1139,
+      "step": 4250
+    },
+    {
+      "epoch": 0.7552472117326776,
+      "grad_norm": 27772.08203125,
+      "learning_rate": 2.4335148427893904e-05,
+      "loss": 0.1165,
+      "step": 4300
+    },
+    {
+      "epoch": 0.7552472117326776,
+      "eval_loss": 0.11026333272457123,
+      "eval_runtime": 176.5703,
+      "eval_samples_per_second": 25.259,
+      "eval_steps_per_second": 3.16,
+      "step": 4300
+    },
+    {
+      "epoch": 0.7640291560551506,
+      "grad_norm": 15169.2919921875,
+      "learning_rate": 2.4269278060776394e-05,
+      "loss": 0.1223,
+      "step": 4350
+    },
+    {
+      "epoch": 0.7728111003776236,
+      "grad_norm": 9459.4482421875,
+      "learning_rate": 2.4203407693658877e-05,
+      "loss": 0.1139,
+      "step": 4400
+    },
+    {
+      "epoch": 0.7728111003776236,
+      "eval_loss": 0.11010286957025528,
+      "eval_runtime": 176.8628,
+      "eval_samples_per_second": 25.217,
+      "eval_steps_per_second": 3.155,
+      "step": 4400
+    },
+    {
+      "epoch": 0.7815930447000966,
+      "grad_norm": 10122.501953125,
+      "learning_rate": 2.4137537326541367e-05,
+      "loss": 0.1143,
+      "step": 4450
+    },
+    {
+      "epoch": 0.7903749890225696,
+      "grad_norm": 8584.2705078125,
+      "learning_rate": 2.4071666959423854e-05,
+      "loss": 0.1104,
+      "step": 4500
+    },
+    {
+      "epoch": 0.7903749890225696,
+      "eval_loss": 0.11007058620452881,
+      "eval_runtime": 176.6787,
+      "eval_samples_per_second": 25.244,
+      "eval_steps_per_second": 3.158,
+      "step": 4500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.192248406016e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null