Training in progress, step 610200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +290 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86877e63b9882f80f5de38767511c0218b9d7d8ad2e970018cd432ec4f883f73
 size 1715561468

 version https://git-lfs.github.com/spec/v1
+oid sha256:feb488d07180dda4d36dc8c04e6962a0296f67d8778b893ecac1f7e5d993b765
 size 1715561468

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9be5c4741d46132f9e2d10fdf6df2d024627198757a09826b5c62403ce4a76d
 size 3431474364

 version https://git-lfs.github.com/spec/v1
+oid sha256:8797c75efc47e59ca589d0274b2c8ecd06e6d51e1b0e7370194d01a342ade252
 size 3431474364

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be9944304efdaf5a928fd38668b62ff08647c29d13187681fe2f6268779000cd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:55bc85299f5f6627f236f7c8b72ae391f14d02a771d86cdf81791100be66164c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:138e4c2f7aac4cc090560045c10c0e4885cc9c862db32dfb26b47ddb16407009
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:657663cc54c163af99554667642ae2a96b3249ce9d1e18733019516ba49032ee
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 45.19655559715462,
   "eval_steps": 1000,
-  "global_step": 603600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -25957,6 +25957,293 @@
       "learning_rate": 2.8758473550836634e-05,
       "loss": 0.4025,
       "step": 603600
     }
   ],
   "logging_steps": 200,
@@ -25976,7 +26263,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.633822324424704e+18,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 45.690752527143395,
   "eval_steps": 1000,
+  "global_step": 610200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.8758473550836634e-05,
       "loss": 0.4025,
       "step": 603600
+    },
+    {
+      "epoch": 45.21153126169974,
+      "grad_norm": 5.78782320022583,
+      "learning_rate": 2.8746844911583486e-05,
+      "loss": 0.3698,
+      "step": 603800
+    },
+    {
+      "epoch": 45.22650692624485,
+      "grad_norm": 3.0406911373138428,
+      "learning_rate": 2.87352154429745e-05,
+      "loss": 0.3934,
+      "step": 604000
+    },
+    {
+      "epoch": 45.22650692624485,
+      "eval_loss": 1.5707191228866577,
+      "eval_runtime": 1178.78,
+      "eval_samples_per_second": 8.402,
+      "eval_steps_per_second": 0.421,
+      "step": 604000
+    },
+    {
+      "epoch": 45.241482590789964,
+      "grad_norm": 18.79865264892578,
+      "learning_rate": 2.872358514758381e-05,
+      "loss": 0.4355,
+      "step": 604200
+    },
+    {
+      "epoch": 45.25645825533508,
+      "grad_norm": 5.7239508628845215,
+      "learning_rate": 2.8711954027985765e-05,
+      "loss": 0.3789,
+      "step": 604400
+    },
+    {
+      "epoch": 45.271433919880195,
+      "grad_norm": 5.77394437789917,
+      "learning_rate": 2.8700322086754894e-05,
+      "loss": 0.4129,
+      "step": 604600
+    },
+    {
+      "epoch": 45.28640958442531,
+      "grad_norm": 8.501045227050781,
+      "learning_rate": 2.868868932646589e-05,
+      "loss": 0.4196,
+      "step": 604800
+    },
+    {
+      "epoch": 45.301385248970426,
+      "grad_norm": 1.9924376010894775,
+      "learning_rate": 2.867705574969365e-05,
+      "loss": 0.404,
+      "step": 605000
+    },
+    {
+      "epoch": 45.301385248970426,
+      "eval_loss": 1.5671298503875732,
+      "eval_runtime": 1178.5157,
+      "eval_samples_per_second": 8.404,
+      "eval_steps_per_second": 0.421,
+      "step": 605000
+    },
+    {
+      "epoch": 45.31636091351554,
+      "grad_norm": 11.104948997497559,
+      "learning_rate": 2.8665421359013233e-05,
+      "loss": 0.4253,
+      "step": 605200
+    },
+    {
+      "epoch": 45.33133657806065,
+      "grad_norm": 5.054950714111328,
+      "learning_rate": 2.865378615699989e-05,
+      "loss": 0.4109,
+      "step": 605400
+    },
+    {
+      "epoch": 45.34631224260576,
+      "grad_norm": 5.942670822143555,
+      "learning_rate": 2.8642150146229042e-05,
+      "loss": 0.395,
+      "step": 605600
+    },
+    {
+      "epoch": 45.36128790715088,
+      "grad_norm": 1.7649027109146118,
+      "learning_rate": 2.8630513329276298e-05,
+      "loss": 0.42,
+      "step": 605800
+    },
+    {
+      "epoch": 45.37626357169599,
+      "grad_norm": 4.954268932342529,
+      "learning_rate": 2.861887570871744e-05,
+      "loss": 0.4292,
+      "step": 606000
+    },
+    {
+      "epoch": 45.37626357169599,
+      "eval_loss": 1.5571595430374146,
+      "eval_runtime": 1177.9473,
+      "eval_samples_per_second": 8.408,
+      "eval_steps_per_second": 0.421,
+      "step": 606000
+    },
+    {
+      "epoch": 45.391239236241105,
+      "grad_norm": 8.101126670837402,
+      "learning_rate": 2.8607237287128442e-05,
+      "loss": 0.3947,
+      "step": 606200
+    },
+    {
+      "epoch": 45.406214900786225,
+      "grad_norm": 19.263370513916016,
+      "learning_rate": 2.8595598067085422e-05,
+      "loss": 0.42,
+      "step": 606400
+    },
+    {
+      "epoch": 45.42119056533134,
+      "grad_norm": 20.436559677124023,
+      "learning_rate": 2.8583958051164705e-05,
+      "loss": 0.41,
+      "step": 606600
+    },
+    {
+      "epoch": 45.43616622987645,
+      "grad_norm": 5.639106273651123,
+      "learning_rate": 2.8572317241942792e-05,
+      "loss": 0.4125,
+      "step": 606800
+    },
+    {
+      "epoch": 45.45114189442157,
+      "grad_norm": 4.174552917480469,
+      "learning_rate": 2.8560675641996338e-05,
+      "loss": 0.4398,
+      "step": 607000
+    },
+    {
+      "epoch": 45.45114189442157,
+      "eval_loss": 1.550969123840332,
+      "eval_runtime": 1178.1228,
+      "eval_samples_per_second": 8.407,
+      "eval_steps_per_second": 0.421,
+      "step": 607000
+    },
+    {
+      "epoch": 45.46611755896668,
+      "grad_norm": 15.794562339782715,
+      "learning_rate": 2.854903325390218e-05,
+      "loss": 0.4158,
+      "step": 607200
+    },
+    {
+      "epoch": 45.48109322351179,
+      "grad_norm": 3.670137882232666,
+      "learning_rate": 2.853739008023736e-05,
+      "loss": 0.4066,
+      "step": 607400
+    },
+    {
+      "epoch": 45.49606888805691,
+      "grad_norm": 4.4699506759643555,
+      "learning_rate": 2.852574612357904e-05,
+      "loss": 0.435,
+      "step": 607600
+    },
+    {
+      "epoch": 45.51104455260202,
+      "grad_norm": 9.282175064086914,
+      "learning_rate": 2.8514101386504605e-05,
+      "loss": 0.4065,
+      "step": 607800
+    },
+    {
+      "epoch": 45.526020217147135,
+      "grad_norm": 8.399334907531738,
+      "learning_rate": 2.8502455871591577e-05,
+      "loss": 0.4054,
+      "step": 608000
+    },
+    {
+      "epoch": 45.526020217147135,
+      "eval_loss": 1.5575517416000366,
+      "eval_runtime": 1177.6967,
+      "eval_samples_per_second": 8.41,
+      "eval_steps_per_second": 0.421,
+      "step": 608000
+    },
+    {
+      "epoch": 45.54099588169225,
+      "grad_norm": 5.749093532562256,
+      "learning_rate": 2.8490809581417675e-05,
+      "loss": 0.3893,
+      "step": 608200
+    },
+    {
+      "epoch": 45.555971546237366,
+      "grad_norm": 3.4878060817718506,
+      "learning_rate": 2.847916251856078e-05,
+      "loss": 0.4196,
+      "step": 608400
+    },
+    {
+      "epoch": 45.57094721078248,
+      "grad_norm": 5.982976913452148,
+      "learning_rate": 2.846751468559894e-05,
+      "loss": 0.4163,
+      "step": 608600
+    },
+    {
+      "epoch": 45.58592287532759,
+      "grad_norm": 9.301414489746094,
+      "learning_rate": 2.845586608511038e-05,
+      "loss": 0.4154,
+      "step": 608800
+    },
+    {
+      "epoch": 45.60089853987271,
+      "grad_norm": 14.666509628295898,
+      "learning_rate": 2.8444216719673478e-05,
+      "loss": 0.4265,
+      "step": 609000
+    },
+    {
+      "epoch": 45.60089853987271,
+      "eval_loss": 1.547120213508606,
+      "eval_runtime": 1178.0235,
+      "eval_samples_per_second": 8.407,
+      "eval_steps_per_second": 0.421,
+      "step": 609000
+    },
+    {
+      "epoch": 45.61587420441782,
+      "grad_norm": 9.147184371948242,
+      "learning_rate": 2.8432566591866823e-05,
+      "loss": 0.4117,
+      "step": 609200
+    },
+    {
+      "epoch": 45.63084986896293,
+      "grad_norm": 9.692912101745605,
+      "learning_rate": 2.8420915704269114e-05,
+      "loss": 0.406,
+      "step": 609400
+    },
+    {
+      "epoch": 45.64582553350805,
+      "grad_norm": 8.107662200927734,
+      "learning_rate": 2.8409264059459274e-05,
+      "loss": 0.4404,
+      "step": 609600
+    },
+    {
+      "epoch": 45.660801198053164,
+      "grad_norm": 3.5461621284484863,
+      "learning_rate": 2.839761166001635e-05,
+      "loss": 0.4198,
+      "step": 609800
+    },
+    {
+      "epoch": 45.675776862598276,
+      "grad_norm": 10.266241073608398,
+      "learning_rate": 2.8385958508519588e-05,
+      "loss": 0.3968,
+      "step": 610000
+    },
+    {
+      "epoch": 45.675776862598276,
+      "eval_loss": 1.5469167232513428,
+      "eval_runtime": 1178.5726,
+      "eval_samples_per_second": 8.403,
+      "eval_steps_per_second": 0.421,
+      "step": 610000
+    },
+    {
+      "epoch": 45.690752527143395,
+      "grad_norm": 11.695104598999023,
+      "learning_rate": 2.8374304607548386e-05,
+      "loss": 0.4112,
+      "step": 610200
     }
   ],
   "logging_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 9.791518820806656e+18,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null