Training in progress, step 610400

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +3 -290
model.safetensors +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feb488d07180dda4d36dc8c04e6962a0296f67d8778b893ecac1f7e5d993b765
 size 1715561468

 version https://git-lfs.github.com/spec/v1
+oid sha256:86877e63b9882f80f5de38767511c0218b9d7d8ad2e970018cd432ec4f883f73
 size 1715561468

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8797c75efc47e59ca589d0274b2c8ecd06e6d51e1b0e7370194d01a342ade252
 size 3431474364

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9be5c4741d46132f9e2d10fdf6df2d024627198757a09826b5c62403ce4a76d
 size 3431474364

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55bc85299f5f6627f236f7c8b72ae391f14d02a771d86cdf81791100be66164c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:be9944304efdaf5a928fd38668b62ff08647c29d13187681fe2f6268779000cd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:657663cc54c163af99554667642ae2a96b3249ce9d1e18733019516ba49032ee
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:138e4c2f7aac4cc090560045c10c0e4885cc9c862db32dfb26b47ddb16407009
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 45.690752527143395,
   "eval_steps": 1000,
-  "global_step": 610200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -25957,293 +25957,6 @@
       "learning_rate": 2.8758473550836634e-05,
       "loss": 0.4025,
       "step": 603600
-    },
-    {
-      "epoch": 45.21153126169974,
-      "grad_norm": 5.78782320022583,
-      "learning_rate": 2.8746844911583486e-05,
-      "loss": 0.3698,
-      "step": 603800
-    },
-    {
-      "epoch": 45.22650692624485,
-      "grad_norm": 3.0406911373138428,
-      "learning_rate": 2.87352154429745e-05,
-      "loss": 0.3934,
-      "step": 604000
-    },
-    {
-      "epoch": 45.22650692624485,
-      "eval_loss": 1.5707191228866577,
-      "eval_runtime": 1178.78,
-      "eval_samples_per_second": 8.402,
-      "eval_steps_per_second": 0.421,
-      "step": 604000
-    },
-    {
-      "epoch": 45.241482590789964,
-      "grad_norm": 18.79865264892578,
-      "learning_rate": 2.872358514758381e-05,
-      "loss": 0.4355,
-      "step": 604200
-    },
-    {
-      "epoch": 45.25645825533508,
-      "grad_norm": 5.7239508628845215,
-      "learning_rate": 2.8711954027985765e-05,
-      "loss": 0.3789,
-      "step": 604400
-    },
-    {
-      "epoch": 45.271433919880195,
-      "grad_norm": 5.77394437789917,
-      "learning_rate": 2.8700322086754894e-05,
-      "loss": 0.4129,
-      "step": 604600
-    },
-    {
-      "epoch": 45.28640958442531,
-      "grad_norm": 8.501045227050781,
-      "learning_rate": 2.868868932646589e-05,
-      "loss": 0.4196,
-      "step": 604800
-    },
-    {
-      "epoch": 45.301385248970426,
-      "grad_norm": 1.9924376010894775,
-      "learning_rate": 2.867705574969365e-05,
-      "loss": 0.404,
-      "step": 605000
-    },
-    {
-      "epoch": 45.301385248970426,
-      "eval_loss": 1.5671298503875732,
-      "eval_runtime": 1178.5157,
-      "eval_samples_per_second": 8.404,
-      "eval_steps_per_second": 0.421,
-      "step": 605000
-    },
-    {
-      "epoch": 45.31636091351554,
-      "grad_norm": 11.104948997497559,
-      "learning_rate": 2.8665421359013233e-05,
-      "loss": 0.4253,
-      "step": 605200
-    },
-    {
-      "epoch": 45.33133657806065,
-      "grad_norm": 5.054950714111328,
-      "learning_rate": 2.865378615699989e-05,
-      "loss": 0.4109,
-      "step": 605400
-    },
-    {
-      "epoch": 45.34631224260576,
-      "grad_norm": 5.942670822143555,
-      "learning_rate": 2.8642150146229042e-05,
-      "loss": 0.395,
-      "step": 605600
-    },
-    {
-      "epoch": 45.36128790715088,
-      "grad_norm": 1.7649027109146118,
-      "learning_rate": 2.8630513329276298e-05,
-      "loss": 0.42,
-      "step": 605800
-    },
-    {
-      "epoch": 45.37626357169599,
-      "grad_norm": 4.954268932342529,
-      "learning_rate": 2.861887570871744e-05,
-      "loss": 0.4292,
-      "step": 606000
-    },
-    {
-      "epoch": 45.37626357169599,
-      "eval_loss": 1.5571595430374146,
-      "eval_runtime": 1177.9473,
-      "eval_samples_per_second": 8.408,
-      "eval_steps_per_second": 0.421,
-      "step": 606000
-    },
-    {
-      "epoch": 45.391239236241105,
-      "grad_norm": 8.101126670837402,
-      "learning_rate": 2.8607237287128442e-05,
-      "loss": 0.3947,
-      "step": 606200
-    },
-    {
-      "epoch": 45.406214900786225,
-      "grad_norm": 19.263370513916016,
-      "learning_rate": 2.8595598067085422e-05,
-      "loss": 0.42,
-      "step": 606400
-    },
-    {
-      "epoch": 45.42119056533134,
-      "grad_norm": 20.436559677124023,
-      "learning_rate": 2.8583958051164705e-05,
-      "loss": 0.41,
-      "step": 606600
-    },
-    {
-      "epoch": 45.43616622987645,
-      "grad_norm": 5.639106273651123,
-      "learning_rate": 2.8572317241942792e-05,
-      "loss": 0.4125,
-      "step": 606800
-    },
-    {
-      "epoch": 45.45114189442157,
-      "grad_norm": 4.174552917480469,
-      "learning_rate": 2.8560675641996338e-05,
-      "loss": 0.4398,
-      "step": 607000
-    },
-    {
-      "epoch": 45.45114189442157,
-      "eval_loss": 1.550969123840332,
-      "eval_runtime": 1178.1228,
-      "eval_samples_per_second": 8.407,
-      "eval_steps_per_second": 0.421,
-      "step": 607000
-    },
-    {
-      "epoch": 45.46611755896668,
-      "grad_norm": 15.794562339782715,
-      "learning_rate": 2.854903325390218e-05,
-      "loss": 0.4158,
-      "step": 607200
-    },
-    {
-      "epoch": 45.48109322351179,
-      "grad_norm": 3.670137882232666,
-      "learning_rate": 2.853739008023736e-05,
-      "loss": 0.4066,
-      "step": 607400
-    },
-    {
-      "epoch": 45.49606888805691,
-      "grad_norm": 4.4699506759643555,
-      "learning_rate": 2.852574612357904e-05,
-      "loss": 0.435,
-      "step": 607600
-    },
-    {
-      "epoch": 45.51104455260202,
-      "grad_norm": 9.282175064086914,
-      "learning_rate": 2.8514101386504605e-05,
-      "loss": 0.4065,
-      "step": 607800
-    },
-    {
-      "epoch": 45.526020217147135,
-      "grad_norm": 8.399334907531738,
-      "learning_rate": 2.8502455871591577e-05,
-      "loss": 0.4054,
-      "step": 608000
-    },
-    {
-      "epoch": 45.526020217147135,
-      "eval_loss": 1.5575517416000366,
-      "eval_runtime": 1177.6967,
-      "eval_samples_per_second": 8.41,
-      "eval_steps_per_second": 0.421,
-      "step": 608000
-    },
-    {
-      "epoch": 45.54099588169225,
-      "grad_norm": 5.749093532562256,
-      "learning_rate": 2.8490809581417675e-05,
-      "loss": 0.3893,
-      "step": 608200
-    },
-    {
-      "epoch": 45.555971546237366,
-      "grad_norm": 3.4878060817718506,
-      "learning_rate": 2.847916251856078e-05,
-      "loss": 0.4196,
-      "step": 608400
-    },
-    {
-      "epoch": 45.57094721078248,
-      "grad_norm": 5.982976913452148,
-      "learning_rate": 2.846751468559894e-05,
-      "loss": 0.4163,
-      "step": 608600
-    },
-    {
-      "epoch": 45.58592287532759,
-      "grad_norm": 9.301414489746094,
-      "learning_rate": 2.845586608511038e-05,
-      "loss": 0.4154,
-      "step": 608800
-    },
-    {
-      "epoch": 45.60089853987271,
-      "grad_norm": 14.666509628295898,
-      "learning_rate": 2.8444216719673478e-05,
-      "loss": 0.4265,
-      "step": 609000
-    },
-    {
-      "epoch": 45.60089853987271,
-      "eval_loss": 1.547120213508606,
-      "eval_runtime": 1178.0235,
-      "eval_samples_per_second": 8.407,
-      "eval_steps_per_second": 0.421,
-      "step": 609000
-    },
-    {
-      "epoch": 45.61587420441782,
-      "grad_norm": 9.147184371948242,
-      "learning_rate": 2.8432566591866823e-05,
-      "loss": 0.4117,
-      "step": 609200
-    },
-    {
-      "epoch": 45.63084986896293,
-      "grad_norm": 9.692912101745605,
-      "learning_rate": 2.8420915704269114e-05,
-      "loss": 0.406,
-      "step": 609400
-    },
-    {
-      "epoch": 45.64582553350805,
-      "grad_norm": 8.107662200927734,
-      "learning_rate": 2.8409264059459274e-05,
-      "loss": 0.4404,
-      "step": 609600
-    },
-    {
-      "epoch": 45.660801198053164,
-      "grad_norm": 3.5461621284484863,
-      "learning_rate": 2.839761166001635e-05,
-      "loss": 0.4198,
-      "step": 609800
-    },
-    {
-      "epoch": 45.675776862598276,
-      "grad_norm": 10.266241073608398,
-      "learning_rate": 2.8385958508519588e-05,
-      "loss": 0.3968,
-      "step": 610000
-    },
-    {
-      "epoch": 45.675776862598276,
-      "eval_loss": 1.5469167232513428,
-      "eval_runtime": 1178.5726,
-      "eval_samples_per_second": 8.403,
-      "eval_steps_per_second": 0.421,
-      "step": 610000
-    },
-    {
-      "epoch": 45.690752527143395,
-      "grad_norm": 11.695104598999023,
-      "learning_rate": 2.8374304607548386e-05,
-      "loss": 0.4112,
-      "step": 610200
     }
   ],
   "logging_steps": 200,
@@ -26263,7 +25976,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.791518820806656e+18,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 45.19655559715462,
   "eval_steps": 1000,
+  "global_step": 603600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.8758473550836634e-05,
       "loss": 0.4025,
       "step": 603600
     }
   ],
   "logging_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 9.633822324424704e+18,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feb488d07180dda4d36dc8c04e6962a0296f67d8778b893ecac1f7e5d993b765
 size 1715561468

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c45dfc162774ddbec26ef765bf4bd84758c88e2ec06c30ee07bdd1b393ba98c
 size 1715561468