Uploaded checkpoint-1500

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +361 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8df485eb75151b4fd00a3914576c95caa2a4214411c302f7113d6a4831144454
 size 2836579040

 version https://git-lfs.github.com/spec/v1
+oid sha256:2eb7565fe5e983e5fa76bb59399a963d5997d745de11bf0c9e926e6317da303b
 size 2836579040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52e9570865255edc3f55eef0b128972d229c4c97ad97fc3a60d5756a99aa199f
 size 5673376169

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd1ef961d7209c17e4f79648dbfecc419f3c64f3f588c840a8310216cf480c49
 size 5673376169

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c56c0d986fde7ce77bd50cb0ad4046e46bf3f78895b338e63f9217f7a569a8e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e5fc0f601c838403e67acb49c7b54f73c6cd7b1fce2cc26fd3c09d0ed6bb5bf
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:272d676176cdbddc5daf2f8ea3e18426236c64ba24db10d25daf8b1d8d4e924b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:20b321cd31ef6e3256cc5af88ae37055d00d598e07ad5ef196a94be1f3dedb5a
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -723,6 +723,364 @@
       "eval_samples_per_second": 15.315,
       "eval_steps_per_second": 15.315,
       "step": 1000
     }
   ],
   "logging_steps": 10,
@@ -730,7 +1088,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 1.613922041856e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.075,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.315,
       "eval_steps_per_second": 15.315,
       "step": 1000
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 83.5,
+      "learning_rate": 6.6e-07,
+      "loss": 2.9056,
+      "step": 1010
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 83.0,
+      "learning_rate": 6.533333333333333e-07,
+      "loss": 2.8741,
+      "step": 1020
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 83.5,
+      "learning_rate": 6.466666666666666e-07,
+      "loss": 2.8856,
+      "step": 1030
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 83.5,
+      "learning_rate": 6.4e-07,
+      "loss": 2.8256,
+      "step": 1040
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 82.5,
+      "learning_rate": 6.333333333333332e-07,
+      "loss": 2.8308,
+      "step": 1050
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 84.0,
+      "learning_rate": 6.266666666666667e-07,
+      "loss": 2.8299,
+      "step": 1060
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 83.0,
+      "learning_rate": 6.2e-07,
+      "loss": 2.7982,
+      "step": 1070
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 82.5,
+      "learning_rate": 6.133333333333332e-07,
+      "loss": 2.7887,
+      "step": 1080
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 83.0,
+      "learning_rate": 6.066666666666666e-07,
+      "loss": 2.7436,
+      "step": 1090
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 83.0,
+      "learning_rate": 6e-07,
+      "loss": 2.7838,
+      "step": 1100
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.0,
+      "learning_rate": 5.933333333333334e-07,
+      "loss": 2.7444,
+      "step": 1110
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 83.0,
+      "learning_rate": 5.866666666666666e-07,
+      "loss": 2.7411,
+      "step": 1120
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.5,
+      "learning_rate": 5.8e-07,
+      "loss": 2.7418,
+      "step": 1130
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 81.5,
+      "learning_rate": 5.733333333333334e-07,
+      "loss": 2.7021,
+      "step": 1140
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.0,
+      "learning_rate": 5.666666666666666e-07,
+      "loss": 2.7303,
+      "step": 1150
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 83.0,
+      "learning_rate": 5.6e-07,
+      "loss": 2.7109,
+      "step": 1160
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 83.5,
+      "learning_rate": 5.533333333333334e-07,
+      "loss": 2.7083,
+      "step": 1170
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 83.0,
+      "learning_rate": 5.466666666666666e-07,
+      "loss": 2.7078,
+      "step": 1180
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.5,
+      "learning_rate": 5.4e-07,
+      "loss": 2.727,
+      "step": 1190
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 81.5,
+      "learning_rate": 5.333333333333333e-07,
+      "loss": 2.6749,
+      "step": 1200
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 83.5,
+      "learning_rate": 5.266666666666666e-07,
+      "loss": 2.7182,
+      "step": 1210
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 83.5,
+      "learning_rate": 5.2e-07,
+      "loss": 2.6814,
+      "step": 1220
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.0,
+      "learning_rate": 5.133333333333333e-07,
+      "loss": 2.7148,
+      "step": 1230
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.5,
+      "learning_rate": 5.066666666666667e-07,
+      "loss": 2.6929,
+      "step": 1240
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.0,
+      "learning_rate": 5e-07,
+      "loss": 2.664,
+      "step": 1250
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.0,
+      "learning_rate": 4.933333333333333e-07,
+      "loss": 2.6901,
+      "step": 1260
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 82.0,
+      "learning_rate": 4.866666666666666e-07,
+      "loss": 2.6883,
+      "step": 1270
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 81.5,
+      "learning_rate": 4.8e-07,
+      "loss": 2.6782,
+      "step": 1280
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 81.0,
+      "learning_rate": 4.733333333333333e-07,
+      "loss": 2.6456,
+      "step": 1290
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.0,
+      "learning_rate": 4.6666666666666666e-07,
+      "loss": 2.648,
+      "step": 1300
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.5,
+      "learning_rate": 4.6e-07,
+      "loss": 2.6704,
+      "step": 1310
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.5,
+      "learning_rate": 4.5333333333333326e-07,
+      "loss": 2.7021,
+      "step": 1320
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.0,
+      "learning_rate": 4.4666666666666664e-07,
+      "loss": 2.6636,
+      "step": 1330
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.5,
+      "learning_rate": 4.3999999999999997e-07,
+      "loss": 2.6572,
+      "step": 1340
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.5,
+      "learning_rate": 4.3333333333333335e-07,
+      "loss": 2.6371,
+      "step": 1350
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.5,
+      "learning_rate": 4.266666666666667e-07,
+      "loss": 2.5982,
+      "step": 1360
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.5,
+      "learning_rate": 4.1999999999999995e-07,
+      "loss": 2.6661,
+      "step": 1370
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.5,
+      "learning_rate": 4.1333333333333333e-07,
+      "loss": 2.6486,
+      "step": 1380
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.0,
+      "learning_rate": 4.0666666666666666e-07,
+      "loss": 2.6539,
+      "step": 1390
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.0,
+      "learning_rate": 4e-07,
+      "loss": 2.6366,
+      "step": 1400
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.0,
+      "learning_rate": 3.933333333333333e-07,
+      "loss": 2.6239,
+      "step": 1410
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.5,
+      "learning_rate": 3.8666666666666664e-07,
+      "loss": 2.6454,
+      "step": 1420
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.0,
+      "learning_rate": 3.7999999999999996e-07,
+      "loss": 2.6683,
+      "step": 1430
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.5,
+      "learning_rate": 3.7333333333333334e-07,
+      "loss": 2.6349,
+      "step": 1440
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.0,
+      "learning_rate": 3.666666666666666e-07,
+      "loss": 2.6492,
+      "step": 1450
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 83.0,
+      "learning_rate": 3.6e-07,
+      "loss": 2.6264,
+      "step": 1460
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.0,
+      "learning_rate": 3.533333333333333e-07,
+      "loss": 2.6021,
+      "step": 1470
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 81.5,
+      "learning_rate": 3.4666666666666665e-07,
+      "loss": 2.6382,
+      "step": 1480
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 82.0,
+      "learning_rate": 3.4000000000000003e-07,
+      "loss": 2.6441,
+      "step": 1490
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 83.0,
+      "learning_rate": 3.333333333333333e-07,
+      "loss": 2.6279,
+      "step": 1500
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.6444902420043945,
+      "eval_runtime": 65.2696,
+      "eval_samples_per_second": 15.321,
+      "eval_steps_per_second": 15.321,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 2.420883062784e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null