Uploaded checkpoint-2000

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +361 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2eb7565fe5e983e5fa76bb59399a963d5997d745de11bf0c9e926e6317da303b
 size 2836579040

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2f99fe2d99e7419421748b4b1fcbe52cbe665af9edf186a7999b75f664f3d08
 size 2836579040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd1ef961d7209c17e4f79648dbfecc419f3c64f3f588c840a8310216cf480c49
 size 5673376169

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa81a78b3ca5f995f8e9e045e4f349d57d00142111e6bb2b928b3a3a20f5143c
 size 5673376169

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e5fc0f601c838403e67acb49c7b54f73c6cd7b1fce2cc26fd3c09d0ed6bb5bf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9de204c0067b7b80c3b397a5621bcbaed6c4c0e59bfc1ac45b0bfde553b2fcfa
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20b321cd31ef6e3256cc5af88ae37055d00d598e07ad5ef196a94be1f3dedb5a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a2c20000a5dc5c87aafd6e26e31a23a9d4439fd01b8e50c10cd7c72c97ee11c
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.075,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1081,6 +1081,364 @@
       "eval_samples_per_second": 15.321,
       "eval_steps_per_second": 15.321,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1088,7 +1446,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 2.420883062784e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.321,
       "eval_steps_per_second": 15.321,
       "step": 1500
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.5,
+      "learning_rate": 3.2666666666666663e-07,
+      "loss": 2.625,
+      "step": 1510
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.0,
+      "learning_rate": 3.2e-07,
+      "loss": 2.6214,
+      "step": 1520
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.0,
+      "learning_rate": 3.1333333333333333e-07,
+      "loss": 2.6139,
+      "step": 1530
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 81.5,
+      "learning_rate": 3.066666666666666e-07,
+      "loss": 2.6246,
+      "step": 1540
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 81.0,
+      "learning_rate": 3e-07,
+      "loss": 2.6358,
+      "step": 1550
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 81.5,
+      "learning_rate": 2.933333333333333e-07,
+      "loss": 2.6655,
+      "step": 1560
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 81.5,
+      "learning_rate": 2.866666666666667e-07,
+      "loss": 2.6385,
+      "step": 1570
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 81.0,
+      "learning_rate": 2.8e-07,
+      "loss": 2.6439,
+      "step": 1580
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 84.0,
+      "learning_rate": 2.733333333333333e-07,
+      "loss": 2.6176,
+      "step": 1590
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.5,
+      "learning_rate": 2.6666666666666667e-07,
+      "loss": 2.622,
+      "step": 1600
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 81.0,
+      "learning_rate": 2.6e-07,
+      "loss": 2.6515,
+      "step": 1610
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.0,
+      "learning_rate": 2.533333333333333e-07,
+      "loss": 2.6008,
+      "step": 1620
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.5,
+      "learning_rate": 2.4666666666666665e-07,
+      "loss": 2.6303,
+      "step": 1630
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.0,
+      "learning_rate": 2.4e-07,
+      "loss": 2.6118,
+      "step": 1640
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.5,
+      "learning_rate": 2.3333333333333333e-07,
+      "loss": 2.6484,
+      "step": 1650
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 82.0,
+      "learning_rate": 2.2666666666666663e-07,
+      "loss": 2.6255,
+      "step": 1660
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 83.5,
+      "learning_rate": 2.1999999999999998e-07,
+      "loss": 2.6415,
+      "step": 1670
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 81.0,
+      "learning_rate": 2.1333333333333334e-07,
+      "loss": 2.6121,
+      "step": 1680
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 83.0,
+      "learning_rate": 2.0666666666666666e-07,
+      "loss": 2.6606,
+      "step": 1690
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.5,
+      "learning_rate": 2e-07,
+      "loss": 2.6721,
+      "step": 1700
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.0,
+      "learning_rate": 1.9333333333333332e-07,
+      "loss": 2.6079,
+      "step": 1710
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.0,
+      "learning_rate": 1.8666666666666667e-07,
+      "loss": 2.6576,
+      "step": 1720
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 83.5,
+      "learning_rate": 1.8e-07,
+      "loss": 2.6275,
+      "step": 1730
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.0,
+      "learning_rate": 1.7333333333333332e-07,
+      "loss": 2.6288,
+      "step": 1740
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 83.0,
+      "learning_rate": 1.6666666666666665e-07,
+      "loss": 2.6439,
+      "step": 1750
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.5,
+      "learning_rate": 1.6e-07,
+      "loss": 2.609,
+      "step": 1760
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 83.5,
+      "learning_rate": 1.533333333333333e-07,
+      "loss": 2.6129,
+      "step": 1770
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 83.5,
+      "learning_rate": 1.4666666666666666e-07,
+      "loss": 2.6692,
+      "step": 1780
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.0,
+      "learning_rate": 1.4e-07,
+      "loss": 2.6199,
+      "step": 1790
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.5,
+      "learning_rate": 1.3333333333333334e-07,
+      "loss": 2.6233,
+      "step": 1800
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.0,
+      "learning_rate": 1.2666666666666666e-07,
+      "loss": 2.6557,
+      "step": 1810
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.0,
+      "learning_rate": 1.2e-07,
+      "loss": 2.6568,
+      "step": 1820
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 83.0,
+      "learning_rate": 1.1333333333333332e-07,
+      "loss": 2.6395,
+      "step": 1830
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.0,
+      "learning_rate": 1.0666666666666667e-07,
+      "loss": 2.6145,
+      "step": 1840
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 83.0,
+      "learning_rate": 1e-07,
+      "loss": 2.6939,
+      "step": 1850
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 81.5,
+      "learning_rate": 9.333333333333334e-08,
+      "loss": 2.6583,
+      "step": 1860
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 81.5,
+      "learning_rate": 8.666666666666666e-08,
+      "loss": 2.6327,
+      "step": 1870
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 82.5,
+      "learning_rate": 8e-08,
+      "loss": 2.6108,
+      "step": 1880
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 83.5,
+      "learning_rate": 7.333333333333333e-08,
+      "loss": 2.6593,
+      "step": 1890
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 82.5,
+      "learning_rate": 6.666666666666667e-08,
+      "loss": 2.6176,
+      "step": 1900
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 82.0,
+      "learning_rate": 6e-08,
+      "loss": 2.6241,
+      "step": 1910
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 82.0,
+      "learning_rate": 5.3333333333333334e-08,
+      "loss": 2.6238,
+      "step": 1920
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 83.0,
+      "learning_rate": 4.666666666666667e-08,
+      "loss": 2.614,
+      "step": 1930
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 82.5,
+      "learning_rate": 4e-08,
+      "loss": 2.6216,
+      "step": 1940
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 82.0,
+      "learning_rate": 3.3333333333333334e-08,
+      "loss": 2.6061,
+      "step": 1950
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 81.5,
+      "learning_rate": 2.6666666666666667e-08,
+      "loss": 2.6504,
+      "step": 1960
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 82.0,
+      "learning_rate": 2e-08,
+      "loss": 2.6582,
+      "step": 1970
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 81.0,
+      "learning_rate": 1.3333333333333334e-08,
+      "loss": 2.6229,
+      "step": 1980
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 81.5,
+      "learning_rate": 6.666666666666667e-09,
+      "loss": 2.6172,
+      "step": 1990
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 81.0,
+      "learning_rate": 0.0,
+      "loss": 2.6289,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.629669427871704,
+      "eval_runtime": 65.1949,
+      "eval_samples_per_second": 15.339,
+      "eval_steps_per_second": 15.339,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 3.227844083712e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null