Uploaded checkpoint-1000

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +361 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce23886c655ee1c47a0aa80c029c82dfc420d2de4c463cf7749e3260e157c741
 size 2836579040

 version https://git-lfs.github.com/spec/v1
+oid sha256:8df485eb75151b4fd00a3914576c95caa2a4214411c302f7113d6a4831144454
 size 2836579040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5599d51e2bd2e74a84a4f9d836728c794d17a83e97511705b560c34e2990bd4
 size 5673376169

 version https://git-lfs.github.com/spec/v1
+oid sha256:52e9570865255edc3f55eef0b128972d229c4c97ad97fc3a60d5756a99aa199f
 size 5673376169

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4331db6fde055daaa387d6b31fd8eec31f21908a09d4d37a76fd41feb521f465
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c56c0d986fde7ce77bd50cb0ad4046e46bf3f78895b338e63f9217f7a569a8e
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08700a617eca3873937a04b3a836821cf0c2c003eb33be7c9039ba1cfd407652
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:272d676176cdbddc5daf2f8ea3e18426236c64ba24db10d25daf8b1d8d4e924b
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.025,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -365,6 +365,364 @@
       "eval_samples_per_second": 15.31,
       "eval_steps_per_second": 15.31,
       "step": 500
     }
   ],
   "logging_steps": 10,
@@ -372,7 +730,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 8069610209280000.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.05,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.31,
       "eval_steps_per_second": 15.31,
       "step": 500
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 77.5,
+      "learning_rate": 9.933333333333333e-07,
+      "loss": 6.4003,
+      "step": 510
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 77.5,
+      "learning_rate": 9.866666666666666e-07,
+      "loss": 6.2969,
+      "step": 520
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 78.5,
+      "learning_rate": 9.8e-07,
+      "loss": 6.19,
+      "step": 530
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 78.0,
+      "learning_rate": 9.733333333333333e-07,
+      "loss": 6.0401,
+      "step": 540
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 79.0,
+      "learning_rate": 9.666666666666666e-07,
+      "loss": 5.9727,
+      "step": 550
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 80.0,
+      "learning_rate": 9.6e-07,
+      "loss": 5.821,
+      "step": 560
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 80.5,
+      "learning_rate": 9.533333333333333e-07,
+      "loss": 5.6864,
+      "step": 570
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 80.5,
+      "learning_rate": 9.466666666666666e-07,
+      "loss": 5.5677,
+      "step": 580
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 81.5,
+      "learning_rate": 9.399999999999999e-07,
+      "loss": 5.4587,
+      "step": 590
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 82.0,
+      "learning_rate": 9.333333333333333e-07,
+      "loss": 5.3674,
+      "step": 600
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 83.5,
+      "learning_rate": 9.266666666666665e-07,
+      "loss": 5.2343,
+      "step": 610
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 83.5,
+      "learning_rate": 9.2e-07,
+      "loss": 5.1118,
+      "step": 620
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 83.5,
+      "learning_rate": 9.133333333333333e-07,
+      "loss": 5.0416,
+      "step": 630
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 85.5,
+      "learning_rate": 9.066666666666665e-07,
+      "loss": 4.9311,
+      "step": 640
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 86.0,
+      "learning_rate": 9e-07,
+      "loss": 4.8409,
+      "step": 650
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 86.5,
+      "learning_rate": 8.933333333333333e-07,
+      "loss": 4.7077,
+      "step": 660
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 87.5,
+      "learning_rate": 8.866666666666667e-07,
+      "loss": 4.6436,
+      "step": 670
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 86.0,
+      "learning_rate": 8.799999999999999e-07,
+      "loss": 4.5543,
+      "step": 680
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 87.0,
+      "learning_rate": 8.733333333333333e-07,
+      "loss": 4.473,
+      "step": 690
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 87.0,
+      "learning_rate": 8.666666666666667e-07,
+      "loss": 4.373,
+      "step": 700
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 88.5,
+      "learning_rate": 8.599999999999999e-07,
+      "loss": 4.3226,
+      "step": 710
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 87.5,
+      "learning_rate": 8.533333333333334e-07,
+      "loss": 4.2063,
+      "step": 720
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 87.5,
+      "learning_rate": 8.466666666666667e-07,
+      "loss": 4.1628,
+      "step": 730
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 86.5,
+      "learning_rate": 8.399999999999999e-07,
+      "loss": 4.0588,
+      "step": 740
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 88.0,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 4.0117,
+      "step": 750
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 88.0,
+      "learning_rate": 8.266666666666667e-07,
+      "loss": 3.9443,
+      "step": 760
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 88.5,
+      "learning_rate": 8.199999999999999e-07,
+      "loss": 3.8509,
+      "step": 770
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 88.0,
+      "learning_rate": 8.133333333333333e-07,
+      "loss": 3.7851,
+      "step": 780
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 87.5,
+      "learning_rate": 8.066666666666666e-07,
+      "loss": 3.7559,
+      "step": 790
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 87.0,
+      "learning_rate": 8e-07,
+      "loss": 3.6867,
+      "step": 800
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 88.0,
+      "learning_rate": 7.933333333333333e-07,
+      "loss": 3.6217,
+      "step": 810
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 86.5,
+      "learning_rate": 7.866666666666666e-07,
+      "loss": 3.5678,
+      "step": 820
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 86.5,
+      "learning_rate": 7.799999999999999e-07,
+      "loss": 3.5387,
+      "step": 830
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 86.5,
+      "learning_rate": 7.733333333333333e-07,
+      "loss": 3.4999,
+      "step": 840
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 87.0,
+      "learning_rate": 7.666666666666667e-07,
+      "loss": 3.4263,
+      "step": 850
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 87.0,
+      "learning_rate": 7.599999999999999e-07,
+      "loss": 3.4185,
+      "step": 860
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 86.0,
+      "learning_rate": 7.533333333333332e-07,
+      "loss": 3.3753,
+      "step": 870
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 86.0,
+      "learning_rate": 7.466666666666667e-07,
+      "loss": 3.318,
+      "step": 880
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 85.5,
+      "learning_rate": 7.4e-07,
+      "loss": 3.2846,
+      "step": 890
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 86.5,
+      "learning_rate": 7.333333333333332e-07,
+      "loss": 3.2757,
+      "step": 900
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 85.0,
+      "learning_rate": 7.266666666666667e-07,
+      "loss": 3.2204,
+      "step": 910
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 87.0,
+      "learning_rate": 7.2e-07,
+      "loss": 3.1933,
+      "step": 920
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 85.0,
+      "learning_rate": 7.133333333333333e-07,
+      "loss": 3.1404,
+      "step": 930
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 84.5,
+      "learning_rate": 7.066666666666666e-07,
+      "loss": 3.1084,
+      "step": 940
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 83.5,
+      "learning_rate": 7e-07,
+      "loss": 3.0518,
+      "step": 950
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 84.5,
+      "learning_rate": 6.933333333333333e-07,
+      "loss": 3.0331,
+      "step": 960
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 84.0,
+      "learning_rate": 6.866666666666666e-07,
+      "loss": 3.0252,
+      "step": 970
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 83.0,
+      "learning_rate": 6.800000000000001e-07,
+      "loss": 2.9718,
+      "step": 980
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 84.0,
+      "learning_rate": 6.733333333333333e-07,
+      "loss": 2.9666,
+      "step": 990
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 82.0,
+      "learning_rate": 6.666666666666666e-07,
+      "loss": 2.9071,
+      "step": 1000
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.927218437194824,
+      "eval_runtime": 65.2971,
+      "eval_samples_per_second": 15.315,
+      "eval_steps_per_second": 15.315,
+      "step": 1000
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 1.613922041856e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null