Training in progress, step 180000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de4f35402a55e29f80fb8c753ad6523a199f5dffc7c4e25641de3446e7dcc1e2
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d649779ba95c621015cb53780f5701aa302c759b040cf454f46acc31f4706b5
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c916340d7d75d5bc18c1ad33b84c353fe26c18b731b4892c4ff510dc90928bc5
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:c619af36af772fff3b27134f866199a2501f2804d36e9fef52fa198a4bf9feb5
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f8edee7121f04285c72b6c9f7844a954a235fd8dbdb096b1e8ce5764e29663e
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1470898ecdc6550560113c5e2cfd1e79edea6b27c0b7d35814645546c1b5bff0
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae7e48b658f6388c6c044e6d37239970a21307494d626979f7e10630dfa93207
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.416666666666666,
-  "global_step": 170000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3406,11 +3406,211 @@
       "eval_samples_per_second": 733.005,
       "eval_steps_per_second": 11.728,
       "step": 170000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 2.7227559436825185e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.029411764705882,
+  "global_step": 180000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 733.005,
       "eval_steps_per_second": 11.728,
       "step": 170000
+    },
+    {
+      "epoch": 10.45,
+      "learning_rate": 0.00015862789502737648,
+      "loss": 0.4491,
+      "step": 170500
+    },
+    {
+      "epoch": 10.48,
+      "learning_rate": 0.00015693712647480446,
+      "loss": 0.4494,
+      "step": 171000
+    },
+    {
+      "epoch": 10.48,
+      "eval_loss": 0.7991927266120911,
+      "eval_runtime": 1.3282,
+      "eval_samples_per_second": 752.902,
+      "eval_steps_per_second": 12.046,
+      "step": 171000
+    },
+    {
+      "epoch": 10.51,
+      "learning_rate": 0.00015525283467197743,
+      "loss": 0.4487,
+      "step": 171500
+    },
+    {
+      "epoch": 10.54,
+      "learning_rate": 0.00015357509329527556,
+      "loss": 0.4486,
+      "step": 172000
+    },
+    {
+      "epoch": 10.54,
+      "eval_loss": 0.8018996715545654,
+      "eval_runtime": 1.3294,
+      "eval_samples_per_second": 752.227,
+      "eval_steps_per_second": 12.036,
+      "step": 172000
+    },
+    {
+      "epoch": 10.57,
+      "learning_rate": 0.00015190397573454158,
+      "loss": 0.4488,
+      "step": 172500
+    },
+    {
+      "epoch": 10.6,
+      "learning_rate": 0.00015023955508987127,
+      "loss": 0.4485,
+      "step": 173000
+    },
+    {
+      "epoch": 10.6,
+      "eval_loss": 0.8025578260421753,
+      "eval_runtime": 1.3279,
+      "eval_samples_per_second": 753.043,
+      "eval_steps_per_second": 12.049,
+      "step": 173000
+    },
+    {
+      "epoch": 10.63,
+      "learning_rate": 0.00014858190416841565,
+      "loss": 0.4483,
+      "step": 173500
+    },
+    {
+      "epoch": 10.66,
+      "learning_rate": 0.00014693109548119591,
+      "loss": 0.4483,
+      "step": 174000
+    },
+    {
+      "epoch": 10.66,
+      "eval_loss": 0.8008602261543274,
+      "eval_runtime": 1.2568,
+      "eval_samples_per_second": 795.696,
+      "eval_steps_per_second": 12.731,
+      "step": 174000
+    },
+    {
+      "epoch": 10.69,
+      "learning_rate": 0.00014528720123993226,
+      "loss": 0.448,
+      "step": 174500
+    },
+    {
+      "epoch": 10.72,
+      "learning_rate": 0.0001436502933538841,
+      "loss": 0.448,
+      "step": 175000
+    },
+    {
+      "epoch": 10.72,
+      "eval_loss": 0.8021511435508728,
+      "eval_runtime": 1.2829,
+      "eval_samples_per_second": 779.473,
+      "eval_steps_per_second": 12.472,
+      "step": 175000
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 0.00014202044342670508,
+      "loss": 0.448,
+      "step": 175500
+    },
+    {
+      "epoch": 10.78,
+      "learning_rate": 0.00014039772275331125,
+      "loss": 0.4479,
+      "step": 176000
+    },
+    {
+      "epoch": 10.78,
+      "eval_loss": 0.8016372323036194,
+      "eval_runtime": 1.3768,
+      "eval_samples_per_second": 726.333,
+      "eval_steps_per_second": 11.621,
+      "step": 176000
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 0.00013878220231676152,
+      "loss": 0.4475,
+      "step": 176500
+    },
+    {
+      "epoch": 10.85,
+      "learning_rate": 0.00013717395278515355,
+      "loss": 0.4476,
+      "step": 177000
+    },
+    {
+      "epoch": 10.85,
+      "eval_loss": 0.7988106608390808,
+      "eval_runtime": 1.2962,
+      "eval_samples_per_second": 771.516,
+      "eval_steps_per_second": 12.344,
+      "step": 177000
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 0.00013557304450853162,
+      "loss": 0.4472,
+      "step": 177500
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 0.00013397954751581014,
+      "loss": 0.4474,
+      "step": 178000
+    },
+    {
+      "epoch": 10.91,
+      "eval_loss": 0.8025058507919312,
+      "eval_runtime": 1.3447,
+      "eval_samples_per_second": 743.664,
+      "eval_steps_per_second": 11.899,
+      "step": 178000
+    },
+    {
+      "epoch": 10.94,
+      "learning_rate": 0.00013239353151170983,
+      "loss": 0.4471,
+      "step": 178500
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 0.00013081506587370853,
+      "loss": 0.4471,
+      "step": 179000
+    },
+    {
+      "epoch": 10.97,
+      "eval_loss": 0.8035358190536499,
+      "eval_runtime": 1.362,
+      "eval_samples_per_second": 734.202,
+      "eval_steps_per_second": 11.747,
+      "step": 179000
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 0.00012924421964900695,
+      "loss": 0.447,
+      "step": 179500
+    },
+    {
+      "epoch": 11.03,
+      "learning_rate": 0.00012768106155150758,
+      "loss": 0.4471,
+      "step": 180000
+    },
+    {
+      "epoch": 11.03,
+      "eval_loss": 0.7982646226882935,
+      "eval_runtime": 1.3411,
+      "eval_samples_per_second": 745.664,
+      "eval_steps_per_second": 11.931,
+      "step": 180000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 2.8829139360447075e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c916340d7d75d5bc18c1ad33b84c353fe26c18b731b4892c4ff510dc90928bc5
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:c619af36af772fff3b27134f866199a2501f2804d36e9fef52fa198a4bf9feb5
 size 25761253