Training in progress, step 410000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0052ea96d09049ac49c449aedeb504aaa0702f05c2816a11a3a3ddaec5b81730
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:07f03ea18fd5d4a8b1e4e3c742e1d56a40794f2a3b257ce44d2264feed3af286
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c24a6ee4938298e902a6aac60f7e4dbd5863d20fb13bdb77f169f65d5ebb0f24
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:28c6809c972a6eabd269160656909344105b6d4e4ab486435a7eb7ab6f03cd31
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e807b27cec95286b3bd60cbc83a1b68ff438706d30976e63e3494b79245fec8
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:be43869b2d26de64620114c0cd31802e0f535f8b4066fd45c9c93b0dc7fc8193
+size 14439

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfa21a62b639444b92fd71394cab9bd093866e1e95bfe1d8e5b6de28be79d78c
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3ef4114c1e842456ef64f4180a6eab84b1c65069eb4d0f673451378faba5e88
+size 14439

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b36797d3e65ccb749a8a1d0f61a264827cdf623c6e7863e3dfa8e9c3447a0a8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d2f54aa3ce711401cd4ee540e9c92a11b601491f08344941d6924f5e6c29f97
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0003365be88deed59bbfa00e162d3630d1e08211c08c414200b29c59541ecb7c
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:db27b64031de4e8fdf403dbbf855618a1ce97321f71e80ad2ee2fd8a0ecff85b
+size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b337da7a0b88d9b474d84be36e393eab1c1ad113d73339c380d95ef63a86215
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:111428f29ffec49187b68d16c54a6c29ee4fbb60ae7b0a594f8a3a5492faefcc
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66dcedf6f85c5051262e76eedab8ba3cfcd6591d68fb4105fa9e6200b9ada3de
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:38ed3db5c699900337804672d3763c810ccb3d79001c4a96e25a3be74c283a16
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80c55158bbb5df46a8134172c7b9fd2596d23ab49cc5ead3b21e0f52b5035ea2
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:fba203c82676ee0f0f6d805eb229d404fcf81bb695cf23304c62df491ffe623d
+size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf0f19d16897e4a2b672fed3e2c7deef05b6f1ddc375a14dbbca90f09eb7f307
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:18a98f099a2c4465105355e169c3be433597657bb0fd97136841e01a3bc9cfc2
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ba83cbca80cb672828600b248dd69c4c050beb355cdcf7faf0b56212421edca
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:498c95fdcab578849c69bf4a10f0532f5bf3ba8048fa37c1b416b3afd0ea5f33
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.255277428842795,
-  "global_step": 400000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8006,11 +8006,211 @@
       "eval_samples_per_second": 1947.706,
       "eval_steps_per_second": 31.163,
       "step": 400000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.277938969555629e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.561659364563866,
+  "global_step": 410000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1947.706,
       "eval_steps_per_second": 31.163,
       "step": 400000
+    },
+    {
+      "epoch": 12.27,
+      "learning_rate": 4.0280733510303475e-05,
+      "loss": 0.3181,
+      "step": 400500
+    },
+    {
+      "epoch": 12.29,
+      "learning_rate": 3.9988095434602716e-05,
+      "loss": 0.3181,
+      "step": 401000
+    },
+    {
+      "epoch": 12.29,
+      "eval_loss": 0.7763352394104004,
+      "eval_runtime": 0.5244,
+      "eval_samples_per_second": 1906.9,
+      "eval_steps_per_second": 30.51,
+      "step": 401000
+    },
+    {
+      "epoch": 12.3,
+      "learning_rate": 3.9696715110663726e-05,
+      "loss": 0.3182,
+      "step": 401500
+    },
+    {
+      "epoch": 12.32,
+      "learning_rate": 3.9406595724975116e-05,
+      "loss": 0.3178,
+      "step": 402000
+    },
+    {
+      "epoch": 12.32,
+      "eval_loss": 0.7796168923377991,
+      "eval_runtime": 0.5013,
+      "eval_samples_per_second": 1994.987,
+      "eval_steps_per_second": 31.92,
+      "step": 402000
+    },
+    {
+      "epoch": 12.33,
+      "learning_rate": 3.9117740450235914e-05,
+      "loss": 0.318,
+      "step": 402500
+    },
+    {
+      "epoch": 12.35,
+      "learning_rate": 3.8830152445321163e-05,
+      "loss": 0.3179,
+      "step": 403000
+    },
+    {
+      "epoch": 12.35,
+      "eval_loss": 0.77396160364151,
+      "eval_runtime": 0.5031,
+      "eval_samples_per_second": 1987.545,
+      "eval_steps_per_second": 31.801,
+      "step": 403000
+    },
+    {
+      "epoch": 12.36,
+      "learning_rate": 3.854383485524724e-05,
+      "loss": 0.3179,
+      "step": 403500
+    },
+    {
+      "epoch": 12.38,
+      "learning_rate": 3.8258790811137425e-05,
+      "loss": 0.3177,
+      "step": 404000
+    },
+    {
+      "epoch": 12.38,
+      "eval_loss": 0.7777731418609619,
+      "eval_runtime": 0.5211,
+      "eval_samples_per_second": 1919.077,
+      "eval_steps_per_second": 30.705,
+      "step": 404000
+    },
+    {
+      "epoch": 12.39,
+      "learning_rate": 3.7975023430187676e-05,
+      "loss": 0.3179,
+      "step": 404500
+    },
+    {
+      "epoch": 12.41,
+      "learning_rate": 3.7692535815632624e-05,
+      "loss": 0.3178,
+      "step": 405000
+    },
+    {
+      "epoch": 12.41,
+      "eval_loss": 0.774276852607727,
+      "eval_runtime": 0.499,
+      "eval_samples_per_second": 2004.004,
+      "eval_steps_per_second": 32.064,
+      "step": 405000
+    },
+    {
+      "epoch": 12.42,
+      "learning_rate": 3.741133105671159e-05,
+      "loss": 0.3176,
+      "step": 405500
+    },
+    {
+      "epoch": 12.44,
+      "learning_rate": 3.713141222863474e-05,
+      "loss": 0.3175,
+      "step": 406000
+    },
+    {
+      "epoch": 12.44,
+      "eval_loss": 0.7776892185211182,
+      "eval_runtime": 0.501,
+      "eval_samples_per_second": 1996.009,
+      "eval_steps_per_second": 31.936,
+      "step": 406000
+    },
+    {
+      "epoch": 12.45,
+      "learning_rate": 3.6852782392549584e-05,
+      "loss": 0.3179,
+      "step": 406500
+    },
+    {
+      "epoch": 12.47,
+      "learning_rate": 3.657544459550729e-05,
+      "loss": 0.3175,
+      "step": 407000
+    },
+    {
+      "epoch": 12.47,
+      "eval_loss": 0.7784814834594727,
+      "eval_runtime": 0.5197,
+      "eval_samples_per_second": 1924.263,
+      "eval_steps_per_second": 30.788,
+      "step": 407000
+    },
+    {
+      "epoch": 12.49,
+      "learning_rate": 3.6299401870429606e-05,
+      "loss": 0.3176,
+      "step": 407500
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 3.6024657236075546e-05,
+      "loss": 0.3175,
+      "step": 408000
+    },
+    {
+      "epoch": 12.5,
+      "eval_loss": 0.7798225283622742,
+      "eval_runtime": 0.5118,
+      "eval_samples_per_second": 1953.911,
+      "eval_steps_per_second": 31.263,
+      "step": 408000
+    },
+    {
+      "epoch": 12.52,
+      "learning_rate": 3.575121369700841e-05,
+      "loss": 0.3173,
+      "step": 408500
+    },
+    {
+      "epoch": 12.53,
+      "learning_rate": 3.5479074243562995e-05,
+      "loss": 0.3172,
+      "step": 409000
+    },
+    {
+      "epoch": 12.53,
+      "eval_loss": 0.7795943021774292,
+      "eval_runtime": 0.5028,
+      "eval_samples_per_second": 1988.844,
+      "eval_steps_per_second": 31.821,
+      "step": 409000
+    },
+    {
+      "epoch": 12.55,
+      "learning_rate": 3.5208241851812644e-05,
+      "loss": 0.3172,
+      "step": 409500
+    },
+    {
+      "epoch": 12.56,
+      "learning_rate": 3.493871948353709e-05,
+      "loss": 0.3174,
+      "step": 410000
+    },
+    {
+      "epoch": 12.56,
+      "eval_loss": 0.7746796607971191,
+      "eval_runtime": 0.5121,
+      "eval_samples_per_second": 1952.734,
+      "eval_steps_per_second": 31.244,
+      "step": 410000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.309887683433079e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c24a6ee4938298e902a6aac60f7e4dbd5863d20fb13bdb77f169f65d5ebb0f24
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:28c6809c972a6eabd269160656909344105b6d4e4ab486435a7eb7ab6f03cd31
 size 102501541