Training in progress, step 70000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8f3b98eec5b3330ddfd893550d0b15b1b8d3330c8cebf4f71e48ba5e53f55fb
-size 202193937

 version https://git-lfs.github.com/spec/v1
+oid sha256:db61f3bcce5bf8ebe69871ca06c92e01d51d06d1badcbe5af8f6fbd5cf70ff1d
+size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a3342707635b819a44d4ba00aeaa19e6d315541706f6b4722b779d3a00d1c81
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c54e37189a1debe1a0e622a3710502c458960a8ec3067d6a6a0ad5c607cc7ae
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb55e432a6b8e9309bc4392d2b0405c96d19402563e4d0018c43fbf20f6cd3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2032dad7e1ed5094e03b523fdd3f574889c648ec6fa7e245d480e624ff7f7b42
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb55e432a6b8e9309bc4392d2b0405c96d19402563e4d0018c43fbf20f6cd3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2032dad7e1ed5094e03b523fdd3f574889c648ec6fa7e245d480e624ff7f7b42
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb55e432a6b8e9309bc4392d2b0405c96d19402563e4d0018c43fbf20f6cd3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2032dad7e1ed5094e03b523fdd3f574889c648ec6fa7e245d480e624ff7f7b42
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb55e432a6b8e9309bc4392d2b0405c96d19402563e4d0018c43fbf20f6cd3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2032dad7e1ed5094e03b523fdd3f574889c648ec6fa7e245d480e624ff7f7b42
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb55e432a6b8e9309bc4392d2b0405c96d19402563e4d0018c43fbf20f6cd3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2032dad7e1ed5094e03b523fdd3f574889c648ec6fa7e245d480e624ff7f7b42
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb55e432a6b8e9309bc4392d2b0405c96d19402563e4d0018c43fbf20f6cd3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2032dad7e1ed5094e03b523fdd3f574889c648ec6fa7e245d480e624ff7f7b42
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb55e432a6b8e9309bc4392d2b0405c96d19402563e4d0018c43fbf20f6cd3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2032dad7e1ed5094e03b523fdd3f574889c648ec6fa7e245d480e624ff7f7b42
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb55e432a6b8e9309bc4392d2b0405c96d19402563e4d0018c43fbf20f6cd3d
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:2032dad7e1ed5094e03b523fdd3f574889c648ec6fa7e245d480e624ff7f7b42
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1afd4be721b18cec2bad25f6a60e1c3abb5c311277f62eb3e2f010bc31239df1
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6a21aa935b59f32e80e60eb114e1441ce82daea46fee66d7b5b4fedbaaa6094
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3383297644539613,
-  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1206,11 +1206,211 @@
       "eval_samples_per_second": 1154.672,
       "eval_steps_per_second": 18.097,
       "step": 60000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
-  "total_flos": 1.9168943783855847e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5613847251962882,
+  "global_step": 70000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1154.672,
       "eval_steps_per_second": 18.097,
       "step": 60000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00029602157489814693,
+      "loss": 0.3291,
+      "step": 60500
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00029590925100598365,
+      "loss": 0.3285,
+      "step": 61000
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 0.31057360768318176,
+      "eval_runtime": 2.0555,
+      "eval_samples_per_second": 1117.488,
+      "eval_steps_per_second": 17.514,
+      "step": 61000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.000295795386152827,
+      "loss": 0.3284,
+      "step": 61500
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0002956799815838848,
+      "loss": 0.3285,
+      "step": 62000
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 0.3091903328895569,
+      "eval_runtime": 2.0051,
+      "eval_samples_per_second": 1145.598,
+      "eval_steps_per_second": 17.955,
+      "step": 62000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0002955630385612029,
+      "loss": 0.3268,
+      "step": 62500
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0002954445583636515,
+      "loss": 0.3266,
+      "step": 63000
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.309052050113678,
+      "eval_runtime": 1.9663,
+      "eval_samples_per_second": 1168.204,
+      "eval_steps_per_second": 18.309,
+      "step": 63000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00029532454228691103,
+      "loss": 0.3263,
+      "step": 63500
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0002952029916434581,
+      "loss": 0.3259,
+      "step": 64000
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 0.3066043555736542,
+      "eval_runtime": 2.0287,
+      "eval_samples_per_second": 1132.238,
+      "eval_steps_per_second": 17.745,
+      "step": 64000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00029507990776255107,
+      "loss": 0.3257,
+      "step": 64500
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00029495529199021555,
+      "loss": 0.3251,
+      "step": 65000
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.3062935769557953,
+      "eval_runtime": 2.0366,
+      "eval_samples_per_second": 1127.874,
+      "eval_steps_per_second": 17.677,
+      "step": 65000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0002948291456892296,
+      "loss": 0.325,
+      "step": 65500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00029470147023910907,
+      "loss": 0.3245,
+      "step": 66000
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 0.3044787049293518,
+      "eval_runtime": 1.9965,
+      "eval_samples_per_second": 1150.53,
+      "eval_steps_per_second": 18.032,
+      "step": 66000
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0002945722670360921,
+      "loss": 0.3261,
+      "step": 66500
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0002944415374931243,
+      "loss": 0.3233,
+      "step": 67000
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 0.3051415681838989,
+      "eval_runtime": 2.0098,
+      "eval_samples_per_second": 1142.892,
+      "eval_steps_per_second": 17.912,
+      "step": 67000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00029430928303984295,
+      "loss": 0.3231,
+      "step": 67500
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0002941755051225616,
+      "loss": 0.3227,
+      "step": 68000
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 0.303621768951416,
+      "eval_runtime": 2.0068,
+      "eval_samples_per_second": 1144.62,
+      "eval_steps_per_second": 17.939,
+      "step": 68000
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00029404020520425417,
+      "loss": 0.3226,
+      "step": 68500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0002939033847645388,
+      "loss": 0.3221,
+      "step": 69000
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.30241796374320984,
+      "eval_runtime": 1.989,
+      "eval_samples_per_second": 1154.871,
+      "eval_steps_per_second": 18.1,
+      "step": 69000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00029376504529966195,
+      "loss": 0.3216,
+      "step": 69500
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00029362518832248184,
+      "loss": 0.3216,
+      "step": 70000
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.3033766746520996,
+      "eval_runtime": 1.9913,
+      "eval_samples_per_second": 1153.526,
+      "eval_steps_per_second": 18.079,
+      "step": 70000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 12,
+  "total_flos": 2.2363815171600847e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a3342707635b819a44d4ba00aeaa19e6d315541706f6b4722b779d3a00d1c81
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c54e37189a1debe1a0e622a3710502c458960a8ec3067d6a6a0ad5c607cc7ae
 size 102501541