Training in progress, step 11500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +113 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d1700752c2db1a8ed2781ef8eb83ccbdefb94d318514548a2b365e11848312b
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5bdcafd7e54ccfb54edd3811725f1984a354498d7153f053c3cdf7217ec9db4
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e790c26c26a08130bd738010082748750c57d39aaed35ef4dac16e9b6a4bc9b5
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:78e8caa6e190a79f2c47539fc7bdacd9073500128a21f89148735b0653b16ff7
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0520387b87f2fd0680f5469a4542550352967458dc2b683f1fb39755e8c611b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3d22d79498e9a42f44dadc83e0bfe26c6297fe6f1a1339b834940e632f50f9f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0684752f700925138067f1ce27fd9b76f34d8e92bf412925f6cf2367b06e7145
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c19fddbbe59fe77d9c9931e2dfec577f342f095ed5843c735b486fb4141326d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.1035689190030098,
   "best_model_checkpoint": "./fine-tuned/checkpoint-11000",
-  "epoch": 1.932027750944059,
   "eval_steps": 100,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2427,6 +2427,116 @@
       "eval_samples_per_second": 25.458,
       "eval_steps_per_second": 3.185,
       "step": 11000
     }
   ],
   "logging_steps": 50,
@@ -2446,7 +2556,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.358616301666304e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.1035689190030098,
   "best_model_checkpoint": "./fine-tuned/checkpoint-11000",
+  "epoch": 2.019847194168789,
   "eval_steps": 100,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 25.458,
       "eval_steps_per_second": 3.185,
       "step": 11000
+    },
+    {
+      "epoch": 1.9408096952665321,
+      "grad_norm": 15381.65625,
+      "learning_rate": 1.5442648867029686e-05,
+      "loss": 0.104,
+      "step": 11050
+    },
+    {
+      "epoch": 1.9495916395890052,
+      "grad_norm": 11851.7646484375,
+      "learning_rate": 1.5376778499912176e-05,
+      "loss": 0.1021,
+      "step": 11100
+    },
+    {
+      "epoch": 1.9495916395890052,
+      "eval_loss": 0.1033787652850151,
+      "eval_runtime": 175.4375,
+      "eval_samples_per_second": 25.422,
+      "eval_steps_per_second": 3.181,
+      "step": 11100
+    },
+    {
+      "epoch": 1.958373583911478,
+      "grad_norm": 10821.587890625,
+      "learning_rate": 1.531090813279466e-05,
+      "loss": 0.105,
+      "step": 11150
+    },
+    {
+      "epoch": 1.967155528233951,
+      "grad_norm": 10268.7001953125,
+      "learning_rate": 1.5245037765677149e-05,
+      "loss": 0.0995,
+      "step": 11200
+    },
+    {
+      "epoch": 1.967155528233951,
+      "eval_loss": 0.1031695231795311,
+      "eval_runtime": 175.3915,
+      "eval_samples_per_second": 25.429,
+      "eval_steps_per_second": 3.181,
+      "step": 11200
+    },
+    {
+      "epoch": 1.975937472556424,
+      "grad_norm": 15241.69140625,
+      "learning_rate": 1.5179167398559635e-05,
+      "loss": 0.1001,
+      "step": 11250
+    },
+    {
+      "epoch": 1.9847194168788969,
+      "grad_norm": 9984.0908203125,
+      "learning_rate": 1.5113297031442124e-05,
+      "loss": 0.1051,
+      "step": 11300
+    },
+    {
+      "epoch": 1.9847194168788969,
+      "eval_loss": 0.10308495908975601,
+      "eval_runtime": 175.2586,
+      "eval_samples_per_second": 25.448,
+      "eval_steps_per_second": 3.184,
+      "step": 11300
+    },
+    {
+      "epoch": 1.99350136120137,
+      "grad_norm": 10116.9619140625,
+      "learning_rate": 1.5047426664324609e-05,
+      "loss": 0.102,
+      "step": 11350
+    },
+    {
+      "epoch": 2.002283305523843,
+      "grad_norm": 13065.00390625,
+      "learning_rate": 1.4981556297207097e-05,
+      "loss": 0.1029,
+      "step": 11400
+    },
+    {
+      "epoch": 2.002283305523843,
+      "eval_loss": 0.10323852300643921,
+      "eval_runtime": 175.2291,
+      "eval_samples_per_second": 25.452,
+      "eval_steps_per_second": 3.184,
+      "step": 11400
+    },
+    {
+      "epoch": 2.011065249846316,
+      "grad_norm": 10087.5390625,
+      "learning_rate": 1.4915685930089584e-05,
+      "loss": 0.1009,
+      "step": 11450
+    },
+    {
+      "epoch": 2.019847194168789,
+      "grad_norm": 9332.802734375,
+      "learning_rate": 1.4849815562972072e-05,
+      "loss": 0.093,
+      "step": 11500
+    },
+    {
+      "epoch": 2.019847194168789,
+      "eval_loss": 0.10356967151165009,
+      "eval_runtime": 175.1976,
+      "eval_samples_per_second": 25.457,
+      "eval_steps_per_second": 3.185,
+      "step": 11500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.601986322628608e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null