Training in progress, epoch 10, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +312 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3c365c66cf2a3d941ce1ea5ad003e4a05b3c41bd56f4e0493053ac8b6dd9350
 size 1324830880

 version https://git-lfs.github.com/spec/v1
+oid sha256:062975bff2d0f7f7c4d6f5b956cc23d7a72551cdc1c569801b7bfec117ef85c4
 size 1324830880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17e462259220bd7bfe4d650b3ccd1980f9d0cf22b5c8f4def5e9b2a8c5e8719a
 size 2649896094

 version https://git-lfs.github.com/spec/v1
+oid sha256:449d21a27ff64bfb59a33d659105ad18c8f4a4106d6637584febc647d8988ef6
 size 2649896094

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8622f03e7cb24e2f286863cd91515fad339da4d289ad4c2fbea14ca1b50ee88
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:80b5e2320c011d2ef85af0e21d5865f84ed70109b55a905c3969adb000834408
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1d655edf5c0d59719b2e09e5b118a19566dd1c026c019c1e64e07966eca110e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:52cccb9a6c56995c65476c1bb9d353486d68d2924d3217599f44452b5f6974ca
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.30803602933883667,
   "best_model_checkpoint": "./opt_trained/checkpoint-258",
-  "epoch": 9.0,
   "eval_steps": 500,
-  "global_step": 387,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2788,6 +2788,315 @@
       "eval_samples_per_second": 62.191,
       "eval_steps_per_second": 15.548,
       "step": 387
     }
   ],
   "logging_steps": 1,
@@ -2807,7 +3116,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9361945056444416e+16,
   "train_batch_size": 12,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.30803602933883667,
   "best_model_checkpoint": "./opt_trained/checkpoint-258",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 430,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 62.191,
       "eval_steps_per_second": 15.548,
       "step": 387
+    },
+    {
+      "epoch": 9.023391812865498,
+      "grad_norm": 4.209856033325195,
+      "learning_rate": 8.152380952380953e-05,
+      "loss": 2.2796,
+      "step": 388
+    },
+    {
+      "epoch": 9.046783625730994,
+      "grad_norm": 4.553707122802734,
+      "learning_rate": 8.147619047619049e-05,
+      "loss": 2.1917,
+      "step": 389
+    },
+    {
+      "epoch": 9.070175438596491,
+      "grad_norm": 2.235180377960205,
+      "learning_rate": 8.142857142857143e-05,
+      "loss": 2.2586,
+      "step": 390
+    },
+    {
+      "epoch": 9.093567251461987,
+      "grad_norm": 3.6155264377593994,
+      "learning_rate": 8.138095238095238e-05,
+      "loss": 2.2361,
+      "step": 391
+    },
+    {
+      "epoch": 9.116959064327485,
+      "grad_norm": 3.4730417728424072,
+      "learning_rate": 8.133333333333334e-05,
+      "loss": 2.2257,
+      "step": 392
+    },
+    {
+      "epoch": 9.140350877192983,
+      "grad_norm": 3.765535831451416,
+      "learning_rate": 8.128571428571428e-05,
+      "loss": 2.1642,
+      "step": 393
+    },
+    {
+      "epoch": 9.163742690058479,
+      "grad_norm": 3.1897642612457275,
+      "learning_rate": 8.123809523809525e-05,
+      "loss": 2.2229,
+      "step": 394
+    },
+    {
+      "epoch": 9.187134502923977,
+      "grad_norm": 3.8044841289520264,
+      "learning_rate": 8.11904761904762e-05,
+      "loss": 2.1882,
+      "step": 395
+    },
+    {
+      "epoch": 9.210526315789474,
+      "grad_norm": 3.561450719833374,
+      "learning_rate": 8.114285714285714e-05,
+      "loss": 2.1809,
+      "step": 396
+    },
+    {
+      "epoch": 9.23391812865497,
+      "grad_norm": 3.2488150596618652,
+      "learning_rate": 8.10952380952381e-05,
+      "loss": 2.2111,
+      "step": 397
+    },
+    {
+      "epoch": 9.257309941520468,
+      "grad_norm": 3.5442261695861816,
+      "learning_rate": 8.104761904761905e-05,
+      "loss": 2.1749,
+      "step": 398
+    },
+    {
+      "epoch": 9.280701754385966,
+      "grad_norm": 2.66875958442688,
+      "learning_rate": 8.1e-05,
+      "loss": 2.1776,
+      "step": 399
+    },
+    {
+      "epoch": 9.304093567251462,
+      "grad_norm": 2.672934055328369,
+      "learning_rate": 8.095238095238096e-05,
+      "loss": 2.1938,
+      "step": 400
+    },
+    {
+      "epoch": 9.32748538011696,
+      "grad_norm": 2.8488197326660156,
+      "learning_rate": 8.090476190476191e-05,
+      "loss": 2.1875,
+      "step": 401
+    },
+    {
+      "epoch": 9.350877192982455,
+      "grad_norm": 3.4410758018493652,
+      "learning_rate": 8.085714285714287e-05,
+      "loss": 2.2253,
+      "step": 402
+    },
+    {
+      "epoch": 9.374269005847953,
+      "grad_norm": 3.20196270942688,
+      "learning_rate": 8.080952380952381e-05,
+      "loss": 2.2043,
+      "step": 403
+    },
+    {
+      "epoch": 9.397660818713451,
+      "grad_norm": 3.485410213470459,
+      "learning_rate": 8.076190476190475e-05,
+      "loss": 2.2155,
+      "step": 404
+    },
+    {
+      "epoch": 9.421052631578947,
+      "grad_norm": 3.2198355197906494,
+      "learning_rate": 8.071428571428573e-05,
+      "loss": 2.2339,
+      "step": 405
+    },
+    {
+      "epoch": 9.444444444444445,
+      "grad_norm": 4.449166774749756,
+      "learning_rate": 8.066666666666667e-05,
+      "loss": 2.2157,
+      "step": 406
+    },
+    {
+      "epoch": 9.46783625730994,
+      "grad_norm": 3.3024957180023193,
+      "learning_rate": 8.061904761904763e-05,
+      "loss": 2.2373,
+      "step": 407
+    },
+    {
+      "epoch": 9.491228070175438,
+      "grad_norm": 4.262597560882568,
+      "learning_rate": 8.057142857142857e-05,
+      "loss": 2.2118,
+      "step": 408
+    },
+    {
+      "epoch": 9.514619883040936,
+      "grad_norm": 3.014378070831299,
+      "learning_rate": 8.052380952380952e-05,
+      "loss": 2.1513,
+      "step": 409
+    },
+    {
+      "epoch": 9.538011695906432,
+      "grad_norm": 2.3644843101501465,
+      "learning_rate": 8.047619047619048e-05,
+      "loss": 2.2105,
+      "step": 410
+    },
+    {
+      "epoch": 9.56140350877193,
+      "grad_norm": 3.573030471801758,
+      "learning_rate": 8.042857142857144e-05,
+      "loss": 2.2014,
+      "step": 411
+    },
+    {
+      "epoch": 9.584795321637428,
+      "grad_norm": 3.49285626411438,
+      "learning_rate": 8.03809523809524e-05,
+      "loss": 2.2258,
+      "step": 412
+    },
+    {
+      "epoch": 9.608187134502923,
+      "grad_norm": 2.701261281967163,
+      "learning_rate": 8.033333333333334e-05,
+      "loss": 2.1926,
+      "step": 413
+    },
+    {
+      "epoch": 9.631578947368421,
+      "grad_norm": 3.1829402446746826,
+      "learning_rate": 8.028571428571428e-05,
+      "loss": 2.1833,
+      "step": 414
+    },
+    {
+      "epoch": 9.654970760233919,
+      "grad_norm": 3.5617990493774414,
+      "learning_rate": 8.023809523809524e-05,
+      "loss": 2.2629,
+      "step": 415
+    },
+    {
+      "epoch": 9.678362573099415,
+      "grad_norm": 3.1133735179901123,
+      "learning_rate": 8.01904761904762e-05,
+      "loss": 2.2344,
+      "step": 416
+    },
+    {
+      "epoch": 9.701754385964913,
+      "grad_norm": 3.0228543281555176,
+      "learning_rate": 8.014285714285715e-05,
+      "loss": 2.2076,
+      "step": 417
+    },
+    {
+      "epoch": 9.725146198830409,
+      "grad_norm": 4.193742752075195,
+      "learning_rate": 8.00952380952381e-05,
+      "loss": 2.2325,
+      "step": 418
+    },
+    {
+      "epoch": 9.748538011695906,
+      "grad_norm": 4.473887920379639,
+      "learning_rate": 8.004761904761905e-05,
+      "loss": 2.2241,
+      "step": 419
+    },
+    {
+      "epoch": 9.771929824561404,
+      "grad_norm": 3.292799234390259,
+      "learning_rate": 8e-05,
+      "loss": 2.2584,
+      "step": 420
+    },
+    {
+      "epoch": 9.7953216374269,
+      "grad_norm": 6.8649516105651855,
+      "learning_rate": 7.995238095238095e-05,
+      "loss": 2.2649,
+      "step": 421
+    },
+    {
+      "epoch": 9.818713450292398,
+      "grad_norm": 3.9372193813323975,
+      "learning_rate": 7.990476190476191e-05,
+      "loss": 2.3003,
+      "step": 422
+    },
+    {
+      "epoch": 9.842105263157894,
+      "grad_norm": 3.112377405166626,
+      "learning_rate": 7.985714285714287e-05,
+      "loss": 2.2106,
+      "step": 423
+    },
+    {
+      "epoch": 9.865497076023392,
+      "grad_norm": 2.902355909347534,
+      "learning_rate": 7.980952380952381e-05,
+      "loss": 2.2946,
+      "step": 424
+    },
+    {
+      "epoch": 9.88888888888889,
+      "grad_norm": 2.473977565765381,
+      "learning_rate": 7.976190476190477e-05,
+      "loss": 2.2175,
+      "step": 425
+    },
+    {
+      "epoch": 9.912280701754385,
+      "grad_norm": 4.093216419219971,
+      "learning_rate": 7.971428571428572e-05,
+      "loss": 2.2092,
+      "step": 426
+    },
+    {
+      "epoch": 9.935672514619883,
+      "grad_norm": 2.5776782035827637,
+      "learning_rate": 7.966666666666666e-05,
+      "loss": 2.219,
+      "step": 427
+    },
+    {
+      "epoch": 9.95906432748538,
+      "grad_norm": 3.246060371398926,
+      "learning_rate": 7.961904761904763e-05,
+      "loss": 2.239,
+      "step": 428
+    },
+    {
+      "epoch": 9.982456140350877,
+      "grad_norm": 2.8515846729278564,
+      "learning_rate": 7.957142857142858e-05,
+      "loss": 2.2154,
+      "step": 429
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 2.685945510864258,
+      "learning_rate": 7.952380952380952e-05,
+      "loss": 1.6512,
+      "step": 430
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.3121136426925659,
+      "eval_runtime": 3.5135,
+      "eval_samples_per_second": 61.478,
+      "eval_steps_per_second": 15.369,
+      "step": 430
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.151327228493824e+16,
   "train_batch_size": 12,
   "trial_name": null,
   "trial_params": null