End of training

Browse files

Files changed (5) hide show

all_results.json +10 -10
eval_results.json +6 -6
runs/Dec19_09-48-52_nipa2022-65403/events.out.tfevents.1671433867.nipa2022-65403.3427.2 +3 -0
train_results.json +5 -5
trainer_state.json +144 -315

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 24.04,
-    "eval_loss": 0.31787109375,
-    "eval_runtime": 743.378,
-    "eval_samples_per_second": 2.984,
-    "eval_steps_per_second": 0.094,
-    "eval_wer": 27.47628083491461,
-    "train_loss": 0.31971333821614584,
-    "train_runtime": 22038.1709,
-    "train_samples_per_second": 4.356,
-    "train_steps_per_second": 0.068
 }

 {
+    "epoch": 15.02,
+    "eval_loss": 0.25927734375,
+    "eval_runtime": 704.255,
+    "eval_samples_per_second": 3.149,
+    "eval_steps_per_second": 0.099,
+    "eval_wer": 19.97153700189753,
+    "train_loss": 0.5692690700954861,
+    "train_runtime": 21274.2497,
+    "train_samples_per_second": 2.707,
+    "train_steps_per_second": 0.042
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 24.04,
-    "eval_loss": 0.31787109375,
-    "eval_runtime": 743.378,
-    "eval_samples_per_second": 2.984,
-    "eval_steps_per_second": 0.094,
-    "eval_wer": 27.47628083491461
 }

 {
+    "epoch": 15.02,
+    "eval_loss": 0.25927734375,
+    "eval_runtime": 704.255,
+    "eval_samples_per_second": 3.149,
+    "eval_steps_per_second": 0.099,
+    "eval_wer": 19.97153700189753
 }

runs/Dec19_09-48-52_nipa2022-65403/events.out.tfevents.1671433867.nipa2022-65403.3427.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19d9ca51c3c6769bf3220cdc12c5aa68144d421209f9aeedf7e49bd5959578c8
+size 358

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 24.04,
-    "train_loss": 0.31971333821614584,
-    "train_runtime": 22038.1709,
-    "train_samples_per_second": 4.356,
-    "train_steps_per_second": 0.068
 }

 {
+    "epoch": 15.02,
+    "train_loss": 0.5692690700954861,
+    "train_runtime": 21274.2497,
+    "train_samples_per_second": 2.707,
+    "train_steps_per_second": 0.042
 }

trainer_state.json CHANGED Viewed

@@ -1,448 +1,277 @@
 {
-  "best_metric": 27.47628083491461,
-  "best_model_checkpoint": "./checkpoint-1000",
-  "epoch": 24.04,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
-      "learning_rate": 3.45e-08,
-      "loss": 1.3486,
       "step": 25
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 7.2e-08,
-      "loss": 1.1313,
       "step": 50
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 1.095e-07,
-      "loss": 1.2018,
       "step": 75
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 1.4699999999999998e-07,
-      "loss": 1.0324,
       "step": 100
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 1.845e-07,
-      "loss": 0.7448,
       "step": 125
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 2.2199999999999998e-07,
-      "loss": 0.6496,
       "step": 150
     },
     {
-      "epoch": 2.04,
-      "learning_rate": 2.5949999999999996e-07,
-      "loss": 0.4192,
       "step": 175
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 2.9699999999999997e-07,
-      "loss": 0.5148,
       "step": 200
     },
     {
-      "epoch": 3.01,
-      "eval_loss": 0.4189453125,
-      "eval_runtime": 732.3243,
-      "eval_samples_per_second": 3.029,
-      "eval_steps_per_second": 0.096,
-      "eval_wer": 39.34535104364326,
       "step": 200
     },
     {
-      "epoch": 3.03,
-      "learning_rate": 2.997683575414969e-07,
-      "loss": 0.3818,
       "step": 225
     },
     {
-      "epoch": 4.01,
-      "learning_rate": 2.9899197858556995e-07,
-      "loss": 0.3758,
       "step": 250
     },
     {
-      "epoch": 4.02,
-      "learning_rate": 2.9767194405746293e-07,
-      "loss": 0.3957,
       "step": 275
     },
     {
-      "epoch": 4.04,
-      "learning_rate": 2.958130706200157e-07,
-      "loss": 0.2837,
       "step": 300
     },
     {
-      "epoch": 5.02,
-      "learning_rate": 2.934221411008129e-07,
-      "loss": 0.4078,
       "step": 325
     },
     {
-      "epoch": 5.03,
-      "learning_rate": 2.905078797423817e-07,
-      "loss": 0.27,
       "step": 350
     },
     {
-      "epoch": 6.01,
-      "learning_rate": 2.870809203683774e-07,
-      "loss": 0.3376,
       "step": 375
     },
     {
-      "epoch": 6.03,
-      "learning_rate": 2.831537675819134e-07,
-      "loss": 0.3041,
       "step": 400
     },
     {
-      "epoch": 6.03,
-      "eval_loss": 0.33349609375,
-      "eval_runtime": 737.3023,
-      "eval_samples_per_second": 3.008,
-      "eval_steps_per_second": 0.095,
-      "eval_wer": 29.573055028462996,
       "step": 400
     },
     {
-      "epoch": 7.0,
-      "learning_rate": 2.78740751137621e-07,
-      "loss": 0.259,
       "step": 425
     },
     {
-      "epoch": 7.02,
-      "learning_rate": 2.738579736539286e-07,
-      "loss": 0.334,
       "step": 450
     },
     {
-      "epoch": 7.04,
-      "learning_rate": 2.6852325185635355e-07,
-      "loss": 0.2305,
       "step": 475
     },
     {
-      "epoch": 8.01,
-      "learning_rate": 2.6275605156620243e-07,
-      "loss": 0.3156,
       "step": 500
     },
     {
-      "epoch": 8.03,
-      "learning_rate": 2.5657741667190066e-07,
-      "loss": 0.2408,
       "step": 525
     },
     {
-      "epoch": 9.01,
-      "learning_rate": 2.500098923421254e-07,
-      "loss": 0.2577,
       "step": 550
     },
     {
-      "epoch": 9.02,
-      "learning_rate": 2.4307744276092984e-07,
-      "loss": 0.2818,
       "step": 575
     },
     {
-      "epoch": 9.04,
-      "learning_rate": 2.3580536368503515e-07,
-      "loss": 0.1961,
       "step": 600
     },
     {
-      "epoch": 9.04,
-      "eval_loss": 0.318603515625,
-      "eval_runtime": 746.4809,
-      "eval_samples_per_second": 2.971,
-      "eval_steps_per_second": 0.094,
-      "eval_wer": 27.779886148007588,
       "step": 600
     },
     {
-      "epoch": 10.02,
-      "learning_rate": 2.2822019014235677e-07,
-      "loss": 0.3018,
       "step": 625
     },
     {
-      "epoch": 10.03,
-      "learning_rate": 2.2034959960856529e-07,
-      "loss": 0.2028,
       "step": 650
     },
     {
-      "epoch": 11.01,
-      "learning_rate": 2.1222231101497956e-07,
-      "loss": 0.2588,
       "step": 675
     },
     {
-      "epoch": 11.03,
-      "learning_rate": 2.0386797995630034e-07,
-      "loss": 0.2308,
       "step": 700
     },
     {
-      "epoch": 12.0,
-      "learning_rate": 1.953170904805618e-07,
-      "loss": 0.2022,
       "step": 725
     },
     {
-      "epoch": 12.02,
-      "learning_rate": 1.8660084385614562e-07,
-      "loss": 0.2688,
       "step": 750
     },
     {
-      "epoch": 12.04,
-      "learning_rate": 1.7775104472173675e-07,
-      "loss": 0.1752,
       "step": 775
     },
     {
-      "epoch": 13.01,
-      "learning_rate": 1.6879998503464563e-07,
-      "loss": 0.2579,
       "step": 800
     },
     {
-      "epoch": 13.01,
-      "eval_loss": 0.316650390625,
-      "eval_runtime": 737.1707,
-      "eval_samples_per_second": 3.009,
-      "eval_steps_per_second": 0.095,
-      "eval_wer": 27.571157495256166,
       "step": 800
     },
     {
-      "epoch": 13.03,
-      "learning_rate": 1.5978032624095823e-07,
-      "loss": 0.195,
       "step": 825
     },
     {
-      "epoch": 14.01,
-      "learning_rate": 1.5072498009746107e-07,
-      "loss": 0.2044,
       "step": 850
     },
     {
-      "epoch": 14.02,
-      "learning_rate": 1.416669885802099e-07,
-      "loss": 0.2308,
       "step": 875
     },
     {
-      "epoch": 14.04,
-      "learning_rate": 1.3263940331794248e-07,
-      "loss": 0.1651,
       "step": 900
     },
     {
       "epoch": 15.02,
-      "learning_rate": 1.2367516499026965e-07,
-      "loss": 0.2565,
-      "step": 925
-    },
-    {
-      "epoch": 15.03,
-      "learning_rate": 1.1480698313070749e-07,
-      "loss": 0.1693,
-      "step": 950
-    },
-    {
-      "epoch": 16.01,
-      "learning_rate": 1.0606721677313713e-07,
-      "loss": 0.2152,
-      "step": 975
-    },
-    {
-      "epoch": 16.03,
-      "learning_rate": 9.748775637719916e-08,
-      "loss": 0.2034,
-      "step": 1000
-    },
-    {
-      "epoch": 16.03,
-      "eval_loss": 0.31787109375,
-      "eval_runtime": 744.5018,
-      "eval_samples_per_second": 2.979,
-      "eval_steps_per_second": 0.094,
-      "eval_wer": 27.47628083491461,
-      "step": 1000
-    },
-    {
-      "epoch": 17.0,
-      "learning_rate": 8.976315836886941e-08,
-      "loss": 0.1694,
-      "step": 1025
-    },
-    {
-      "epoch": 17.02,
-      "learning_rate": 8.157864194541929e-08,
-      "loss": 0.227,
-      "step": 1050
-    },
-    {
-      "epoch": 17.04,
-      "learning_rate": 7.36437876374443e-08,
-      "loss": 0.1607,
-      "step": 1075
-    },
-    {
-      "epoch": 18.01,
-      "learning_rate": 6.598754886780604e-08,
-      "loss": 0.2253,
-      "step": 1100
-    },
-    {
-      "epoch": 18.03,
-      "learning_rate": 5.863786242148148e-08,
-      "loss": 0.1737,
-      "step": 1125
-    },
-    {
-      "epoch": 19.01,
-      "learning_rate": 5.1621546507264605e-08,
-      "loss": 0.1891,
-      "step": 1150
-    },
-    {
-      "epoch": 19.02,
-      "learning_rate": 4.496420290103045e-08,
-      "loss": 0.2066,
-      "step": 1175
-    },
-    {
-      "epoch": 19.04,
-      "learning_rate": 3.869012352763169e-08,
-      "loss": 0.1478,
-      "step": 1200
-    },
-    {
-      "epoch": 19.04,
-      "eval_loss": 0.3193359375,
-      "eval_runtime": 742.6411,
-      "eval_samples_per_second": 2.987,
-      "eval_steps_per_second": 0.094,
-      "eval_wer": 27.523719165085385,
-      "step": 1200
-    },
-    {
-      "epoch": 20.02,
-      "learning_rate": 3.28222018222991e-08,
-      "loss": 0.2362,
-      "step": 1225
-    },
-    {
-      "epoch": 20.03,
-      "learning_rate": 2.738184919497899e-08,
-      "loss": 0.1564,
-      "step": 1250
-    },
-    {
-      "epoch": 21.01,
-      "learning_rate": 2.2388916902420573e-08,
-      "loss": 0.2014,
-      "step": 1275
-    },
-    {
-      "epoch": 21.03,
-      "learning_rate": 1.7861623613092718e-08,
-      "loss": 0.1918,
-      "step": 1300
-    },
-    {
-      "epoch": 22.0,
-      "learning_rate": 1.381648892923838e-08,
-      "loss": 0.1614,
-      "step": 1325
-    },
-    {
-      "epoch": 22.02,
-      "learning_rate": 1.0268273108637776e-08,
-      "loss": 0.2187,
-      "step": 1350
-    },
-    {
-      "epoch": 22.04,
-      "learning_rate": 7.229923206028154e-09,
-      "loss": 0.1492,
-      "step": 1375
-    },
-    {
-      "epoch": 23.01,
-      "learning_rate": 4.712525830705338e-09,
-      "loss": 0.2169,
-      "step": 1400
-    },
-    {
-      "epoch": 23.01,
-      "eval_loss": 0.31982421875,
-      "eval_runtime": 739.4797,
-      "eval_samples_per_second": 2.999,
-      "eval_steps_per_second": 0.095,
-      "eval_wer": 27.504743833017077,
-      "step": 1400
-    },
-    {
-      "epoch": 23.03,
-      "learning_rate": 2.7252666926886157e-09,
-      "loss": 0.1702,
-      "step": 1425
-    },
-    {
-      "epoch": 24.01,
-      "learning_rate": 1.2753970850610251e-09,
-      "loss": 0.1815,
-      "step": 1450
-    },
-    {
-      "epoch": 24.02,
-      "learning_rate": 3.682074247873257e-10,
-      "loss": 0.2022,
-      "step": 1475
-    },
-    {
-      "epoch": 24.04,
-      "learning_rate": 7.0079485561924665e-12,
-      "loss": 0.1448,
-      "step": 1500
-    },
-    {
-      "epoch": 24.04,
-      "step": 1500,
-      "total_flos": 2.0191356490809868e+20,
-      "train_loss": 0.31971333821614584,
-      "train_runtime": 22038.1709,
-      "train_samples_per_second": 4.356,
-      "train_steps_per_second": 0.068
     }
   ],
-  "max_steps": 1500,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 2.0191356490809868e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 19.97153700189753,
+  "best_model_checkpoint": "./checkpoint-800",
+  "epoch": 15.016666666666667,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
+      "learning_rate": 2e-08,
+      "loss": 1.2498,
       "step": 25
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 4.5e-08,
+      "loss": 0.9037,
       "step": 50
     },
     {
+      "epoch": 1.02,
+      "learning_rate": 6.999999999999999e-08,
+      "loss": 1.0907,
       "step": 75
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 9.499999999999999e-08,
+      "loss": 0.927,
       "step": 100
     },
     {
+      "epoch": 2.01,
+      "learning_rate": 9.983007697636658e-08,
+      "loss": 0.8001,
       "step": 125
     },
     {
+      "epoch": 2.04,
+      "learning_rate": 9.918643144747679e-08,
+      "loss": 0.8719,
       "step": 150
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 9.812276182268236e-08,
+      "loss": 0.5706,
       "step": 175
     },
     {
+      "epoch": 3.03,
+      "learning_rate": 9.656074673794016e-08,
+      "loss": 0.7919,
       "step": 200
     },
     {
+      "epoch": 3.03,
+      "eval_loss": 0.279296875,
+      "eval_runtime": 701.0908,
+      "eval_samples_per_second": 3.164,
+      "eval_steps_per_second": 0.1,
+      "eval_wer": 22.58064516129032,
       "step": 200
     },
     {
+      "epoch": 3.05,
+      "learning_rate": 9.455032620941839e-08,
+      "loss": 0.5192,
       "step": 225
     },
     {
+      "epoch": 4.02,
+      "learning_rate": 9.200467769494708e-08,
+      "loss": 0.6054,
       "step": 250
     },
     {
+      "epoch": 4.04,
+      "learning_rate": 8.914398527981508e-08,
+      "loss": 0.5903,
       "step": 275
     },
     {
+      "epoch": 5.01,
+      "learning_rate": 8.590631488815944e-08,
+      "loss": 0.469,
       "step": 300
     },
     {
+      "epoch": 5.03,
+      "learning_rate": 8.23228470557425e-08,
+      "loss": 0.6128,
       "step": 325
     },
     {
+      "epoch": 5.06,
+      "learning_rate": 7.84280925367132e-08,
+      "loss": 0.4026,
       "step": 350
     },
     {
+      "epoch": 6.02,
+      "learning_rate": 7.408768370508576e-08,
+      "loss": 0.5923,
       "step": 375
     },
     {
+      "epoch": 6.05,
+      "learning_rate": 6.967704118273256e-08,
+      "loss": 0.4409,
       "step": 400
     },
     {
+      "epoch": 6.05,
+      "eval_loss": 0.26513671875,
+      "eval_runtime": 702.5872,
+      "eval_samples_per_second": 3.157,
+      "eval_steps_per_second": 0.1,
+      "eval_wer": 20.60721062618596,
       "step": 400
     },
     {
+      "epoch": 7.01,
+      "learning_rate": 6.507689799722478e-08,
+      "loss": 0.4854,
       "step": 425
     },
     {
+      "epoch": 7.04,
+      "learning_rate": 6.03315560421329e-08,
+      "loss": 0.4989,
       "step": 450
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 5.5291509972967234e-08,
+      "loss": 0.3982,
       "step": 475
     },
     {
+      "epoch": 8.03,
+      "learning_rate": 5.0392695044435566e-08,
+      "loss": 0.5425,
       "step": 500
     },
     {
+      "epoch": 8.06,
+      "learning_rate": 4.5490098247957034e-08,
+      "loss": 0.3773,
       "step": 525
     },
     {
+      "epoch": 9.02,
+      "learning_rate": 4.0630934270713755e-08,
+      "loss": 0.5168,
       "step": 550
     },
     {
+      "epoch": 9.05,
+      "learning_rate": 3.586199951809582e-08,
+      "loss": 0.4259,
       "step": 575
     },
     {
+      "epoch": 10.01,
+      "learning_rate": 3.1047378773808274e-08,
+      "loss": 0.4393,
       "step": 600
     },
     {
+      "epoch": 10.01,
+      "eval_loss": 0.260009765625,
+      "eval_runtime": 701.0779,
+      "eval_samples_per_second": 3.164,
+      "eval_steps_per_second": 0.1,
+      "eval_wer": 20.06641366223909,
       "step": 600
     },
     {
+      "epoch": 10.04,
+      "learning_rate": 2.6603509286971338e-08,
+      "loss": 0.497,
       "step": 625
     },
     {
+      "epoch": 11.0,
+      "learning_rate": 2.238496079552367e-08,
+      "loss": 0.3649,
       "step": 650
     },
     {
+      "epoch": 11.03,
+      "learning_rate": 1.8432360227531113e-08,
+      "loss": 0.5444,
       "step": 675
     },
     {
+      "epoch": 11.06,
+      "learning_rate": 1.4783773287174683e-08,
+      "loss": 0.3612,
       "step": 700
     },
     {
+      "epoch": 12.02,
+      "learning_rate": 1.134947733186315e-08,
+      "loss": 0.4897,
       "step": 725
     },
     {
+      "epoch": 12.05,
+      "learning_rate": 8.426519384872732e-09,
+      "loss": 0.4383,
       "step": 750
     },
     {
+      "epoch": 13.01,
+      "learning_rate": 5.903936782582253e-09,
+      "loss": 0.4205,
       "step": 775
     },
     {
+      "epoch": 13.04,
+      "learning_rate": 3.8060233744356625e-09,
+      "loss": 0.4975,
       "step": 800
     },
     {
+      "epoch": 13.04,
+      "eval_loss": 0.25927734375,
+      "eval_runtime": 700.0881,
+      "eval_samples_per_second": 3.168,
+      "eval_steps_per_second": 0.1,
+      "eval_wer": 19.97153700189753,
       "step": 800
     },
     {
+      "epoch": 13.06,
+      "learning_rate": 2.152983213389559e-09,
+      "loss": 0.3587,
       "step": 825
     },
     {
+      "epoch": 14.03,
+      "learning_rate": 9.228083061983804e-10,
+      "loss": 0.5509,
       "step": 850
     },
     {
+      "epoch": 14.05,
+      "learning_rate": 2.2190176984600017e-10,
+      "loss": 0.3727,
       "step": 875
     },
     {
+      "epoch": 15.02,
+      "learning_rate": 3.8553092647219954e-13,
+      "loss": 0.4754,
       "step": 900
     },
     {
       "epoch": 15.02,
+      "step": 900,
+      "total_flos": 1.2318638198947106e+20,
+      "train_loss": 0.5692690700954861,
+      "train_runtime": 21274.2497,
+      "train_samples_per_second": 2.707,
+      "train_steps_per_second": 0.042
     }
   ],
+  "max_steps": 900,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.2318638198947106e+20,
   "trial_name": null,
   "trial_params": null
 }