Training in progress, step 6000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d5bd30929a6dd034a66c5d64682b9b3cdc6f1915335f3bc1d67c8a2e7afa275
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:78caa2c38a325571429f5192c54b55e7acd2942178a3b3a29e1355f64718dfc3
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0673f09c0825fa04b428f3263c1ec340a98a30b0050d9b657d3760f11d8c4051
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:34207402f7ac29c10b51b15618427b3becb7efb4d9c4faeb05f3eba0719776d5
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9eff99030c3d6f5750daa7c2be6d4f88cb3d11423c32100f3c68edcfd52a81b3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd9215fd4e50baa3d875dcc8889839ab8d7f5341bf2c225bcc0e39d3faf0a13e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8beec2a3ed2d46be0542aeb907aa0e1e4613601adbf391ce67dcb87b78a7321a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2feb74370175d96a6640e7f04476c37d2c41e3013d5d40dcad7ab974a5f7bc5f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 30.15735431390852,
-  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-5500",
-  "epoch": 1.7679202828672453,
   "eval_steps": 500,
-  "global_step": 5500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1646,6 +1646,155 @@
       "eval_samples_per_second": 2.371,
       "eval_steps_per_second": 0.297,
       "step": 5500
     }
   ],
   "logging_steps": 25,
@@ -1653,7 +1802,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
-  "total_flos": 2.539551522816e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 29.697292972396323,
+  "best_model_checkpoint": "./linshoufanfork-whisper-small-nan-tw/checkpoint-6000",
+  "epoch": 1.9286403085824495,
   "eval_steps": 500,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.371,
       "eval_steps_per_second": 0.297,
       "step": 5500
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 7.236656188964844,
+      "learning_rate": 1.138516824567135e-06,
+      "loss": 0.1295,
+      "step": 5525
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 6.239099502563477,
+      "learning_rate": 1.0976804965697485e-06,
+      "loss": 0.1378,
+      "step": 5550
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 4.9148945808410645,
+      "learning_rate": 1.056844168572362e-06,
+      "loss": 0.1272,
+      "step": 5575
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 7.572327136993408,
+      "learning_rate": 1.0160078405749757e-06,
+      "loss": 0.1405,
+      "step": 5600
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 6.76165771484375,
+      "learning_rate": 9.751715125775892e-07,
+      "loss": 0.1351,
+      "step": 5625
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 10.984220504760742,
+      "learning_rate": 9.343351845802026e-07,
+      "loss": 0.1467,
+      "step": 5650
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 4.543166637420654,
+      "learning_rate": 8.934988565828162e-07,
+      "loss": 0.1175,
+      "step": 5675
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 8.191649436950684,
+      "learning_rate": 8.526625285854297e-07,
+      "loss": 0.1388,
+      "step": 5700
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 7.215826988220215,
+      "learning_rate": 8.118262005880432e-07,
+      "loss": 0.1354,
+      "step": 5725
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 5.940629959106445,
+      "learning_rate": 7.709898725906567e-07,
+      "loss": 0.1283,
+      "step": 5750
+    },
+    {
+      "epoch": 1.86,
+      "grad_norm": 6.796767234802246,
+      "learning_rate": 7.301535445932702e-07,
+      "loss": 0.1274,
+      "step": 5775
+    },
+    {
+      "epoch": 1.86,
+      "grad_norm": 8.403697967529297,
+      "learning_rate": 6.893172165958838e-07,
+      "loss": 0.1333,
+      "step": 5800
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 6.127229690551758,
+      "learning_rate": 6.484808885984972e-07,
+      "loss": 0.1406,
+      "step": 5825
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 7.16465950012207,
+      "learning_rate": 6.076445606011108e-07,
+      "loss": 0.132,
+      "step": 5850
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 5.777968406677246,
+      "learning_rate": 5.668082326037243e-07,
+      "loss": 0.1437,
+      "step": 5875
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 6.021764755249023,
+      "learning_rate": 5.259719046063379e-07,
+      "loss": 0.1203,
+      "step": 5900
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 5.480493068695068,
+      "learning_rate": 4.851355766089514e-07,
+      "loss": 0.1398,
+      "step": 5925
+    },
+    {
+      "epoch": 1.91,
+      "grad_norm": 7.609493732452393,
+      "learning_rate": 4.442992486115649e-07,
+      "loss": 0.1274,
+      "step": 5950
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 5.910650730133057,
+      "learning_rate": 4.034629206141784e-07,
+      "loss": 0.1352,
+      "step": 5975
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 4.371640682220459,
+      "learning_rate": 3.626265926167919e-07,
+      "loss": 0.1265,
+      "step": 6000
+    },
+    {
+      "epoch": 1.93,
+      "eval_cer": 29.697292972396323,
+      "eval_loss": 0.37359777092933655,
+      "eval_runtime": 1867.3275,
+      "eval_samples_per_second": 2.376,
+      "eval_steps_per_second": 0.297,
+      "step": 6000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 2.770419843072e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null