Upload 9 files

Browse files

Files changed (7) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +16 -166
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fe13c82def9230cab968b5934aa6f0bcc8b78357f3b7621735f527fda41950f
 size 2490594117

 version https://git-lfs.github.com/spec/v1
+oid sha256:be64e5ceb29b7d7ff2c79a1fe0408c79c9bf6d37958658d90e1023613ba1ade9
 size 2490594117

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f621c5200d8a92eb99ef0a6871e32ebf48d4916ef80959751843d842c21ca87
 size 1262168365

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3f5fcaff3ffe4fc4a7b4ef93ce03bbda4b080ca208b173b45c21454d91a4b60
 size 1262168365

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6ebaa40da56eb8238486a736945960ff693e5e0ef75539b04d1fe0ea16420d1
-size 14639

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d78fbb1a5438682b3e56cdcbcd670790d52471dfc41d3e1df54743de1874ab2
+size 14575

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21459ca4f1dfeb8d3a2ce03a6e448827af584d3ce458be1ce9e9ef9fe422742c
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc40a4be6a52cee4d7658df4041e660ffa02b0d8b5bd143bb8bb397f7b71b1a5
 size 557

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f9a03f06b9dc92ae9cd16600ed9dad87df8b513d9229f31412efddb4e064bf6
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cd51f54c3c9ede3156fe9d077aa80e3c39fad9c7aefb825e83dd16225db78dd
 size 627

trainer_state.json CHANGED Viewed

@@ -1,187 +1,37 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.96969696969697,
-  "global_step": 2800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.91,
-      "learning_rate": 9.999696951330385e-06,
-      "loss": 0.0297,
       "step": 150
     },
     {
-      "epoch": 1.82,
-      "learning_rate": 9.998787805321536e-06,
-      "loss": 0.0288,
       "step": 300
     },
     {
-      "epoch": 2.42,
-      "eval_loss": 0.22611959278583527,
-      "eval_runtime": 391.6246,
-      "eval_samples_per_second": 12.034,
-      "eval_steps_per_second": 1.507,
-      "eval_wer": 0.1515768056968464,
       "step": 400
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 9.997878659312687e-06,
-      "loss": 0.03,
-      "step": 450
-    },
-    {
-      "epoch": 3.64,
-      "learning_rate": 9.996969513303838e-06,
-      "loss": 0.0268,
-      "step": 600
-    },
-    {
-      "epoch": 4.55,
-      "learning_rate": 9.996060367294988e-06,
-      "loss": 0.0288,
-      "step": 750
-    },
-    {
-      "epoch": 4.85,
-      "eval_loss": 0.22758068144321442,
-      "eval_runtime": 253.9815,
-      "eval_samples_per_second": 18.556,
-      "eval_steps_per_second": 2.323,
-      "eval_wer": 0.1512800949474398,
-      "step": 800
-    },
-    {
-      "epoch": 5.45,
-      "learning_rate": 9.99515122128614e-06,
-      "loss": 0.0271,
-      "step": 900
-    },
-    {
-      "epoch": 6.36,
-      "learning_rate": 9.99424207527729e-06,
-      "loss": 0.0254,
-      "step": 1050
-    },
-    {
-      "epoch": 7.27,
-      "learning_rate": 9.993332929268441e-06,
-      "loss": 0.0279,
-      "step": 1200
-    },
-    {
-      "epoch": 7.27,
-      "eval_loss": 0.22872433066368103,
-      "eval_runtime": 254.213,
-      "eval_samples_per_second": 18.54,
-      "eval_steps_per_second": 2.321,
-      "eval_wer": 0.15200067819599863,
-      "step": 1200
-    },
-    {
-      "epoch": 8.18,
-      "learning_rate": 9.992423783259593e-06,
-      "loss": 0.0275,
-      "step": 1350
-    },
-    {
-      "epoch": 9.09,
-      "learning_rate": 9.991514637250743e-06,
-      "loss": 0.0264,
-      "step": 1500
-    },
-    {
-      "epoch": 9.7,
-      "eval_loss": 0.2296951413154602,
-      "eval_runtime": 261.105,
-      "eval_samples_per_second": 18.05,
-      "eval_steps_per_second": 2.26,
-      "eval_wer": 0.15102577144794846,
-      "step": 1600
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 9.990605491241893e-06,
-      "loss": 0.0264,
-      "step": 1650
-    },
-    {
-      "epoch": 10.91,
-      "learning_rate": 9.989696345233046e-06,
-      "loss": 0.0266,
-      "step": 1800
-    },
-    {
-      "epoch": 11.82,
-      "learning_rate": 9.988787199224195e-06,
-      "loss": 0.0261,
-      "step": 1950
-    },
-    {
-      "epoch": 12.12,
-      "eval_loss": 0.23657573759555817,
-      "eval_runtime": 260.075,
-      "eval_samples_per_second": 18.122,
-      "eval_steps_per_second": 2.269,
-      "eval_wer": 0.1510681586978637,
-      "step": 2000
-    },
-    {
-      "epoch": 12.73,
-      "learning_rate": 9.987878053215348e-06,
-      "loss": 0.0261,
-      "step": 2100
-    },
-    {
-      "epoch": 13.64,
-      "learning_rate": 9.986968907206498e-06,
-      "loss": 0.0255,
-      "step": 2250
-    },
-    {
-      "epoch": 14.55,
-      "learning_rate": 9.98605976119765e-06,
-      "loss": 0.0268,
-      "step": 2400
-    },
-    {
-      "epoch": 14.55,
-      "eval_loss": 0.2373363971710205,
-      "eval_runtime": 262.4635,
-      "eval_samples_per_second": 17.957,
-      "eval_steps_per_second": 2.248,
-      "eval_wer": 0.15081383519837233,
-      "step": 2400
-    },
-    {
-      "epoch": 15.45,
-      "learning_rate": 9.9851506151888e-06,
-      "loss": 0.0259,
-      "step": 2550
-    },
-    {
-      "epoch": 16.36,
-      "learning_rate": 9.984247530153343e-06,
-      "loss": 0.0253,
-      "step": 2700
-    },
-    {
-      "epoch": 16.97,
-      "eval_loss": 0.2379976361989975,
-      "eval_runtime": 270.8378,
-      "eval_samples_per_second": 17.402,
-      "eval_steps_per_second": 2.178,
-      "eval_wer": 0.15098338419803323,
-      "step": 2800
     }
   ],
-  "max_steps": 1650000,
   "num_train_epochs": 10000,
-  "total_flos": 6.3104115166245315e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.379540400296516,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.89,
+      "learning_rate": 9.999702363235908e-06,
+      "loss": 0.0354,
       "step": 150
     },
     {
+      "epoch": 1.78,
+      "learning_rate": 9.99880945294363e-06,
+      "loss": 0.0336,
       "step": 300
     },
     {
+      "epoch": 2.38,
+      "eval_loss": 0.19874997437000275,
+      "eval_runtime": 421.2238,
+      "eval_samples_per_second": 11.438,
+      "eval_steps_per_second": 1.432,
+      "eval_wer": 0.15169214199908868,
       "step": 400
     }
   ],
+  "max_steps": 1680000,
   "num_train_epochs": 10000,
+  "total_flos": 9.154271872958712e+18,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca2239b04ab2d8f9a4cd4cd382fd3ed21a0d89184c4dfe5d7b09576582207cb6
 size 3323

 version https://git-lfs.github.com/spec/v1
+oid sha256:baa3cfd4e4131e4651786c3cda673f577d5bd99579c07be55652efaf86dc1600
 size 3323