Model save

Browse files

Files changed (7) hide show

README.md +8 -5
all_results.json +14 -0
eval_results.json +9 -0
pytorch_model.bin +1 -1
train_results.json +8 -0
trainer_state.json +526 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3271
-- Wer: 0.2435
 ## Model description
@@ -46,14 +46,17 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 500
-- training_steps: 2000
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Wer    |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
-| 0.0233        | 4.89  | 1000 | 0.2673          | 0.2642 |
-| 0.0003        | 9.78  | 2000 | 0.3271          | 0.2435 |
 ### Framework versions

 This model is a fine-tuned version of [openai/whisper-medium](https://huggingface.co/openai/whisper-medium) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3972
+- Wer: 0.2487
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 500
+- training_steps: 5000
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Wer    |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
+| 0.0282        | 4.89  | 1000 | 0.2700          | 0.2647 |
+| 0.0025        | 9.78  | 2000 | 0.3434          | 0.2554 |
+| 0.0001        | 14.67 | 3000 | 0.3640          | 0.2471 |
+| 0.0           | 19.56 | 4000 | 0.3902          | 0.2494 |
+| 0.0           | 24.45 | 5000 | 0.3972          | 0.2487 |
 ### Framework versions

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 9.78,
+    "eval_loss": 0.3270670771598816,
+    "eval_runtime": 1012.2261,
+    "eval_samples": 2894,
+    "eval_samples_per_second": 2.859,
+    "eval_steps_per_second": 0.179,
+    "eval_wer": 0.2435029205113011,
+    "train_loss": 0.06386898325150833,
+    "train_runtime": 15830.7471,
+    "train_samples": 6540,
+    "train_samples_per_second": 4.043,
+    "train_steps_per_second": 0.126
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.78,
+    "eval_loss": 0.3270670771598816,
+    "eval_runtime": 1012.2261,
+    "eval_samples": 2894,
+    "eval_samples_per_second": 2.859,
+    "eval_steps_per_second": 0.179,
+    "eval_wer": 0.2435029205113011
+}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6d89192c8204747078cdb7ee204f17b92d6db77a31d990bdbc71bc8552afe8f
 size 3055754969

 version https://git-lfs.github.com/spec/v1
+oid sha256:8467f4a282e9b110cd68a87ca9bfdf9365e37d6f07bb52c527517b55c463fc9e
 size 3055754969

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 9.78,
+    "train_loss": 0.06386898325150833,
+    "train_runtime": 15830.7471,
+    "train_samples": 6540,
+    "train_samples_per_second": 4.043,
+    "train_steps_per_second": 0.126
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,526 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.7799511002445,
+  "eval_steps": 1000,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.6666,
+      "step": 25
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.4618,
+      "step": 50
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.5e-06,
+      "loss": 0.4005,
+      "step": 75
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.2467,
+      "step": 100
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.5e-06,
+      "loss": 0.2931,
+      "step": 125
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3e-06,
+      "loss": 0.1967,
+      "step": 150
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.5e-06,
+      "loss": 0.253,
+      "step": 175
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.1654,
+      "step": 200
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 4.5e-06,
+      "loss": 0.1921,
+      "step": 225
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 5e-06,
+      "loss": 0.1238,
+      "step": 250
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.1626,
+      "step": 275
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 6e-06,
+      "loss": 0.1193,
+      "step": 300
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.1468,
+      "step": 325
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 7e-06,
+      "loss": 0.1096,
+      "step": 350
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.1499,
+      "step": 375
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.109,
+      "step": 400
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 8.5e-06,
+      "loss": 0.1019,
+      "step": 425
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 9e-06,
+      "loss": 0.0609,
+      "step": 450
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 9.5e-06,
+      "loss": 0.0767,
+      "step": 475
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1e-05,
+      "loss": 0.0703,
+      "step": 500
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 9.833333333333333e-06,
+      "loss": 0.0874,
+      "step": 525
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.074,
+      "step": 550
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 9.5e-06,
+      "loss": 0.0868,
+      "step": 575
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0697,
+      "step": 600
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.0552,
+      "step": 625
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 9e-06,
+      "loss": 0.038,
+      "step": 650
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 8.833333333333334e-06,
+      "loss": 0.0427,
+      "step": 675
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 8.666666666666668e-06,
+      "loss": 0.0363,
+      "step": 700
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 8.5e-06,
+      "loss": 0.0422,
+      "step": 725
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0396,
+      "step": 750
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 8.166666666666668e-06,
+      "loss": 0.0465,
+      "step": 775
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0413,
+      "step": 800
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 7.833333333333333e-06,
+      "loss": 0.0308,
+      "step": 825
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.0211,
+      "step": 850
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.0206,
+      "step": 875
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.0225,
+      "step": 900
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 7.166666666666667e-06,
+      "loss": 0.0206,
+      "step": 925
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 7e-06,
+      "loss": 0.0248,
+      "step": 950
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 6.833333333333334e-06,
+      "loss": 0.0228,
+      "step": 975
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0233,
+      "step": 1000
+    },
+    {
+      "epoch": 4.89,
+      "eval_loss": 0.26726391911506653,
+      "eval_runtime": 1030.3192,
+      "eval_samples_per_second": 2.809,
+      "eval_steps_per_second": 0.176,
+      "eval_wer": 0.264200457123508,
+      "step": 1000
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.0171,
+      "step": 1025
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 6.333333333333333e-06,
+      "loss": 0.0122,
+      "step": 1050
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 6.166666666666667e-06,
+      "loss": 0.009,
+      "step": 1075
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 6e-06,
+      "loss": 0.0143,
+      "step": 1100
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.0093,
+      "step": 1125
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 5.666666666666667e-06,
+      "loss": 0.0116,
+      "step": 1150
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.01,
+      "step": 1175
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 0.0108,
+      "step": 1200
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 5.1666666666666675e-06,
+      "loss": 0.0061,
+      "step": 1225
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 5e-06,
+      "loss": 0.0072,
+      "step": 1250
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 4.833333333333333e-06,
+      "loss": 0.0031,
+      "step": 1275
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.0058,
+      "step": 1300
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 4.5e-06,
+      "loss": 0.0028,
+      "step": 1325
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.0057,
+      "step": 1350
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.0034,
+      "step": 1375
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0052,
+      "step": 1400
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 3.833333333333334e-06,
+      "loss": 0.0023,
+      "step": 1425
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.0032,
+      "step": 1450
+    },
+    {
+      "epoch": 7.21,
+      "learning_rate": 3.5e-06,
+      "loss": 0.0011,
+      "step": 1475
+    },
+    {
+      "epoch": 7.33,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0017,
+      "step": 1500
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 3.1666666666666667e-06,
+      "loss": 0.0012,
+      "step": 1525
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 3e-06,
+      "loss": 0.002,
+      "step": 1550
+    },
+    {
+      "epoch": 7.7,
+      "learning_rate": 2.8333333333333335e-06,
+      "loss": 0.0008,
+      "step": 1575
+    },
+    {
+      "epoch": 7.82,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.0018,
+      "step": 1600
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0017,
+      "step": 1625
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.0008,
+      "step": 1650
+    },
+    {
+      "epoch": 8.19,
+      "learning_rate": 2.166666666666667e-06,
+      "loss": 0.0008,
+      "step": 1675
+    },
+    {
+      "epoch": 8.31,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0007,
+      "step": 1700
+    },
+    {
+      "epoch": 8.44,
+      "learning_rate": 1.8333333333333333e-06,
+      "loss": 0.0004,
+      "step": 1725
+    },
+    {
+      "epoch": 8.56,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.0007,
+      "step": 1750
+    },
+    {
+      "epoch": 8.68,
+      "learning_rate": 1.5e-06,
+      "loss": 0.0004,
+      "step": 1775
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 0.0005,
+      "step": 1800
+    },
+    {
+      "epoch": 8.92,
+      "learning_rate": 1.1666666666666668e-06,
+      "loss": 0.0005,
+      "step": 1825
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0004,
+      "step": 1850
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.0003,
+      "step": 1875
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 6.666666666666667e-07,
+      "loss": 0.0004,
+      "step": 1900
+    },
+    {
+      "epoch": 9.41,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.0003,
+      "step": 1925
+    },
+    {
+      "epoch": 9.54,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.0004,
+      "step": 1950
+    },
+    {
+      "epoch": 9.66,
+      "learning_rate": 1.6666666666666668e-07,
+      "loss": 0.0003,
+      "step": 1975
+    },
+    {
+      "epoch": 9.78,
+      "learning_rate": 0.0,
+      "loss": 0.0003,
+      "step": 2000
+    },
+    {
+      "epoch": 9.78,
+      "eval_loss": 0.3270670771598816,
+      "eval_runtime": 1014.5775,
+      "eval_samples_per_second": 2.852,
+      "eval_steps_per_second": 0.178,
+      "eval_wer": 0.2435029205113011,
+      "step": 2000
+    },
+    {
+      "epoch": 9.78,
+      "step": 2000,
+      "total_flos": 6.528197230460928e+19,
+      "train_loss": 0.06386898325150833,
+      "train_runtime": 15830.7471,
+      "train_samples_per_second": 4.043,
+      "train_steps_per_second": 0.126
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2000,
+  "num_train_epochs": 10,
+  "save_steps": 1000,
+  "total_flos": 6.528197230460928e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bc95fce290172d75e20584b5607f03ab82932147fac732f5a64d62cc1ecb29e
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb08232344994b20ec55fad2641a1ee6b0f5f04bbc511c57fee1e6352f8e6a26
 size 4219