marinone94 commited on Feb 4, 2022

Commit

6012db9

•

1 Parent(s): 32a526a

Training in progress, step 1600

Browse files

Files changed (27) hide show

checkpoint-1200/scaler.pt +0 -3
checkpoint-1200/trainer_state.json +0 -484
checkpoint-1300/scheduler.pt +0 -3
checkpoint-1400/config.json +0 -115
checkpoint-1400/optimizer.pt +0 -3
checkpoint-1400/preprocessor_config.json +0 -9
checkpoint-1400/pytorch_model.bin +0 -3
checkpoint-1400/rng_state.pth +0 -3
checkpoint-1400/training_args.bin +0 -3
{checkpoint-1200 → checkpoint-1500}/config.json +0 -0
{checkpoint-1200 → checkpoint-1500}/optimizer.pt +1 -1
{checkpoint-1200 → checkpoint-1500}/preprocessor_config.json +0 -0
{checkpoint-1300 → checkpoint-1500}/pytorch_model.bin +1 -1
{checkpoint-1300 → checkpoint-1500}/rng_state.pth +1 -1
{checkpoint-1400 → checkpoint-1500}/scaler.pt +1 -1
{checkpoint-1200 → checkpoint-1500}/scheduler.pt +1 -1
{checkpoint-1400 → checkpoint-1500}/trainer_state.json +42 -3
{checkpoint-1200 → checkpoint-1500}/training_args.bin +0 -0
{checkpoint-1300 → checkpoint-1600}/config.json +0 -0
{checkpoint-1300 → checkpoint-1600}/optimizer.pt +1 -1
{checkpoint-1300 → checkpoint-1600}/preprocessor_config.json +0 -0
{checkpoint-1200 → checkpoint-1600}/pytorch_model.bin +1 -1
{checkpoint-1200 → checkpoint-1600}/rng_state.pth +1 -1
{checkpoint-1300 → checkpoint-1600}/scaler.pt +1 -1
{checkpoint-1400 → checkpoint-1600}/scheduler.pt +1 -1
{checkpoint-1300 → checkpoint-1600}/trainer_state.json +120 -3
{checkpoint-1300 → checkpoint-1600}/training_args.bin +0 -0

checkpoint-1200/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:19c7277eaca0850ae3e9b6790b3d002d820169cce0671185e672c28c8ae8e056
-size 559

checkpoint-1200/trainer_state.json DELETED Viewed

@@ -1,484 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 13.185792349726777,
-  "global_step": 1200,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.22,
-      "learning_rate": 2.5e-06,
-      "loss": 3.5867,
-      "step": 20
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 5e-06,
-      "loss": 3.5457,
-      "step": 40
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 7.5e-06,
-      "loss": 3.4513,
-      "step": 60
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 1e-05,
-      "loss": 3.3432,
-      "step": 80
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 1.25e-05,
-      "loss": 3.3533,
-      "step": 100
-    },
-    {
-      "epoch": 1.1,
-      "eval_loss": 3.2806732654571533,
-      "eval_runtime": 190.4728,
-      "eval_samples_per_second": 25.426,
-      "eval_steps_per_second": 0.798,
-      "eval_wer": 1.0,
-      "step": 100
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 1.5e-05,
-      "loss": 3.2217,
-      "step": 120
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 1.7500000000000002e-05,
-      "loss": 3.1765,
-      "step": 140
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 2e-05,
-      "loss": 3.1408,
-      "step": 160
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 2.2499999999999998e-05,
-      "loss": 3.1165,
-      "step": 180
-    },
-    {
-      "epoch": 2.2,
-      "learning_rate": 2.5e-05,
-      "loss": 3.1709,
-      "step": 200
-    },
-    {
-      "epoch": 2.2,
-      "eval_loss": 3.1325438022613525,
-      "eval_runtime": 192.4978,
-      "eval_samples_per_second": 25.159,
-      "eval_steps_per_second": 0.79,
-      "eval_wer": 1.0,
-      "step": 200
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 2.75e-05,
-      "loss": 3.079,
-      "step": 220
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 3e-05,
-      "loss": 3.0677,
-      "step": 240
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 3.2500000000000004e-05,
-      "loss": 3.0656,
-      "step": 260
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 3.5000000000000004e-05,
-      "loss": 3.1463,
-      "step": 280
-    },
-    {
-      "epoch": 3.3,
-      "learning_rate": 3.75e-05,
-      "loss": 3.0573,
-      "step": 300
-    },
-    {
-      "epoch": 3.3,
-      "eval_loss": 3.0614514350891113,
-      "eval_runtime": 194.36,
-      "eval_samples_per_second": 24.918,
-      "eval_steps_per_second": 0.782,
-      "eval_wer": 1.0,
-      "step": 300
-    },
-    {
-      "epoch": 3.51,
-      "learning_rate": 4e-05,
-      "loss": 3.0511,
-      "step": 320
-    },
-    {
-      "epoch": 3.73,
-      "learning_rate": 4.25e-05,
-      "loss": 3.0358,
-      "step": 340
-    },
-    {
-      "epoch": 3.95,
-      "learning_rate": 4.4999999999999996e-05,
-      "loss": 3.0416,
-      "step": 360
-    },
-    {
-      "epoch": 4.17,
-      "learning_rate": 4.75e-05,
-      "loss": 3.1053,
-      "step": 380
-    },
-    {
-      "epoch": 4.39,
-      "learning_rate": 5e-05,
-      "loss": 3.0314,
-      "step": 400
-    },
-    {
-      "epoch": 4.39,
-      "eval_loss": 3.0990231037139893,
-      "eval_runtime": 198.3688,
-      "eval_samples_per_second": 24.414,
-      "eval_steps_per_second": 0.766,
-      "eval_wer": 1.0,
-      "step": 400
-    },
-    {
-      "epoch": 4.61,
-      "learning_rate": 5.25e-05,
-      "loss": 3.0309,
-      "step": 420
-    },
-    {
-      "epoch": 4.83,
-      "learning_rate": 5.5e-05,
-      "loss": 3.0259,
-      "step": 440
-    },
-    {
-      "epoch": 5.05,
-      "learning_rate": 5.75e-05,
-      "loss": 3.0998,
-      "step": 460
-    },
-    {
-      "epoch": 5.27,
-      "learning_rate": 6e-05,
-      "loss": 3.0152,
-      "step": 480
-    },
-    {
-      "epoch": 5.49,
-      "learning_rate": 6.25e-05,
-      "loss": 3.0129,
-      "step": 500
-    },
-    {
-      "epoch": 5.49,
-      "eval_loss": 3.039973497390747,
-      "eval_runtime": 190.8567,
-      "eval_samples_per_second": 25.375,
-      "eval_steps_per_second": 0.796,
-      "eval_wer": 1.0,
-      "step": 500
-    },
-    {
-      "epoch": 5.71,
-      "learning_rate": 6.500000000000001e-05,
-      "loss": 3.0088,
-      "step": 520
-    },
-    {
-      "epoch": 5.93,
-      "learning_rate": 6.75e-05,
-      "loss": 3.0051,
-      "step": 540
-    },
-    {
-      "epoch": 6.15,
-      "learning_rate": 7.000000000000001e-05,
-      "loss": 3.073,
-      "step": 560
-    },
-    {
-      "epoch": 6.37,
-      "learning_rate": 7.25e-05,
-      "loss": 3.0031,
-      "step": 580
-    },
-    {
-      "epoch": 6.59,
-      "learning_rate": 7.5e-05,
-      "loss": 2.9964,
-      "step": 600
-    },
-    {
-      "epoch": 6.59,
-      "eval_loss": 2.998962640762329,
-      "eval_runtime": 193.5213,
-      "eval_samples_per_second": 25.026,
-      "eval_steps_per_second": 0.785,
-      "eval_wer": 1.0,
-      "step": 600
-    },
-    {
-      "epoch": 6.81,
-      "learning_rate": 7.75e-05,
-      "loss": 2.9921,
-      "step": 620
-    },
-    {
-      "epoch": 7.03,
-      "learning_rate": 8e-05,
-      "loss": 3.0665,
-      "step": 640
-    },
-    {
-      "epoch": 7.25,
-      "learning_rate": 8.25e-05,
-      "loss": 2.9826,
-      "step": 660
-    },
-    {
-      "epoch": 7.47,
-      "learning_rate": 8.5e-05,
-      "loss": 2.9689,
-      "step": 680
-    },
-    {
-      "epoch": 7.69,
-      "learning_rate": 8.75e-05,
-      "loss": 2.9602,
-      "step": 700
-    },
-    {
-      "epoch": 7.69,
-      "eval_loss": 2.9620397090911865,
-      "eval_runtime": 193.5851,
-      "eval_samples_per_second": 25.017,
-      "eval_steps_per_second": 0.785,
-      "eval_wer": 1.0,
-      "step": 700
-    },
-    {
-      "epoch": 7.91,
-      "learning_rate": 8.999999999999999e-05,
-      "loss": 2.9639,
-      "step": 720
-    },
-    {
-      "epoch": 8.13,
-      "learning_rate": 9.25e-05,
-      "loss": 3.0215,
-      "step": 740
-    },
-    {
-      "epoch": 8.35,
-      "learning_rate": 9.5e-05,
-      "loss": 2.9454,
-      "step": 760
-    },
-    {
-      "epoch": 8.57,
-      "learning_rate": 9.750000000000001e-05,
-      "loss": 2.9239,
-      "step": 780
-    },
-    {
-      "epoch": 8.79,
-      "learning_rate": 0.0001,
-      "loss": 2.8756,
-      "step": 800
-    },
-    {
-      "epoch": 8.79,
-      "eval_loss": 2.7302000522613525,
-      "eval_runtime": 191.8065,
-      "eval_samples_per_second": 25.249,
-      "eval_steps_per_second": 0.792,
-      "eval_wer": 1.0,
-      "step": 800
-    },
-    {
-      "epoch": 9.01,
-      "learning_rate": 0.0001025,
-      "loss": 2.8933,
-      "step": 820
-    },
-    {
-      "epoch": 9.23,
-      "learning_rate": 0.000105,
-      "loss": 2.7318,
-      "step": 840
-    },
-    {
-      "epoch": 9.45,
-      "learning_rate": 0.0001075,
-      "loss": 2.5941,
-      "step": 860
-    },
-    {
-      "epoch": 9.67,
-      "learning_rate": 0.00011,
-      "loss": 2.4441,
-      "step": 880
-    },
-    {
-      "epoch": 9.89,
-      "learning_rate": 0.00011250000000000001,
-      "loss": 2.2931,
-      "step": 900
-    },
-    {
-      "epoch": 9.89,
-      "eval_loss": 1.5057899951934814,
-      "eval_runtime": 196.4368,
-      "eval_samples_per_second": 24.654,
-      "eval_steps_per_second": 0.774,
-      "eval_wer": 0.9775759296054499,
-      "step": 900
-    },
-    {
-      "epoch": 10.11,
-      "learning_rate": 0.000115,
-      "loss": 2.1999,
-      "step": 920
-    },
-    {
-      "epoch": 10.33,
-      "learning_rate": 0.0001175,
-      "loss": 2.0574,
-      "step": 940
-    },
-    {
-      "epoch": 10.55,
-      "learning_rate": 0.00012,
-      "loss": 1.9672,
-      "step": 960
-    },
-    {
-      "epoch": 10.77,
-      "learning_rate": 0.0001225,
-      "loss": 1.9015,
-      "step": 980
-    },
-    {
-      "epoch": 10.98,
-      "learning_rate": 0.000125,
-      "loss": 1.8427,
-      "step": 1000
-    },
-    {
-      "epoch": 10.98,
-      "eval_loss": 0.9154536724090576,
-      "eval_runtime": 203.1168,
-      "eval_samples_per_second": 23.843,
-      "eval_steps_per_second": 0.748,
-      "eval_wer": 0.7832245245529378,
-      "step": 1000
-    },
-    {
-      "epoch": 11.21,
-      "learning_rate": 0.0001275,
-      "loss": 1.8155,
-      "step": 1020
-    },
-    {
-      "epoch": 11.43,
-      "learning_rate": 0.00013000000000000002,
-      "loss": 1.6767,
-      "step": 1040
-    },
-    {
-      "epoch": 11.64,
-      "learning_rate": 0.00013250000000000002,
-      "loss": 1.5184,
-      "step": 1060
-    },
-    {
-      "epoch": 11.86,
-      "learning_rate": 0.000135,
-      "loss": 1.4505,
-      "step": 1080
-    },
-    {
-      "epoch": 12.09,
-      "learning_rate": 0.0001375,
-      "loss": 1.4286,
-      "step": 1100
-    },
-    {
-      "epoch": 12.09,
-      "eval_loss": 0.4074769914150238,
-      "eval_runtime": 194.7798,
-      "eval_samples_per_second": 24.864,
-      "eval_steps_per_second": 0.78,
-      "eval_wer": 0.37964802724950325,
-      "step": 1100
-    },
-    {
-      "epoch": 12.31,
-      "learning_rate": 0.00014000000000000001,
-      "loss": 1.3478,
-      "step": 1120
-    },
-    {
-      "epoch": 12.52,
-      "learning_rate": 0.0001425,
-      "loss": 1.3164,
-      "step": 1140
-    },
-    {
-      "epoch": 12.74,
-      "learning_rate": 0.000145,
-      "loss": 1.269,
-      "step": 1160
-    },
-    {
-      "epoch": 12.96,
-      "learning_rate": 0.0001475,
-      "loss": 1.2292,
-      "step": 1180
-    },
-    {
-      "epoch": 13.19,
-      "learning_rate": 0.00015,
-      "loss": 1.2229,
-      "step": 1200
-    },
-    {
-      "epoch": 13.19,
-      "eval_loss": 0.28933778405189514,
-      "eval_runtime": 192.6398,
-      "eval_samples_per_second": 25.14,
-      "eval_steps_per_second": 0.789,
-      "eval_wer": 0.26520011353959694,
-      "step": 1200
-    }
-  ],
-  "max_steps": 4550,
-  "num_train_epochs": 50,
-  "total_flos": 1.8579484602378154e+19,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-1300/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:49a74fb1217961243834b43dc5bb531167031d0d67fb9ade238f561b7c566d57
-size 623

checkpoint-1400/config.json DELETED Viewed

@@ -1,115 +0,0 @@
-{
-  "_name_or_path": "marinone94/xls-r-300m-sv-robust",
-  "activation_dropout": 0.1,
-  "adapter_kernel_size": 3,
-  "adapter_stride": 2,
-  "add_adapter": false,
-  "apply_spec_augment": true,
-  "architectures": [
-    "Wav2Vec2ForCTC"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 1,
-  "classifier_proj_size": 256,
-  "codevector_dim": 768,
-  "contrastive_logits_temperature": 0.1,
-  "conv_bias": true,
-  "conv_dim": [
-    512,
-    512,
-    512,
-    512,
-    512,
-    512,
-    512
-  ],
-  "conv_kernel": [
-    10,
-    3,
-    3,
-    3,
-    3,
-    2,
-    2
-  ],
-  "conv_stride": [
-    5,
-    2,
-    2,
-    2,
-    2,
-    2,
-    2
-  ],
-  "ctc_loss_reduction": "mean",
-  "ctc_zero_infinity": false,
-  "diversity_loss_weight": 0.1,
-  "do_stable_layer_norm": true,
-  "eos_token_id": 2,
-  "feat_extract_activation": "gelu",
-  "feat_extract_dropout": 0.0,
-  "feat_extract_norm": "layer",
-  "feat_proj_dropout": 0.0,
-  "feat_quantizer_dropout": 0.0,
-  "final_dropout": 0.0,
-  "hidden_act": "gelu",
-  "hidden_dropout": 0.0,
-  "hidden_size": 1024,
-  "initializer_range": 0.02,
-  "intermediate_size": 4096,
-  "layer_norm_eps": 1e-05,
-  "layerdrop": 0.0,
-  "mask_channel_length": 10,
-  "mask_channel_min_space": 1,
-  "mask_channel_other": 0.0,
-  "mask_channel_prob": 0.0,
-  "mask_channel_selection": "static",
-  "mask_feature_length": 64,
-  "mask_feature_min_masks": 0,
-  "mask_feature_prob": 0.25,
-  "mask_time_length": 10,
-  "mask_time_min_masks": 2,
-  "mask_time_min_space": 1,
-  "mask_time_other": 0.0,
-  "mask_time_prob": 0.75,
-  "mask_time_selection": "static",
-  "model_type": "wav2vec2",
-  "num_adapter_layers": 3,
-  "num_attention_heads": 16,
-  "num_codevector_groups": 2,
-  "num_codevectors_per_group": 320,
-  "num_conv_pos_embedding_groups": 16,
-  "num_conv_pos_embeddings": 128,
-  "num_feat_extract_layers": 7,
-  "num_hidden_layers": 24,
-  "num_negatives": 100,
-  "output_hidden_size": 1024,
-  "pad_token_id": 31,
-  "proj_codevector_dim": 768,
-  "tdnn_dilation": [
-    1,
-    2,
-    3,
-    1,
-    1
-  ],
-  "tdnn_dim": [
-    512,
-    512,
-    512,
-    512,
-    1500
-  ],
-  "tdnn_kernel": [
-    5,
-    3,
-    3,
-    1,
-    1
-  ],
-  "torch_dtype": "float32",
-  "transformers_version": "4.17.0.dev0",
-  "use_weighted_layer_sum": false,
-  "vocab_size": 34,
-  "xvector_output_dim": 512
-}

checkpoint-1400/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:066471e5b1e42d95f381420c5eb456280eaebbcce841ac5387ae7bfde1fc9de6
-size 2490337809

checkpoint-1400/preprocessor_config.json DELETED Viewed

@@ -1,9 +0,0 @@
-{
-  "do_normalize": true,
-  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
-  "feature_size": 1,
-  "padding_side": "right",
-  "padding_value": 0,
-  "return_attention_mask": true,
-  "sampling_rate": 16000
-}

checkpoint-1400/pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1a459f72ab853af3d30be6993d7c2796ebd50d28c9cae60928258ccc702d6e46
-size 1262063089

checkpoint-1400/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f1f4e020badfa95b92140e362fadf8866d696357e6c8984f31eba89adcf57045
-size 14631

checkpoint-1400/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:61c53503eb760641941023d2dcab7bb32b620bf895e31db5c3910b2760135b07
-size 3055

{checkpoint-1200 → checkpoint-1500}/config.json RENAMED Viewed

File without changes

{checkpoint-1200 → checkpoint-1500}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f873560d6b841c6e56a47519788a591ecb8d7154bdb93981b70877292ed84a8a
 size 2490337809

 version https://git-lfs.github.com/spec/v1
+oid sha256:59d9e961a47ab1f00dd325d343d6b3a2c56a477a890edfff182fab52ad7d1961
 size 2490337809

{checkpoint-1200 → checkpoint-1500}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-1300 → checkpoint-1500}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c32f633d461c6e73651e2cad62b1f33ec6fa6c731ff331293bd3ea3ab178533
 size 1262063089

 version https://git-lfs.github.com/spec/v1
+oid sha256:22c881807ec99ef3592933c11ac25ff336dab472ee8669960c08f6bb055cb11c
 size 1262063089

{checkpoint-1300 → checkpoint-1500}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4a3aa97bd65a21ca0d5bb2262a5c675bb5847b62e059527a92ac37b03aa6555
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:26a16fb06bd95550585922193ec31f3a9a5878ee3e77efc87c1b8bdb4a21d142
 size 14567

{checkpoint-1400 → checkpoint-1500}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26339048a0b88d77fc1a5e9abedb9d0653c3cd4b707b2f8b4a992e2612d53b7f
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:18b77bf231929dcf1b0885a05986daead51666518206e8005c99cd124832d9f9
 size 559

{checkpoint-1200 → checkpoint-1500}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1da2dbf5dd242dfa72930d12fb2ab32ad49f7cdbe466d03a63bc27fa38c23ac
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6d0ac6fcb7f6a54e2016654eacc790bd572cb9149b97999e246f807a8519d7d
 size 623

{checkpoint-1400 → checkpoint-1500}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 15.382513661202186,
-  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -552,11 +552,50 @@
       "eval_steps_per_second": 0.802,
       "eval_wer": 0.19727504967357365,
       "step": 1400
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
-  "total_flos": 2.168370158639202e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 16.48087431693989,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.802,
       "eval_wer": 0.19727504967357365,
       "step": 1400
+    },
+    {
+      "epoch": 15.6,
+      "learning_rate": 0.0001775,
+      "loss": 1.0733,
+      "step": 1420
+    },
+    {
+      "epoch": 15.82,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 1.0635,
+      "step": 1440
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 0.0001825,
+      "loss": 1.1079,
+      "step": 1460
+    },
+    {
+      "epoch": 16.26,
+      "learning_rate": 0.000185,
+      "loss": 1.0467,
+      "step": 1480
+    },
+    {
+      "epoch": 16.48,
+      "learning_rate": 0.0001875,
+      "loss": 1.0667,
+      "step": 1500
+    },
+    {
+      "epoch": 16.48,
+      "eval_loss": 0.21288961172103882,
+      "eval_runtime": 189.0078,
+      "eval_samples_per_second": 25.623,
+      "eval_steps_per_second": 0.804,
+      "eval_wer": 0.18944081748509792,
+      "step": 1500
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
+  "total_flos": 2.31847014520748e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-1200 → checkpoint-1500}/training_args.bin RENAMED Viewed

File without changes

{checkpoint-1300 → checkpoint-1600}/config.json RENAMED Viewed

File without changes

{checkpoint-1300 → checkpoint-1600}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9e0206a01417bef4d11f2a95335ad840a1721c6f678b089bdf7abdcafa51906
 size 2490337809

 version https://git-lfs.github.com/spec/v1
+oid sha256:c01538eb4bd0c6517e58a239a0edad2ba490de930aaa3809478517bc233bd339
 size 2490337809

{checkpoint-1300 → checkpoint-1600}/preprocessor_config.json RENAMED Viewed

File without changes

{checkpoint-1200 → checkpoint-1600}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a5f2f033aca18e07a43815c17c1eceec65f7cc103e7316a2bde0dd377abb87e
 size 1262063089

 version https://git-lfs.github.com/spec/v1
+oid sha256:577857a0d5063da507a1ec462e3b3478b15131b86a5760953cbe69453453fe49
 size 1262063089

{checkpoint-1200 → checkpoint-1600}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a240849fae515c3fea78a4c2538f3ef3837d994e58f8156dfb367f177292bd30
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:32079a7ecfdaedcafafe628415e8789ccbf50b12b21038d2ca0bc5ad993d93dd
 size 14567

{checkpoint-1300 → checkpoint-1600}/scaler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f30aff976137ec8a8f02bc3ed293492299fd63571aec46a1b1426491c85fe082
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:45cc99d310862a4180e2b863b5866b132e05e88ff0bb7c56d68724e754f0549e
 size 559

{checkpoint-1400 → checkpoint-1600}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce6cad226e370a6c6a2392ca8fc4c8eed33526e65dfa1b9d115b105ea51c8462
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a5627b7bd7a23e3bd273e778f370a9ce7118842c3616c776314b677675af7a5
 size 623

{checkpoint-1300 → checkpoint-1600}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.28415300546448,
-  "global_step": 1300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -513,11 +513,128 @@
       "eval_steps_per_second": 0.766,
       "eval_wer": 0.2253760999148453,
       "step": 1300
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
-  "total_flos": 2.013668332353175e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 17.579234972677597,
+  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.766,
       "eval_wer": 0.2253760999148453,
       "step": 1300
+    },
+    {
+      "epoch": 14.5,
+      "learning_rate": 0.000165,
+      "loss": 1.1217,
+      "step": 1320
+    },
+    {
+      "epoch": 14.72,
+      "learning_rate": 0.0001675,
+      "loss": 1.1236,
+      "step": 1340
+    },
+    {
+      "epoch": 14.94,
+      "learning_rate": 0.00017,
+      "loss": 1.0969,
+      "step": 1360
+    },
+    {
+      "epoch": 15.16,
+      "learning_rate": 0.0001725,
+      "loss": 1.0971,
+      "step": 1380
+    },
+    {
+      "epoch": 15.38,
+      "learning_rate": 0.000175,
+      "loss": 1.0663,
+      "step": 1400
+    },
+    {
+      "epoch": 15.38,
+      "eval_loss": 0.22192780673503876,
+      "eval_runtime": 189.4566,
+      "eval_samples_per_second": 25.563,
+      "eval_steps_per_second": 0.802,
+      "eval_wer": 0.19727504967357365,
+      "step": 1400
+    },
+    {
+      "epoch": 15.6,
+      "learning_rate": 0.0001775,
+      "loss": 1.0733,
+      "step": 1420
+    },
+    {
+      "epoch": 15.82,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 1.0635,
+      "step": 1440
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 0.0001825,
+      "loss": 1.1079,
+      "step": 1460
+    },
+    {
+      "epoch": 16.26,
+      "learning_rate": 0.000185,
+      "loss": 1.0467,
+      "step": 1480
+    },
+    {
+      "epoch": 16.48,
+      "learning_rate": 0.0001875,
+      "loss": 1.0667,
+      "step": 1500
+    },
+    {
+      "epoch": 16.48,
+      "eval_loss": 0.21288961172103882,
+      "eval_runtime": 189.0078,
+      "eval_samples_per_second": 25.623,
+      "eval_steps_per_second": 0.804,
+      "eval_wer": 0.18944081748509792,
+      "step": 1500
+    },
+    {
+      "epoch": 16.7,
+      "learning_rate": 0.00019,
+      "loss": 1.0204,
+      "step": 1520
+    },
+    {
+      "epoch": 16.92,
+      "learning_rate": 0.00019250000000000002,
+      "loss": 1.0356,
+      "step": 1540
+    },
+    {
+      "epoch": 17.14,
+      "learning_rate": 0.00019500000000000002,
+      "loss": 1.0538,
+      "step": 1560
+    },
+    {
+      "epoch": 17.36,
+      "learning_rate": 0.0001975,
+      "loss": 1.0228,
+      "step": 1580
+    },
+    {
+      "epoch": 17.58,
+      "learning_rate": 0.0002,
+      "loss": 1.0193,
+      "step": 1600
+    },
+    {
+      "epoch": 17.58,
+      "eval_loss": 0.1991206556558609,
+      "eval_runtime": 191.1717,
+      "eval_samples_per_second": 25.333,
+      "eval_steps_per_second": 0.795,
+      "eval_wer": 0.17885325007096226,
+      "step": 1600
     }
   ],
   "max_steps": 4550,
   "num_train_epochs": 50,
+  "total_flos": 2.4776551891108737e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-1300 → checkpoint-1600}/training_args.bin RENAMED Viewed

File without changes