diff --git "a/log/log-train-2023-03-31-18-51-54-2" "b/log/log-train-2023-03-31-18-51-54-2"
new file mode 100644--- /dev/null
+++ "b/log/log-train-2023-03-31-18-51-54-2"
@@ -0,0 +1,25086 @@
+2023-03-31 18:51:54,783 INFO [train.py:975] (2/4) Training started
+2023-03-31 18:51:54,784 INFO [train.py:985] (2/4) Device: cuda:2
+2023-03-31 18:51:54,826 INFO [train.py:994] (2/4) {'best_train_loss': inf, 'best_valid_loss': inf, 'best_train_epoch': -1, 'best_valid_epoch': -1, 'batch_idx_train': 0, 'log_interval': 50, 'reset_interval': 200, 'valid_interval': 3000, 'feature_dim': 80, 'subsampling_factor': 4, 'warm_step': 2000, 'env_info': {'k2-version': '1.23.3', 'k2-build-type': 'Debug', 'k2-with-cuda': True, 'k2-git-sha1': '1c9950559223ec24d187f56bc424c3b43904bed3', 'k2-git-date': 'Thu Jan 26 22:00:26 2023', 'lhotse-version': '1.13.0.dev+git.ca98c73.dirty', 'torch-version': '2.0.0+cu117', 'torch-cuda-available': True, 'torch-cuda-version': '11.7', 'python-version': '3.8', 'icefall-git-branch': 'surt', 'icefall-git-sha1': '51e6a8a-dirty', 'icefall-git-date': 'Fri Mar 17 11:23:13 2023', 'icefall-path': '/exp/draj/mini_scale_2022/icefall', 'k2-path': '/exp/draj/mini_scale_2022/k2/k2/python/k2/__init__.py', 'lhotse-path': '/exp/draj/mini_scale_2022/lhotse/lhotse/__init__.py', 'hostname': 'r2n03', 'IP address': '10.1.2.3'}, 'world_size': 4, 'master_port': 54321, 'tensorboard': True, 'num_epochs': 30, 'start_epoch': 1, 'start_batch': 0, 'exp_dir': PosixPath('pruned_transducer_stateless7_streaming/exp/v2'), 'bpe_model': 'data/lang_bpe_500/bpe.model', 'base_lr': 0.05, 'lr_batches': 5000, 'lr_epochs': 3.5, 'context_size': 2, 'prune_range': 5, 'lm_scale': 0.25, 'am_scale': 0.0, 'simple_loss_scale': 0.5, 'seed': 42, 'print_diagnostics': False, 'inf_check': False, 'save_every_n': 2000, 'keep_last_k': 10, 'average_period': 200, 'use_fp16': True, 'num_encoder_layers': '2,2,2,2,2', 'feedforward_dims': '768,768,768,768,768', 'nhead': '8,8,8,8,8', 'encoder_dims': '256,256,256,256,256', 'attention_dims': '192,192,192,192,192', 'encoder_unmasked_dims': '192,192,192,192,192', 'zipformer_downsampling_factors': '1,2,4,8,2', 'cnn_module_kernels': '31,31,31,31,31', 'decoder_dim': 512, 'joiner_dim': 512, 'short_chunk_size': 50, 'num_left_chunks': 4, 'decode_chunk_len': 32, 'full_libri': True, 'manifest_dir': PosixPath('data/manifests'), 'max_duration': 800, 'bucketing_sampler': True, 'num_buckets': 30, 'concatenate_cuts': False, 'duration_factor': 1.0, 'gap': 1.0, 'on_the_fly_feats': False, 'shuffle': True, 'drop_last': True, 'return_cuts': True, 'num_workers': 2, 'enable_spec_aug': True, 'spec_aug_time_warp_factor': 80, 'enable_musan': True, 'input_strategy': 'PrecomputedFeatures', 'blank_id': 0, 'vocab_size': 500}
+2023-03-31 18:51:54,827 INFO [train.py:996] (2/4) About to create model
+2023-03-31 18:51:55,714 INFO [zipformer.py:405] (2/4) At encoder stack 4, which has downsampling_factor=2, we will combine the outputs of layers 1 and 3, with downsampling_factors=2 and 8.
+2023-03-31 18:51:55,726 INFO [train.py:1000] (2/4) Number of model parameters: 20697573
+2023-03-31 18:52:03,012 INFO [train.py:1019] (2/4) Using DDP
+2023-03-31 18:52:03,651 INFO [asr_datamodule.py:429] (2/4) About to get the shuffled train-clean-100, train-clean-360 and train-other-500 cuts, combined with their reverberated versions
+2023-03-31 18:52:03,690 INFO [asr_datamodule.py:224] (2/4) Enable MUSAN
+2023-03-31 18:52:03,690 INFO [asr_datamodule.py:225] (2/4) About to get Musan cuts
+2023-03-31 18:52:06,211 INFO [asr_datamodule.py:249] (2/4) Enable SpecAugment
+2023-03-31 18:52:06,211 INFO [asr_datamodule.py:250] (2/4) Time warp factor: 80
+2023-03-31 18:52:06,211 INFO [asr_datamodule.py:260] (2/4) Num frame mask: 10
+2023-03-31 18:52:06,212 INFO [asr_datamodule.py:273] (2/4) About to create train dataset
+2023-03-31 18:52:06,212 INFO [asr_datamodule.py:300] (2/4) Using DynamicBucketingSampler.
+2023-03-31 18:52:08,534 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-03-31 18:52:09,007 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-03-31 18:52:09,278 INFO [asr_datamodule.py:315] (2/4) About to create train dataloader
+2023-03-31 18:52:09,280 INFO [asr_datamodule.py:440] (2/4) About to get dev-clean cuts
+2023-03-31 18:52:09,282 INFO [asr_datamodule.py:447] (2/4) About to get dev-other cuts
+2023-03-31 18:52:09,283 INFO [asr_datamodule.py:346] (2/4) About to create dev dataset
+2023-03-31 18:52:09,732 INFO [asr_datamodule.py:363] (2/4) About to create dev dataloader
+2023-03-31 18:52:23,927 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-03-31 18:52:24,387 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-03-31 18:52:36,254 INFO [train.py:903] (2/4) Epoch 1, batch 0, loss[loss=7.16, simple_loss=6.477, pruned_loss=6.812, over 19807.00 frames. ], tot_loss[loss=7.16, simple_loss=6.477, pruned_loss=6.812, over 19807.00 frames. ], batch size: 49, lr: 2.50e-02, grad_scale: 2.0
+2023-03-31 18:52:36,255 INFO [train.py:928] (2/4) Computing validation loss
+2023-03-31 18:52:49,153 INFO [train.py:937] (2/4) Epoch 1, validation: loss=6.888, simple_loss=6.229, pruned_loss=6.575, over 944034.00 frames. 
+2023-03-31 18:52:49,154 INFO [train.py:938] (2/4) Maximum memory allocated so far is 11268MB
+2023-03-31 18:53:03,011 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-03-31 18:53:58,994 INFO [train.py:903] (2/4) Epoch 1, batch 50, loss[loss=1.187, simple_loss=1.05, pruned_loss=1.231, over 19761.00 frames. ], tot_loss[loss=2.159, simple_loss=1.949, pruned_loss=2.003, over 871458.35 frames. ], batch size: 47, lr: 2.75e-02, grad_scale: 0.125
+2023-03-31 18:54:00,897 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 18:54:24,616 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=23.11 vs. limit=2.0
+2023-03-31 18:54:36,585 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 18:54:41,908 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-03-31 18:55:11,363 INFO [train.py:903] (2/4) Epoch 1, batch 100, loss[loss=1.105, simple_loss=0.95, pruned_loss=1.232, over 19684.00 frames. ], tot_loss[loss=1.636, simple_loss=1.456, pruned_loss=1.617, over 1511130.08 frames. ], batch size: 59, lr: 3.00e-02, grad_scale: 0.25
+2023-03-31 18:55:11,630 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=101.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 18:55:17,827 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 9.479e+01 1.678e+02 3.237e+02 1.260e+03 8.630e+04, threshold=6.475e+02, percent-clipped=0.0
+2023-03-31 18:55:26,390 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-03-31 18:56:20,071 INFO [train.py:903] (2/4) Epoch 1, batch 150, loss[loss=1.005, simple_loss=0.8573, pruned_loss=1.075, over 19325.00 frames. ], tot_loss[loss=1.391, simple_loss=1.223, pruned_loss=1.423, over 2018075.65 frames. ], batch size: 66, lr: 3.25e-02, grad_scale: 0.25
+2023-03-31 18:57:32,268 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=3.37 vs. limit=2.0
+2023-03-31 18:57:32,425 INFO [train.py:903] (2/4) Epoch 1, batch 200, loss[loss=0.9877, simple_loss=0.8347, pruned_loss=1.024, over 19513.00 frames. ], tot_loss[loss=1.251, simple_loss=1.09, pruned_loss=1.286, over 2414520.04 frames. ], batch size: 54, lr: 3.50e-02, grad_scale: 0.5
+2023-03-31 18:57:32,455 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-03-31 18:57:39,438 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 7.067e+01 1.186e+02 1.653e+02 2.090e+02 5.158e+02, threshold=3.307e+02, percent-clipped=0.0
+2023-03-31 18:57:50,835 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.76 vs. limit=2.0
+2023-03-31 18:58:43,194 INFO [train.py:903] (2/4) Epoch 1, batch 250, loss[loss=0.8567, simple_loss=0.7191, pruned_loss=0.8582, over 19753.00 frames. ], tot_loss[loss=1.161, simple_loss=1.004, pruned_loss=1.186, over 2727174.34 frames. ], batch size: 45, lr: 3.75e-02, grad_scale: 0.5
+2023-03-31 18:59:28,855 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=5.57 vs. limit=5.0
+2023-03-31 18:59:51,891 INFO [train.py:903] (2/4) Epoch 1, batch 300, loss[loss=0.9876, simple_loss=0.8272, pruned_loss=0.9455, over 19286.00 frames. ], tot_loss[loss=1.095, simple_loss=0.9395, pruned_loss=1.106, over 2980083.04 frames. ], batch size: 66, lr: 4.00e-02, grad_scale: 1.0
+2023-03-31 18:59:56,689 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 8.717e+01 1.166e+02 1.521e+02 1.991e+02 3.277e+02, threshold=3.043e+02, percent-clipped=0.0
+2023-03-31 18:59:58,417 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=306.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:00:09,454 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=314.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:00:58,533 INFO [train.py:903] (2/4) Epoch 1, batch 350, loss[loss=0.936, simple_loss=0.776, pruned_loss=0.8844, over 19715.00 frames. ], tot_loss[loss=1.052, simple_loss=0.8961, pruned_loss=1.049, over 3174062.38 frames. ], batch size: 51, lr: 4.25e-02, grad_scale: 1.0
+2023-03-31 19:01:05,476 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-03-31 19:02:08,274 INFO [train.py:903] (2/4) Epoch 1, batch 400, loss[loss=0.9838, simple_loss=0.8161, pruned_loss=0.8895, over 17289.00 frames. ], tot_loss[loss=1.02, simple_loss=0.8627, pruned_loss=1.001, over 3316676.94 frames. ], batch size: 101, lr: 4.50e-02, grad_scale: 2.0
+2023-03-31 19:02:13,397 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 9.539e+01 1.278e+02 1.546e+02 1.978e+02 5.474e+02, threshold=3.091e+02, percent-clipped=7.0
+2023-03-31 19:02:13,628 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=405.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:02:33,524 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=421.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:03:05,094 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=445.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:03:12,895 INFO [train.py:903] (2/4) Epoch 1, batch 450, loss[loss=0.9453, simple_loss=0.778, pruned_loss=0.8417, over 19668.00 frames. ], tot_loss[loss=0.9976, simple_loss=0.8391, pruned_loss=0.9614, over 3418967.75 frames. ], batch size: 55, lr: 4.75e-02, grad_scale: 2.0
+2023-03-31 19:03:32,723 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=3.66 vs. limit=2.0
+2023-03-31 19:03:35,144 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=7.46 vs. limit=5.0
+2023-03-31 19:03:49,658 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-03-31 19:03:51,738 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-03-31 19:04:19,399 INFO [train.py:903] (2/4) Epoch 1, batch 500, loss[loss=0.8066, simple_loss=0.668, pruned_loss=0.6829, over 19288.00 frames. ], tot_loss[loss=0.9763, simple_loss=0.8179, pruned_loss=0.9192, over 3515209.12 frames. ], batch size: 44, lr: 4.99e-02, grad_scale: 2.0
+2023-03-31 19:04:25,198 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 9.539e+01 1.386e+02 1.860e+02 2.529e+02 4.736e+02, threshold=3.719e+02, percent-clipped=12.0
+2023-03-31 19:05:27,837 INFO [train.py:903] (2/4) Epoch 1, batch 550, loss[loss=0.8116, simple_loss=0.6782, pruned_loss=0.6521, over 19750.00 frames. ], tot_loss[loss=0.9579, simple_loss=0.8009, pruned_loss=0.8776, over 3579241.31 frames. ], batch size: 45, lr: 4.98e-02, grad_scale: 2.0
+2023-03-31 19:05:41,529 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=560.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:06:04,533 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=580.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:06:12,417 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=586.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:06:32,546 INFO [train.py:903] (2/4) Epoch 1, batch 600, loss[loss=0.863, simple_loss=0.7296, pruned_loss=0.656, over 19548.00 frames. ], tot_loss[loss=0.9361, simple_loss=0.7829, pruned_loss=0.8322, over 3628949.87 frames. ], batch size: 56, lr: 4.98e-02, grad_scale: 2.0
+2023-03-31 19:06:36,891 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 1.512e+02 2.910e+02 4.086e+02 6.136e+02 1.097e+03, threshold=8.173e+02, percent-clipped=60.0
+2023-03-31 19:06:40,839 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=608.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:07:11,104 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=6.79 vs. limit=5.0
+2023-03-31 19:07:11,462 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-03-31 19:07:38,083 INFO [train.py:903] (2/4) Epoch 1, batch 650, loss[loss=0.8219, simple_loss=0.6973, pruned_loss=0.6059, over 19669.00 frames. ], tot_loss[loss=0.9118, simple_loss=0.7638, pruned_loss=0.7851, over 3670913.90 frames. ], batch size: 58, lr: 4.98e-02, grad_scale: 2.0
+2023-03-31 19:07:47,306 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=658.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:08:13,449 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=677.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:08:41,834 INFO [train.py:903] (2/4) Epoch 1, batch 700, loss[loss=0.8355, simple_loss=0.7132, pruned_loss=0.5951, over 19746.00 frames. ], tot_loss[loss=0.884, simple_loss=0.7428, pruned_loss=0.7367, over 3714734.86 frames. ], batch size: 63, lr: 4.98e-02, grad_scale: 2.0
+2023-03-31 19:08:43,401 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=702.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:08:46,604 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.000e+02 5.173e+02 6.580e+02 8.914e+02 3.039e+03, threshold=1.316e+03, percent-clipped=29.0
+2023-03-31 19:09:43,557 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=749.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:09:45,315 INFO [train.py:903] (2/4) Epoch 1, batch 750, loss[loss=0.6873, simple_loss=0.5921, pruned_loss=0.4712, over 19404.00 frames. ], tot_loss[loss=0.859, simple_loss=0.7244, pruned_loss=0.6933, over 3722236.80 frames. ], batch size: 48, lr: 4.97e-02, grad_scale: 2.0
+2023-03-31 19:10:14,513 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=773.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:10:48,976 INFO [train.py:903] (2/4) Epoch 1, batch 800, loss[loss=0.82, simple_loss=0.6949, pruned_loss=0.5738, over 19679.00 frames. ], tot_loss[loss=0.832, simple_loss=0.7041, pruned_loss=0.6513, over 3745739.45 frames. ], batch size: 59, lr: 4.97e-02, grad_scale: 4.0
+2023-03-31 19:10:53,094 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.110e+02 5.827e+02 7.991e+02 1.030e+03 2.888e+03, threshold=1.598e+03, percent-clipped=14.0
+2023-03-31 19:11:01,615 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-03-31 19:11:08,429 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=816.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:11:20,886 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2769, 2.3700, 1.8460, 3.1775, 1.7390, 3.6974, 3.5253, 3.3290],
+       device='cuda:2'), covar=tensor([0.0902, 0.1613, 0.2919, 0.1349, 0.2789, 0.1391, 0.1205, 0.1603],
+       device='cuda:2'), in_proj_covar=tensor([0.0037, 0.0045, 0.0051, 0.0038, 0.0052, 0.0038, 0.0037, 0.0040],
+       device='cuda:2'), out_proj_covar=tensor([2.4248e-05, 2.8229e-05, 3.4969e-05, 2.5514e-05, 3.4836e-05, 2.6374e-05,
+        2.3830e-05, 2.6915e-05], device='cuda:2')
+2023-03-31 19:11:40,326 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=841.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:11:52,165 INFO [train.py:903] (2/4) Epoch 1, batch 850, loss[loss=0.644, simple_loss=0.5622, pruned_loss=0.417, over 19474.00 frames. ], tot_loss[loss=0.8083, simple_loss=0.6867, pruned_loss=0.6139, over 3769073.37 frames. ], batch size: 49, lr: 4.96e-02, grad_scale: 4.0
+2023-03-31 19:12:10,425 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=864.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:12:12,292 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=865.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:12:43,347 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-03-31 19:12:54,612 INFO [train.py:903] (2/4) Epoch 1, batch 900, loss[loss=0.6381, simple_loss=0.5517, pruned_loss=0.4168, over 16491.00 frames. ], tot_loss[loss=0.7862, simple_loss=0.6703, pruned_loss=0.5808, over 3784559.25 frames. ], batch size: 36, lr: 4.96e-02, grad_scale: 4.0
+2023-03-31 19:12:59,597 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.676e+02 6.072e+02 7.456e+02 9.579e+02 1.181e+04, threshold=1.491e+03, percent-clipped=3.0
+2023-03-31 19:13:21,567 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=924.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:13:30,350 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=930.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:13:53,696 INFO [train.py:903] (2/4) Epoch 1, batch 950, loss[loss=0.6959, simple_loss=0.6039, pruned_loss=0.4463, over 19516.00 frames. ], tot_loss[loss=0.7688, simple_loss=0.658, pruned_loss=0.5528, over 3801755.23 frames. ], batch size: 54, lr: 4.96e-02, grad_scale: 4.0
+2023-03-31 19:13:54,869 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-03-31 19:13:56,040 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=952.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:14:51,779 INFO [train.py:903] (2/4) Epoch 1, batch 1000, loss[loss=0.6924, simple_loss=0.6102, pruned_loss=0.4266, over 19591.00 frames. ], tot_loss[loss=0.7511, simple_loss=0.6452, pruned_loss=0.5267, over 3819545.91 frames. ], batch size: 61, lr: 4.95e-02, grad_scale: 4.0
+2023-03-31 19:14:56,988 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.794e+02 5.980e+02 7.509e+02 1.052e+03 2.029e+03, threshold=1.502e+03, percent-clipped=4.0
+2023-03-31 19:15:22,071 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.19 vs. limit=2.0
+2023-03-31 19:15:25,850 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1029.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:15:38,955 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1039.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:15:41,752 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-03-31 19:15:45,057 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1045.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:15:52,665 INFO [train.py:903] (2/4) Epoch 1, batch 1050, loss[loss=0.7211, simple_loss=0.6258, pruned_loss=0.4533, over 19699.00 frames. ], tot_loss[loss=0.7349, simple_loss=0.6339, pruned_loss=0.5034, over 3806790.60 frames. ], batch size: 63, lr: 4.95e-02, grad_scale: 4.0
+2023-03-31 19:15:56,726 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1054.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:16:12,559 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1067.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:16:20,714 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-03-31 19:16:53,084 INFO [train.py:903] (2/4) Epoch 1, batch 1100, loss[loss=0.6462, simple_loss=0.5681, pruned_loss=0.3937, over 19511.00 frames. ], tot_loss[loss=0.717, simple_loss=0.621, pruned_loss=0.48, over 3815503.98 frames. ], batch size: 54, lr: 4.94e-02, grad_scale: 4.0
+2023-03-31 19:16:57,403 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.036e+02 7.117e+02 8.563e+02 1.068e+03 2.368e+03, threshold=1.713e+03, percent-clipped=4.0
+2023-03-31 19:17:08,305 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7311, 1.0686, 2.0455, 1.4811, 1.8340, 2.0314, 2.2892, 2.0064],
+       device='cuda:2'), covar=tensor([0.6994, 0.8534, 0.3809, 0.8253, 0.3312, 0.2441, 0.2198, 0.2818],
+       device='cuda:2'), in_proj_covar=tensor([0.0082, 0.0078, 0.0068, 0.0090, 0.0069, 0.0057, 0.0067, 0.0058],
+       device='cuda:2'), out_proj_covar=tensor([5.3885e-05, 5.5279e-05, 4.1832e-05, 6.1413e-05, 4.1769e-05, 3.2531e-05,
+        4.0243e-05, 3.4980e-05], device='cuda:2')
+2023-03-31 19:17:14,919 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1120.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:17:44,304 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1145.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:17:51,774 INFO [train.py:903] (2/4) Epoch 1, batch 1150, loss[loss=0.621, simple_loss=0.55, pruned_loss=0.371, over 19776.00 frames. ], tot_loss[loss=0.7012, simple_loss=0.6095, pruned_loss=0.4601, over 3825428.99 frames. ], batch size: 54, lr: 4.94e-02, grad_scale: 4.0
+2023-03-31 19:18:12,984 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1171.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:18:14,108 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.97 vs. limit=5.0
+2023-03-31 19:18:47,614 INFO [train.py:903] (2/4) Epoch 1, batch 1200, loss[loss=0.6108, simple_loss=0.5562, pruned_loss=0.346, over 19656.00 frames. ], tot_loss[loss=0.6894, simple_loss=0.6007, pruned_loss=0.4446, over 3829565.66 frames. ], batch size: 53, lr: 4.93e-02, grad_scale: 8.0
+2023-03-31 19:18:52,223 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.229e+02 7.433e+02 9.314e+02 1.239e+03 3.000e+03, threshold=1.863e+03, percent-clipped=16.0
+2023-03-31 19:18:56,116 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1209.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:19:16,410 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-03-31 19:19:42,388 INFO [train.py:903] (2/4) Epoch 1, batch 1250, loss[loss=0.5659, simple_loss=0.5087, pruned_loss=0.3262, over 19405.00 frames. ], tot_loss[loss=0.6715, simple_loss=0.5882, pruned_loss=0.4247, over 3830045.26 frames. ], batch size: 48, lr: 4.92e-02, grad_scale: 8.0
+2023-03-31 19:20:10,999 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0041, 1.2952, 2.8867, 2.0250, 2.6072, 3.2408, 3.5384, 3.5483],
+       device='cuda:2'), covar=tensor([0.5930, 0.6463, 0.2607, 0.5807, 0.1984, 0.1123, 0.0934, 0.1177],
+       device='cuda:2'), in_proj_covar=tensor([0.0105, 0.0094, 0.0084, 0.0108, 0.0081, 0.0064, 0.0075, 0.0064],
+       device='cuda:2'), out_proj_covar=tensor([6.9173e-05, 6.6021e-05, 5.3078e-05, 7.2963e-05, 4.9873e-05, 3.6927e-05,
+        4.3784e-05, 3.6574e-05], device='cuda:2')
+2023-03-31 19:20:32,330 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1295.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:20:39,089 INFO [train.py:903] (2/4) Epoch 1, batch 1300, loss[loss=0.507, simple_loss=0.4626, pruned_loss=0.2843, over 19756.00 frames. ], tot_loss[loss=0.6585, simple_loss=0.579, pruned_loss=0.4097, over 3839139.99 frames. ], batch size: 45, lr: 4.92e-02, grad_scale: 8.0
+2023-03-31 19:20:39,491 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1301.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:20:43,731 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.522e+02 7.699e+02 1.048e+03 1.379e+03 4.741e+03, threshold=2.097e+03, percent-clipped=13.0
+2023-03-31 19:21:00,029 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1320.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:21:03,680 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1323.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:21:04,895 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1324.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:21:06,789 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9675, 2.4534, 2.9932, 2.9439, 1.6383, 2.9575, 2.6931, 3.0591],
+       device='cuda:2'), covar=tensor([0.0499, 0.0786, 0.0402, 0.0426, 0.2236, 0.0485, 0.0678, 0.0437],
+       device='cuda:2'), in_proj_covar=tensor([0.0052, 0.0059, 0.0050, 0.0048, 0.0089, 0.0050, 0.0058, 0.0057],
+       device='cuda:2'), out_proj_covar=tensor([2.9972e-05, 3.8308e-05, 2.8699e-05, 2.8905e-05, 5.9661e-05, 2.8463e-05,
+        3.2832e-05, 3.0709e-05], device='cuda:2')
+2023-03-31 19:21:06,852 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1326.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:21:33,448 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1348.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:21:35,932 INFO [train.py:903] (2/4) Epoch 1, batch 1350, loss[loss=0.5569, simple_loss=0.5051, pruned_loss=0.3141, over 19485.00 frames. ], tot_loss[loss=0.6496, simple_loss=0.573, pruned_loss=0.3982, over 3833463.92 frames. ], batch size: 49, lr: 4.91e-02, grad_scale: 8.0
+2023-03-31 19:22:04,700 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7012, 0.8867, 1.2242, 0.9463, 1.2510, 1.5526, 1.4883, 1.4235],
+       device='cuda:2'), covar=tensor([0.6480, 1.2272, 1.0975, 0.8718, 0.8504, 1.2197, 0.9071, 0.8062],
+       device='cuda:2'), in_proj_covar=tensor([0.0134, 0.0181, 0.0185, 0.0143, 0.0167, 0.0184, 0.0161, 0.0143],
+       device='cuda:2'), out_proj_covar=tensor([9.1899e-05, 1.2023e-04, 1.2509e-04, 9.3129e-05, 1.0782e-04, 1.2267e-04,
+        1.0814e-04, 9.3411e-05], device='cuda:2')
+2023-03-31 19:22:31,192 INFO [train.py:903] (2/4) Epoch 1, batch 1400, loss[loss=0.4852, simple_loss=0.4524, pruned_loss=0.2619, over 18267.00 frames. ], tot_loss[loss=0.6357, simple_loss=0.5638, pruned_loss=0.3834, over 3837786.13 frames. ], batch size: 40, lr: 4.91e-02, grad_scale: 8.0
+2023-03-31 19:22:35,197 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.777e+02 7.620e+02 9.515e+02 1.230e+03 4.278e+03, threshold=1.903e+03, percent-clipped=3.0
+2023-03-31 19:23:09,467 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5595, 1.3356, 1.2620, 2.0215, 2.4070, 1.7210, 2.3980, 2.3702],
+       device='cuda:2'), covar=tensor([0.1062, 0.4111, 0.6142, 0.2159, 0.1401, 0.5558, 0.1318, 0.1413],
+       device='cuda:2'), in_proj_covar=tensor([0.0082, 0.0110, 0.0142, 0.0092, 0.0108, 0.0165, 0.0102, 0.0088],
+       device='cuda:2'), out_proj_covar=tensor([4.7618e-05, 7.5816e-05, 9.8736e-05, 6.4463e-05, 6.5210e-05, 1.0831e-04,
+        6.4613e-05, 5.9885e-05], device='cuda:2')
+2023-03-31 19:23:24,312 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-03-31 19:23:25,237 INFO [train.py:903] (2/4) Epoch 1, batch 1450, loss[loss=0.6147, simple_loss=0.5582, pruned_loss=0.344, over 19522.00 frames. ], tot_loss[loss=0.6272, simple_loss=0.5581, pruned_loss=0.3734, over 3838407.53 frames. ], batch size: 54, lr: 4.90e-02, grad_scale: 8.0
+2023-03-31 19:23:26,443 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1452.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:24:18,021 INFO [train.py:903] (2/4) Epoch 1, batch 1500, loss[loss=0.4719, simple_loss=0.4397, pruned_loss=0.2542, over 19750.00 frames. ], tot_loss[loss=0.6198, simple_loss=0.5529, pruned_loss=0.365, over 3833522.75 frames. ], batch size: 46, lr: 4.89e-02, grad_scale: 8.0
+2023-03-31 19:24:23,064 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.214e+02 9.104e+02 1.060e+03 1.370e+03 5.981e+03, threshold=2.119e+03, percent-clipped=12.0
+2023-03-31 19:24:35,375 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1515.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:25:14,420 INFO [train.py:903] (2/4) Epoch 1, batch 1550, loss[loss=0.553, simple_loss=0.5123, pruned_loss=0.2999, over 19787.00 frames. ], tot_loss[loss=0.6104, simple_loss=0.5471, pruned_loss=0.355, over 3830352.48 frames. ], batch size: 54, lr: 4.89e-02, grad_scale: 8.0
+2023-03-31 19:25:43,581 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1580.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:25:47,332 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1584.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:26:05,887 INFO [train.py:903] (2/4) Epoch 1, batch 1600, loss[loss=0.602, simple_loss=0.5572, pruned_loss=0.3264, over 18862.00 frames. ], tot_loss[loss=0.6059, simple_loss=0.5448, pruned_loss=0.3488, over 3827494.85 frames. ], batch size: 74, lr: 4.88e-02, grad_scale: 8.0
+2023-03-31 19:26:10,815 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.811e+02 9.198e+02 1.152e+03 1.497e+03 2.578e+03, threshold=2.303e+03, percent-clipped=3.0
+2023-03-31 19:26:11,224 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1605.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:26:25,447 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-03-31 19:26:31,700 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1418, 1.0615, 1.0945, 1.0273, 0.7163, 1.0832, 0.4710, 0.7475],
+       device='cuda:2'), covar=tensor([0.1080, 0.1513, 0.1254, 0.1992, 0.2430, 0.1487, 0.3926, 0.2261],
+       device='cuda:2'), in_proj_covar=tensor([0.0096, 0.0088, 0.0102, 0.0112, 0.0115, 0.0103, 0.0159, 0.0118],
+       device='cuda:2'), out_proj_covar=tensor([6.5097e-05, 5.3903e-05, 6.5712e-05, 8.0639e-05, 8.2878e-05, 6.9879e-05,
+        1.1592e-04, 8.4782e-05], device='cuda:2')
+2023-03-31 19:26:35,475 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1629.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:26:36,300 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1630.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:26:57,904 INFO [train.py:903] (2/4) Epoch 1, batch 1650, loss[loss=0.5321, simple_loss=0.5036, pruned_loss=0.2803, over 19664.00 frames. ], tot_loss[loss=0.5976, simple_loss=0.5395, pruned_loss=0.3407, over 3830616.98 frames. ], batch size: 55, lr: 4.87e-02, grad_scale: 8.0
+2023-03-31 19:27:41,135 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6369, 2.4668, 2.6108, 2.6606, 1.1459, 2.5841, 2.3791, 2.6873],
+       device='cuda:2'), covar=tensor([0.0455, 0.0744, 0.0536, 0.0383, 0.2919, 0.0496, 0.0673, 0.0584],
+       device='cuda:2'), in_proj_covar=tensor([0.0073, 0.0093, 0.0076, 0.0068, 0.0152, 0.0072, 0.0090, 0.0089],
+       device='cuda:2'), out_proj_covar=tensor([4.2272e-05, 6.1266e-05, 4.2275e-05, 4.0518e-05, 9.8463e-05, 4.1459e-05,
+        5.2153e-05, 5.0454e-05], device='cuda:2')
+2023-03-31 19:27:52,328 INFO [train.py:903] (2/4) Epoch 1, batch 1700, loss[loss=0.5081, simple_loss=0.472, pruned_loss=0.2737, over 19733.00 frames. ], tot_loss[loss=0.5907, simple_loss=0.5353, pruned_loss=0.3336, over 3827728.39 frames. ], batch size: 45, lr: 4.86e-02, grad_scale: 8.0
+2023-03-31 19:27:56,191 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.719e+02 9.402e+02 1.223e+03 1.535e+03 2.582e+03, threshold=2.447e+03, percent-clipped=3.0
+2023-03-31 19:28:26,611 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-03-31 19:28:46,833 INFO [train.py:903] (2/4) Epoch 1, batch 1750, loss[loss=0.549, simple_loss=0.5156, pruned_loss=0.2918, over 19552.00 frames. ], tot_loss[loss=0.5824, simple_loss=0.5304, pruned_loss=0.3258, over 3828792.70 frames. ], batch size: 56, lr: 4.86e-02, grad_scale: 8.0
+2023-03-31 19:29:37,338 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1796.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:29:43,441 INFO [train.py:903] (2/4) Epoch 1, batch 1800, loss[loss=0.5761, simple_loss=0.5438, pruned_loss=0.3044, over 19349.00 frames. ], tot_loss[loss=0.5787, simple_loss=0.5284, pruned_loss=0.3215, over 3841748.21 frames. ], batch size: 70, lr: 4.85e-02, grad_scale: 8.0
+2023-03-31 19:29:47,624 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.927e+02 9.266e+02 1.209e+03 1.539e+03 2.564e+03, threshold=2.418e+03, percent-clipped=2.0
+2023-03-31 19:30:36,172 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-03-31 19:30:40,566 INFO [train.py:903] (2/4) Epoch 1, batch 1850, loss[loss=0.5536, simple_loss=0.5168, pruned_loss=0.2958, over 17501.00 frames. ], tot_loss[loss=0.5708, simple_loss=0.5239, pruned_loss=0.3146, over 3839553.39 frames. ], batch size: 101, lr: 4.84e-02, grad_scale: 8.0
+2023-03-31 19:30:45,859 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1856.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:31:01,375 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4834, 1.0880, 1.0589, 1.1426, 1.5492, 1.8158, 1.5755, 1.3436],
+       device='cuda:2'), covar=tensor([0.2710, 0.4699, 0.6888, 0.4055, 0.7292, 0.2749, 0.4086, 0.3490],
+       device='cuda:2'), in_proj_covar=tensor([0.0147, 0.0162, 0.0227, 0.0158, 0.0253, 0.0166, 0.0199, 0.0167],
+       device='cuda:2'), out_proj_covar=tensor([0.0001, 0.0001, 0.0001, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001],
+       device='cuda:2')
+2023-03-31 19:31:08,083 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1875.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:31:11,943 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-03-31 19:31:20,283 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=1886.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:31:22,189 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=1888.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:31:36,179 INFO [train.py:903] (2/4) Epoch 1, batch 1900, loss[loss=0.4856, simple_loss=0.461, pruned_loss=0.255, over 19763.00 frames. ], tot_loss[loss=0.5639, simple_loss=0.5199, pruned_loss=0.3084, over 3843968.84 frames. ], batch size: 47, lr: 4.83e-02, grad_scale: 8.0
+2023-03-31 19:31:40,294 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.070e+02 9.078e+02 1.104e+03 1.499e+03 2.754e+03, threshold=2.207e+03, percent-clipped=2.0
+2023-03-31 19:31:47,483 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=1911.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:31:47,502 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=1911.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:31:52,273 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-03-31 19:31:56,249 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-03-31 19:32:06,352 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1928.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:32:19,669 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-03-31 19:32:31,504 INFO [train.py:903] (2/4) Epoch 1, batch 1950, loss[loss=0.5823, simple_loss=0.5373, pruned_loss=0.314, over 19353.00 frames. ], tot_loss[loss=0.56, simple_loss=0.5177, pruned_loss=0.3047, over 3848965.35 frames. ], batch size: 66, lr: 4.83e-02, grad_scale: 8.0
+2023-03-31 19:32:57,189 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=1973.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:33:20,354 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4882, 1.7612, 1.7836, 2.5011, 3.1822, 1.6225, 2.9171, 3.2096],
+       device='cuda:2'), covar=tensor([0.0496, 0.2834, 0.5072, 0.2048, 0.0606, 0.5183, 0.0955, 0.0866],
+       device='cuda:2'), in_proj_covar=tensor([0.0110, 0.0177, 0.0216, 0.0163, 0.0150, 0.0264, 0.0160, 0.0137],
+       device='cuda:2'), out_proj_covar=tensor([6.8431e-05, 1.2343e-04, 1.5073e-04, 1.2073e-04, 9.5912e-05, 1.7239e-04,
+        1.1198e-04, 9.4123e-05], device='cuda:2')
+2023-03-31 19:33:29,177 INFO [train.py:903] (2/4) Epoch 1, batch 2000, loss[loss=0.4777, simple_loss=0.459, pruned_loss=0.2483, over 19601.00 frames. ], tot_loss[loss=0.5547, simple_loss=0.5146, pruned_loss=0.3001, over 3855620.80 frames. ], batch size: 50, lr: 4.82e-02, grad_scale: 8.0
+2023-03-31 19:33:30,707 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9635, 1.5340, 1.5945, 2.2458, 2.6685, 1.6179, 2.6175, 2.6220],
+       device='cuda:2'), covar=tensor([0.0597, 0.3621, 0.5404, 0.2286, 0.0841, 0.5002, 0.1074, 0.1143],
+       device='cuda:2'), in_proj_covar=tensor([0.0109, 0.0177, 0.0216, 0.0164, 0.0149, 0.0262, 0.0159, 0.0138],
+       device='cuda:2'), out_proj_covar=tensor([6.7696e-05, 1.2358e-04, 1.5077e-04, 1.2122e-04, 9.5069e-05, 1.7142e-04,
+        1.1147e-04, 9.4524e-05], device='cuda:2')
+2023-03-31 19:33:33,531 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.917e+02 1.007e+03 1.260e+03 1.703e+03 3.255e+03, threshold=2.521e+03, percent-clipped=11.0
+2023-03-31 19:33:42,755 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2682, 1.4799, 1.8844, 1.6919, 2.3271, 2.7993, 2.4662, 1.9901],
+       device='cuda:2'), covar=tensor([0.3309, 0.2066, 0.3453, 0.3157, 0.2101, 0.0698, 0.1508, 0.2767],
+       device='cuda:2'), in_proj_covar=tensor([0.0092, 0.0072, 0.0092, 0.0102, 0.0102, 0.0052, 0.0078, 0.0103],
+       device='cuda:2'), out_proj_covar=tensor([6.0461e-05, 4.6700e-05, 6.1326e-05, 7.0817e-05, 7.0385e-05, 2.9950e-05,
+        5.3822e-05, 6.8071e-05], device='cuda:2')
+2023-03-31 19:34:19,000 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2043.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:34:25,204 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-03-31 19:34:27,588 INFO [train.py:903] (2/4) Epoch 1, batch 2050, loss[loss=0.4503, simple_loss=0.4384, pruned_loss=0.2311, over 19766.00 frames. ], tot_loss[loss=0.5438, simple_loss=0.5082, pruned_loss=0.2918, over 3852003.97 frames. ], batch size: 45, lr: 4.81e-02, grad_scale: 16.0
+2023-03-31 19:34:43,696 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-03-31 19:34:43,738 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-03-31 19:35:06,986 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-03-31 19:35:12,726 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2088.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:35:27,378 INFO [train.py:903] (2/4) Epoch 1, batch 2100, loss[loss=0.5703, simple_loss=0.5285, pruned_loss=0.3061, over 19661.00 frames. ], tot_loss[loss=0.5349, simple_loss=0.5032, pruned_loss=0.285, over 3847086.64 frames. ], batch size: 58, lr: 4.80e-02, grad_scale: 16.0
+2023-03-31 19:35:31,666 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.951e+02 9.211e+02 1.091e+03 1.524e+03 2.851e+03, threshold=2.182e+03, percent-clipped=6.0
+2023-03-31 19:35:56,712 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-03-31 19:36:17,086 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-03-31 19:36:24,972 INFO [train.py:903] (2/4) Epoch 1, batch 2150, loss[loss=0.4561, simple_loss=0.4437, pruned_loss=0.2342, over 19761.00 frames. ], tot_loss[loss=0.5294, simple_loss=0.5005, pruned_loss=0.2804, over 3840716.90 frames. ], batch size: 48, lr: 4.79e-02, grad_scale: 16.0
+2023-03-31 19:36:45,568 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2167.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:37:13,923 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2192.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:37:24,850 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2200.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:37:25,807 INFO [train.py:903] (2/4) Epoch 1, batch 2200, loss[loss=0.4017, simple_loss=0.4078, pruned_loss=0.1978, over 19745.00 frames. ], tot_loss[loss=0.5227, simple_loss=0.4963, pruned_loss=0.2755, over 3815499.08 frames. ], batch size: 48, lr: 4.78e-02, grad_scale: 16.0
+2023-03-31 19:37:31,694 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.347e+02 9.332e+02 1.145e+03 1.435e+03 3.303e+03, threshold=2.290e+03, percent-clipped=7.0
+2023-03-31 19:37:49,480 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2219.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:38:03,592 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2232.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:38:27,474 INFO [train.py:903] (2/4) Epoch 1, batch 2250, loss[loss=0.4361, simple_loss=0.4304, pruned_loss=0.2209, over 18219.00 frames. ], tot_loss[loss=0.5178, simple_loss=0.4937, pruned_loss=0.2718, over 3801256.49 frames. ], batch size: 40, lr: 4.77e-02, grad_scale: 16.0
+2023-03-31 19:39:24,145 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2299.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:39:25,915 INFO [train.py:903] (2/4) Epoch 1, batch 2300, loss[loss=0.5205, simple_loss=0.5068, pruned_loss=0.2671, over 19664.00 frames. ], tot_loss[loss=0.5157, simple_loss=0.4936, pruned_loss=0.2696, over 3806135.22 frames. ], batch size: 59, lr: 4.77e-02, grad_scale: 8.0
+2023-03-31 19:39:31,322 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.883e+02 9.458e+02 1.205e+03 1.557e+03 3.326e+03, threshold=2.410e+03, percent-clipped=10.0
+2023-03-31 19:39:39,114 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-03-31 19:39:41,702 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2315.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:39:54,006 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2324.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:40:04,960 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2334.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:40:17,395 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2344.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:40:20,659 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2347.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:40:24,834 INFO [train.py:903] (2/4) Epoch 1, batch 2350, loss[loss=0.5108, simple_loss=0.4959, pruned_loss=0.2629, over 19685.00 frames. ], tot_loss[loss=0.5105, simple_loss=0.4902, pruned_loss=0.2658, over 3819644.63 frames. ], batch size: 60, lr: 4.76e-02, grad_scale: 8.0
+2023-03-31 19:40:33,270 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=2358.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:40:48,352 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2369.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:41:07,216 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-03-31 19:41:23,402 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-03-31 19:41:26,494 INFO [train.py:903] (2/4) Epoch 1, batch 2400, loss[loss=0.5064, simple_loss=0.5041, pruned_loss=0.2544, over 19707.00 frames. ], tot_loss[loss=0.5055, simple_loss=0.4873, pruned_loss=0.2622, over 3804940.19 frames. ], batch size: 59, lr: 4.75e-02, grad_scale: 8.0
+2023-03-31 19:41:33,163 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.460e+02 9.458e+02 1.226e+03 1.613e+03 2.603e+03, threshold=2.451e+03, percent-clipped=4.0
+2023-03-31 19:42:26,034 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
+2023-03-31 19:42:26,146 INFO [train.py:903] (2/4) Epoch 1, batch 2450, loss[loss=0.4126, simple_loss=0.4193, pruned_loss=0.2029, over 19757.00 frames. ], tot_loss[loss=0.4999, simple_loss=0.4843, pruned_loss=0.2581, over 3822675.80 frames. ], batch size: 46, lr: 4.74e-02, grad_scale: 8.0
+2023-03-31 19:43:24,719 INFO [train.py:903] (2/4) Epoch 1, batch 2500, loss[loss=0.4776, simple_loss=0.4648, pruned_loss=0.2452, over 19841.00 frames. ], tot_loss[loss=0.4988, simple_loss=0.4843, pruned_loss=0.2569, over 3799727.69 frames. ], batch size: 52, lr: 4.73e-02, grad_scale: 8.0
+2023-03-31 19:43:30,996 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.049e+02 1.082e+03 1.390e+03 1.742e+03 4.873e+03, threshold=2.779e+03, percent-clipped=5.0
+2023-03-31 19:43:48,363 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1464, 1.4312, 1.8812, 1.6780, 2.0276, 2.2488, 2.2421, 2.1165],
+       device='cuda:2'), covar=tensor([0.0990, 0.2288, 0.1723, 0.1645, 0.2843, 0.1212, 0.1788, 0.1493],
+       device='cuda:2'), in_proj_covar=tensor([0.0099, 0.0114, 0.0137, 0.0110, 0.0161, 0.0107, 0.0119, 0.0111],
+       device='cuda:2'), out_proj_covar=tensor([7.0435e-05, 8.0342e-05, 9.0913e-05, 7.7479e-05, 1.0959e-04, 7.3970e-05,
+        7.8618e-05, 7.4883e-05], device='cuda:2')
+2023-03-31 19:44:22,065 INFO [train.py:903] (2/4) Epoch 1, batch 2550, loss[loss=0.4618, simple_loss=0.465, pruned_loss=0.2293, over 19340.00 frames. ], tot_loss[loss=0.495, simple_loss=0.4819, pruned_loss=0.2542, over 3809671.17 frames. ], batch size: 66, lr: 4.72e-02, grad_scale: 8.0
+2023-03-31 19:44:47,195 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2571.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:45:09,115 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2590.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:45:14,140 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-03-31 19:45:15,646 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2596.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:45:21,675 INFO [train.py:903] (2/4) Epoch 1, batch 2600, loss[loss=0.5133, simple_loss=0.5113, pruned_loss=0.2577, over 19666.00 frames. ], tot_loss[loss=0.4887, simple_loss=0.4781, pruned_loss=0.2498, over 3815081.89 frames. ], batch size: 60, lr: 4.71e-02, grad_scale: 8.0
+2023-03-31 19:45:24,429 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=2603.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:45:28,254 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.353e+02 9.154e+02 1.259e+03 1.710e+03 2.682e+03, threshold=2.519e+03, percent-clipped=0.0
+2023-03-31 19:45:39,468 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2615.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:45:55,221 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=2628.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:46:22,939 INFO [train.py:903] (2/4) Epoch 1, batch 2650, loss[loss=0.4149, simple_loss=0.4219, pruned_loss=0.204, over 19399.00 frames. ], tot_loss[loss=0.4856, simple_loss=0.4769, pruned_loss=0.2473, over 3816601.79 frames. ], batch size: 48, lr: 4.70e-02, grad_scale: 8.0
+2023-03-31 19:46:39,355 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-03-31 19:46:50,667 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8717, 1.7806, 1.9679, 1.6785, 0.9016, 1.4822, 0.7017, 1.6981],
+       device='cuda:2'), covar=tensor([0.0909, 0.0516, 0.0676, 0.1277, 0.1613, 0.1351, 0.2752, 0.1218],
+       device='cuda:2'), in_proj_covar=tensor([0.0109, 0.0097, 0.0122, 0.0152, 0.0146, 0.0147, 0.0178, 0.0158],
+       device='cuda:2'), out_proj_covar=tensor([8.0411e-05, 6.8032e-05, 8.6877e-05, 1.1046e-04, 1.0632e-04, 1.0467e-04,
+        1.2978e-04, 1.2102e-04], device='cuda:2')
+2023-03-31 19:47:20,114 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2151, 1.3050, 1.1282, 0.9663, 0.8618, 1.1337, 0.3663, 0.8089],
+       device='cuda:2'), covar=tensor([0.0763, 0.0492, 0.0759, 0.1255, 0.1157, 0.0961, 0.2055, 0.1244],
+       device='cuda:2'), in_proj_covar=tensor([0.0113, 0.0100, 0.0126, 0.0159, 0.0147, 0.0150, 0.0183, 0.0162],
+       device='cuda:2'), out_proj_covar=tensor([8.2924e-05, 7.0299e-05, 9.0033e-05, 1.1556e-04, 1.0746e-04, 1.0649e-04,
+        1.3334e-04, 1.2418e-04], device='cuda:2')
+2023-03-31 19:47:23,186 INFO [train.py:903] (2/4) Epoch 1, batch 2700, loss[loss=0.4454, simple_loss=0.4572, pruned_loss=0.2168, over 19760.00 frames. ], tot_loss[loss=0.4808, simple_loss=0.4737, pruned_loss=0.2441, over 3810336.97 frames. ], batch size: 54, lr: 4.69e-02, grad_scale: 8.0
+2023-03-31 19:47:24,584 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=2702.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:47:25,689 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=2703.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:47:29,732 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.007e+02 8.490e+02 1.133e+03 1.436e+03 3.154e+03, threshold=2.267e+03, percent-clipped=3.0
+2023-03-31 19:48:24,806 INFO [train.py:903] (2/4) Epoch 1, batch 2750, loss[loss=0.455, simple_loss=0.4671, pruned_loss=0.2215, over 19490.00 frames. ], tot_loss[loss=0.477, simple_loss=0.471, pruned_loss=0.2415, over 3810913.10 frames. ], batch size: 64, lr: 4.68e-02, grad_scale: 8.0
+2023-03-31 19:49:25,713 INFO [train.py:903] (2/4) Epoch 1, batch 2800, loss[loss=0.4618, simple_loss=0.4625, pruned_loss=0.2306, over 19783.00 frames. ], tot_loss[loss=0.4727, simple_loss=0.4685, pruned_loss=0.2385, over 3829804.11 frames. ], batch size: 54, lr: 4.67e-02, grad_scale: 8.0
+2023-03-31 19:49:31,053 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.211e+02 1.002e+03 1.265e+03 1.511e+03 4.462e+03, threshold=2.529e+03, percent-clipped=7.0
+2023-03-31 19:49:45,686 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=2817.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:50:15,472 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=2842.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:50:26,211 INFO [train.py:903] (2/4) Epoch 1, batch 2850, loss[loss=0.4077, simple_loss=0.4274, pruned_loss=0.194, over 19862.00 frames. ], tot_loss[loss=0.4712, simple_loss=0.4673, pruned_loss=0.2376, over 3833660.55 frames. ], batch size: 52, lr: 4.66e-02, grad_scale: 8.0
+2023-03-31 19:51:22,270 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-03-31 19:51:25,263 INFO [train.py:903] (2/4) Epoch 1, batch 2900, loss[loss=0.4615, simple_loss=0.4653, pruned_loss=0.2289, over 19656.00 frames. ], tot_loss[loss=0.4725, simple_loss=0.4689, pruned_loss=0.238, over 3824694.58 frames. ], batch size: 55, lr: 4.65e-02, grad_scale: 8.0
+2023-03-31 19:51:30,478 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.237e+02 1.045e+03 1.349e+03 1.754e+03 3.463e+03, threshold=2.699e+03, percent-clipped=4.0
+2023-03-31 19:52:05,449 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9147, 2.7669, 3.1879, 2.4015, 2.4249, 1.1448, 1.2420, 1.9265],
+       device='cuda:2'), covar=tensor([0.2736, 0.0833, 0.0359, 0.1177, 0.2354, 0.1558, 0.2882, 0.1558],
+       device='cuda:2'), in_proj_covar=tensor([0.0198, 0.0124, 0.0114, 0.0145, 0.0127, 0.0168, 0.0194, 0.0167],
+       device='cuda:2'), out_proj_covar=tensor([1.4811e-04, 9.5141e-05, 8.8130e-05, 1.1317e-04, 1.0166e-04, 1.2746e-04,
+        1.4279e-04, 1.2713e-04], device='cuda:2')
+2023-03-31 19:52:25,021 INFO [train.py:903] (2/4) Epoch 1, batch 2950, loss[loss=0.46, simple_loss=0.4619, pruned_loss=0.2291, over 19484.00 frames. ], tot_loss[loss=0.4698, simple_loss=0.4676, pruned_loss=0.236, over 3835603.25 frames. ], batch size: 49, lr: 4.64e-02, grad_scale: 8.0
+2023-03-31 19:52:30,856 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=2955.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:53:26,147 INFO [train.py:903] (2/4) Epoch 1, batch 3000, loss[loss=0.377, simple_loss=0.4062, pruned_loss=0.1739, over 19766.00 frames. ], tot_loss[loss=0.4642, simple_loss=0.4642, pruned_loss=0.2321, over 3837964.53 frames. ], batch size: 51, lr: 4.63e-02, grad_scale: 8.0
+2023-03-31 19:53:26,148 INFO [train.py:928] (2/4) Computing validation loss
+2023-03-31 19:53:38,717 INFO [train.py:937] (2/4) Epoch 1, validation: loss=0.3995, simple_loss=0.4801, pruned_loss=0.1594, over 944034.00 frames. 
+2023-03-31 19:53:38,718 INFO [train.py:938] (2/4) Maximum memory allocated so far is 16393MB
+2023-03-31 19:53:43,197 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-03-31 19:53:45,671 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.188e+02 9.060e+02 1.151e+03 1.550e+03 2.691e+03, threshold=2.303e+03, percent-clipped=0.0
+2023-03-31 19:53:46,123 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1148, 0.9082, 0.9494, 1.0354, 1.0454, 1.3599, 1.2537, 1.1188],
+       device='cuda:2'), covar=tensor([0.1199, 0.2321, 0.2130, 0.1791, 0.2948, 0.1025, 0.1538, 0.1461],
+       device='cuda:2'), in_proj_covar=tensor([0.0111, 0.0152, 0.0164, 0.0139, 0.0198, 0.0127, 0.0139, 0.0127],
+       device='cuda:2'), out_proj_covar=tensor([8.2249e-05, 1.0954e-04, 1.1313e-04, 1.0064e-04, 1.4105e-04, 9.0390e-05,
+        9.6857e-05, 9.0224e-05], device='cuda:2')
+2023-03-31 19:54:23,259 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3037.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:54:35,534 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3047.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:54:40,056 INFO [train.py:903] (2/4) Epoch 1, batch 3050, loss[loss=0.4012, simple_loss=0.4097, pruned_loss=0.1963, over 19477.00 frames. ], tot_loss[loss=0.4616, simple_loss=0.4627, pruned_loss=0.2303, over 3828578.26 frames. ], batch size: 49, lr: 4.62e-02, grad_scale: 8.0
+2023-03-31 19:54:58,664 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7965, 1.5819, 1.8897, 1.1636, 2.4932, 2.8615, 2.7795, 2.7508],
+       device='cuda:2'), covar=tensor([0.2287, 0.2879, 0.2019, 0.3628, 0.0952, 0.0250, 0.0352, 0.0408],
+       device='cuda:2'), in_proj_covar=tensor([0.0239, 0.0206, 0.0194, 0.0250, 0.0177, 0.0099, 0.0123, 0.0102],
+       device='cuda:2'), out_proj_covar=tensor([1.6562e-04, 1.4094e-04, 1.3203e-04, 1.7038e-04, 1.3806e-04, 6.3404e-05,
+        8.4047e-05, 7.0720e-05], device='cuda:2')
+2023-03-31 19:55:07,342 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3073.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:55:36,299 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3098.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 19:55:39,212 INFO [train.py:903] (2/4) Epoch 1, batch 3100, loss[loss=0.5437, simple_loss=0.5026, pruned_loss=0.2924, over 19284.00 frames. ], tot_loss[loss=0.4608, simple_loss=0.4618, pruned_loss=0.2299, over 3836415.20 frames. ], batch size: 66, lr: 4.61e-02, grad_scale: 8.0
+2023-03-31 19:55:45,834 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.197e+02 1.021e+03 1.362e+03 1.815e+03 5.785e+03, threshold=2.723e+03, percent-clipped=14.0
+2023-03-31 19:56:02,185 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0884, 3.9305, 5.4714, 5.1239, 1.7030, 5.0036, 4.5766, 5.1064],
+       device='cuda:2'), covar=tensor([0.0232, 0.0562, 0.0253, 0.0185, 0.3929, 0.0250, 0.0476, 0.0530],
+       device='cuda:2'), in_proj_covar=tensor([0.0127, 0.0161, 0.0185, 0.0125, 0.0292, 0.0112, 0.0157, 0.0167],
+       device='cuda:2'), out_proj_covar=tensor([8.9250e-05, 1.1298e-04, 1.1716e-04, 7.9339e-05, 1.6873e-04, 7.2447e-05,
+        1.0551e-04, 1.0561e-04], device='cuda:2')
+2023-03-31 19:56:18,450 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
+2023-03-31 19:56:28,166 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0229, 2.7253, 2.5506, 2.6624, 1.4494, 1.8669, 0.8822, 2.2545],
+       device='cuda:2'), covar=tensor([0.0516, 0.0373, 0.0420, 0.0515, 0.0995, 0.0981, 0.1593, 0.0922],
+       device='cuda:2'), in_proj_covar=tensor([0.0090, 0.0087, 0.0099, 0.0122, 0.0128, 0.0128, 0.0145, 0.0141],
+       device='cuda:2'), out_proj_covar=tensor([7.1803e-05, 6.1938e-05, 7.3870e-05, 9.2406e-05, 9.4095e-05, 9.4394e-05,
+        1.0644e-04, 1.0601e-04], device='cuda:2')
+2023-03-31 19:56:41,856 INFO [train.py:903] (2/4) Epoch 1, batch 3150, loss[loss=0.4289, simple_loss=0.4351, pruned_loss=0.2114, over 19419.00 frames. ], tot_loss[loss=0.46, simple_loss=0.4617, pruned_loss=0.2292, over 3833489.97 frames. ], batch size: 48, lr: 4.60e-02, grad_scale: 8.0
+2023-03-31 19:56:54,515 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3162.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:57:02,419 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1344, 4.1628, 5.5669, 5.2586, 1.7409, 5.2661, 4.7767, 5.1223],
+       device='cuda:2'), covar=tensor([0.0197, 0.0465, 0.0275, 0.0151, 0.3391, 0.0237, 0.0353, 0.0516],
+       device='cuda:2'), in_proj_covar=tensor([0.0128, 0.0167, 0.0187, 0.0129, 0.0300, 0.0114, 0.0161, 0.0171],
+       device='cuda:2'), out_proj_covar=tensor([9.1117e-05, 1.1839e-04, 1.1912e-04, 8.1201e-05, 1.7229e-04, 7.5144e-05,
+        1.0753e-04, 1.0919e-04], device='cuda:2')
+2023-03-31 19:57:09,035 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-03-31 19:57:24,066 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3186.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:57:40,826 INFO [train.py:903] (2/4) Epoch 1, batch 3200, loss[loss=0.4942, simple_loss=0.4843, pruned_loss=0.252, over 19432.00 frames. ], tot_loss[loss=0.4567, simple_loss=0.4597, pruned_loss=0.2269, over 3834716.13 frames. ], batch size: 70, lr: 4.59e-02, grad_scale: 8.0
+2023-03-31 19:57:46,450 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.226e+02 9.158e+02 1.127e+03 1.418e+03 2.574e+03, threshold=2.253e+03, percent-clipped=0.0
+2023-03-31 19:58:16,568 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2661, 3.8417, 2.1043, 3.4089, 1.3454, 3.9814, 3.3003, 3.6625],
+       device='cuda:2'), covar=tensor([0.0680, 0.1306, 0.3011, 0.0715, 0.3720, 0.0550, 0.0709, 0.0546],
+       device='cuda:2'), in_proj_covar=tensor([0.0196, 0.0219, 0.0232, 0.0170, 0.0250, 0.0164, 0.0142, 0.0142],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0001],
+       device='cuda:2')
+2023-03-31 19:58:41,766 INFO [train.py:903] (2/4) Epoch 1, batch 3250, loss[loss=0.4399, simple_loss=0.4515, pruned_loss=0.2142, over 19540.00 frames. ], tot_loss[loss=0.4538, simple_loss=0.4576, pruned_loss=0.225, over 3833128.73 frames. ], batch size: 54, lr: 4.58e-02, grad_scale: 8.0
+2023-03-31 19:59:40,389 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3299.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:59:42,433 INFO [train.py:903] (2/4) Epoch 1, batch 3300, loss[loss=0.4664, simple_loss=0.468, pruned_loss=0.2324, over 18083.00 frames. ], tot_loss[loss=0.4523, simple_loss=0.4566, pruned_loss=0.224, over 3813968.05 frames. ], batch size: 83, lr: 4.57e-02, grad_scale: 8.0
+2023-03-31 19:59:42,827 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3301.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 19:59:48,780 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.005e+02 9.991e+02 1.183e+03 1.562e+03 4.237e+03, threshold=2.366e+03, percent-clipped=7.0
+2023-03-31 19:59:48,817 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-03-31 19:59:49,132 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3306.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 19:59:56,251 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.16 vs. limit=2.0
+2023-03-31 20:00:43,740 INFO [train.py:903] (2/4) Epoch 1, batch 3350, loss[loss=0.4228, simple_loss=0.4456, pruned_loss=0.1999, over 19661.00 frames. ], tot_loss[loss=0.4482, simple_loss=0.4539, pruned_loss=0.2212, over 3824092.01 frames. ], batch size: 55, lr: 4.56e-02, grad_scale: 8.0
+2023-03-31 20:00:55,952 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.84 vs. limit=2.0
+2023-03-31 20:01:22,251 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3381.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:01:46,109 INFO [train.py:903] (2/4) Epoch 1, batch 3400, loss[loss=0.4641, simple_loss=0.4468, pruned_loss=0.2407, over 19785.00 frames. ], tot_loss[loss=0.4475, simple_loss=0.4534, pruned_loss=0.2208, over 3828305.76 frames. ], batch size: 47, lr: 4.55e-02, grad_scale: 8.0
+2023-03-31 20:01:52,900 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.525e+02 9.967e+02 1.253e+03 1.611e+03 4.007e+03, threshold=2.507e+03, percent-clipped=3.0
+2023-03-31 20:02:02,148 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3414.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:02:07,709 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3418.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:02:30,890 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1349, 1.0884, 0.9546, 1.0893, 1.1082, 0.7683, 0.3070, 1.1872],
+       device='cuda:2'), covar=tensor([0.1199, 0.0744, 0.0952, 0.0914, 0.1017, 0.1432, 0.2429, 0.1050],
+       device='cuda:2'), in_proj_covar=tensor([0.0232, 0.0145, 0.0143, 0.0178, 0.0140, 0.0188, 0.0218, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0001, 0.0001, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 20:02:38,889 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3443.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:02:44,439 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0857, 1.3018, 1.7957, 1.4384, 2.6340, 3.0003, 2.9282, 2.0770],
+       device='cuda:2'), covar=tensor([0.2341, 0.1530, 0.1791, 0.2146, 0.0855, 0.0393, 0.0713, 0.1271],
+       device='cuda:2'), in_proj_covar=tensor([0.0184, 0.0149, 0.0168, 0.0196, 0.0175, 0.0101, 0.0166, 0.0174],
+       device='cuda:2'), out_proj_covar=tensor([1.2696e-04, 1.0389e-04, 1.1941e-04, 1.3586e-04, 1.1722e-04, 7.3086e-05,
+        1.0936e-04, 1.1439e-04], device='cuda:2')
+2023-03-31 20:02:48,481 INFO [train.py:903] (2/4) Epoch 1, batch 3450, loss[loss=0.4405, simple_loss=0.4469, pruned_loss=0.2171, over 19363.00 frames. ], tot_loss[loss=0.4486, simple_loss=0.4543, pruned_loss=0.2214, over 3827841.66 frames. ], batch size: 66, lr: 4.54e-02, grad_scale: 8.0
+2023-03-31 20:02:50,760 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-03-31 20:03:44,001 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3496.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:03:50,183 INFO [train.py:903] (2/4) Epoch 1, batch 3500, loss[loss=0.4564, simple_loss=0.4661, pruned_loss=0.2233, over 19777.00 frames. ], tot_loss[loss=0.4463, simple_loss=0.453, pruned_loss=0.2199, over 3830858.49 frames. ], batch size: 56, lr: 4.53e-02, grad_scale: 8.0
+2023-03-31 20:03:56,687 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.496e+02 9.703e+02 1.213e+03 1.703e+03 9.610e+03, threshold=2.427e+03, percent-clipped=9.0
+2023-03-31 20:04:52,053 INFO [train.py:903] (2/4) Epoch 1, batch 3550, loss[loss=0.525, simple_loss=0.5046, pruned_loss=0.2727, over 18742.00 frames. ], tot_loss[loss=0.4466, simple_loss=0.4534, pruned_loss=0.22, over 3825605.25 frames. ], batch size: 74, lr: 4.51e-02, grad_scale: 8.0
+2023-03-31 20:05:00,219 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3557.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:05:07,898 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3564.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:05:31,034 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3582.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:05:53,932 INFO [train.py:903] (2/4) Epoch 1, batch 3600, loss[loss=0.446, simple_loss=0.4459, pruned_loss=0.2231, over 19743.00 frames. ], tot_loss[loss=0.4581, simple_loss=0.4599, pruned_loss=0.2281, over 3816992.73 frames. ], batch size: 51, lr: 4.50e-02, grad_scale: 8.0
+2023-03-31 20:06:00,970 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.467e+02 9.459e+02 1.417e+03 1.964e+03 2.103e+04, threshold=2.834e+03, percent-clipped=17.0
+2023-03-31 20:06:55,025 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3650.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 20:06:55,790 INFO [train.py:903] (2/4) Epoch 1, batch 3650, loss[loss=0.5862, simple_loss=0.5408, pruned_loss=0.3158, over 19769.00 frames. ], tot_loss[loss=0.4556, simple_loss=0.4588, pruned_loss=0.2262, over 3829362.03 frames. ], batch size: 54, lr: 4.49e-02, grad_scale: 8.0
+2023-03-31 20:07:18,776 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3670.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:07:38,914 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1829, 4.2043, 5.1838, 5.0651, 1.9690, 5.1458, 4.8912, 4.0240],
+       device='cuda:2'), covar=tensor([0.0366, 0.0739, 0.0834, 0.0460, 0.3545, 0.0527, 0.0507, 0.1461],
+       device='cuda:2'), in_proj_covar=tensor([0.0132, 0.0173, 0.0212, 0.0144, 0.0303, 0.0120, 0.0166, 0.0191],
+       device='cuda:2'), out_proj_covar=tensor([9.2639e-05, 1.2021e-04, 1.3833e-04, 8.8513e-05, 1.7273e-04, 8.0903e-05,
+        1.1011e-04, 1.1775e-04], device='cuda:2')
+2023-03-31 20:07:49,526 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3694.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:07:50,796 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3695.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:07:56,857 INFO [train.py:903] (2/4) Epoch 1, batch 3700, loss[loss=0.3967, simple_loss=0.4065, pruned_loss=0.1934, over 19800.00 frames. ], tot_loss[loss=0.4604, simple_loss=0.4619, pruned_loss=0.2295, over 3826777.41 frames. ], batch size: 48, lr: 4.48e-02, grad_scale: 8.0
+2023-03-31 20:08:05,842 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.255e+02 1.022e+03 1.666e+03 2.666e+03 1.441e+04, threshold=3.331e+03, percent-clipped=22.0
+2023-03-31 20:09:01,160 INFO [train.py:903] (2/4) Epoch 1, batch 3750, loss[loss=0.5101, simple_loss=0.5074, pruned_loss=0.2564, over 18221.00 frames. ], tot_loss[loss=0.4563, simple_loss=0.4594, pruned_loss=0.2266, over 3828410.35 frames. ], batch size: 83, lr: 4.47e-02, grad_scale: 8.0
+2023-03-31 20:09:02,788 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=3752.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:09:19,416 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=3765.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:09:34,313 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=3777.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:09:53,436 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
+2023-03-31 20:09:57,311 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
+2023-03-31 20:10:05,367 INFO [train.py:903] (2/4) Epoch 1, batch 3800, loss[loss=0.4371, simple_loss=0.4562, pruned_loss=0.209, over 19781.00 frames. ], tot_loss[loss=0.4533, simple_loss=0.458, pruned_loss=0.2243, over 3826084.37 frames. ], batch size: 56, lr: 4.46e-02, grad_scale: 8.0
+2023-03-31 20:10:12,576 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.844e+02 1.035e+03 1.394e+03 1.973e+03 4.112e+03, threshold=2.788e+03, percent-clipped=1.0
+2023-03-31 20:10:41,865 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-03-31 20:11:08,746 INFO [train.py:903] (2/4) Epoch 1, batch 3850, loss[loss=0.4103, simple_loss=0.4131, pruned_loss=0.2037, over 19746.00 frames. ], tot_loss[loss=0.449, simple_loss=0.4554, pruned_loss=0.2213, over 3833564.05 frames. ], batch size: 45, lr: 4.45e-02, grad_scale: 8.0
+2023-03-31 20:11:34,475 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.12 vs. limit=5.0
+2023-03-31 20:11:38,919 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
+2023-03-31 20:12:01,779 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
+2023-03-31 20:12:13,123 INFO [train.py:903] (2/4) Epoch 1, batch 3900, loss[loss=0.3601, simple_loss=0.3739, pruned_loss=0.1732, over 19760.00 frames. ], tot_loss[loss=0.4466, simple_loss=0.4538, pruned_loss=0.2197, over 3834643.01 frames. ], batch size: 47, lr: 4.44e-02, grad_scale: 8.0
+2023-03-31 20:12:22,008 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.917e+02 1.152e+03 1.441e+03 1.935e+03 3.736e+03, threshold=2.883e+03, percent-clipped=2.0
+2023-03-31 20:12:23,347 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=3908.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:13:08,711 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=3944.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:13:18,199 INFO [train.py:903] (2/4) Epoch 1, batch 3950, loss[loss=0.4231, simple_loss=0.4495, pruned_loss=0.1983, over 19751.00 frames. ], tot_loss[loss=0.4476, simple_loss=0.4544, pruned_loss=0.2204, over 3839451.61 frames. ], batch size: 63, lr: 4.43e-02, grad_scale: 8.0
+2023-03-31 20:13:24,032 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-03-31 20:14:23,993 INFO [train.py:903] (2/4) Epoch 1, batch 4000, loss[loss=0.3796, simple_loss=0.4094, pruned_loss=0.1749, over 19604.00 frames. ], tot_loss[loss=0.4438, simple_loss=0.4523, pruned_loss=0.2177, over 3823467.54 frames. ], batch size: 50, lr: 4.42e-02, grad_scale: 8.0
+2023-03-31 20:14:30,110 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2593, 3.3683, 3.8779, 3.5859, 1.3258, 3.3282, 2.9984, 3.3938],
+       device='cuda:2'), covar=tensor([0.0350, 0.0488, 0.0412, 0.0301, 0.3404, 0.0252, 0.0592, 0.0864],
+       device='cuda:2'), in_proj_covar=tensor([0.0144, 0.0183, 0.0221, 0.0155, 0.0319, 0.0120, 0.0173, 0.0218],
+       device='cuda:2'), out_proj_covar=tensor([9.9809e-05, 1.2731e-04, 1.4580e-04, 9.5067e-05, 1.8015e-04, 8.2802e-05,
+        1.1568e-04, 1.3348e-04], device='cuda:2')
+2023-03-31 20:14:30,940 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.942e+02 1.053e+03 1.358e+03 1.948e+03 9.883e+03, threshold=2.717e+03, percent-clipped=12.0
+2023-03-31 20:14:49,361 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=4021.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:14:52,413 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4023.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:15:11,871 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4038.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:15:12,787 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-03-31 20:15:22,681 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=4046.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 20:15:28,263 INFO [train.py:903] (2/4) Epoch 1, batch 4050, loss[loss=0.4553, simple_loss=0.4592, pruned_loss=0.2257, over 19348.00 frames. ], tot_loss[loss=0.4427, simple_loss=0.4514, pruned_loss=0.217, over 3825756.17 frames. ], batch size: 66, lr: 4.41e-02, grad_scale: 8.0
+2023-03-31 20:16:32,896 INFO [train.py:903] (2/4) Epoch 1, batch 4100, loss[loss=0.4221, simple_loss=0.4471, pruned_loss=0.1985, over 18861.00 frames. ], tot_loss[loss=0.4408, simple_loss=0.4498, pruned_loss=0.216, over 3819103.00 frames. ], batch size: 74, lr: 4.40e-02, grad_scale: 8.0
+2023-03-31 20:16:41,801 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.649e+02 1.198e+03 1.458e+03 1.833e+03 3.490e+03, threshold=2.915e+03, percent-clipped=3.0
+2023-03-31 20:17:08,493 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-03-31 20:17:10,114 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6918, 1.6639, 1.7439, 2.6860, 3.3279, 1.1743, 2.2011, 3.4478],
+       device='cuda:2'), covar=tensor([0.0266, 0.2344, 0.2638, 0.1527, 0.0353, 0.3043, 0.1065, 0.0316],
+       device='cuda:2'), in_proj_covar=tensor([0.0165, 0.0262, 0.0256, 0.0266, 0.0192, 0.0324, 0.0225, 0.0199],
+       device='cuda:2'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 20:17:23,012 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4385, 3.4521, 3.9805, 3.6950, 1.5404, 3.4802, 3.2111, 3.4092],
+       device='cuda:2'), covar=tensor([0.0289, 0.0467, 0.0346, 0.0254, 0.3148, 0.0296, 0.0407, 0.0822],
+       device='cuda:2'), in_proj_covar=tensor([0.0153, 0.0196, 0.0235, 0.0165, 0.0341, 0.0129, 0.0181, 0.0240],
+       device='cuda:2'), out_proj_covar=tensor([1.0553e-04, 1.3585e-04, 1.5575e-04, 1.0221e-04, 1.9168e-04, 8.8294e-05,
+        1.2070e-04, 1.4738e-04], device='cuda:2')
+2023-03-31 20:17:32,422 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-03-31 20:17:38,859 INFO [train.py:903] (2/4) Epoch 1, batch 4150, loss[loss=0.357, simple_loss=0.3889, pruned_loss=0.1626, over 19408.00 frames. ], tot_loss[loss=0.4359, simple_loss=0.4466, pruned_loss=0.2125, over 3834235.04 frames. ], batch size: 48, lr: 4.39e-02, grad_scale: 8.0
+2023-03-31 20:17:41,642 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4153.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:17:49,794 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=4159.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:18:32,089 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
+2023-03-31 20:18:44,279 INFO [train.py:903] (2/4) Epoch 1, batch 4200, loss[loss=0.3701, simple_loss=0.3991, pruned_loss=0.1706, over 19483.00 frames. ], tot_loss[loss=0.433, simple_loss=0.4447, pruned_loss=0.2106, over 3844259.98 frames. ], batch size: 49, lr: 4.38e-02, grad_scale: 8.0
+2023-03-31 20:18:46,632 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-03-31 20:18:51,468 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.163e+02 8.919e+02 1.098e+03 1.489e+03 3.268e+03, threshold=2.196e+03, percent-clipped=3.0
+2023-03-31 20:19:19,915 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7151, 1.7033, 1.7007, 1.6627, 1.8034, 2.7322, 2.5218, 2.5927],
+       device='cuda:2'), covar=tensor([0.1062, 0.1931, 0.2064, 0.2254, 0.3435, 0.1619, 0.2423, 0.1200],
+       device='cuda:2'), in_proj_covar=tensor([0.0227, 0.0284, 0.0293, 0.0305, 0.0389, 0.0270, 0.0338, 0.0244],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 20:19:47,746 INFO [train.py:903] (2/4) Epoch 1, batch 4250, loss[loss=0.4652, simple_loss=0.4674, pruned_loss=0.2315, over 19784.00 frames. ], tot_loss[loss=0.4309, simple_loss=0.4428, pruned_loss=0.2095, over 3845724.84 frames. ], batch size: 56, lr: 4.36e-02, grad_scale: 8.0
+2023-03-31 20:20:02,062 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-03-31 20:20:15,304 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-03-31 20:20:25,116 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=4279.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:20:33,052 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4200, 4.1002, 2.4308, 3.5378, 1.4823, 3.9967, 3.4639, 3.5377],
+       device='cuda:2'), covar=tensor([0.0502, 0.0971, 0.2024, 0.0628, 0.2823, 0.0570, 0.0596, 0.0532],
+       device='cuda:2'), in_proj_covar=tensor([0.0219, 0.0233, 0.0259, 0.0210, 0.0280, 0.0208, 0.0161, 0.0169],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001],
+       device='cuda:2')
+2023-03-31 20:20:36,687 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4288.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:20:52,966 INFO [train.py:903] (2/4) Epoch 1, batch 4300, loss[loss=0.3547, simple_loss=0.3787, pruned_loss=0.1653, over 19785.00 frames. ], tot_loss[loss=0.432, simple_loss=0.4435, pruned_loss=0.2103, over 3817501.33 frames. ], batch size: 48, lr: 4.35e-02, grad_scale: 8.0
+2023-03-31 20:20:57,841 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=4304.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 20:20:58,995 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7124, 2.0945, 2.1267, 2.6730, 4.2219, 1.3391, 2.3870, 4.0884],
+       device='cuda:2'), covar=tensor([0.0335, 0.2558, 0.2935, 0.1881, 0.0358, 0.3103, 0.1204, 0.0350],
+       device='cuda:2'), in_proj_covar=tensor([0.0171, 0.0265, 0.0253, 0.0261, 0.0189, 0.0314, 0.0228, 0.0195],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 20:21:00,242 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=4306.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:21:02,054 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.021e+02 1.171e+03 1.478e+03 2.100e+03 3.660e+03, threshold=2.957e+03, percent-clipped=20.0
+2023-03-31 20:21:46,522 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-03-31 20:21:59,424 INFO [train.py:903] (2/4) Epoch 1, batch 4350, loss[loss=0.3801, simple_loss=0.3937, pruned_loss=0.1832, over 19078.00 frames. ], tot_loss[loss=0.4257, simple_loss=0.439, pruned_loss=0.2062, over 3828619.42 frames. ], batch size: 42, lr: 4.34e-02, grad_scale: 8.0
+2023-03-31 20:22:32,329 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.71 vs. limit=2.0
+2023-03-31 20:23:03,133 INFO [train.py:903] (2/4) Epoch 1, batch 4400, loss[loss=0.3925, simple_loss=0.4019, pruned_loss=0.1916, over 18676.00 frames. ], tot_loss[loss=0.4226, simple_loss=0.4373, pruned_loss=0.204, over 3834004.93 frames. ], batch size: 41, lr: 4.33e-02, grad_scale: 8.0
+2023-03-31 20:23:05,860 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4403.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:23:11,487 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.454e+02 9.391e+02 1.114e+03 1.514e+03 3.216e+03, threshold=2.228e+03, percent-clipped=1.0
+2023-03-31 20:23:14,591 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=4409.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:23:29,273 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-03-31 20:23:39,398 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-03-31 20:23:46,913 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=4434.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 20:24:06,850 INFO [train.py:903] (2/4) Epoch 1, batch 4450, loss[loss=0.4754, simple_loss=0.4812, pruned_loss=0.2348, over 19565.00 frames. ], tot_loss[loss=0.4228, simple_loss=0.4372, pruned_loss=0.2042, over 3834313.65 frames. ], batch size: 61, lr: 4.32e-02, grad_scale: 8.0
+2023-03-31 20:25:09,800 INFO [train.py:903] (2/4) Epoch 1, batch 4500, loss[loss=0.3781, simple_loss=0.394, pruned_loss=0.1811, over 19374.00 frames. ], tot_loss[loss=0.4201, simple_loss=0.4348, pruned_loss=0.2027, over 3839758.64 frames. ], batch size: 47, lr: 4.31e-02, grad_scale: 8.0
+2023-03-31 20:25:12,505 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4503.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:25:18,131 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.500e+02 1.049e+03 1.357e+03 1.620e+03 3.962e+03, threshold=2.713e+03, percent-clipped=8.0
+2023-03-31 20:25:49,020 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0253, 3.7198, 4.5989, 4.2887, 1.5262, 4.1283, 3.6622, 3.8343],
+       device='cuda:2'), covar=tensor([0.0250, 0.0452, 0.0316, 0.0259, 0.3286, 0.0195, 0.0359, 0.0814],
+       device='cuda:2'), in_proj_covar=tensor([0.0158, 0.0203, 0.0244, 0.0177, 0.0350, 0.0131, 0.0183, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([1.0843e-04, 1.3862e-04, 1.6195e-04, 1.1079e-04, 1.9516e-04, 8.5915e-05,
+        1.1915e-04, 1.5516e-04], device='cuda:2')
+2023-03-31 20:26:14,048 INFO [train.py:903] (2/4) Epoch 1, batch 4550, loss[loss=0.4401, simple_loss=0.4557, pruned_loss=0.2122, over 19312.00 frames. ], tot_loss[loss=0.4199, simple_loss=0.4348, pruned_loss=0.2025, over 3827633.83 frames. ], batch size: 66, lr: 4.30e-02, grad_scale: 8.0
+2023-03-31 20:26:22,696 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.56 vs. limit=5.0
+2023-03-31 20:26:24,216 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-03-31 20:26:47,297 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-03-31 20:27:16,034 INFO [train.py:903] (2/4) Epoch 1, batch 4600, loss[loss=0.4492, simple_loss=0.4531, pruned_loss=0.2227, over 19530.00 frames. ], tot_loss[loss=0.4196, simple_loss=0.4346, pruned_loss=0.2023, over 3832924.21 frames. ], batch size: 54, lr: 4.29e-02, grad_scale: 4.0
+2023-03-31 20:27:24,059 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.210e+02 9.691e+02 1.279e+03 1.723e+03 8.130e+03, threshold=2.557e+03, percent-clipped=7.0
+2023-03-31 20:27:36,647 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4618.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:27:36,900 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-03-31 20:28:17,145 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=4650.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:28:18,168 INFO [train.py:903] (2/4) Epoch 1, batch 4650, loss[loss=0.4041, simple_loss=0.4259, pruned_loss=0.1911, over 19584.00 frames. ], tot_loss[loss=0.4181, simple_loss=0.4338, pruned_loss=0.2012, over 3838836.96 frames. ], batch size: 52, lr: 4.28e-02, grad_scale: 4.0
+2023-03-31 20:28:21,975 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7851, 3.4897, 1.8571, 3.1565, 1.0837, 3.4779, 3.1128, 3.0873],
+       device='cuda:2'), covar=tensor([0.0583, 0.0941, 0.2240, 0.0700, 0.3242, 0.0715, 0.0563, 0.0739],
+       device='cuda:2'), in_proj_covar=tensor([0.0228, 0.0224, 0.0267, 0.0212, 0.0281, 0.0217, 0.0164, 0.0171],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001],
+       device='cuda:2')
+2023-03-31 20:28:27,823 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=4659.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:28:34,608 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-03-31 20:28:44,794 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-03-31 20:28:58,618 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=4684.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:29:18,957 INFO [train.py:903] (2/4) Epoch 1, batch 4700, loss[loss=0.4478, simple_loss=0.461, pruned_loss=0.2173, over 18775.00 frames. ], tot_loss[loss=0.418, simple_loss=0.434, pruned_loss=0.201, over 3823947.19 frames. ], batch size: 74, lr: 4.27e-02, grad_scale: 4.0
+2023-03-31 20:29:28,008 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.618e+02 9.658e+02 1.202e+03 1.526e+03 2.859e+03, threshold=2.405e+03, percent-clipped=1.0
+2023-03-31 20:29:39,196 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-03-31 20:29:45,606 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0857, 1.3364, 2.4864, 1.4159, 2.7881, 3.6174, 3.3250, 2.1018],
+       device='cuda:2'), covar=tensor([0.1690, 0.1748, 0.1316, 0.1672, 0.1155, 0.0516, 0.1142, 0.1626],
+       device='cuda:2'), in_proj_covar=tensor([0.0239, 0.0231, 0.0221, 0.0251, 0.0256, 0.0191, 0.0266, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 20:30:21,810 INFO [train.py:903] (2/4) Epoch 1, batch 4750, loss[loss=0.3753, simple_loss=0.4056, pruned_loss=0.1725, over 19398.00 frames. ], tot_loss[loss=0.4173, simple_loss=0.4341, pruned_loss=0.2003, over 3818941.34 frames. ], batch size: 48, lr: 4.26e-02, grad_scale: 4.0
+2023-03-31 20:30:39,331 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=4765.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:31:00,307 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5493, 1.4472, 1.3686, 2.0348, 1.4273, 1.4184, 1.3561, 1.2480],
+       device='cuda:2'), covar=tensor([0.0979, 0.0854, 0.0903, 0.0595, 0.0941, 0.0734, 0.1745, 0.1216],
+       device='cuda:2'), in_proj_covar=tensor([0.0122, 0.0107, 0.0134, 0.0149, 0.0158, 0.0085, 0.0162, 0.0126],
+       device='cuda:2'), out_proj_covar=tensor([8.7416e-05, 7.5545e-05, 8.9631e-05, 9.7731e-05, 1.0180e-04, 5.2867e-05,
+        1.1699e-04, 8.6588e-05], device='cuda:2')
+2023-03-31 20:31:23,845 INFO [train.py:903] (2/4) Epoch 1, batch 4800, loss[loss=0.4701, simple_loss=0.4804, pruned_loss=0.2299, over 19575.00 frames. ], tot_loss[loss=0.4195, simple_loss=0.4358, pruned_loss=0.2016, over 3831259.49 frames. ], batch size: 61, lr: 4.25e-02, grad_scale: 8.0
+2023-03-31 20:31:32,985 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 7.504e+02 1.038e+03 1.224e+03 1.522e+03 3.175e+03, threshold=2.447e+03, percent-clipped=5.0
+2023-03-31 20:32:25,510 INFO [train.py:903] (2/4) Epoch 1, batch 4850, loss[loss=0.4685, simple_loss=0.4753, pruned_loss=0.2309, over 17960.00 frames. ], tot_loss[loss=0.4219, simple_loss=0.4373, pruned_loss=0.2032, over 3821124.06 frames. ], batch size: 83, lr: 4.24e-02, grad_scale: 8.0
+2023-03-31 20:32:46,769 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-03-31 20:32:54,302 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=4874.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:33:06,424 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-03-31 20:33:12,764 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-03-31 20:33:12,785 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-03-31 20:33:23,800 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-03-31 20:33:25,313 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=4899.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:33:27,239 INFO [train.py:903] (2/4) Epoch 1, batch 4900, loss[loss=0.3307, simple_loss=0.3608, pruned_loss=0.1503, over 19781.00 frames. ], tot_loss[loss=0.4193, simple_loss=0.4355, pruned_loss=0.2015, over 3829919.16 frames. ], batch size: 48, lr: 4.23e-02, grad_scale: 8.0
+2023-03-31 20:33:37,034 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.319e+02 9.845e+02 1.167e+03 1.485e+03 2.856e+03, threshold=2.333e+03, percent-clipped=2.0
+2023-03-31 20:33:44,815 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-03-31 20:33:52,572 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
+2023-03-31 20:34:29,521 INFO [train.py:903] (2/4) Epoch 1, batch 4950, loss[loss=0.5462, simple_loss=0.5096, pruned_loss=0.2914, over 19583.00 frames. ], tot_loss[loss=0.4179, simple_loss=0.4351, pruned_loss=0.2003, over 3846731.49 frames. ], batch size: 52, lr: 4.21e-02, grad_scale: 8.0
+2023-03-31 20:34:40,548 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-03-31 20:35:05,872 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-03-31 20:35:31,817 INFO [train.py:903] (2/4) Epoch 1, batch 5000, loss[loss=0.3575, simple_loss=0.3784, pruned_loss=0.1682, over 19739.00 frames. ], tot_loss[loss=0.4148, simple_loss=0.4329, pruned_loss=0.1983, over 3837083.33 frames. ], batch size: 46, lr: 4.20e-02, grad_scale: 8.0
+2023-03-31 20:35:35,564 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-03-31 20:35:40,116 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.692e+02 8.720e+02 1.063e+03 1.451e+03 3.452e+03, threshold=2.125e+03, percent-clipped=4.0
+2023-03-31 20:35:46,914 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-03-31 20:35:56,157 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=5021.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:36:13,439 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7176, 1.8243, 1.6133, 2.4812, 3.2083, 1.5170, 2.1503, 3.2849],
+       device='cuda:2'), covar=tensor([0.0228, 0.2194, 0.2443, 0.1422, 0.0387, 0.2249, 0.1014, 0.0347],
+       device='cuda:2'), in_proj_covar=tensor([0.0175, 0.0273, 0.0256, 0.0263, 0.0206, 0.0312, 0.0231, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 20:36:27,147 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=5046.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:36:33,276 INFO [train.py:903] (2/4) Epoch 1, batch 5050, loss[loss=0.4452, simple_loss=0.462, pruned_loss=0.2142, over 19117.00 frames. ], tot_loss[loss=0.4132, simple_loss=0.4321, pruned_loss=0.1971, over 3819583.83 frames. ], batch size: 69, lr: 4.19e-02, grad_scale: 8.0
+2023-03-31 20:37:02,502 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-03-31 20:37:05,170 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0815, 1.3480, 1.2624, 1.7256, 1.3392, 1.9145, 1.8440, 1.8497],
+       device='cuda:2'), covar=tensor([0.0836, 0.1705, 0.1845, 0.1544, 0.2662, 0.1333, 0.1757, 0.1066],
+       device='cuda:2'), in_proj_covar=tensor([0.0242, 0.0304, 0.0301, 0.0323, 0.0404, 0.0277, 0.0356, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-03-31 20:37:34,528 INFO [train.py:903] (2/4) Epoch 1, batch 5100, loss[loss=0.4387, simple_loss=0.4581, pruned_loss=0.2097, over 19693.00 frames. ], tot_loss[loss=0.413, simple_loss=0.4318, pruned_loss=0.1971, over 3828366.88 frames. ], batch size: 59, lr: 4.18e-02, grad_scale: 8.0
+2023-03-31 20:37:39,764 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-03-31 20:37:43,117 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.551e+02 1.065e+03 1.254e+03 1.490e+03 3.647e+03, threshold=2.509e+03, percent-clipped=6.0
+2023-03-31 20:37:43,158 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-03-31 20:37:47,679 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-03-31 20:38:33,389 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8398, 3.5341, 1.8090, 3.1364, 1.1403, 3.4073, 3.0484, 3.0918],
+       device='cuda:2'), covar=tensor([0.0634, 0.1113, 0.2412, 0.0711, 0.3351, 0.0876, 0.0671, 0.0736],
+       device='cuda:2'), in_proj_covar=tensor([0.0236, 0.0237, 0.0267, 0.0222, 0.0285, 0.0224, 0.0166, 0.0177],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001],
+       device='cuda:2')
+2023-03-31 20:38:36,972 INFO [train.py:903] (2/4) Epoch 1, batch 5150, loss[loss=0.3081, simple_loss=0.3539, pruned_loss=0.1312, over 19737.00 frames. ], tot_loss[loss=0.4103, simple_loss=0.4297, pruned_loss=0.1954, over 3832345.47 frames. ], batch size: 46, lr: 4.17e-02, grad_scale: 8.0
+2023-03-31 20:38:38,714 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.95 vs. limit=2.0
+2023-03-31 20:38:40,519 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7983, 1.2941, 1.5182, 1.0730, 2.7326, 3.0918, 3.0911, 3.5102],
+       device='cuda:2'), covar=tensor([0.1848, 0.2975, 0.2639, 0.2847, 0.0583, 0.0199, 0.0264, 0.0166],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0277, 0.0292, 0.0303, 0.0204, 0.0123, 0.0170, 0.0125],
+       device='cuda:2'), out_proj_covar=tensor([2.3921e-04, 2.2217e-04, 2.3289e-04, 2.4293e-04, 1.8955e-04, 9.7472e-05,
+        1.3935e-04, 1.1021e-04], device='cuda:2')
+2023-03-31 20:38:46,441 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-03-31 20:38:54,611 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1941, 1.8449, 1.5931, 1.4282, 1.6156, 0.7754, 0.9280, 1.5568],
+       device='cuda:2'), covar=tensor([0.1328, 0.0445, 0.0838, 0.0828, 0.0862, 0.1653, 0.1440, 0.0869],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0146, 0.0176, 0.0216, 0.0154, 0.0241, 0.0242, 0.0229],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 20:39:20,330 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-03-31 20:39:37,971 INFO [train.py:903] (2/4) Epoch 1, batch 5200, loss[loss=0.3959, simple_loss=0.4288, pruned_loss=0.1815, over 19694.00 frames. ], tot_loss[loss=0.4107, simple_loss=0.4297, pruned_loss=0.1958, over 3835580.48 frames. ], batch size: 59, lr: 4.16e-02, grad_scale: 8.0
+2023-03-31 20:39:45,884 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.640e+02 1.028e+03 1.252e+03 1.630e+03 4.880e+03, threshold=2.504e+03, percent-clipped=1.0
+2023-03-31 20:39:50,384 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-03-31 20:40:32,320 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-03-31 20:40:39,299 INFO [train.py:903] (2/4) Epoch 1, batch 5250, loss[loss=0.3702, simple_loss=0.3931, pruned_loss=0.1736, over 19739.00 frames. ], tot_loss[loss=0.4089, simple_loss=0.4287, pruned_loss=0.1946, over 3831053.99 frames. ], batch size: 46, lr: 4.15e-02, grad_scale: 8.0
+2023-03-31 20:41:36,536 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.75 vs. limit=2.0
+2023-03-31 20:41:37,423 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5783, 1.1392, 0.9848, 1.6019, 1.2891, 1.5597, 1.5514, 1.4851],
+       device='cuda:2'), covar=tensor([0.0932, 0.1605, 0.1827, 0.1452, 0.2019, 0.1318, 0.1831, 0.1102],
+       device='cuda:2'), in_proj_covar=tensor([0.0240, 0.0296, 0.0296, 0.0328, 0.0390, 0.0275, 0.0359, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-03-31 20:41:39,602 INFO [train.py:903] (2/4) Epoch 1, batch 5300, loss[loss=0.3295, simple_loss=0.3676, pruned_loss=0.1457, over 16028.00 frames. ], tot_loss[loss=0.4093, simple_loss=0.4285, pruned_loss=0.1951, over 3831783.46 frames. ], batch size: 35, lr: 4.14e-02, grad_scale: 8.0
+2023-03-31 20:41:48,688 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.962e+02 9.394e+02 1.191e+03 1.647e+03 4.206e+03, threshold=2.383e+03, percent-clipped=5.0
+2023-03-31 20:41:53,358 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-03-31 20:42:41,825 INFO [train.py:903] (2/4) Epoch 1, batch 5350, loss[loss=0.4222, simple_loss=0.4385, pruned_loss=0.2029, over 19334.00 frames. ], tot_loss[loss=0.4092, simple_loss=0.4283, pruned_loss=0.195, over 3829395.57 frames. ], batch size: 70, lr: 4.13e-02, grad_scale: 8.0
+2023-03-31 20:43:09,052 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.56 vs. limit=2.0
+2023-03-31 20:43:13,709 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-03-31 20:43:43,593 INFO [train.py:903] (2/4) Epoch 1, batch 5400, loss[loss=0.3935, simple_loss=0.4276, pruned_loss=0.1797, over 19743.00 frames. ], tot_loss[loss=0.4073, simple_loss=0.4271, pruned_loss=0.1937, over 3843435.30 frames. ], batch size: 63, lr: 4.12e-02, grad_scale: 8.0
+2023-03-31 20:43:49,000 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
+2023-03-31 20:43:51,071 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.073e+02 9.364e+02 1.084e+03 1.611e+03 4.795e+03, threshold=2.168e+03, percent-clipped=7.0
+2023-03-31 20:44:44,644 INFO [train.py:903] (2/4) Epoch 1, batch 5450, loss[loss=0.3989, simple_loss=0.4211, pruned_loss=0.1883, over 19873.00 frames. ], tot_loss[loss=0.408, simple_loss=0.4272, pruned_loss=0.1943, over 3835693.25 frames. ], batch size: 52, lr: 4.11e-02, grad_scale: 8.0
+2023-03-31 20:45:46,525 INFO [train.py:903] (2/4) Epoch 1, batch 5500, loss[loss=0.3951, simple_loss=0.4105, pruned_loss=0.1898, over 19572.00 frames. ], tot_loss[loss=0.4053, simple_loss=0.4255, pruned_loss=0.1926, over 3830802.14 frames. ], batch size: 52, lr: 4.10e-02, grad_scale: 8.0
+2023-03-31 20:45:54,007 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.842e+02 9.504e+02 1.107e+03 1.412e+03 4.004e+03, threshold=2.214e+03, percent-clipped=7.0
+2023-03-31 20:46:08,676 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-03-31 20:46:31,257 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7881, 1.3289, 1.2701, 1.9565, 1.6439, 1.9197, 1.7184, 1.4915],
+       device='cuda:2'), covar=tensor([0.1016, 0.1917, 0.1866, 0.1342, 0.2157, 0.1366, 0.2443, 0.1355],
+       device='cuda:2'), in_proj_covar=tensor([0.0237, 0.0295, 0.0297, 0.0318, 0.0384, 0.0266, 0.0351, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-03-31 20:46:46,633 INFO [train.py:903] (2/4) Epoch 1, batch 5550, loss[loss=0.4139, simple_loss=0.442, pruned_loss=0.1929, over 19745.00 frames. ], tot_loss[loss=0.4055, simple_loss=0.4256, pruned_loss=0.1927, over 3825009.22 frames. ], batch size: 63, lr: 4.09e-02, grad_scale: 8.0
+2023-03-31 20:46:53,479 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-03-31 20:47:42,825 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-03-31 20:47:47,472 INFO [train.py:903] (2/4) Epoch 1, batch 5600, loss[loss=0.3845, simple_loss=0.4067, pruned_loss=0.1811, over 19620.00 frames. ], tot_loss[loss=0.4064, simple_loss=0.4263, pruned_loss=0.1932, over 3813888.50 frames. ], batch size: 50, lr: 4.08e-02, grad_scale: 8.0
+2023-03-31 20:47:56,558 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.862e+02 1.009e+03 1.185e+03 1.400e+03 2.216e+03, threshold=2.370e+03, percent-clipped=2.0
+2023-03-31 20:48:06,742 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.8549, 5.3939, 2.9015, 4.7865, 1.9299, 5.6075, 5.0859, 5.4716],
+       device='cuda:2'), covar=tensor([0.0693, 0.1365, 0.2357, 0.0585, 0.3256, 0.0693, 0.0573, 0.0668],
+       device='cuda:2'), in_proj_covar=tensor([0.0236, 0.0230, 0.0279, 0.0221, 0.0290, 0.0226, 0.0167, 0.0185],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001],
+       device='cuda:2')
+2023-03-31 20:48:41,562 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.30 vs. limit=5.0
+2023-03-31 20:48:48,824 INFO [train.py:903] (2/4) Epoch 1, batch 5650, loss[loss=0.3644, simple_loss=0.3859, pruned_loss=0.1714, over 19026.00 frames. ], tot_loss[loss=0.4073, simple_loss=0.4268, pruned_loss=0.1939, over 3801750.83 frames. ], batch size: 42, lr: 4.07e-02, grad_scale: 8.0
+2023-03-31 20:49:09,680 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=5668.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:49:32,788 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-03-31 20:49:49,722 INFO [train.py:903] (2/4) Epoch 1, batch 5700, loss[loss=0.3654, simple_loss=0.3942, pruned_loss=0.1683, over 19358.00 frames. ], tot_loss[loss=0.4072, simple_loss=0.4264, pruned_loss=0.194, over 3807698.28 frames. ], batch size: 47, lr: 4.06e-02, grad_scale: 8.0
+2023-03-31 20:49:57,493 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.193e+02 1.084e+03 1.385e+03 1.754e+03 4.325e+03, threshold=2.770e+03, percent-clipped=14.0
+2023-03-31 20:50:51,585 INFO [train.py:903] (2/4) Epoch 1, batch 5750, loss[loss=0.4281, simple_loss=0.4513, pruned_loss=0.2024, over 19485.00 frames. ], tot_loss[loss=0.4062, simple_loss=0.4262, pruned_loss=0.1931, over 3809387.68 frames. ], batch size: 64, lr: 4.05e-02, grad_scale: 8.0
+2023-03-31 20:50:51,606 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-03-31 20:50:59,665 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-03-31 20:51:05,159 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-03-31 20:51:18,560 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=5773.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:51:52,613 INFO [train.py:903] (2/4) Epoch 1, batch 5800, loss[loss=0.3017, simple_loss=0.3505, pruned_loss=0.1265, over 19747.00 frames. ], tot_loss[loss=0.4046, simple_loss=0.4253, pruned_loss=0.192, over 3819724.99 frames. ], batch size: 47, lr: 4.04e-02, grad_scale: 8.0
+2023-03-31 20:52:02,171 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.310e+02 8.969e+02 1.169e+03 1.352e+03 2.735e+03, threshold=2.337e+03, percent-clipped=0.0
+2023-03-31 20:52:11,578 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1225, 2.1000, 1.8616, 2.3579, 1.7555, 2.6762, 2.7106, 2.6267],
+       device='cuda:2'), covar=tensor([0.0717, 0.1414, 0.1731, 0.1431, 0.2540, 0.1287, 0.1796, 0.0980],
+       device='cuda:2'), in_proj_covar=tensor([0.0248, 0.0301, 0.0307, 0.0316, 0.0392, 0.0274, 0.0352, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-03-31 20:52:16,014 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.26 vs. limit=5.0
+2023-03-31 20:52:53,452 INFO [train.py:903] (2/4) Epoch 1, batch 5850, loss[loss=0.4822, simple_loss=0.4792, pruned_loss=0.2426, over 13449.00 frames. ], tot_loss[loss=0.4043, simple_loss=0.4253, pruned_loss=0.1917, over 3818510.80 frames. ], batch size: 137, lr: 4.03e-02, grad_scale: 8.0
+2023-03-31 20:53:23,802 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=5876.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:53:55,096 INFO [train.py:903] (2/4) Epoch 1, batch 5900, loss[loss=0.3665, simple_loss=0.4075, pruned_loss=0.1627, over 19658.00 frames. ], tot_loss[loss=0.4014, simple_loss=0.4235, pruned_loss=0.1897, over 3816582.11 frames. ], batch size: 55, lr: 4.02e-02, grad_scale: 8.0
+2023-03-31 20:53:58,596 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-03-31 20:54:03,122 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.633e+02 8.668e+02 1.127e+03 1.397e+03 3.736e+03, threshold=2.255e+03, percent-clipped=4.0
+2023-03-31 20:54:21,180 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-03-31 20:54:55,344 INFO [train.py:903] (2/4) Epoch 1, batch 5950, loss[loss=0.4134, simple_loss=0.4411, pruned_loss=0.1928, over 19502.00 frames. ], tot_loss[loss=0.3999, simple_loss=0.4227, pruned_loss=0.1885, over 3828499.33 frames. ], batch size: 64, lr: 4.01e-02, grad_scale: 8.0
+2023-03-31 20:55:57,489 INFO [train.py:903] (2/4) Epoch 1, batch 6000, loss[loss=0.4051, simple_loss=0.4355, pruned_loss=0.1874, over 19308.00 frames. ], tot_loss[loss=0.3995, simple_loss=0.4224, pruned_loss=0.1883, over 3834682.79 frames. ], batch size: 66, lr: 4.00e-02, grad_scale: 8.0
+2023-03-31 20:55:57,489 INFO [train.py:928] (2/4) Computing validation loss
+2023-03-31 20:56:07,672 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9796, 3.0845, 3.4746, 3.3183, 1.5101, 3.0810, 2.7647, 2.9392],
+       device='cuda:2'), covar=tensor([0.0428, 0.0551, 0.0397, 0.0297, 0.3213, 0.0278, 0.0519, 0.0883],
+       device='cuda:2'), in_proj_covar=tensor([0.0200, 0.0236, 0.0293, 0.0200, 0.0381, 0.0146, 0.0219, 0.0309],
+       device='cuda:2'), out_proj_covar=tensor([1.2992e-04, 1.5195e-04, 1.9142e-04, 1.1747e-04, 2.0765e-04, 9.4078e-05,
+        1.3428e-04, 1.7648e-04], device='cuda:2')
+2023-03-31 20:56:10,606 INFO [train.py:937] (2/4) Epoch 1, validation: loss=0.2784, simple_loss=0.3626, pruned_loss=0.09714, over 944034.00 frames. 
+2023-03-31 20:56:10,607 INFO [train.py:938] (2/4) Maximum memory allocated so far is 17304MB
+2023-03-31 20:56:19,578 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.849e+02 9.012e+02 1.240e+03 1.620e+03 2.952e+03, threshold=2.480e+03, percent-clipped=5.0
+2023-03-31 20:56:19,952 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6008.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:56:24,074 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6012.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:57:10,731 INFO [train.py:903] (2/4) Epoch 1, batch 6050, loss[loss=0.472, simple_loss=0.4705, pruned_loss=0.2368, over 18373.00 frames. ], tot_loss[loss=0.4012, simple_loss=0.4233, pruned_loss=0.1895, over 3813922.71 frames. ], batch size: 84, lr: 3.99e-02, grad_scale: 8.0
+2023-03-31 20:57:24,326 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6061.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:58:12,899 INFO [train.py:903] (2/4) Epoch 1, batch 6100, loss[loss=0.4243, simple_loss=0.4505, pruned_loss=0.1991, over 19595.00 frames. ], tot_loss[loss=0.4002, simple_loss=0.4224, pruned_loss=0.189, over 3814717.43 frames. ], batch size: 61, lr: 3.98e-02, grad_scale: 8.0
+2023-03-31 20:58:20,960 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.479e+02 9.509e+02 1.169e+03 1.489e+03 2.977e+03, threshold=2.338e+03, percent-clipped=4.0
+2023-03-31 20:58:32,475 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6117.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:58:44,732 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6127.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 20:59:13,362 INFO [train.py:903] (2/4) Epoch 1, batch 6150, loss[loss=0.4077, simple_loss=0.4265, pruned_loss=0.1945, over 18433.00 frames. ], tot_loss[loss=0.4001, simple_loss=0.4224, pruned_loss=0.1889, over 3813934.33 frames. ], batch size: 84, lr: 3.97e-02, grad_scale: 8.0
+2023-03-31 20:59:16,573 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6153.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 20:59:42,667 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-03-31 20:59:58,528 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6188.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:00:13,788 INFO [train.py:903] (2/4) Epoch 1, batch 6200, loss[loss=0.4268, simple_loss=0.4345, pruned_loss=0.2096, over 19614.00 frames. ], tot_loss[loss=0.4025, simple_loss=0.4244, pruned_loss=0.1903, over 3810423.04 frames. ], batch size: 50, lr: 3.96e-02, grad_scale: 8.0
+2023-03-31 21:00:22,729 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.993e+02 9.585e+02 1.181e+03 1.511e+03 2.920e+03, threshold=2.362e+03, percent-clipped=2.0
+2023-03-31 21:00:38,389 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6220.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:00:39,677 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6221.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:00:44,318 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0098, 1.9370, 1.9178, 2.2373, 2.1216, 1.6993, 0.2313, 1.9033],
+       device='cuda:2'), covar=tensor([0.0897, 0.0854, 0.0436, 0.0688, 0.0895, 0.1122, 0.2294, 0.1597],
+       device='cuda:2'), in_proj_covar=tensor([0.0163, 0.0166, 0.0164, 0.0217, 0.0237, 0.0218, 0.0229, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0001, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:00:49,009 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6229.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:00:53,390 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6232.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:01:16,025 INFO [train.py:903] (2/4) Epoch 1, batch 6250, loss[loss=0.4069, simple_loss=0.4313, pruned_loss=0.1912, over 18773.00 frames. ], tot_loss[loss=0.3987, simple_loss=0.422, pruned_loss=0.1877, over 3810523.50 frames. ], batch size: 74, lr: 3.95e-02, grad_scale: 8.0
+2023-03-31 21:01:34,909 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.44 vs. limit=2.0
+2023-03-31 21:01:46,717 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-03-31 21:01:56,436 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6284.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:02:18,553 INFO [train.py:903] (2/4) Epoch 1, batch 6300, loss[loss=0.3396, simple_loss=0.3766, pruned_loss=0.1513, over 19637.00 frames. ], tot_loss[loss=0.397, simple_loss=0.4208, pruned_loss=0.1866, over 3800993.98 frames. ], batch size: 50, lr: 3.94e-02, grad_scale: 8.0
+2023-03-31 21:02:24,692 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0816, 1.0822, 1.8915, 1.3300, 2.5122, 2.3374, 2.6594, 1.6392],
+       device='cuda:2'), covar=tensor([0.1509, 0.1856, 0.1180, 0.1449, 0.0787, 0.0748, 0.0874, 0.1351],
+       device='cuda:2'), in_proj_covar=tensor([0.0294, 0.0294, 0.0279, 0.0299, 0.0326, 0.0259, 0.0351, 0.0313],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:02:26,557 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.984e+02 8.812e+02 1.125e+03 1.363e+03 2.149e+03, threshold=2.249e+03, percent-clipped=0.0
+2023-03-31 21:02:51,749 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-03-31 21:02:58,294 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6335.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:03:17,625 INFO [train.py:903] (2/4) Epoch 1, batch 6350, loss[loss=0.4557, simple_loss=0.4446, pruned_loss=0.2333, over 13246.00 frames. ], tot_loss[loss=0.3989, simple_loss=0.4218, pruned_loss=0.1881, over 3796782.17 frames. ], batch size: 135, lr: 3.93e-02, grad_scale: 8.0
+2023-03-31 21:03:18,877 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6352.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:03:58,122 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6383.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 21:04:18,896 INFO [train.py:903] (2/4) Epoch 1, batch 6400, loss[loss=0.4543, simple_loss=0.4569, pruned_loss=0.2258, over 19711.00 frames. ], tot_loss[loss=0.3966, simple_loss=0.42, pruned_loss=0.1866, over 3798731.88 frames. ], batch size: 59, lr: 3.92e-02, grad_scale: 8.0
+2023-03-31 21:04:20,407 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7460, 1.1835, 1.2539, 0.5313, 2.6092, 2.8020, 2.6710, 2.8449],
+       device='cuda:2'), covar=tensor([0.1516, 0.2973, 0.2867, 0.2781, 0.0434, 0.0167, 0.0272, 0.0211],
+       device='cuda:2'), in_proj_covar=tensor([0.0311, 0.0285, 0.0315, 0.0301, 0.0198, 0.0114, 0.0178, 0.0121],
+       device='cuda:2'), out_proj_covar=tensor([2.5880e-04, 2.4414e-04, 2.6332e-04, 2.5697e-04, 1.9251e-04, 9.6055e-05,
+        1.4974e-04, 1.1367e-04], device='cuda:2')
+2023-03-31 21:04:24,485 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6405.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:04:27,871 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.880e+02 9.359e+02 1.206e+03 1.547e+03 5.333e+03, threshold=2.412e+03, percent-clipped=7.0
+2023-03-31 21:04:28,300 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6408.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 21:04:28,612 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.54 vs. limit=2.0
+2023-03-31 21:05:19,065 INFO [train.py:903] (2/4) Epoch 1, batch 6450, loss[loss=0.4956, simple_loss=0.4994, pruned_loss=0.2459, over 19585.00 frames. ], tot_loss[loss=0.3944, simple_loss=0.4183, pruned_loss=0.1853, over 3812220.20 frames. ], batch size: 61, lr: 3.91e-02, grad_scale: 8.0
+2023-03-31 21:05:22,470 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.94 vs. limit=5.0
+2023-03-31 21:05:39,877 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6467.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:05:54,820 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0650, 1.9070, 1.5730, 2.6913, 1.7624, 2.7334, 1.8343, 1.6084],
+       device='cuda:2'), covar=tensor([0.0852, 0.0692, 0.0622, 0.0501, 0.1018, 0.0319, 0.1387, 0.0944],
+       device='cuda:2'), in_proj_covar=tensor([0.0208, 0.0184, 0.0203, 0.0257, 0.0257, 0.0143, 0.0287, 0.0215],
+       device='cuda:2'), out_proj_covar=tensor([1.5487e-04, 1.3588e-04, 1.3575e-04, 1.7135e-04, 1.6795e-04, 9.8021e-05,
+        2.0508e-04, 1.5093e-04], device='cuda:2')
+2023-03-31 21:05:55,619 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6480.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:06:01,938 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6485.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:06:05,052 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-03-31 21:06:05,504 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6488.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:06:15,206 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6497.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:06:21,207 INFO [train.py:903] (2/4) Epoch 1, batch 6500, loss[loss=0.4458, simple_loss=0.4501, pruned_loss=0.2208, over 17205.00 frames. ], tot_loss[loss=0.3917, simple_loss=0.4162, pruned_loss=0.1836, over 3818395.66 frames. ], batch size: 101, lr: 3.90e-02, grad_scale: 8.0
+2023-03-31 21:06:25,571 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-03-31 21:06:28,779 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.341e+02 9.704e+02 1.201e+03 1.443e+03 2.205e+03, threshold=2.402e+03, percent-clipped=0.0
+2023-03-31 21:06:32,896 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2787, 2.0887, 1.9048, 2.5802, 2.0722, 2.7765, 2.1506, 1.6660],
+       device='cuda:2'), covar=tensor([0.0812, 0.0679, 0.0494, 0.0609, 0.0961, 0.0339, 0.1238, 0.0927],
+       device='cuda:2'), in_proj_covar=tensor([0.0207, 0.0184, 0.0203, 0.0256, 0.0253, 0.0141, 0.0285, 0.0214],
+       device='cuda:2'), out_proj_covar=tensor([1.5397e-04, 1.3520e-04, 1.3568e-04, 1.7073e-04, 1.6518e-04, 9.6068e-05,
+        2.0367e-04, 1.5066e-04], device='cuda:2')
+2023-03-31 21:06:35,116 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6513.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:06:43,932 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6520.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:06:58,397 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6532.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:07:21,792 INFO [train.py:903] (2/4) Epoch 1, batch 6550, loss[loss=0.4612, simple_loss=0.4643, pruned_loss=0.2291, over 19572.00 frames. ], tot_loss[loss=0.392, simple_loss=0.4169, pruned_loss=0.1836, over 3837005.03 frames. ], batch size: 61, lr: 3.89e-02, grad_scale: 8.0
+2023-03-31 21:07:39,353 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6565.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:07:48,422 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6573.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:08:04,917 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.30 vs. limit=5.0
+2023-03-31 21:08:10,398 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6591.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:08:22,326 INFO [train.py:903] (2/4) Epoch 1, batch 6600, loss[loss=0.4213, simple_loss=0.4484, pruned_loss=0.1971, over 19706.00 frames. ], tot_loss[loss=0.3898, simple_loss=0.4151, pruned_loss=0.1823, over 3823801.66 frames. ], batch size: 59, lr: 3.89e-02, grad_scale: 16.0
+2023-03-31 21:08:31,045 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.089e+02 8.736e+02 1.082e+03 1.231e+03 3.386e+03, threshold=2.164e+03, percent-clipped=2.0
+2023-03-31 21:08:36,146 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6612.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:08:40,723 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6616.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:08:56,071 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6628.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:09:09,066 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
+2023-03-31 21:09:19,917 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6647.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:09:19,980 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6647.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:09:24,248 INFO [train.py:903] (2/4) Epoch 1, batch 6650, loss[loss=0.3797, simple_loss=0.4126, pruned_loss=0.1734, over 19309.00 frames. ], tot_loss[loss=0.3899, simple_loss=0.4155, pruned_loss=0.1821, over 3830656.05 frames. ], batch size: 70, lr: 3.88e-02, grad_scale: 4.0
+2023-03-31 21:09:27,275 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
+2023-03-31 21:09:59,869 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6680.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:10:09,228 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6688.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:10:23,708 INFO [train.py:903] (2/4) Epoch 1, batch 6700, loss[loss=0.472, simple_loss=0.4674, pruned_loss=0.2384, over 13326.00 frames. ], tot_loss[loss=0.3905, simple_loss=0.4156, pruned_loss=0.1827, over 3809413.89 frames. ], batch size: 136, lr: 3.87e-02, grad_scale: 4.0
+2023-03-31 21:10:35,446 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.729e+02 8.354e+02 1.101e+03 1.693e+03 1.016e+04, threshold=2.202e+03, percent-clipped=16.0
+2023-03-31 21:10:51,606 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6723.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:11:14,935 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6743.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:11:20,787 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6748.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:11:23,790 INFO [train.py:903] (2/4) Epoch 1, batch 6750, loss[loss=0.4633, simple_loss=0.4541, pruned_loss=0.2363, over 13305.00 frames. ], tot_loss[loss=0.3886, simple_loss=0.4147, pruned_loss=0.1813, over 3813008.43 frames. ], batch size: 137, lr: 3.86e-02, grad_scale: 4.0
+2023-03-31 21:11:25,378 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0893, 1.0970, 1.9760, 1.4861, 2.7963, 2.7687, 3.1318, 1.9987],
+       device='cuda:2'), covar=tensor([0.1594, 0.1939, 0.1266, 0.1439, 0.0821, 0.0709, 0.0921, 0.1519],
+       device='cuda:2'), in_proj_covar=tensor([0.0296, 0.0296, 0.0282, 0.0298, 0.0324, 0.0267, 0.0363, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:11:51,648 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6776.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:12:01,377 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1219, 4.4453, 5.8339, 5.6244, 1.9547, 5.1961, 4.8677, 5.1028],
+       device='cuda:2'), covar=tensor([0.0193, 0.0379, 0.0252, 0.0137, 0.2775, 0.0146, 0.0283, 0.0588],
+       device='cuda:2'), in_proj_covar=tensor([0.0204, 0.0240, 0.0297, 0.0214, 0.0389, 0.0146, 0.0224, 0.0322],
+       device='cuda:2'), out_proj_covar=tensor([1.3067e-04, 1.4978e-04, 1.8970e-04, 1.2347e-04, 2.0902e-04, 9.4401e-05,
+        1.3287e-04, 1.8094e-04], device='cuda:2')
+2023-03-31 21:12:18,944 INFO [train.py:903] (2/4) Epoch 1, batch 6800, loss[loss=0.3766, simple_loss=0.4124, pruned_loss=0.1704, over 18032.00 frames. ], tot_loss[loss=0.3882, simple_loss=0.4143, pruned_loss=0.1811, over 3822650.74 frames. ], batch size: 83, lr: 3.85e-02, grad_scale: 8.0
+2023-03-31 21:12:19,307 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6801.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:12:28,859 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.487e+02 9.125e+02 1.072e+03 1.412e+03 3.162e+03, threshold=2.143e+03, percent-clipped=4.0
+2023-03-31 21:12:43,095 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7318, 1.7312, 1.4244, 1.3967, 1.3363, 1.5868, 0.4710, 1.0896],
+       device='cuda:2'), covar=tensor([0.0381, 0.0460, 0.0335, 0.0405, 0.0781, 0.0549, 0.1268, 0.0978],
+       device='cuda:2'), in_proj_covar=tensor([0.0180, 0.0181, 0.0184, 0.0222, 0.0261, 0.0228, 0.0239, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:12:43,735 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6824.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:12:43,783 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8885, 3.6871, 2.3655, 3.3313, 1.7485, 3.4634, 3.2022, 3.2507],
+       device='cuda:2'), covar=tensor([0.0669, 0.0999, 0.1712, 0.0865, 0.2717, 0.0787, 0.0605, 0.0741],
+       device='cuda:2'), in_proj_covar=tensor([0.0257, 0.0249, 0.0279, 0.0241, 0.0304, 0.0234, 0.0181, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-03-31 21:13:03,235 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-03-31 21:13:04,242 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-03-31 21:13:06,752 INFO [train.py:903] (2/4) Epoch 2, batch 0, loss[loss=0.3539, simple_loss=0.3782, pruned_loss=0.1648, over 19774.00 frames. ], tot_loss[loss=0.3539, simple_loss=0.3782, pruned_loss=0.1648, over 19774.00 frames. ], batch size: 46, lr: 3.77e-02, grad_scale: 8.0
+2023-03-31 21:13:06,752 INFO [train.py:928] (2/4) Computing validation loss
+2023-03-31 21:13:18,418 INFO [train.py:937] (2/4) Epoch 2, validation: loss=0.2802, simple_loss=0.3637, pruned_loss=0.09835, over 944034.00 frames. 
+2023-03-31 21:13:18,419 INFO [train.py:938] (2/4) Maximum memory allocated so far is 17398MB
+2023-03-31 21:13:18,577 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6829.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:13:25,963 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0309, 2.0144, 1.5237, 1.4151, 1.4971, 1.6701, 0.2527, 0.8297],
+       device='cuda:2'), covar=tensor([0.0649, 0.0515, 0.0435, 0.0585, 0.1056, 0.0691, 0.1464, 0.1348],
+       device='cuda:2'), in_proj_covar=tensor([0.0181, 0.0181, 0.0184, 0.0223, 0.0264, 0.0231, 0.0240, 0.0241],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:13:28,823 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-03-31 21:14:06,666 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6868.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:14:20,889 INFO [train.py:903] (2/4) Epoch 2, batch 50, loss[loss=0.3793, simple_loss=0.3992, pruned_loss=0.1797, over 19847.00 frames. ], tot_loss[loss=0.3879, simple_loss=0.4159, pruned_loss=0.1799, over 857386.48 frames. ], batch size: 52, lr: 3.76e-02, grad_scale: 8.0
+2023-03-31 21:14:37,422 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6893.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:14:41,581 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6896.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 21:14:49,461 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6903.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:14:54,397 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-03-31 21:14:57,930 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.488e+02 9.076e+02 1.150e+03 1.515e+03 2.802e+03, threshold=2.301e+03, percent-clipped=3.0
+2023-03-31 21:15:06,596 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7964, 0.9866, 1.1778, 1.6679, 2.4317, 1.1387, 1.8562, 2.2700],
+       device='cuda:2'), covar=tensor([0.0578, 0.3499, 0.3440, 0.1812, 0.0645, 0.2776, 0.1219, 0.0837],
+       device='cuda:2'), in_proj_covar=tensor([0.0191, 0.0287, 0.0275, 0.0262, 0.0219, 0.0313, 0.0244, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:15:19,026 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=6927.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:15:20,158 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6928.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:15:20,717 INFO [train.py:903] (2/4) Epoch 2, batch 100, loss[loss=0.432, simple_loss=0.4482, pruned_loss=0.2078, over 19054.00 frames. ], tot_loss[loss=0.3943, simple_loss=0.419, pruned_loss=0.1847, over 1507705.01 frames. ], batch size: 69, lr: 3.75e-02, grad_scale: 8.0
+2023-03-31 21:15:30,159 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6936.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:15:32,200 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-03-31 21:15:33,651 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6939.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:15:39,467 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=6944.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:15:39,540 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6944.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:15:43,891 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.50 vs. limit=5.0
+2023-03-31 21:16:01,550 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6961.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:16:10,913 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=6969.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:16:23,040 INFO [train.py:903] (2/4) Epoch 2, batch 150, loss[loss=0.3357, simple_loss=0.3623, pruned_loss=0.1545, over 19746.00 frames. ], tot_loss[loss=0.3911, simple_loss=0.4178, pruned_loss=0.1821, over 2031226.77 frames. ], batch size: 47, lr: 3.74e-02, grad_scale: 4.0
+2023-03-31 21:16:33,982 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2082, 3.3895, 3.6795, 3.5681, 1.1762, 3.2872, 3.0004, 3.1685],
+       device='cuda:2'), covar=tensor([0.0354, 0.0480, 0.0450, 0.0260, 0.3180, 0.0233, 0.0395, 0.1035],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0254, 0.0318, 0.0219, 0.0398, 0.0152, 0.0234, 0.0339],
+       device='cuda:2'), out_proj_covar=tensor([1.3523e-04, 1.5789e-04, 2.0403e-04, 1.2752e-04, 2.1363e-04, 9.8211e-05,
+        1.3891e-04, 1.9141e-04], device='cuda:2')
+2023-03-31 21:16:38,557 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=6991.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:16:40,437 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
+2023-03-31 21:16:49,241 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=6999.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:17:03,019 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.128e+02 7.870e+02 9.855e+02 1.288e+03 4.108e+03, threshold=1.971e+03, percent-clipped=4.0
+2023-03-31 21:17:06,925 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9931, 1.1628, 1.4781, 1.8465, 2.6848, 1.3384, 1.7080, 2.5797],
+       device='cuda:2'), covar=tensor([0.0349, 0.2603, 0.2499, 0.1499, 0.0401, 0.1992, 0.0989, 0.0513],
+       device='cuda:2'), in_proj_covar=tensor([0.0192, 0.0289, 0.0277, 0.0266, 0.0225, 0.0315, 0.0242, 0.0234],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:17:19,697 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7024.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:17:24,077 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-03-31 21:17:25,201 INFO [train.py:903] (2/4) Epoch 2, batch 200, loss[loss=0.3633, simple_loss=0.4031, pruned_loss=0.1617, over 19517.00 frames. ], tot_loss[loss=0.3867, simple_loss=0.4144, pruned_loss=0.1795, over 2437503.71 frames. ], batch size: 54, lr: 3.73e-02, grad_scale: 4.0
+2023-03-31 21:18:11,585 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7066.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 21:18:29,134 INFO [train.py:903] (2/4) Epoch 2, batch 250, loss[loss=0.4168, simple_loss=0.4503, pruned_loss=0.1916, over 19273.00 frames. ], tot_loss[loss=0.3847, simple_loss=0.4129, pruned_loss=0.1783, over 2731783.04 frames. ], batch size: 66, lr: 3.72e-02, grad_scale: 4.0
+2023-03-31 21:19:03,891 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7106.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:19:09,446 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.258e+02 7.747e+02 9.740e+02 1.157e+03 2.695e+03, threshold=1.948e+03, percent-clipped=1.0
+2023-03-31 21:19:17,177 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-03-31 21:19:33,829 INFO [train.py:903] (2/4) Epoch 2, batch 300, loss[loss=0.3601, simple_loss=0.3946, pruned_loss=0.1628, over 19738.00 frames. ], tot_loss[loss=0.3791, simple_loss=0.4089, pruned_loss=0.1747, over 2980069.09 frames. ], batch size: 51, lr: 3.72e-02, grad_scale: 4.0
+2023-03-31 21:20:35,437 INFO [train.py:903] (2/4) Epoch 2, batch 350, loss[loss=0.3554, simple_loss=0.3864, pruned_loss=0.1622, over 19393.00 frames. ], tot_loss[loss=0.3815, simple_loss=0.4104, pruned_loss=0.1762, over 3176688.47 frames. ], batch size: 48, lr: 3.71e-02, grad_scale: 4.0
+2023-03-31 21:20:37,912 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7181.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:20:39,846 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-03-31 21:20:55,890 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7195.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:21:01,672 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7200.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:21:15,795 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.882e+02 9.781e+02 1.245e+03 1.512e+03 3.081e+03, threshold=2.489e+03, percent-clipped=8.0
+2023-03-31 21:21:26,524 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7220.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:21:32,341 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7225.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:21:37,142 INFO [train.py:903] (2/4) Epoch 2, batch 400, loss[loss=0.5344, simple_loss=0.4994, pruned_loss=0.2847, over 13291.00 frames. ], tot_loss[loss=0.3852, simple_loss=0.4126, pruned_loss=0.1789, over 3311790.84 frames. ], batch size: 138, lr: 3.70e-02, grad_scale: 8.0
+2023-03-31 21:21:38,961 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.95 vs. limit=2.0
+2023-03-31 21:21:51,112 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7240.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 21:22:30,128 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7271.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:22:40,124 INFO [train.py:903] (2/4) Epoch 2, batch 450, loss[loss=0.4216, simple_loss=0.438, pruned_loss=0.2026, over 17411.00 frames. ], tot_loss[loss=0.3872, simple_loss=0.4144, pruned_loss=0.1799, over 3430132.96 frames. ], batch size: 101, lr: 3.69e-02, grad_scale: 8.0
+2023-03-31 21:22:58,513 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7293.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:23:05,138 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.6079, 5.2734, 2.9030, 4.7429, 1.5037, 5.2773, 4.8720, 5.1912],
+       device='cuda:2'), covar=tensor([0.0503, 0.0915, 0.1669, 0.0489, 0.3062, 0.0561, 0.0493, 0.0461],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0251, 0.0287, 0.0239, 0.0305, 0.0246, 0.0198, 0.0209],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-03-31 21:23:14,127 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-03-31 21:23:15,294 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-03-31 21:23:19,470 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.877e+02 8.763e+02 1.192e+03 1.491e+03 2.950e+03, threshold=2.384e+03, percent-clipped=4.0
+2023-03-31 21:23:43,127 INFO [train.py:903] (2/4) Epoch 2, batch 500, loss[loss=0.398, simple_loss=0.4174, pruned_loss=0.1892, over 19674.00 frames. ], tot_loss[loss=0.3881, simple_loss=0.415, pruned_loss=0.1806, over 3512727.72 frames. ], batch size: 53, lr: 3.68e-02, grad_scale: 8.0
+2023-03-31 21:24:14,676 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7355.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 21:24:23,751 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7362.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:24:45,276 INFO [train.py:903] (2/4) Epoch 2, batch 550, loss[loss=0.399, simple_loss=0.427, pruned_loss=0.1855, over 19678.00 frames. ], tot_loss[loss=0.3857, simple_loss=0.4129, pruned_loss=0.1793, over 3586072.98 frames. ], batch size: 60, lr: 3.67e-02, grad_scale: 8.0
+2023-03-31 21:24:53,942 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7386.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:24:55,113 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7387.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:25:24,047 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7410.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 21:25:26,118 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.968e+02 9.206e+02 1.127e+03 1.377e+03 2.659e+03, threshold=2.254e+03, percent-clipped=2.0
+2023-03-31 21:25:43,363 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7425.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:25:47,664 INFO [train.py:903] (2/4) Epoch 2, batch 600, loss[loss=0.3549, simple_loss=0.3851, pruned_loss=0.1624, over 19613.00 frames. ], tot_loss[loss=0.3851, simple_loss=0.4124, pruned_loss=0.1789, over 3631231.49 frames. ], batch size: 50, lr: 3.66e-02, grad_scale: 8.0
+2023-03-31 21:26:29,895 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-03-31 21:26:50,584 INFO [train.py:903] (2/4) Epoch 2, batch 650, loss[loss=0.3591, simple_loss=0.4046, pruned_loss=0.1568, over 19474.00 frames. ], tot_loss[loss=0.3847, simple_loss=0.4125, pruned_loss=0.1785, over 3677931.81 frames. ], batch size: 64, lr: 3.66e-02, grad_scale: 8.0
+2023-03-31 21:26:58,987 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6293, 2.5564, 1.7956, 1.9063, 2.1327, 1.1093, 1.1514, 1.7406],
+       device='cuda:2'), covar=tensor([0.0992, 0.0443, 0.0970, 0.0660, 0.0625, 0.1378, 0.1113, 0.0757],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0161, 0.0240, 0.0229, 0.0166, 0.0272, 0.0248, 0.0250],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:27:30,828 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.799e+02 8.519e+02 1.041e+03 1.431e+03 3.840e+03, threshold=2.082e+03, percent-clipped=3.0
+2023-03-31 21:27:31,232 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7128, 2.0626, 2.1332, 2.6862, 4.4527, 0.9413, 2.0580, 4.2178],
+       device='cuda:2'), covar=tensor([0.0347, 0.2466, 0.2490, 0.1487, 0.0272, 0.2584, 0.1267, 0.0345],
+       device='cuda:2'), in_proj_covar=tensor([0.0202, 0.0294, 0.0276, 0.0271, 0.0230, 0.0315, 0.0253, 0.0244],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:27:49,405 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7525.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:27:49,621 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7525.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 21:27:53,956 INFO [train.py:903] (2/4) Epoch 2, batch 700, loss[loss=0.4459, simple_loss=0.4513, pruned_loss=0.2202, over 12896.00 frames. ], tot_loss[loss=0.3849, simple_loss=0.4123, pruned_loss=0.1788, over 3690032.84 frames. ], batch size: 136, lr: 3.65e-02, grad_scale: 8.0
+2023-03-31 21:28:56,963 INFO [train.py:903] (2/4) Epoch 2, batch 750, loss[loss=0.395, simple_loss=0.4297, pruned_loss=0.1802, over 19588.00 frames. ], tot_loss[loss=0.3854, simple_loss=0.4132, pruned_loss=0.1788, over 3720845.42 frames. ], batch size: 57, lr: 3.64e-02, grad_scale: 8.0
+2023-03-31 21:29:35,961 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.266e+02 8.676e+02 1.032e+03 1.220e+03 3.020e+03, threshold=2.064e+03, percent-clipped=5.0
+2023-03-31 21:29:36,452 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7611.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 21:29:58,606 INFO [train.py:903] (2/4) Epoch 2, batch 800, loss[loss=0.3542, simple_loss=0.3994, pruned_loss=0.1545, over 19675.00 frames. ], tot_loss[loss=0.3823, simple_loss=0.4111, pruned_loss=0.1768, over 3741362.74 frames. ], batch size: 55, lr: 3.63e-02, grad_scale: 8.0
+2023-03-31 21:30:08,332 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7636.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 21:30:09,187 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7637.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:30:12,849 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7640.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:30:15,299 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7642.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:30:15,446 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7642.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:30:16,156 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-03-31 21:30:46,862 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7667.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:31:01,248 INFO [train.py:903] (2/4) Epoch 2, batch 850, loss[loss=0.3743, simple_loss=0.4173, pruned_loss=0.1657, over 19674.00 frames. ], tot_loss[loss=0.3802, simple_loss=0.4096, pruned_loss=0.1754, over 3775348.99 frames. ], batch size: 58, lr: 3.62e-02, grad_scale: 8.0
+2023-03-31 21:31:41,593 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.436e+02 9.016e+02 1.057e+03 1.450e+03 5.160e+03, threshold=2.114e+03, percent-clipped=6.0
+2023-03-31 21:31:49,177 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.99 vs. limit=2.0
+2023-03-31 21:31:56,589 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-03-31 21:32:02,481 INFO [train.py:903] (2/4) Epoch 2, batch 900, loss[loss=0.4302, simple_loss=0.4459, pruned_loss=0.2073, over 19314.00 frames. ], tot_loss[loss=0.3804, simple_loss=0.4096, pruned_loss=0.1756, over 3792571.70 frames. ], batch size: 66, lr: 3.61e-02, grad_scale: 4.0
+2023-03-31 21:32:32,785 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7752.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:32:43,854 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7761.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:32:53,076 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7769.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:33:06,315 INFO [train.py:903] (2/4) Epoch 2, batch 950, loss[loss=0.3627, simple_loss=0.399, pruned_loss=0.1632, over 19586.00 frames. ], tot_loss[loss=0.3791, simple_loss=0.4082, pruned_loss=0.175, over 3800574.22 frames. ], batch size: 52, lr: 3.61e-02, grad_scale: 4.0
+2023-03-31 21:33:06,634 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7305, 2.9496, 3.0832, 3.0503, 1.0139, 2.6830, 2.5878, 2.6898],
+       device='cuda:2'), covar=tensor([0.0502, 0.0616, 0.0772, 0.0429, 0.2995, 0.0377, 0.0523, 0.1406],
+       device='cuda:2'), in_proj_covar=tensor([0.0226, 0.0251, 0.0333, 0.0219, 0.0395, 0.0152, 0.0231, 0.0343],
+       device='cuda:2'), out_proj_covar=tensor([1.3799e-04, 1.5349e-04, 2.0886e-04, 1.2552e-04, 2.1090e-04, 9.7895e-05,
+        1.3306e-04, 1.8856e-04], device='cuda:2')
+2023-03-31 21:33:09,107 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7781.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 21:33:10,917 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-03-31 21:33:39,973 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7806.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 21:33:46,541 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.660e+02 8.698e+02 1.089e+03 1.494e+03 2.916e+03, threshold=2.178e+03, percent-clipped=6.0
+2023-03-31 21:33:58,888 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=7820.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:34:09,631 INFO [train.py:903] (2/4) Epoch 2, batch 1000, loss[loss=0.3882, simple_loss=0.4198, pruned_loss=0.1783, over 19708.00 frames. ], tot_loss[loss=0.3791, simple_loss=0.4082, pruned_loss=0.175, over 3802634.37 frames. ], batch size: 59, lr: 3.60e-02, grad_scale: 4.0
+2023-03-31 21:35:04,943 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-03-31 21:35:11,827 INFO [train.py:903] (2/4) Epoch 2, batch 1050, loss[loss=0.3646, simple_loss=0.4091, pruned_loss=0.1601, over 19506.00 frames. ], tot_loss[loss=0.3803, simple_loss=0.4095, pruned_loss=0.1756, over 3803016.28 frames. ], batch size: 64, lr: 3.59e-02, grad_scale: 4.0
+2023-03-31 21:35:18,849 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=7884.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:35:33,760 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=7896.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:35:46,833 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-03-31 21:35:53,416 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.580e+02 8.878e+02 9.952e+02 1.228e+03 3.126e+03, threshold=1.990e+03, percent-clipped=5.0
+2023-03-31 21:36:05,099 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=7921.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:36:14,162 INFO [train.py:903] (2/4) Epoch 2, batch 1100, loss[loss=0.52, simple_loss=0.4945, pruned_loss=0.2728, over 13374.00 frames. ], tot_loss[loss=0.381, simple_loss=0.4098, pruned_loss=0.1761, over 3796665.08 frames. ], batch size: 136, lr: 3.58e-02, grad_scale: 4.0
+2023-03-31 21:36:14,704 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-03-31 21:36:25,961 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1959, 2.4983, 2.2617, 2.5921, 1.9588, 1.6325, 0.2441, 2.0036],
+       device='cuda:2'), covar=tensor([0.0727, 0.0490, 0.0360, 0.0453, 0.0914, 0.1001, 0.1399, 0.1113],
+       device='cuda:2'), in_proj_covar=tensor([0.0198, 0.0195, 0.0186, 0.0231, 0.0268, 0.0239, 0.0241, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:37:16,845 INFO [train.py:903] (2/4) Epoch 2, batch 1150, loss[loss=0.5503, simple_loss=0.5188, pruned_loss=0.2909, over 13426.00 frames. ], tot_loss[loss=0.3796, simple_loss=0.4089, pruned_loss=0.1751, over 3801978.10 frames. ], batch size: 137, lr: 3.57e-02, grad_scale: 4.0
+2023-03-31 21:37:26,688 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=7986.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:37:54,543 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8008.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:37:58,746 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.862e+02 8.681e+02 1.035e+03 1.273e+03 2.854e+03, threshold=2.070e+03, percent-clipped=5.0
+2023-03-31 21:38:21,515 INFO [train.py:903] (2/4) Epoch 2, batch 1200, loss[loss=0.482, simple_loss=0.4737, pruned_loss=0.2452, over 13663.00 frames. ], tot_loss[loss=0.3783, simple_loss=0.4082, pruned_loss=0.1742, over 3798224.32 frames. ], batch size: 136, lr: 3.56e-02, grad_scale: 8.0
+2023-03-31 21:38:26,455 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8033.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:38:52,443 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-03-31 21:38:53,215 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
+2023-03-31 21:39:22,668 INFO [train.py:903] (2/4) Epoch 2, batch 1250, loss[loss=0.3967, simple_loss=0.4147, pruned_loss=0.1893, over 19477.00 frames. ], tot_loss[loss=0.3787, simple_loss=0.4085, pruned_loss=0.1744, over 3806146.82 frames. ], batch size: 49, lr: 3.56e-02, grad_scale: 8.0
+2023-03-31 21:39:50,775 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8101.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:39:57,188 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=8105.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:40:05,141 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.516e+02 8.392e+02 1.041e+03 1.254e+03 3.427e+03, threshold=2.083e+03, percent-clipped=3.0
+2023-03-31 21:40:25,457 INFO [train.py:903] (2/4) Epoch 2, batch 1300, loss[loss=0.4168, simple_loss=0.4351, pruned_loss=0.1992, over 17625.00 frames. ], tot_loss[loss=0.3785, simple_loss=0.4082, pruned_loss=0.1744, over 3811308.70 frames. ], batch size: 101, lr: 3.55e-02, grad_scale: 8.0
+2023-03-31 21:40:39,821 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8140.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:41:09,964 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=8164.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:41:11,401 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8165.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:41:28,090 INFO [train.py:903] (2/4) Epoch 2, batch 1350, loss[loss=0.3573, simple_loss=0.3823, pruned_loss=0.1662, over 19732.00 frames. ], tot_loss[loss=0.3793, simple_loss=0.4087, pruned_loss=0.1749, over 3816147.40 frames. ], batch size: 45, lr: 3.54e-02, grad_scale: 8.0
+2023-03-31 21:42:08,819 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.809e+02 9.088e+02 1.109e+03 1.527e+03 2.312e+03, threshold=2.218e+03, percent-clipped=6.0
+2023-03-31 21:42:19,673 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8220.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:42:30,882 INFO [train.py:903] (2/4) Epoch 2, batch 1400, loss[loss=0.4192, simple_loss=0.4397, pruned_loss=0.1993, over 19691.00 frames. ], tot_loss[loss=0.3769, simple_loss=0.407, pruned_loss=0.1734, over 3826107.60 frames. ], batch size: 59, lr: 3.53e-02, grad_scale: 8.0
+2023-03-31 21:43:05,875 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
+2023-03-31 21:43:32,707 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-03-31 21:43:33,844 INFO [train.py:903] (2/4) Epoch 2, batch 1450, loss[loss=0.4183, simple_loss=0.4403, pruned_loss=0.1982, over 17299.00 frames. ], tot_loss[loss=0.3758, simple_loss=0.4065, pruned_loss=0.1725, over 3823965.44 frames. ], batch size: 101, lr: 3.53e-02, grad_scale: 8.0
+2023-03-31 21:43:34,149 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8279.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:43:37,778 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.34 vs. limit=2.0
+2023-03-31 21:43:39,572 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=8283.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:44:15,431 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.216e+02 8.724e+02 1.078e+03 1.353e+03 2.729e+03, threshold=2.156e+03, percent-clipped=3.0
+2023-03-31 21:44:35,645 INFO [train.py:903] (2/4) Epoch 2, batch 1500, loss[loss=0.4639, simple_loss=0.464, pruned_loss=0.2319, over 18272.00 frames. ], tot_loss[loss=0.375, simple_loss=0.4057, pruned_loss=0.1721, over 3828252.22 frames. ], batch size: 83, lr: 3.52e-02, grad_scale: 8.0
+2023-03-31 21:45:10,898 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8357.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:45:38,222 INFO [train.py:903] (2/4) Epoch 2, batch 1550, loss[loss=0.345, simple_loss=0.3921, pruned_loss=0.1489, over 19662.00 frames. ], tot_loss[loss=0.3752, simple_loss=0.4059, pruned_loss=0.1722, over 3839739.85 frames. ], batch size: 53, lr: 3.51e-02, grad_scale: 8.0
+2023-03-31 21:45:42,373 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8382.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:46:11,620 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3110, 1.0308, 1.3139, 0.4128, 2.6324, 2.2970, 2.0886, 2.3381],
+       device='cuda:2'), covar=tensor([0.1401, 0.2706, 0.2593, 0.2581, 0.0292, 0.0185, 0.0346, 0.0212],
+       device='cuda:2'), in_proj_covar=tensor([0.0295, 0.0277, 0.0320, 0.0290, 0.0199, 0.0108, 0.0183, 0.0112],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-03-31 21:46:14,585 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-03-31 21:46:19,232 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.712e+02 9.525e+02 1.175e+03 1.582e+03 3.285e+03, threshold=2.351e+03, percent-clipped=5.0
+2023-03-31 21:46:41,075 INFO [train.py:903] (2/4) Epoch 2, batch 1600, loss[loss=0.3703, simple_loss=0.3999, pruned_loss=0.1704, over 19475.00 frames. ], tot_loss[loss=0.3748, simple_loss=0.4057, pruned_loss=0.172, over 3840202.86 frames. ], batch size: 49, lr: 3.50e-02, grad_scale: 8.0
+2023-03-31 21:47:02,055 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-03-31 21:47:39,722 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8476.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:47:42,852 INFO [train.py:903] (2/4) Epoch 2, batch 1650, loss[loss=0.2976, simple_loss=0.3584, pruned_loss=0.1184, over 19662.00 frames. ], tot_loss[loss=0.3757, simple_loss=0.4066, pruned_loss=0.1724, over 3835539.16 frames. ], batch size: 53, lr: 3.49e-02, grad_scale: 8.0
+2023-03-31 21:48:10,081 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8501.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:48:18,255 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-03-31 21:48:23,195 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.971e+02 8.791e+02 1.048e+03 1.403e+03 4.696e+03, threshold=2.096e+03, percent-clipped=2.0
+2023-03-31 21:48:44,123 INFO [train.py:903] (2/4) Epoch 2, batch 1700, loss[loss=0.4545, simple_loss=0.4655, pruned_loss=0.2217, over 19375.00 frames. ], tot_loss[loss=0.3776, simple_loss=0.4078, pruned_loss=0.1737, over 3843894.72 frames. ], batch size: 66, lr: 3.49e-02, grad_scale: 8.0
+2023-03-31 21:48:52,101 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8535.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:49:21,996 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0956, 1.1213, 1.7268, 1.4855, 2.4401, 2.5565, 2.6813, 1.0485],
+       device='cuda:2'), covar=tensor([0.1419, 0.1940, 0.1142, 0.1331, 0.0812, 0.0711, 0.0954, 0.1783],
+       device='cuda:2'), in_proj_covar=tensor([0.0326, 0.0351, 0.0317, 0.0334, 0.0375, 0.0301, 0.0436, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 21:49:23,206 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=8560.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:49:23,912 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-03-31 21:49:30,591 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2092, 3.4812, 3.6472, 3.5774, 1.1545, 3.2596, 3.0934, 3.1374],
+       device='cuda:2'), covar=tensor([0.0383, 0.0531, 0.0520, 0.0311, 0.3044, 0.0252, 0.0370, 0.1118],
+       device='cuda:2'), in_proj_covar=tensor([0.0241, 0.0262, 0.0350, 0.0241, 0.0396, 0.0166, 0.0236, 0.0355],
+       device='cuda:2'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-03-31 21:49:34,299 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
+2023-03-31 21:49:46,292 INFO [train.py:903] (2/4) Epoch 2, batch 1750, loss[loss=0.3516, simple_loss=0.3925, pruned_loss=0.1553, over 19674.00 frames. ], tot_loss[loss=0.3754, simple_loss=0.4063, pruned_loss=0.1722, over 3844629.55 frames. ], batch size: 53, lr: 3.48e-02, grad_scale: 8.0
+2023-03-31 21:50:27,274 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.711e+02 8.589e+02 1.062e+03 1.367e+03 2.706e+03, threshold=2.124e+03, percent-clipped=6.0
+2023-03-31 21:50:47,015 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=8627.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:50:48,943 INFO [train.py:903] (2/4) Epoch 2, batch 1800, loss[loss=0.4335, simple_loss=0.4467, pruned_loss=0.2102, over 19671.00 frames. ], tot_loss[loss=0.3724, simple_loss=0.4043, pruned_loss=0.1702, over 3856494.35 frames. ], batch size: 58, lr: 3.47e-02, grad_scale: 8.0
+2023-03-31 21:51:09,745 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.83 vs. limit=2.0
+2023-03-31 21:51:48,869 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-03-31 21:51:52,364 INFO [train.py:903] (2/4) Epoch 2, batch 1850, loss[loss=0.3158, simple_loss=0.3592, pruned_loss=0.1362, over 19619.00 frames. ], tot_loss[loss=0.3718, simple_loss=0.4038, pruned_loss=0.1699, over 3844143.18 frames. ], batch size: 50, lr: 3.46e-02, grad_scale: 8.0
+2023-03-31 21:52:26,722 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-03-31 21:52:32,412 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.683e+02 8.545e+02 1.022e+03 1.402e+03 2.945e+03, threshold=2.044e+03, percent-clipped=4.0
+2023-03-31 21:52:53,431 INFO [train.py:903] (2/4) Epoch 2, batch 1900, loss[loss=0.4198, simple_loss=0.4434, pruned_loss=0.1981, over 19709.00 frames. ], tot_loss[loss=0.3729, simple_loss=0.4053, pruned_loss=0.1703, over 3839858.65 frames. ], batch size: 63, lr: 3.46e-02, grad_scale: 8.0
+2023-03-31 21:53:05,487 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.5707, 1.8631, 2.0499, 2.3583, 4.1448, 1.5158, 2.2010, 3.8022],
+       device='cuda:2'), covar=tensor([0.0295, 0.2539, 0.2450, 0.1526, 0.0274, 0.2250, 0.1274, 0.0426],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0300, 0.0280, 0.0272, 0.0245, 0.0317, 0.0258, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:53:10,064 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=8742.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:53:13,031 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-03-31 21:53:19,063 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-03-31 21:53:44,514 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-03-31 21:53:56,641 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=8778.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:53:57,530 INFO [train.py:903] (2/4) Epoch 2, batch 1950, loss[loss=0.3969, simple_loss=0.4149, pruned_loss=0.1895, over 19672.00 frames. ], tot_loss[loss=0.3726, simple_loss=0.405, pruned_loss=0.1701, over 3819031.33 frames. ], batch size: 53, lr: 3.45e-02, grad_scale: 8.0
+2023-03-31 21:54:14,923 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-03-31 21:54:38,566 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.007e+02 8.441e+02 1.013e+03 1.280e+03 2.038e+03, threshold=2.026e+03, percent-clipped=0.0
+2023-03-31 21:55:00,991 INFO [train.py:903] (2/4) Epoch 2, batch 2000, loss[loss=0.3715, simple_loss=0.3921, pruned_loss=0.1755, over 19776.00 frames. ], tot_loss[loss=0.3723, simple_loss=0.4048, pruned_loss=0.1699, over 3816454.67 frames. ], batch size: 48, lr: 3.44e-02, grad_scale: 8.0
+2023-03-31 21:56:00,561 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-03-31 21:56:01,580 INFO [train.py:903] (2/4) Epoch 2, batch 2050, loss[loss=0.3968, simple_loss=0.4264, pruned_loss=0.1837, over 19448.00 frames. ], tot_loss[loss=0.3731, simple_loss=0.4052, pruned_loss=0.1705, over 3808928.56 frames. ], batch size: 62, lr: 3.43e-02, grad_scale: 8.0
+2023-03-31 21:56:19,570 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-03-31 21:56:20,744 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-03-31 21:56:41,660 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-03-31 21:56:44,118 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.978e+02 1.029e+03 1.194e+03 1.427e+03 4.040e+03, threshold=2.389e+03, percent-clipped=7.0
+2023-03-31 21:57:05,513 INFO [train.py:903] (2/4) Epoch 2, batch 2100, loss[loss=0.3738, simple_loss=0.4203, pruned_loss=0.1637, over 19682.00 frames. ], tot_loss[loss=0.3721, simple_loss=0.4048, pruned_loss=0.1697, over 3805153.31 frames. ], batch size: 60, lr: 3.43e-02, grad_scale: 8.0
+2023-03-31 21:57:22,239 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7228, 2.0582, 2.0366, 2.3660, 4.2652, 1.4213, 2.1012, 4.1651],
+       device='cuda:2'), covar=tensor([0.0272, 0.2435, 0.2323, 0.1726, 0.0285, 0.2335, 0.1259, 0.0334],
+       device='cuda:2'), in_proj_covar=tensor([0.0215, 0.0298, 0.0278, 0.0273, 0.0240, 0.0315, 0.0254, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 21:57:25,751 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=8945.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:57:36,778 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-03-31 21:57:59,422 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-03-31 21:58:07,617 INFO [train.py:903] (2/4) Epoch 2, batch 2150, loss[loss=0.3316, simple_loss=0.376, pruned_loss=0.1436, over 19766.00 frames. ], tot_loss[loss=0.3706, simple_loss=0.4043, pruned_loss=0.1685, over 3806235.60 frames. ], batch size: 54, lr: 3.42e-02, grad_scale: 8.0
+2023-03-31 21:58:32,356 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=8998.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:58:40,134 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9004.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:58:49,982 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.755e+02 7.392e+02 9.171e+02 1.181e+03 2.165e+03, threshold=1.834e+03, percent-clipped=0.0
+2023-03-31 21:59:04,421 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9023.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:59:11,989 INFO [train.py:903] (2/4) Epoch 2, batch 2200, loss[loss=0.3484, simple_loss=0.3961, pruned_loss=0.1504, over 19604.00 frames. ], tot_loss[loss=0.3698, simple_loss=0.4035, pruned_loss=0.1681, over 3810708.40 frames. ], batch size: 57, lr: 3.41e-02, grad_scale: 8.0
+2023-03-31 21:59:14,458 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9031.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 21:59:56,199 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8834, 1.1311, 1.3439, 1.6220, 2.6063, 1.1008, 1.8407, 2.5279],
+       device='cuda:2'), covar=tensor([0.0451, 0.2746, 0.2566, 0.1605, 0.0472, 0.2259, 0.1090, 0.0528],
+       device='cuda:2'), in_proj_covar=tensor([0.0222, 0.0302, 0.0283, 0.0270, 0.0247, 0.0320, 0.0258, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:00:11,483 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-03-31 22:00:13,982 INFO [train.py:903] (2/4) Epoch 2, batch 2250, loss[loss=0.395, simple_loss=0.4305, pruned_loss=0.1797, over 19688.00 frames. ], tot_loss[loss=0.3697, simple_loss=0.403, pruned_loss=0.1682, over 3807147.73 frames. ], batch size: 59, lr: 3.41e-02, grad_scale: 8.0
+2023-03-31 22:00:56,140 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.993e+02 8.727e+02 9.943e+02 1.293e+03 2.077e+03, threshold=1.989e+03, percent-clipped=4.0
+2023-03-31 22:01:08,132 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9122.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:01:17,875 INFO [train.py:903] (2/4) Epoch 2, batch 2300, loss[loss=0.3618, simple_loss=0.4045, pruned_loss=0.1595, over 19340.00 frames. ], tot_loss[loss=0.3687, simple_loss=0.4023, pruned_loss=0.1675, over 3797240.59 frames. ], batch size: 66, lr: 3.40e-02, grad_scale: 8.0
+2023-03-31 22:01:30,595 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-03-31 22:01:49,940 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3198, 3.5300, 3.7123, 3.6606, 1.3689, 3.3862, 3.0746, 3.2262],
+       device='cuda:2'), covar=tensor([0.0338, 0.0483, 0.0460, 0.0311, 0.2842, 0.0230, 0.0396, 0.0999],
+       device='cuda:2'), in_proj_covar=tensor([0.0257, 0.0279, 0.0370, 0.0259, 0.0421, 0.0171, 0.0254, 0.0380],
+       device='cuda:2'), out_proj_covar=tensor([0.0001, 0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-03-31 22:01:50,368 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.96 vs. limit=5.0
+2023-03-31 22:02:16,131 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1061, 1.2822, 0.7877, 0.8913, 0.9833, 1.1032, 0.0298, 0.4082],
+       device='cuda:2'), covar=tensor([0.0467, 0.0434, 0.0320, 0.0373, 0.0898, 0.0493, 0.1007, 0.0828],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0207, 0.0205, 0.0244, 0.0288, 0.0253, 0.0257, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:02:19,099 INFO [train.py:903] (2/4) Epoch 2, batch 2350, loss[loss=0.3976, simple_loss=0.4133, pruned_loss=0.191, over 19492.00 frames. ], tot_loss[loss=0.3683, simple_loss=0.4016, pruned_loss=0.1675, over 3795738.95 frames. ], batch size: 49, lr: 3.39e-02, grad_scale: 8.0
+2023-03-31 22:03:00,735 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.988e+02 9.117e+02 1.090e+03 1.432e+03 2.529e+03, threshold=2.180e+03, percent-clipped=5.0
+2023-03-31 22:03:00,812 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-03-31 22:03:18,264 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-03-31 22:03:22,887 INFO [train.py:903] (2/4) Epoch 2, batch 2400, loss[loss=0.3832, simple_loss=0.4165, pruned_loss=0.1749, over 19298.00 frames. ], tot_loss[loss=0.3698, simple_loss=0.403, pruned_loss=0.1683, over 3810727.81 frames. ], batch size: 66, lr: 3.38e-02, grad_scale: 8.0
+2023-03-31 22:03:32,292 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9237.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:04:24,300 INFO [train.py:903] (2/4) Epoch 2, batch 2450, loss[loss=0.3483, simple_loss=0.3902, pruned_loss=0.1532, over 19580.00 frames. ], tot_loss[loss=0.3721, simple_loss=0.4047, pruned_loss=0.1698, over 3795648.12 frames. ], batch size: 52, lr: 3.38e-02, grad_scale: 8.0
+2023-03-31 22:04:38,173 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9289.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:04:40,184 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.65 vs. limit=2.0
+2023-03-31 22:05:06,392 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.471e+02 8.791e+02 1.096e+03 1.484e+03 3.289e+03, threshold=2.192e+03, percent-clipped=7.0
+2023-03-31 22:05:27,998 INFO [train.py:903] (2/4) Epoch 2, batch 2500, loss[loss=0.3167, simple_loss=0.3693, pruned_loss=0.132, over 19494.00 frames. ], tot_loss[loss=0.3687, simple_loss=0.402, pruned_loss=0.1677, over 3805769.90 frames. ], batch size: 49, lr: 3.37e-02, grad_scale: 8.0
+2023-03-31 22:05:40,108 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1469, 1.1921, 1.3749, 1.6663, 2.7362, 1.2134, 2.0280, 2.7775],
+       device='cuda:2'), covar=tensor([0.0487, 0.2793, 0.2654, 0.1610, 0.0498, 0.2191, 0.1121, 0.0549],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0298, 0.0281, 0.0269, 0.0244, 0.0311, 0.0256, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:05:52,445 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9348.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:06:25,081 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9375.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:06:29,693 INFO [train.py:903] (2/4) Epoch 2, batch 2550, loss[loss=0.3555, simple_loss=0.3776, pruned_loss=0.1667, over 19746.00 frames. ], tot_loss[loss=0.3687, simple_loss=0.4018, pruned_loss=0.1678, over 3804061.17 frames. ], batch size: 46, lr: 3.36e-02, grad_scale: 8.0
+2023-03-31 22:07:01,794 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9404.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:07:11,554 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.591e+02 8.134e+02 9.492e+02 1.275e+03 2.544e+03, threshold=1.898e+03, percent-clipped=3.0
+2023-03-31 22:07:16,499 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7526, 1.1048, 1.4975, 0.9893, 2.4826, 2.8313, 2.7507, 3.0057],
+       device='cuda:2'), covar=tensor([0.1474, 0.3598, 0.3222, 0.2486, 0.0500, 0.0211, 0.0254, 0.0180],
+       device='cuda:2'), in_proj_covar=tensor([0.0290, 0.0281, 0.0322, 0.0290, 0.0197, 0.0107, 0.0183, 0.0114],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-03-31 22:07:25,240 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-03-31 22:07:33,273 INFO [train.py:903] (2/4) Epoch 2, batch 2600, loss[loss=0.3035, simple_loss=0.3528, pruned_loss=0.1271, over 19758.00 frames. ], tot_loss[loss=0.3682, simple_loss=0.4015, pruned_loss=0.1675, over 3810826.33 frames. ], batch size: 47, lr: 3.36e-02, grad_scale: 8.0
+2023-03-31 22:07:36,930 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9432.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:07:38,568 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.47 vs. limit=2.0
+2023-03-31 22:07:41,706 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5556, 2.3902, 1.9168, 2.1087, 2.2790, 1.2383, 0.8377, 1.5976],
+       device='cuda:2'), covar=tensor([0.1095, 0.0373, 0.1055, 0.0520, 0.0570, 0.1470, 0.1284, 0.0826],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0182, 0.0272, 0.0240, 0.0183, 0.0289, 0.0260, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:08:14,503 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8370, 1.4751, 1.5808, 1.9628, 3.3590, 1.4277, 2.0988, 3.3344],
+       device='cuda:2'), covar=tensor([0.0239, 0.2385, 0.2304, 0.1470, 0.0319, 0.1959, 0.1081, 0.0335],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0300, 0.0283, 0.0268, 0.0243, 0.0307, 0.0257, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:08:14,549 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9463.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:08:34,700 INFO [train.py:903] (2/4) Epoch 2, batch 2650, loss[loss=0.4996, simple_loss=0.4717, pruned_loss=0.2638, over 13630.00 frames. ], tot_loss[loss=0.3705, simple_loss=0.4032, pruned_loss=0.1689, over 3800173.16 frames. ], batch size: 137, lr: 3.35e-02, grad_scale: 8.0
+2023-03-31 22:08:49,042 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9490.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:08:51,459 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9323, 1.2881, 0.8609, 1.0976, 1.1442, 0.9207, 0.4471, 1.2584],
+       device='cuda:2'), covar=tensor([0.0710, 0.0629, 0.1310, 0.0499, 0.0755, 0.1389, 0.1197, 0.0684],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0186, 0.0271, 0.0241, 0.0186, 0.0285, 0.0262, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-03-31 22:08:52,683 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9493.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:08:53,498 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-03-31 22:09:16,688 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.258e+02 8.887e+02 1.023e+03 1.383e+03 3.476e+03, threshold=2.047e+03, percent-clipped=7.0
+2023-03-31 22:09:24,059 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9518.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:09:36,968 INFO [train.py:903] (2/4) Epoch 2, batch 2700, loss[loss=0.3634, simple_loss=0.3877, pruned_loss=0.1696, over 19848.00 frames. ], tot_loss[loss=0.3689, simple_loss=0.4017, pruned_loss=0.1681, over 3809660.24 frames. ], batch size: 52, lr: 3.34e-02, grad_scale: 8.0
+2023-03-31 22:10:39,562 INFO [train.py:903] (2/4) Epoch 2, batch 2750, loss[loss=0.2886, simple_loss=0.335, pruned_loss=0.1211, over 19739.00 frames. ], tot_loss[loss=0.368, simple_loss=0.4008, pruned_loss=0.1676, over 3795065.52 frames. ], batch size: 51, lr: 3.34e-02, grad_scale: 8.0
+2023-03-31 22:10:51,545 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
+2023-03-31 22:11:08,817 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9602.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:11:20,993 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.046e+02 9.047e+02 1.065e+03 1.297e+03 2.590e+03, threshold=2.130e+03, percent-clipped=3.0
+2023-03-31 22:11:43,313 INFO [train.py:903] (2/4) Epoch 2, batch 2800, loss[loss=0.3511, simple_loss=0.3673, pruned_loss=0.1675, over 19298.00 frames. ], tot_loss[loss=0.366, simple_loss=0.3996, pruned_loss=0.1662, over 3798771.51 frames. ], batch size: 44, lr: 3.33e-02, grad_scale: 8.0
+2023-03-31 22:12:03,379 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-03-31 22:12:06,803 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
+2023-03-31 22:12:20,948 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9660.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:12:41,331 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9676.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:12:44,610 INFO [train.py:903] (2/4) Epoch 2, batch 2850, loss[loss=0.3637, simple_loss=0.4055, pruned_loss=0.161, over 19521.00 frames. ], tot_loss[loss=0.3669, simple_loss=0.4005, pruned_loss=0.1666, over 3799309.40 frames. ], batch size: 56, lr: 3.32e-02, grad_scale: 8.0
+2023-03-31 22:12:51,757 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9685.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:13:26,588 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 6.408e+02 8.898e+02 1.125e+03 1.384e+03 2.599e+03, threshold=2.251e+03, percent-clipped=6.0
+2023-03-31 22:13:35,223 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9719.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:13:45,581 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-03-31 22:13:46,859 INFO [train.py:903] (2/4) Epoch 2, batch 2900, loss[loss=0.3111, simple_loss=0.357, pruned_loss=0.1326, over 16905.00 frames. ], tot_loss[loss=0.3654, simple_loss=0.3999, pruned_loss=0.1655, over 3811278.43 frames. ], batch size: 37, lr: 3.31e-02, grad_scale: 16.0
+2023-03-31 22:14:06,884 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9744.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:14:08,979 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=9746.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:14:23,241 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3028, 1.0184, 1.2922, 0.3465, 2.6373, 2.2546, 2.0975, 2.4196],
+       device='cuda:2'), covar=tensor([0.1367, 0.2792, 0.2682, 0.2626, 0.0319, 0.0212, 0.0368, 0.0214],
+       device='cuda:2'), in_proj_covar=tensor([0.0289, 0.0281, 0.0320, 0.0289, 0.0196, 0.0105, 0.0186, 0.0113],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-03-31 22:14:27,837 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=9761.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:14:39,346 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=9771.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:14:45,622 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9776.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:14:49,533 INFO [train.py:903] (2/4) Epoch 2, batch 2950, loss[loss=0.3803, simple_loss=0.4048, pruned_loss=0.1779, over 19667.00 frames. ], tot_loss[loss=0.3666, simple_loss=0.4005, pruned_loss=0.1663, over 3822268.10 frames. ], batch size: 53, lr: 3.31e-02, grad_scale: 8.0
+2023-03-31 22:15:31,702 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.533e+02 8.475e+02 1.131e+03 1.413e+03 3.215e+03, threshold=2.262e+03, percent-clipped=4.0
+2023-03-31 22:15:53,087 INFO [train.py:903] (2/4) Epoch 2, batch 3000, loss[loss=0.2942, simple_loss=0.3538, pruned_loss=0.1174, over 19576.00 frames. ], tot_loss[loss=0.3655, simple_loss=0.3997, pruned_loss=0.1657, over 3833268.80 frames. ], batch size: 52, lr: 3.30e-02, grad_scale: 4.0
+2023-03-31 22:15:53,088 INFO [train.py:928] (2/4) Computing validation loss
+2023-03-31 22:16:06,239 INFO [train.py:937] (2/4) Epoch 2, validation: loss=0.2513, simple_loss=0.3423, pruned_loss=0.08019, over 944034.00 frames. 
+2023-03-31 22:16:06,241 INFO [train.py:938] (2/4) Maximum memory allocated so far is 17398MB
+2023-03-31 22:16:12,110 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-03-31 22:17:06,140 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6551, 1.8972, 0.9156, 1.3181, 1.1091, 1.2117, 0.0206, 0.7591],
+       device='cuda:2'), covar=tensor([0.0372, 0.0363, 0.0304, 0.0291, 0.0839, 0.0474, 0.0800, 0.0711],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0215, 0.0208, 0.0242, 0.0282, 0.0250, 0.0255, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:17:08,085 INFO [train.py:903] (2/4) Epoch 2, batch 3050, loss[loss=0.3586, simple_loss=0.4043, pruned_loss=0.1565, over 18126.00 frames. ], tot_loss[loss=0.3672, simple_loss=0.4015, pruned_loss=0.1664, over 3810867.07 frames. ], batch size: 83, lr: 3.29e-02, grad_scale: 4.0
+2023-03-31 22:17:22,787 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=9891.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:17:50,736 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.558e+02 8.806e+02 1.158e+03 1.402e+03 3.282e+03, threshold=2.315e+03, percent-clipped=2.0
+2023-03-31 22:18:10,042 INFO [train.py:903] (2/4) Epoch 2, batch 3100, loss[loss=0.3898, simple_loss=0.4185, pruned_loss=0.1806, over 18771.00 frames. ], tot_loss[loss=0.3673, simple_loss=0.4018, pruned_loss=0.1664, over 3809478.81 frames. ], batch size: 74, lr: 3.29e-02, grad_scale: 4.0
+2023-03-31 22:18:29,709 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=9946.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:19:11,245 INFO [train.py:903] (2/4) Epoch 2, batch 3150, loss[loss=0.3559, simple_loss=0.3953, pruned_loss=0.1583, over 19775.00 frames. ], tot_loss[loss=0.3683, simple_loss=0.4028, pruned_loss=0.167, over 3810707.38 frames. ], batch size: 56, lr: 3.28e-02, grad_scale: 4.0
+2023-03-31 22:19:42,626 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-03-31 22:19:46,970 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-03-31 22:19:56,512 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.945e+02 7.345e+02 9.404e+02 1.247e+03 3.615e+03, threshold=1.881e+03, percent-clipped=3.0
+2023-03-31 22:20:03,833 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10020.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:20:15,210 INFO [train.py:903] (2/4) Epoch 2, batch 3200, loss[loss=0.3099, simple_loss=0.3555, pruned_loss=0.1321, over 19480.00 frames. ], tot_loss[loss=0.3677, simple_loss=0.4021, pruned_loss=0.1667, over 3800564.33 frames. ], batch size: 49, lr: 3.27e-02, grad_scale: 8.0
+2023-03-31 22:20:50,896 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10057.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:20:55,731 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10061.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:21:19,925 INFO [train.py:903] (2/4) Epoch 2, batch 3250, loss[loss=0.4133, simple_loss=0.4148, pruned_loss=0.2059, over 19747.00 frames. ], tot_loss[loss=0.3663, simple_loss=0.4009, pruned_loss=0.1658, over 3809092.25 frames. ], batch size: 46, lr: 3.27e-02, grad_scale: 8.0
+2023-03-31 22:21:21,259 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10080.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:21:50,575 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10105.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:22:02,472 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.757e+02 8.486e+02 1.037e+03 1.291e+03 3.604e+03, threshold=2.074e+03, percent-clipped=6.0
+2023-03-31 22:22:20,716 INFO [train.py:903] (2/4) Epoch 2, batch 3300, loss[loss=0.3843, simple_loss=0.4108, pruned_loss=0.179, over 19761.00 frames. ], tot_loss[loss=0.3658, simple_loss=0.4002, pruned_loss=0.1657, over 3807872.56 frames. ], batch size: 54, lr: 3.26e-02, grad_scale: 8.0
+2023-03-31 22:22:25,243 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-03-31 22:22:27,887 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10135.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:22:42,680 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10147.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:23:07,159 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.51 vs. limit=5.0
+2023-03-31 22:23:14,949 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10172.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:23:22,725 INFO [train.py:903] (2/4) Epoch 2, batch 3350, loss[loss=0.3121, simple_loss=0.3506, pruned_loss=0.1368, over 19732.00 frames. ], tot_loss[loss=0.3654, simple_loss=0.4, pruned_loss=0.1654, over 3803653.86 frames. ], batch size: 46, lr: 3.26e-02, grad_scale: 8.0
+2023-03-31 22:23:48,554 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.83 vs. limit=2.0
+2023-03-31 22:24:07,629 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.516e+02 8.361e+02 9.909e+02 1.198e+03 2.844e+03, threshold=1.982e+03, percent-clipped=3.0
+2023-03-31 22:24:14,953 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10220.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:24:25,926 INFO [train.py:903] (2/4) Epoch 2, batch 3400, loss[loss=0.2716, simple_loss=0.325, pruned_loss=0.1091, over 19287.00 frames. ], tot_loss[loss=0.3636, simple_loss=0.3986, pruned_loss=0.1642, over 3788668.48 frames. ], batch size: 44, lr: 3.25e-02, grad_scale: 8.0
+2023-03-31 22:25:29,367 INFO [train.py:903] (2/4) Epoch 2, batch 3450, loss[loss=0.3731, simple_loss=0.415, pruned_loss=0.1657, over 19782.00 frames. ], tot_loss[loss=0.3643, simple_loss=0.3992, pruned_loss=0.1647, over 3803865.13 frames. ], batch size: 56, lr: 3.24e-02, grad_scale: 4.0
+2023-03-31 22:25:32,672 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-03-31 22:25:59,046 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7476, 1.6570, 1.6385, 2.1709, 3.2885, 1.3804, 2.1324, 3.2061],
+       device='cuda:2'), covar=tensor([0.0278, 0.2180, 0.2347, 0.1493, 0.0373, 0.2116, 0.1048, 0.0437],
+       device='cuda:2'), in_proj_covar=tensor([0.0217, 0.0293, 0.0283, 0.0275, 0.0246, 0.0313, 0.0255, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:26:04,771 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-03-31 22:26:13,346 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.771e+02 9.409e+02 1.166e+03 1.453e+03 2.796e+03, threshold=2.333e+03, percent-clipped=9.0
+2023-03-31 22:26:17,079 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10317.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:26:31,786 INFO [train.py:903] (2/4) Epoch 2, batch 3500, loss[loss=0.3305, simple_loss=0.3687, pruned_loss=0.1462, over 19715.00 frames. ], tot_loss[loss=0.3635, simple_loss=0.3987, pruned_loss=0.1642, over 3805703.53 frames. ], batch size: 51, lr: 3.24e-02, grad_scale: 4.0
+2023-03-31 22:26:43,564 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6935, 1.1129, 1.4674, 1.0909, 2.4900, 3.2140, 3.3969, 3.5851],
+       device='cuda:2'), covar=tensor([0.1473, 0.2891, 0.2878, 0.2499, 0.0555, 0.0145, 0.0188, 0.0141],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0277, 0.0323, 0.0285, 0.0195, 0.0103, 0.0184, 0.0111],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-03-31 22:26:46,982 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10342.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:27:13,430 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7936, 1.7391, 1.3568, 2.7380, 1.9310, 2.9681, 1.9529, 1.1111],
+       device='cuda:2'), covar=tensor([0.1521, 0.1155, 0.1026, 0.0602, 0.1236, 0.0274, 0.1695, 0.1604],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0311, 0.0330, 0.0428, 0.0399, 0.0233, 0.0425, 0.0339],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0001, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:27:20,663 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.21 vs. limit=5.0
+2023-03-31 22:27:33,758 INFO [train.py:903] (2/4) Epoch 2, batch 3550, loss[loss=0.3232, simple_loss=0.3804, pruned_loss=0.133, over 19530.00 frames. ], tot_loss[loss=0.3613, simple_loss=0.3973, pruned_loss=0.1627, over 3803426.43 frames. ], batch size: 56, lr: 3.23e-02, grad_scale: 4.0
+2023-03-31 22:27:49,430 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10391.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:28:04,143 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10401.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:28:20,153 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.354e+02 7.776e+02 1.013e+03 1.369e+03 3.978e+03, threshold=2.027e+03, percent-clipped=2.0
+2023-03-31 22:28:21,498 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10416.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:28:30,598 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10424.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:28:35,026 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10427.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:28:37,134 INFO [train.py:903] (2/4) Epoch 2, batch 3600, loss[loss=0.3644, simple_loss=0.4016, pruned_loss=0.1636, over 19786.00 frames. ], tot_loss[loss=0.3619, simple_loss=0.3977, pruned_loss=0.1631, over 3798477.37 frames. ], batch size: 56, lr: 3.22e-02, grad_scale: 8.0
+2023-03-31 22:29:32,588 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6727, 4.0357, 4.3916, 4.3152, 1.5930, 3.9880, 3.5892, 3.7679],
+       device='cuda:2'), covar=tensor([0.0448, 0.0467, 0.0434, 0.0236, 0.3277, 0.0214, 0.0360, 0.1026],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0280, 0.0383, 0.0271, 0.0427, 0.0176, 0.0257, 0.0379],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-03-31 22:29:32,606 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10472.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:29:37,370 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10476.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:29:41,347 INFO [train.py:903] (2/4) Epoch 2, batch 3650, loss[loss=0.3197, simple_loss=0.3729, pruned_loss=0.1333, over 19538.00 frames. ], tot_loss[loss=0.3601, simple_loss=0.3964, pruned_loss=0.1619, over 3808690.79 frames. ], batch size: 56, lr: 3.22e-02, grad_scale: 8.0
+2023-03-31 22:30:09,136 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10501.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:30:26,003 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.209e+02 8.454e+02 1.072e+03 1.396e+03 2.688e+03, threshold=2.143e+03, percent-clipped=6.0
+2023-03-31 22:30:27,510 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10516.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:30:45,122 INFO [train.py:903] (2/4) Epoch 2, batch 3700, loss[loss=0.3084, simple_loss=0.3508, pruned_loss=0.133, over 19480.00 frames. ], tot_loss[loss=0.3608, simple_loss=0.397, pruned_loss=0.1623, over 3815896.42 frames. ], batch size: 49, lr: 3.21e-02, grad_scale: 8.0
+2023-03-31 22:30:57,234 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10539.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:31:47,580 INFO [train.py:903] (2/4) Epoch 2, batch 3750, loss[loss=0.3676, simple_loss=0.4033, pruned_loss=0.166, over 19675.00 frames. ], tot_loss[loss=0.3591, simple_loss=0.3958, pruned_loss=0.1612, over 3814593.23 frames. ], batch size: 58, lr: 3.20e-02, grad_scale: 8.0
+2023-03-31 22:32:29,429 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6932, 2.4274, 1.8084, 2.0190, 1.8155, 1.8822, 0.8528, 2.0409],
+       device='cuda:2'), covar=tensor([0.0425, 0.0383, 0.0283, 0.0347, 0.0551, 0.0576, 0.0729, 0.0600],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0222, 0.0220, 0.0244, 0.0293, 0.0258, 0.0251, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:32:33,530 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.274e+02 8.986e+02 1.057e+03 1.326e+03 2.585e+03, threshold=2.114e+03, percent-clipped=3.0
+2023-03-31 22:32:50,170 INFO [train.py:903] (2/4) Epoch 2, batch 3800, loss[loss=0.4286, simple_loss=0.4262, pruned_loss=0.2155, over 19752.00 frames. ], tot_loss[loss=0.3581, simple_loss=0.3948, pruned_loss=0.1607, over 3814700.29 frames. ], batch size: 47, lr: 3.20e-02, grad_scale: 8.0
+2023-03-31 22:33:23,948 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-03-31 22:33:51,760 INFO [train.py:903] (2/4) Epoch 2, batch 3850, loss[loss=0.3959, simple_loss=0.4151, pruned_loss=0.1884, over 18075.00 frames. ], tot_loss[loss=0.3583, simple_loss=0.3946, pruned_loss=0.161, over 3810465.04 frames. ], batch size: 83, lr: 3.19e-02, grad_scale: 8.0
+2023-03-31 22:34:37,546 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.106e+02 8.604e+02 1.077e+03 1.442e+03 2.985e+03, threshold=2.155e+03, percent-clipped=6.0
+2023-03-31 22:34:56,858 INFO [train.py:903] (2/4) Epoch 2, batch 3900, loss[loss=0.3555, simple_loss=0.4018, pruned_loss=0.1546, over 18094.00 frames. ], tot_loss[loss=0.3561, simple_loss=0.3934, pruned_loss=0.1594, over 3826664.81 frames. ], batch size: 83, lr: 3.19e-02, grad_scale: 8.0
+2023-03-31 22:35:36,261 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10762.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:35:49,462 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10771.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:35:50,883 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10772.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:35:58,740 INFO [train.py:903] (2/4) Epoch 2, batch 3950, loss[loss=0.3164, simple_loss=0.3607, pruned_loss=0.1361, over 19723.00 frames. ], tot_loss[loss=0.3528, simple_loss=0.3908, pruned_loss=0.1574, over 3830047.04 frames. ], batch size: 51, lr: 3.18e-02, grad_scale: 8.0
+2023-03-31 22:36:04,569 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-03-31 22:36:04,744 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4142, 4.0573, 2.3387, 3.5891, 1.5474, 3.7788, 3.5078, 3.7768],
+       device='cuda:2'), covar=tensor([0.0577, 0.1074, 0.2068, 0.0819, 0.3310, 0.0891, 0.0693, 0.0708],
+       device='cuda:2'), in_proj_covar=tensor([0.0290, 0.0280, 0.0313, 0.0256, 0.0325, 0.0279, 0.0217, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:36:15,268 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10792.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:36:18,962 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=10795.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:36:21,164 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10797.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:36:44,829 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.316e+02 7.972e+02 1.008e+03 1.220e+03 2.629e+03, threshold=2.016e+03, percent-clipped=1.0
+2023-03-31 22:36:46,306 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=10816.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:36:51,364 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=10820.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:37:01,756 INFO [train.py:903] (2/4) Epoch 2, batch 4000, loss[loss=0.3351, simple_loss=0.39, pruned_loss=0.1401, over 19676.00 frames. ], tot_loss[loss=0.3512, simple_loss=0.3901, pruned_loss=0.1562, over 3833147.68 frames. ], batch size: 60, lr: 3.17e-02, grad_scale: 8.0
+2023-03-31 22:37:49,261 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-03-31 22:38:02,800 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1995, 1.1837, 2.1735, 1.5030, 3.2731, 3.2834, 3.5391, 1.5719],
+       device='cuda:2'), covar=tensor([0.1542, 0.2326, 0.1426, 0.1370, 0.0876, 0.0854, 0.1105, 0.2055],
+       device='cuda:2'), in_proj_covar=tensor([0.0353, 0.0382, 0.0351, 0.0352, 0.0415, 0.0333, 0.0480, 0.0372],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:38:04,673 INFO [train.py:903] (2/4) Epoch 2, batch 4050, loss[loss=0.4058, simple_loss=0.429, pruned_loss=0.1914, over 17450.00 frames. ], tot_loss[loss=0.3518, simple_loss=0.3907, pruned_loss=0.1564, over 3821771.00 frames. ], batch size: 101, lr: 3.17e-02, grad_scale: 8.0
+2023-03-31 22:38:15,759 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10886.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:38:35,390 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=10903.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 22:38:49,942 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.194e+02 9.186e+02 1.101e+03 1.338e+03 4.215e+03, threshold=2.201e+03, percent-clipped=7.0
+2023-03-31 22:39:10,604 INFO [train.py:903] (2/4) Epoch 2, batch 4100, loss[loss=0.3893, simple_loss=0.4147, pruned_loss=0.182, over 19302.00 frames. ], tot_loss[loss=0.3502, simple_loss=0.3897, pruned_loss=0.1554, over 3838861.56 frames. ], batch size: 66, lr: 3.16e-02, grad_scale: 8.0
+2023-03-31 22:39:13,325 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=10931.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:39:45,342 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-03-31 22:39:53,031 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.09 vs. limit=2.0
+2023-03-31 22:40:11,021 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7981, 4.2645, 2.1910, 3.8246, 1.2869, 3.9896, 3.8334, 3.8280],
+       device='cuda:2'), covar=tensor([0.0528, 0.1360, 0.2447, 0.0738, 0.4072, 0.0965, 0.0709, 0.0806],
+       device='cuda:2'), in_proj_covar=tensor([0.0296, 0.0290, 0.0317, 0.0262, 0.0333, 0.0285, 0.0219, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:40:13,120 INFO [train.py:903] (2/4) Epoch 2, batch 4150, loss[loss=0.3352, simple_loss=0.3715, pruned_loss=0.1495, over 19611.00 frames. ], tot_loss[loss=0.3503, simple_loss=0.3896, pruned_loss=0.1556, over 3833612.07 frames. ], batch size: 50, lr: 3.16e-02, grad_scale: 8.0
+2023-03-31 22:40:59,341 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.653e+02 7.731e+02 1.007e+03 1.258e+03 2.097e+03, threshold=2.015e+03, percent-clipped=0.0
+2023-03-31 22:41:15,491 INFO [train.py:903] (2/4) Epoch 2, batch 4200, loss[loss=0.4251, simple_loss=0.4368, pruned_loss=0.2067, over 19669.00 frames. ], tot_loss[loss=0.3538, simple_loss=0.3918, pruned_loss=0.1579, over 3831155.27 frames. ], batch size: 55, lr: 3.15e-02, grad_scale: 8.0
+2023-03-31 22:41:18,925 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-03-31 22:42:18,013 INFO [train.py:903] (2/4) Epoch 2, batch 4250, loss[loss=0.3466, simple_loss=0.3647, pruned_loss=0.1643, over 19736.00 frames. ], tot_loss[loss=0.3547, simple_loss=0.3925, pruned_loss=0.1585, over 3837653.78 frames. ], batch size: 47, lr: 3.14e-02, grad_scale: 8.0
+2023-03-31 22:42:25,478 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.48 vs. limit=2.0
+2023-03-31 22:42:35,132 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-03-31 22:42:45,409 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-03-31 22:42:52,690 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11106.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:43:03,982 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.611e+02 8.485e+02 1.107e+03 1.406e+03 3.284e+03, threshold=2.214e+03, percent-clipped=7.0
+2023-03-31 22:43:21,881 INFO [train.py:903] (2/4) Epoch 2, batch 4300, loss[loss=0.3935, simple_loss=0.4308, pruned_loss=0.1781, over 19540.00 frames. ], tot_loss[loss=0.3567, simple_loss=0.3941, pruned_loss=0.1596, over 3830287.55 frames. ], batch size: 56, lr: 3.14e-02, grad_scale: 8.0
+2023-03-31 22:43:29,552 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1017, 1.1617, 2.2282, 1.4178, 2.8938, 3.1783, 3.4404, 1.5694],
+       device='cuda:2'), covar=tensor([0.1383, 0.2009, 0.1101, 0.1294, 0.0973, 0.0723, 0.1217, 0.1898],
+       device='cuda:2'), in_proj_covar=tensor([0.0352, 0.0378, 0.0350, 0.0350, 0.0413, 0.0328, 0.0487, 0.0369],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:43:30,409 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11136.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:43:37,590 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11142.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:44:09,023 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11167.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:44:16,385 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-03-31 22:44:17,148 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.63 vs. limit=5.0
+2023-03-31 22:44:23,253 INFO [train.py:903] (2/4) Epoch 2, batch 4350, loss[loss=0.2917, simple_loss=0.3525, pruned_loss=0.1155, over 19681.00 frames. ], tot_loss[loss=0.3553, simple_loss=0.3932, pruned_loss=0.1587, over 3831511.34 frames. ], batch size: 53, lr: 3.13e-02, grad_scale: 8.0
+2023-03-31 22:44:24,658 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1101, 3.2615, 3.5717, 3.5303, 1.7908, 3.1506, 2.9171, 3.2229],
+       device='cuda:2'), covar=tensor([0.0444, 0.0869, 0.0378, 0.0262, 0.2327, 0.0264, 0.0345, 0.0733],
+       device='cuda:2'), in_proj_covar=tensor([0.0290, 0.0281, 0.0395, 0.0278, 0.0426, 0.0187, 0.0267, 0.0392],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0001, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-03-31 22:44:32,854 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11187.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:44:39,338 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11192.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:45:04,782 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11212.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:45:09,089 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.029e+02 7.841e+02 9.559e+02 1.160e+03 2.939e+03, threshold=1.912e+03, percent-clipped=2.0
+2023-03-31 22:45:15,684 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11221.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:45:24,368 INFO [train.py:903] (2/4) Epoch 2, batch 4400, loss[loss=0.3856, simple_loss=0.4172, pruned_loss=0.177, over 19745.00 frames. ], tot_loss[loss=0.3555, simple_loss=0.3928, pruned_loss=0.1591, over 3824735.92 frames. ], batch size: 63, lr: 3.13e-02, grad_scale: 8.0
+2023-03-31 22:45:46,894 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
+2023-03-31 22:45:48,408 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11247.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:45:50,524 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-03-31 22:45:54,223 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11251.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:46:00,719 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-03-31 22:46:27,507 INFO [train.py:903] (2/4) Epoch 2, batch 4450, loss[loss=0.3515, simple_loss=0.3925, pruned_loss=0.1552, over 18346.00 frames. ], tot_loss[loss=0.3529, simple_loss=0.3909, pruned_loss=0.1575, over 3821927.37 frames. ], batch size: 84, lr: 3.12e-02, grad_scale: 8.0
+2023-03-31 22:46:28,035 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2069, 2.0646, 1.8975, 2.9762, 2.1020, 3.1052, 2.5219, 1.8442],
+       device='cuda:2'), covar=tensor([0.1019, 0.0805, 0.0504, 0.0566, 0.1076, 0.0249, 0.0970, 0.0787],
+       device='cuda:2'), in_proj_covar=tensor([0.0362, 0.0330, 0.0349, 0.0455, 0.0415, 0.0245, 0.0452, 0.0355],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0001, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:47:14,189 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.163e+02 8.820e+02 1.081e+03 1.372e+03 2.333e+03, threshold=2.162e+03, percent-clipped=5.0
+2023-03-31 22:47:31,605 INFO [train.py:903] (2/4) Epoch 2, batch 4500, loss[loss=0.3826, simple_loss=0.4201, pruned_loss=0.1726, over 18807.00 frames. ], tot_loss[loss=0.3538, simple_loss=0.3919, pruned_loss=0.1578, over 3825788.04 frames. ], batch size: 74, lr: 3.12e-02, grad_scale: 8.0
+2023-03-31 22:47:42,703 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2871, 3.0586, 2.1005, 2.1109, 1.8902, 2.0093, 0.3374, 2.2066],
+       device='cuda:2'), covar=tensor([0.0480, 0.0325, 0.0347, 0.0466, 0.0760, 0.0576, 0.0973, 0.0718],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0228, 0.0220, 0.0249, 0.0307, 0.0262, 0.0252, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:47:42,781 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6986, 2.3042, 2.2224, 3.7447, 2.6786, 4.3397, 3.3466, 2.0040],
+       device='cuda:2'), covar=tensor([0.0996, 0.0767, 0.0463, 0.0440, 0.1002, 0.0150, 0.0783, 0.0762],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0323, 0.0339, 0.0441, 0.0407, 0.0241, 0.0445, 0.0346],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:47:44,609 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.77 vs. limit=2.0
+2023-03-31 22:48:12,948 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11362.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:48:34,564 INFO [train.py:903] (2/4) Epoch 2, batch 4550, loss[loss=0.2813, simple_loss=0.3419, pruned_loss=0.1104, over 19853.00 frames. ], tot_loss[loss=0.3526, simple_loss=0.391, pruned_loss=0.1571, over 3824551.93 frames. ], batch size: 52, lr: 3.11e-02, grad_scale: 8.0
+2023-03-31 22:48:45,442 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-03-31 22:49:08,232 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-03-31 22:49:21,595 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.316e+02 7.788e+02 1.003e+03 1.220e+03 2.356e+03, threshold=2.005e+03, percent-clipped=1.0
+2023-03-31 22:49:34,106 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-03-31 22:49:37,110 INFO [train.py:903] (2/4) Epoch 2, batch 4600, loss[loss=0.3011, simple_loss=0.3399, pruned_loss=0.1312, over 19742.00 frames. ], tot_loss[loss=0.3519, simple_loss=0.3903, pruned_loss=0.1568, over 3819964.71 frames. ], batch size: 46, lr: 3.10e-02, grad_scale: 8.0
+2023-03-31 22:50:37,581 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11477.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:50:39,641 INFO [train.py:903] (2/4) Epoch 2, batch 4650, loss[loss=0.3927, simple_loss=0.4154, pruned_loss=0.185, over 13186.00 frames. ], tot_loss[loss=0.3522, simple_loss=0.3904, pruned_loss=0.157, over 3813537.79 frames. ], batch size: 136, lr: 3.10e-02, grad_scale: 8.0
+2023-03-31 22:50:47,210 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9008, 3.5092, 2.4306, 2.3265, 2.9119, 1.4789, 1.3331, 1.5191],
+       device='cuda:2'), covar=tensor([0.1394, 0.0365, 0.0773, 0.0655, 0.0607, 0.1220, 0.1239, 0.1064],
+       device='cuda:2'), in_proj_covar=tensor([0.0286, 0.0199, 0.0295, 0.0247, 0.0200, 0.0299, 0.0267, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-03-31 22:50:59,963 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-03-31 22:51:09,697 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11502.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:51:10,457 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-03-31 22:51:15,557 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11507.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:51:23,518 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6700, 1.5969, 1.4494, 1.9996, 1.6006, 1.7713, 1.5857, 1.7055],
+       device='cuda:2'), covar=tensor([0.0872, 0.1788, 0.1331, 0.1016, 0.1392, 0.0551, 0.1073, 0.0669],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0373, 0.0290, 0.0257, 0.0321, 0.0261, 0.0276, 0.0227],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:51:26,520 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.039e+02 8.212e+02 1.126e+03 1.409e+03 2.689e+03, threshold=2.252e+03, percent-clipped=6.0
+2023-03-31 22:51:36,266 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.6603, 5.0802, 2.8429, 4.5241, 1.6629, 4.9625, 4.7856, 4.9274],
+       device='cuda:2'), covar=tensor([0.0441, 0.0957, 0.1878, 0.0535, 0.3249, 0.0788, 0.0541, 0.0746],
+       device='cuda:2'), in_proj_covar=tensor([0.0294, 0.0280, 0.0311, 0.0253, 0.0321, 0.0285, 0.0221, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:51:42,427 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.79 vs. limit=2.0
+2023-03-31 22:51:42,947 INFO [train.py:903] (2/4) Epoch 2, batch 4700, loss[loss=0.3566, simple_loss=0.3897, pruned_loss=0.1618, over 19842.00 frames. ], tot_loss[loss=0.353, simple_loss=0.3911, pruned_loss=0.1575, over 3798959.00 frames. ], batch size: 52, lr: 3.09e-02, grad_scale: 8.0
+2023-03-31 22:51:47,971 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11532.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:51:52,281 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11536.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:51:55,393 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.74 vs. limit=5.0
+2023-03-31 22:52:05,036 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-03-31 22:52:08,744 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11550.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:52:45,449 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2167, 1.2510, 0.8485, 1.0543, 0.9532, 1.1921, 0.0087, 0.3552],
+       device='cuda:2'), covar=tensor([0.0325, 0.0341, 0.0227, 0.0219, 0.0643, 0.0309, 0.0641, 0.0555],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0221, 0.0246, 0.0298, 0.0264, 0.0251, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:52:46,162 INFO [train.py:903] (2/4) Epoch 2, batch 4750, loss[loss=0.4656, simple_loss=0.4669, pruned_loss=0.2322, over 19647.00 frames. ], tot_loss[loss=0.352, simple_loss=0.3904, pruned_loss=0.1568, over 3799733.19 frames. ], batch size: 59, lr: 3.09e-02, grad_scale: 8.0
+2023-03-31 22:53:32,497 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.603e+02 7.433e+02 1.012e+03 1.332e+03 3.283e+03, threshold=2.025e+03, percent-clipped=2.0
+2023-03-31 22:53:35,148 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11618.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:53:47,421 INFO [train.py:903] (2/4) Epoch 2, batch 4800, loss[loss=0.2733, simple_loss=0.3358, pruned_loss=0.1055, over 19672.00 frames. ], tot_loss[loss=0.3547, simple_loss=0.3928, pruned_loss=0.1583, over 3804960.51 frames. ], batch size: 53, lr: 3.08e-02, grad_scale: 8.0
+2023-03-31 22:54:04,645 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11643.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 22:54:06,936 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2447, 2.1947, 1.5116, 1.8427, 1.4044, 1.3880, 0.1643, 0.8962],
+       device='cuda:2'), covar=tensor([0.0328, 0.0274, 0.0234, 0.0328, 0.0622, 0.0500, 0.0722, 0.0595],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0224, 0.0219, 0.0246, 0.0298, 0.0261, 0.0249, 0.0262],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:54:15,095 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=11651.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:54:19,384 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11653.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:54:49,929 INFO [train.py:903] (2/4) Epoch 2, batch 4850, loss[loss=0.2919, simple_loss=0.3404, pruned_loss=0.1217, over 19764.00 frames. ], tot_loss[loss=0.3529, simple_loss=0.3917, pruned_loss=0.1571, over 3805388.89 frames. ], batch size: 47, lr: 3.08e-02, grad_scale: 8.0
+2023-03-31 22:55:13,213 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0681, 1.0546, 1.7365, 1.2776, 2.3457, 2.1396, 2.5167, 0.8997],
+       device='cuda:2'), covar=tensor([0.1208, 0.1812, 0.0950, 0.1192, 0.0637, 0.0798, 0.0732, 0.1555],
+       device='cuda:2'), in_proj_covar=tensor([0.0351, 0.0383, 0.0353, 0.0356, 0.0419, 0.0328, 0.0490, 0.0372],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 22:55:14,987 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-03-31 22:55:28,971 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7136, 4.2871, 2.4774, 3.7878, 1.3436, 3.8562, 3.8474, 4.0374],
+       device='cuda:2'), covar=tensor([0.0456, 0.0869, 0.1844, 0.0647, 0.3123, 0.0866, 0.0547, 0.0567],
+       device='cuda:2'), in_proj_covar=tensor([0.0297, 0.0293, 0.0317, 0.0266, 0.0330, 0.0288, 0.0224, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:55:29,695 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
+2023-03-31 22:55:34,592 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-03-31 22:55:36,946 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.407e+02 7.585e+02 1.008e+03 1.288e+03 2.592e+03, threshold=2.016e+03, percent-clipped=4.0
+2023-03-31 22:55:38,558 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11717.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:55:40,643 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-03-31 22:55:41,789 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-03-31 22:55:51,130 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-03-31 22:55:53,217 INFO [train.py:903] (2/4) Epoch 2, batch 4900, loss[loss=0.3278, simple_loss=0.3699, pruned_loss=0.1428, over 19465.00 frames. ], tot_loss[loss=0.3535, simple_loss=0.3923, pruned_loss=0.1574, over 3808873.77 frames. ], batch size: 49, lr: 3.07e-02, grad_scale: 8.0
+2023-03-31 22:56:13,269 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-03-31 22:56:55,833 INFO [train.py:903] (2/4) Epoch 2, batch 4950, loss[loss=0.4646, simple_loss=0.4602, pruned_loss=0.2345, over 13514.00 frames. ], tot_loss[loss=0.3542, simple_loss=0.3926, pruned_loss=0.1579, over 3807033.26 frames. ], batch size: 136, lr: 3.06e-02, grad_scale: 8.0
+2023-03-31 22:57:13,099 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-03-31 22:57:32,460 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2029, 1.2771, 0.9983, 0.9950, 1.0541, 1.2910, 0.0268, 0.3664],
+       device='cuda:2'), covar=tensor([0.0318, 0.0330, 0.0215, 0.0253, 0.0621, 0.0275, 0.0630, 0.0534],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0227, 0.0224, 0.0246, 0.0303, 0.0259, 0.0252, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 22:57:37,546 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-03-31 22:57:41,842 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.086e+02 9.257e+02 1.136e+03 1.412e+03 3.441e+03, threshold=2.272e+03, percent-clipped=4.0
+2023-03-31 22:57:57,810 INFO [train.py:903] (2/4) Epoch 2, batch 5000, loss[loss=0.3655, simple_loss=0.4078, pruned_loss=0.1616, over 19606.00 frames. ], tot_loss[loss=0.3522, simple_loss=0.3911, pruned_loss=0.1566, over 3813614.45 frames. ], batch size: 57, lr: 3.06e-02, grad_scale: 8.0
+2023-03-31 22:58:04,667 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11834.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:58:07,426 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-03-31 22:58:16,652 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-03-31 22:58:42,524 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11864.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:59:00,556 INFO [train.py:903] (2/4) Epoch 2, batch 5050, loss[loss=0.3623, simple_loss=0.3974, pruned_loss=0.1636, over 19585.00 frames. ], tot_loss[loss=0.3534, simple_loss=0.3912, pruned_loss=0.1578, over 3809702.94 frames. ], batch size: 52, lr: 3.05e-02, grad_scale: 8.0
+2023-03-31 22:59:19,027 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11894.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:59:36,723 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=11907.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 22:59:38,649 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-03-31 22:59:48,011 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.479e+02 8.836e+02 1.119e+03 1.460e+03 3.605e+03, threshold=2.237e+03, percent-clipped=7.0
+2023-03-31 23:00:03,331 INFO [train.py:903] (2/4) Epoch 2, batch 5100, loss[loss=0.4132, simple_loss=0.4316, pruned_loss=0.1974, over 19599.00 frames. ], tot_loss[loss=0.3524, simple_loss=0.3906, pruned_loss=0.1571, over 3805771.01 frames. ], batch size: 57, lr: 3.05e-02, grad_scale: 8.0
+2023-03-31 23:00:08,048 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=11932.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:00:16,197 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11938.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:00:19,220 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-03-31 23:00:22,861 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-03-31 23:00:26,281 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-03-31 23:00:50,341 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=11966.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:01:07,403 INFO [train.py:903] (2/4) Epoch 2, batch 5150, loss[loss=0.3618, simple_loss=0.4006, pruned_loss=0.1615, over 17513.00 frames. ], tot_loss[loss=0.3503, simple_loss=0.3893, pruned_loss=0.1557, over 3814062.62 frames. ], batch size: 101, lr: 3.04e-02, grad_scale: 8.0
+2023-03-31 23:01:20,926 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-03-31 23:01:29,908 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=11997.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:01:36,628 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12002.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:01:44,902 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12009.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:01:54,406 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.835e+02 8.254e+02 9.989e+02 1.287e+03 2.673e+03, threshold=1.998e+03, percent-clipped=4.0
+2023-03-31 23:01:56,775 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-03-31 23:02:10,381 INFO [train.py:903] (2/4) Epoch 2, batch 5200, loss[loss=0.3538, simple_loss=0.3987, pruned_loss=0.1545, over 19625.00 frames. ], tot_loss[loss=0.3506, simple_loss=0.3896, pruned_loss=0.1558, over 3817471.73 frames. ], batch size: 57, lr: 3.04e-02, grad_scale: 8.0
+2023-03-31 23:02:25,401 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-03-31 23:02:52,156 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12061.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:03:11,175 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-03-31 23:03:13,777 INFO [train.py:903] (2/4) Epoch 2, batch 5250, loss[loss=0.318, simple_loss=0.3724, pruned_loss=0.1318, over 19604.00 frames. ], tot_loss[loss=0.3503, simple_loss=0.3896, pruned_loss=0.1555, over 3818448.15 frames. ], batch size: 61, lr: 3.03e-02, grad_scale: 8.0
+2023-03-31 23:03:32,745 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12094.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:03:55,634 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12112.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:03:59,698 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.115e+02 8.666e+02 1.057e+03 1.421e+03 4.195e+03, threshold=2.115e+03, percent-clipped=5.0
+2023-03-31 23:04:02,195 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4038, 1.1173, 1.0535, 1.3136, 1.0213, 1.1932, 1.0994, 1.2720],
+       device='cuda:2'), covar=tensor([0.0850, 0.1326, 0.1376, 0.0949, 0.1132, 0.0651, 0.0989, 0.0718],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0378, 0.0289, 0.0259, 0.0325, 0.0266, 0.0275, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:04:14,782 INFO [train.py:903] (2/4) Epoch 2, batch 5300, loss[loss=0.3389, simple_loss=0.3949, pruned_loss=0.1415, over 19654.00 frames. ], tot_loss[loss=0.3503, simple_loss=0.3897, pruned_loss=0.1555, over 3823201.75 frames. ], batch size: 55, lr: 3.03e-02, grad_scale: 8.0
+2023-03-31 23:04:35,580 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-03-31 23:05:13,730 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12176.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:05:15,932 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12178.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:05:16,934 INFO [train.py:903] (2/4) Epoch 2, batch 5350, loss[loss=0.377, simple_loss=0.4184, pruned_loss=0.1678, over 19544.00 frames. ], tot_loss[loss=0.3534, simple_loss=0.3922, pruned_loss=0.1573, over 3825084.56 frames. ], batch size: 56, lr: 3.02e-02, grad_scale: 8.0
+2023-03-31 23:05:45,073 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1321, 1.1766, 1.9290, 1.4582, 2.6649, 2.7685, 2.8177, 1.1069],
+       device='cuda:2'), covar=tensor([0.1331, 0.2165, 0.1134, 0.1240, 0.0774, 0.0704, 0.1016, 0.1872],
+       device='cuda:2'), in_proj_covar=tensor([0.0357, 0.0388, 0.0349, 0.0350, 0.0420, 0.0339, 0.0493, 0.0373],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:05:53,526 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-03-31 23:05:53,657 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12208.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:06:03,415 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.241e+02 9.122e+02 1.169e+03 1.506e+03 3.477e+03, threshold=2.338e+03, percent-clipped=13.0
+2023-03-31 23:06:20,776 INFO [train.py:903] (2/4) Epoch 2, batch 5400, loss[loss=0.3785, simple_loss=0.4184, pruned_loss=0.1693, over 18876.00 frames. ], tot_loss[loss=0.352, simple_loss=0.3912, pruned_loss=0.1564, over 3826040.68 frames. ], batch size: 74, lr: 3.02e-02, grad_scale: 8.0
+2023-03-31 23:06:41,860 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-03-31 23:07:06,519 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12265.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:07:23,451 INFO [train.py:903] (2/4) Epoch 2, batch 5450, loss[loss=0.3775, simple_loss=0.4053, pruned_loss=0.1748, over 19489.00 frames. ], tot_loss[loss=0.3512, simple_loss=0.3905, pruned_loss=0.156, over 3814173.40 frames. ], batch size: 64, lr: 3.01e-02, grad_scale: 8.0
+2023-03-31 23:07:27,079 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12282.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:07:36,414 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12290.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:07:39,792 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12293.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:08:01,539 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12310.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:08:08,447 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.315e+02 7.539e+02 9.464e+02 1.137e+03 1.898e+03, threshold=1.893e+03, percent-clipped=0.0
+2023-03-31 23:08:17,824 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12323.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:08:23,991 INFO [train.py:903] (2/4) Epoch 2, batch 5500, loss[loss=0.2979, simple_loss=0.3386, pruned_loss=0.1286, over 19747.00 frames. ], tot_loss[loss=0.3485, simple_loss=0.3883, pruned_loss=0.1543, over 3819462.83 frames. ], batch size: 46, lr: 3.01e-02, grad_scale: 8.0
+2023-03-31 23:08:47,651 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12346.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:08:49,884 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-03-31 23:09:14,245 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12368.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:09:28,523 INFO [train.py:903] (2/4) Epoch 2, batch 5550, loss[loss=0.3097, simple_loss=0.3677, pruned_loss=0.1259, over 19589.00 frames. ], tot_loss[loss=0.3471, simple_loss=0.387, pruned_loss=0.1536, over 3824650.27 frames. ], batch size: 52, lr: 3.00e-02, grad_scale: 8.0
+2023-03-31 23:09:36,195 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-03-31 23:09:46,119 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12393.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:09:50,696 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12397.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:10:14,298 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.827e+02 8.577e+02 1.018e+03 1.198e+03 2.956e+03, threshold=2.037e+03, percent-clipped=3.0
+2023-03-31 23:10:25,893 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-03-31 23:10:27,082 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12425.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:10:29,522 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7911, 1.6289, 1.7170, 2.4183, 1.6322, 2.0729, 1.9359, 1.5247],
+       device='cuda:2'), covar=tensor([0.0757, 0.0631, 0.0412, 0.0289, 0.0628, 0.0252, 0.0766, 0.0668],
+       device='cuda:2'), in_proj_covar=tensor([0.0384, 0.0351, 0.0366, 0.0475, 0.0433, 0.0268, 0.0460, 0.0373],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:10:31,329 INFO [train.py:903] (2/4) Epoch 2, batch 5600, loss[loss=0.422, simple_loss=0.4432, pruned_loss=0.2005, over 14013.00 frames. ], tot_loss[loss=0.3461, simple_loss=0.386, pruned_loss=0.1531, over 3814786.92 frames. ], batch size: 138, lr: 3.00e-02, grad_scale: 8.0
+2023-03-31 23:10:35,321 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12432.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:10:41,876 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12438.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:11:06,561 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12457.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:11:11,982 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12461.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:11:16,287 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12464.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:11:33,650 INFO [train.py:903] (2/4) Epoch 2, batch 5650, loss[loss=0.3247, simple_loss=0.3837, pruned_loss=0.1328, over 19620.00 frames. ], tot_loss[loss=0.3452, simple_loss=0.3858, pruned_loss=0.1523, over 3826377.81 frames. ], batch size: 57, lr: 2.99e-02, grad_scale: 8.0
+2023-03-31 23:11:49,525 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2260, 3.5958, 3.7603, 3.6277, 1.2847, 3.3448, 3.0756, 3.3304],
+       device='cuda:2'), covar=tensor([0.0519, 0.0484, 0.0488, 0.0337, 0.3145, 0.0254, 0.0405, 0.0921],
+       device='cuda:2'), in_proj_covar=tensor([0.0314, 0.0298, 0.0408, 0.0303, 0.0442, 0.0200, 0.0280, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-03-31 23:12:19,585 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.393e+02 8.152e+02 1.040e+03 1.340e+03 2.595e+03, threshold=2.080e+03, percent-clipped=4.0
+2023-03-31 23:12:21,240 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4823, 1.3821, 1.2637, 2.0993, 1.5742, 2.0525, 1.5839, 1.0625],
+       device='cuda:2'), covar=tensor([0.0988, 0.0847, 0.0714, 0.0408, 0.0752, 0.0239, 0.1104, 0.1019],
+       device='cuda:2'), in_proj_covar=tensor([0.0379, 0.0348, 0.0367, 0.0475, 0.0435, 0.0270, 0.0460, 0.0367],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:12:21,918 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-03-31 23:12:26,951 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
+2023-03-31 23:12:30,043 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7123, 1.5647, 1.6778, 2.1656, 3.3006, 1.4905, 2.0156, 3.3538],
+       device='cuda:2'), covar=tensor([0.0218, 0.1942, 0.1785, 0.1047, 0.0331, 0.1623, 0.0930, 0.0320],
+       device='cuda:2'), in_proj_covar=tensor([0.0220, 0.0296, 0.0276, 0.0263, 0.0256, 0.0305, 0.0253, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:12:35,557 INFO [train.py:903] (2/4) Epoch 2, batch 5700, loss[loss=0.3499, simple_loss=0.4024, pruned_loss=0.1487, over 19726.00 frames. ], tot_loss[loss=0.3478, simple_loss=0.3877, pruned_loss=0.1539, over 3825110.35 frames. ], batch size: 63, lr: 2.98e-02, grad_scale: 8.0
+2023-03-31 23:13:02,416 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12549.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:13:06,840 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12553.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:13:32,361 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12574.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:13:37,668 INFO [train.py:903] (2/4) Epoch 2, batch 5750, loss[loss=0.4073, simple_loss=0.4289, pruned_loss=0.1928, over 17472.00 frames. ], tot_loss[loss=0.3469, simple_loss=0.3873, pruned_loss=0.1533, over 3822324.73 frames. ], batch size: 101, lr: 2.98e-02, grad_scale: 8.0
+2023-03-31 23:13:38,060 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12579.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:13:42,209 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-03-31 23:13:50,269 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-03-31 23:13:56,866 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-03-31 23:14:10,442 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12604.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:14:23,847 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.880e+02 8.083e+02 9.516e+02 1.322e+03 3.330e+03, threshold=1.903e+03, percent-clipped=5.0
+2023-03-31 23:14:30,014 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0771, 1.0755, 1.5999, 1.2090, 2.2696, 2.0706, 2.3960, 0.9127],
+       device='cuda:2'), covar=tensor([0.1332, 0.1987, 0.1029, 0.1295, 0.0757, 0.0969, 0.0924, 0.1694],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0397, 0.0361, 0.0363, 0.0432, 0.0352, 0.0510, 0.0382],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:14:40,960 INFO [train.py:903] (2/4) Epoch 2, batch 5800, loss[loss=0.413, simple_loss=0.4303, pruned_loss=0.1978, over 19670.00 frames. ], tot_loss[loss=0.3494, simple_loss=0.3889, pruned_loss=0.1549, over 3809586.05 frames. ], batch size: 60, lr: 2.97e-02, grad_scale: 8.0
+2023-03-31 23:15:10,958 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12653.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:15:17,360 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.20 vs. limit=5.0
+2023-03-31 23:15:42,701 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12678.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:15:43,506 INFO [train.py:903] (2/4) Epoch 2, batch 5850, loss[loss=0.3345, simple_loss=0.3637, pruned_loss=0.1526, over 19408.00 frames. ], tot_loss[loss=0.3492, simple_loss=0.3887, pruned_loss=0.1549, over 3814758.59 frames. ], batch size: 48, lr: 2.97e-02, grad_scale: 8.0
+2023-03-31 23:15:47,125 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12681.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:15:58,783 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2345, 2.6721, 2.0269, 2.2828, 1.8201, 1.8377, 0.6449, 2.2677],
+       device='cuda:2'), covar=tensor([0.0442, 0.0448, 0.0432, 0.0431, 0.0858, 0.0752, 0.0819, 0.0746],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0228, 0.0229, 0.0239, 0.0304, 0.0255, 0.0250, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-03-31 23:16:17,536 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.05 vs. limit=2.0
+2023-03-31 23:16:18,413 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12706.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:16:30,351 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.479e+02 7.980e+02 9.827e+02 1.217e+03 2.781e+03, threshold=1.965e+03, percent-clipped=6.0
+2023-03-31 23:16:31,934 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12717.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:16:46,105 INFO [train.py:903] (2/4) Epoch 2, batch 5900, loss[loss=0.2948, simple_loss=0.3332, pruned_loss=0.1282, over 19282.00 frames. ], tot_loss[loss=0.3491, simple_loss=0.3889, pruned_loss=0.1547, over 3817872.64 frames. ], batch size: 44, lr: 2.96e-02, grad_scale: 8.0
+2023-03-31 23:16:49,437 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-03-31 23:17:03,716 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12742.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:17:08,461 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.5959, 1.4018, 1.7525, 2.7419, 4.2900, 1.3488, 2.2861, 4.0524],
+       device='cuda:2'), covar=tensor([0.0342, 0.2798, 0.2344, 0.1349, 0.0368, 0.2214, 0.1182, 0.0405],
+       device='cuda:2'), in_proj_covar=tensor([0.0234, 0.0306, 0.0293, 0.0275, 0.0266, 0.0323, 0.0265, 0.0270],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:17:11,475 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-03-31 23:17:22,421 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
+2023-03-31 23:17:27,101 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.57 vs. limit=5.0
+2023-03-31 23:17:49,031 INFO [train.py:903] (2/4) Epoch 2, batch 5950, loss[loss=0.3227, simple_loss=0.3579, pruned_loss=0.1438, over 19741.00 frames. ], tot_loss[loss=0.3485, simple_loss=0.3884, pruned_loss=0.1542, over 3813583.71 frames. ], batch size: 51, lr: 2.96e-02, grad_scale: 8.0
+2023-03-31 23:17:52,889 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=12781.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:18:25,411 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=12808.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:18:26,846 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=12809.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:18:34,473 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.856e+02 9.090e+02 1.139e+03 1.452e+03 3.383e+03, threshold=2.279e+03, percent-clipped=8.0
+2023-03-31 23:18:49,058 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.99 vs. limit=5.0
+2023-03-31 23:18:51,784 INFO [train.py:903] (2/4) Epoch 2, batch 6000, loss[loss=0.3353, simple_loss=0.374, pruned_loss=0.1483, over 19846.00 frames. ], tot_loss[loss=0.3483, simple_loss=0.3878, pruned_loss=0.1544, over 3818894.11 frames. ], batch size: 52, lr: 2.95e-02, grad_scale: 8.0
+2023-03-31 23:18:51,784 INFO [train.py:928] (2/4) Computing validation loss
+2023-03-31 23:19:06,013 INFO [train.py:937] (2/4) Epoch 2, validation: loss=0.246, simple_loss=0.337, pruned_loss=0.07745, over 944034.00 frames. 
+2023-03-31 23:19:06,014 INFO [train.py:938] (2/4) Maximum memory allocated so far is 17686MB
+2023-03-31 23:19:13,304 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=12834.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:19:57,377 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1787, 0.9052, 0.9862, 1.5486, 1.2149, 1.2541, 1.3031, 1.1955],
+       device='cuda:2'), covar=tensor([0.0928, 0.1433, 0.1389, 0.0777, 0.1214, 0.1077, 0.1131, 0.0982],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0301, 0.0289, 0.0318, 0.0340, 0.0263, 0.0306, 0.0262],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0004, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-03-31 23:20:08,252 INFO [train.py:903] (2/4) Epoch 2, batch 6050, loss[loss=0.3492, simple_loss=0.3989, pruned_loss=0.1497, over 19661.00 frames. ], tot_loss[loss=0.3505, simple_loss=0.3894, pruned_loss=0.1558, over 3812340.24 frames. ], batch size: 58, lr: 2.95e-02, grad_scale: 4.0
+2023-03-31 23:20:56,514 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.060e+02 7.840e+02 9.937e+02 1.323e+03 8.220e+03, threshold=1.987e+03, percent-clipped=9.0
+2023-03-31 23:21:03,457 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=12923.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:21:10,259 INFO [train.py:903] (2/4) Epoch 2, batch 6100, loss[loss=0.3703, simple_loss=0.41, pruned_loss=0.1653, over 19690.00 frames. ], tot_loss[loss=0.3465, simple_loss=0.3865, pruned_loss=0.1533, over 3815304.38 frames. ], batch size: 59, lr: 2.94e-02, grad_scale: 4.0
+2023-03-31 23:22:11,869 INFO [train.py:903] (2/4) Epoch 2, batch 6150, loss[loss=0.3053, simple_loss=0.3485, pruned_loss=0.131, over 19310.00 frames. ], tot_loss[loss=0.3484, simple_loss=0.3878, pruned_loss=0.1545, over 3819664.04 frames. ], batch size: 44, lr: 2.94e-02, grad_scale: 4.0
+2023-03-31 23:22:13,735 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.34 vs. limit=2.0
+2023-03-31 23:22:42,909 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-03-31 23:23:00,767 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.553e+02 7.749e+02 1.029e+03 1.287e+03 3.235e+03, threshold=2.059e+03, percent-clipped=7.0
+2023-03-31 23:23:13,347 INFO [train.py:903] (2/4) Epoch 2, batch 6200, loss[loss=0.3323, simple_loss=0.3805, pruned_loss=0.1421, over 19535.00 frames. ], tot_loss[loss=0.3471, simple_loss=0.387, pruned_loss=0.1536, over 3820485.48 frames. ], batch size: 56, lr: 2.93e-02, grad_scale: 4.0
+2023-03-31 23:24:15,403 INFO [train.py:903] (2/4) Epoch 2, batch 6250, loss[loss=0.3005, simple_loss=0.3598, pruned_loss=0.1207, over 19743.00 frames. ], tot_loss[loss=0.3466, simple_loss=0.3872, pruned_loss=0.153, over 3819813.64 frames. ], batch size: 63, lr: 2.93e-02, grad_scale: 4.0
+2023-03-31 23:24:37,664 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
+2023-03-31 23:24:47,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-03-31 23:25:04,359 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.358e+02 8.552e+02 1.023e+03 1.333e+03 3.705e+03, threshold=2.046e+03, percent-clipped=2.0
+2023-03-31 23:25:08,194 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0326, 0.9773, 1.4877, 1.1344, 1.9305, 1.7214, 1.9505, 0.5059],
+       device='cuda:2'), covar=tensor([0.1491, 0.2195, 0.1129, 0.1434, 0.0764, 0.1138, 0.0773, 0.1969],
+       device='cuda:2'), in_proj_covar=tensor([0.0364, 0.0399, 0.0362, 0.0360, 0.0437, 0.0347, 0.0504, 0.0379],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:25:13,052 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=13125.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:25:17,708 INFO [train.py:903] (2/4) Epoch 2, batch 6300, loss[loss=0.2837, simple_loss=0.3441, pruned_loss=0.1117, over 19745.00 frames. ], tot_loss[loss=0.3457, simple_loss=0.3861, pruned_loss=0.1527, over 3819988.12 frames. ], batch size: 51, lr: 2.92e-02, grad_scale: 4.0
+2023-03-31 23:26:19,874 INFO [train.py:903] (2/4) Epoch 2, batch 6350, loss[loss=0.3328, simple_loss=0.3724, pruned_loss=0.1466, over 19850.00 frames. ], tot_loss[loss=0.3439, simple_loss=0.3851, pruned_loss=0.1513, over 3836557.94 frames. ], batch size: 52, lr: 2.92e-02, grad_scale: 4.0
+2023-03-31 23:26:20,325 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=13179.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:26:49,717 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=13204.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:27:04,771 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
+2023-03-31 23:27:06,688 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.673e+02 8.539e+02 1.071e+03 1.407e+03 4.202e+03, threshold=2.141e+03, percent-clipped=6.0
+2023-03-31 23:27:19,359 INFO [train.py:903] (2/4) Epoch 2, batch 6400, loss[loss=0.3731, simple_loss=0.4079, pruned_loss=0.1691, over 18432.00 frames. ], tot_loss[loss=0.3449, simple_loss=0.3861, pruned_loss=0.1519, over 3829090.32 frames. ], batch size: 83, lr: 2.92e-02, grad_scale: 8.0
+2023-03-31 23:27:33,750 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=13240.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:28:22,172 INFO [train.py:903] (2/4) Epoch 2, batch 6450, loss[loss=0.3378, simple_loss=0.3874, pruned_loss=0.1441, over 19663.00 frames. ], tot_loss[loss=0.3443, simple_loss=0.3859, pruned_loss=0.1513, over 3825444.26 frames. ], batch size: 58, lr: 2.91e-02, grad_scale: 8.0
+2023-03-31 23:28:45,115 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1686, 1.0229, 1.1884, 0.4713, 2.5126, 2.3874, 2.1963, 2.4845],
+       device='cuda:2'), covar=tensor([0.1223, 0.2589, 0.2659, 0.2234, 0.0308, 0.0166, 0.0322, 0.0162],
+       device='cuda:2'), in_proj_covar=tensor([0.0280, 0.0276, 0.0323, 0.0277, 0.0189, 0.0108, 0.0194, 0.0111],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-03-31 23:29:07,644 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2818, 1.7155, 1.3328, 1.3983, 1.5589, 0.8853, 1.0618, 1.4753],
+       device='cuda:2'), covar=tensor([0.0623, 0.0387, 0.0672, 0.0412, 0.0398, 0.1014, 0.0591, 0.0387],
+       device='cuda:2'), in_proj_covar=tensor([0.0280, 0.0216, 0.0307, 0.0256, 0.0208, 0.0310, 0.0274, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-03-31 23:29:09,603 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-03-31 23:29:10,633 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.859e+02 7.874e+02 9.907e+02 1.203e+03 2.411e+03, threshold=1.981e+03, percent-clipped=4.0
+2023-03-31 23:29:24,102 INFO [train.py:903] (2/4) Epoch 2, batch 6500, loss[loss=0.3581, simple_loss=0.3928, pruned_loss=0.1617, over 19488.00 frames. ], tot_loss[loss=0.3443, simple_loss=0.3855, pruned_loss=0.1515, over 3819081.71 frames. ], batch size: 49, lr: 2.91e-02, grad_scale: 8.0
+2023-03-31 23:29:29,966 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4561, 3.8287, 4.0303, 4.0284, 1.4226, 3.5585, 3.2297, 3.5684],
+       device='cuda:2'), covar=tensor([0.0580, 0.0496, 0.0499, 0.0308, 0.3282, 0.0262, 0.0431, 0.0963],
+       device='cuda:2'), in_proj_covar=tensor([0.0321, 0.0302, 0.0406, 0.0307, 0.0445, 0.0204, 0.0274, 0.0408],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-03-31 23:29:30,894 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-03-31 23:30:26,693 INFO [train.py:903] (2/4) Epoch 2, batch 6550, loss[loss=0.3458, simple_loss=0.3947, pruned_loss=0.1485, over 19681.00 frames. ], tot_loss[loss=0.3454, simple_loss=0.3866, pruned_loss=0.1521, over 3801716.66 frames. ], batch size: 60, lr: 2.90e-02, grad_scale: 8.0
+2023-03-31 23:31:14,488 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.467e+02 7.924e+02 9.507e+02 1.218e+03 2.525e+03, threshold=1.901e+03, percent-clipped=3.0
+2023-03-31 23:31:27,083 INFO [train.py:903] (2/4) Epoch 2, batch 6600, loss[loss=0.4007, simple_loss=0.4311, pruned_loss=0.1851, over 19559.00 frames. ], tot_loss[loss=0.3471, simple_loss=0.388, pruned_loss=0.1531, over 3817570.50 frames. ], batch size: 61, lr: 2.90e-02, grad_scale: 8.0
+2023-03-31 23:31:41,930 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7203, 1.4357, 1.3430, 2.0178, 1.5001, 2.0602, 2.0159, 1.8926],
+       device='cuda:2'), covar=tensor([0.0914, 0.1318, 0.1466, 0.1186, 0.1333, 0.0808, 0.1213, 0.0728],
+       device='cuda:2'), in_proj_covar=tensor([0.0272, 0.0304, 0.0289, 0.0331, 0.0334, 0.0265, 0.0309, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-03-31 23:31:52,571 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6094, 1.1059, 1.5074, 1.2055, 2.6269, 3.4586, 3.3974, 3.6594],
+       device='cuda:2'), covar=tensor([0.1276, 0.2660, 0.2658, 0.1985, 0.0404, 0.0130, 0.0194, 0.0102],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0272, 0.0324, 0.0275, 0.0187, 0.0107, 0.0191, 0.0110],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-03-31 23:32:29,098 INFO [train.py:903] (2/4) Epoch 2, batch 6650, loss[loss=0.4612, simple_loss=0.4584, pruned_loss=0.2319, over 12990.00 frames. ], tot_loss[loss=0.3495, simple_loss=0.3896, pruned_loss=0.1547, over 3817275.51 frames. ], batch size: 135, lr: 2.89e-02, grad_scale: 8.0
+2023-03-31 23:32:51,543 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=13496.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:33:08,242 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-03-31 23:33:17,439 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.558e+02 9.096e+02 1.181e+03 1.471e+03 3.411e+03, threshold=2.361e+03, percent-clipped=10.0
+2023-03-31 23:33:21,147 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=13521.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:33:29,653 INFO [train.py:903] (2/4) Epoch 2, batch 6700, loss[loss=0.3776, simple_loss=0.4114, pruned_loss=0.1719, over 19775.00 frames. ], tot_loss[loss=0.3507, simple_loss=0.3904, pruned_loss=0.1555, over 3818112.43 frames. ], batch size: 56, lr: 2.89e-02, grad_scale: 8.0
+2023-03-31 23:34:27,763 INFO [train.py:903] (2/4) Epoch 2, batch 6750, loss[loss=0.3777, simple_loss=0.4068, pruned_loss=0.1743, over 19590.00 frames. ], tot_loss[loss=0.3509, simple_loss=0.3904, pruned_loss=0.1557, over 3811806.93 frames. ], batch size: 52, lr: 2.88e-02, grad_scale: 8.0
+2023-03-31 23:35:12,680 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.052e+02 8.174e+02 9.996e+02 1.293e+03 2.664e+03, threshold=1.999e+03, percent-clipped=1.0
+2023-03-31 23:35:25,231 INFO [train.py:903] (2/4) Epoch 2, batch 6800, loss[loss=0.3645, simple_loss=0.3949, pruned_loss=0.1671, over 19787.00 frames. ], tot_loss[loss=0.3476, simple_loss=0.3878, pruned_loss=0.1537, over 3823919.62 frames. ], batch size: 47, lr: 2.88e-02, grad_scale: 8.0
+2023-03-31 23:36:10,332 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-03-31 23:36:10,804 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-03-31 23:36:13,729 INFO [train.py:903] (2/4) Epoch 3, batch 0, loss[loss=0.3695, simple_loss=0.4117, pruned_loss=0.1637, over 17305.00 frames. ], tot_loss[loss=0.3695, simple_loss=0.4117, pruned_loss=0.1637, over 17305.00 frames. ], batch size: 102, lr: 2.73e-02, grad_scale: 8.0
+2023-03-31 23:36:13,730 INFO [train.py:928] (2/4) Computing validation loss
+2023-03-31 23:36:24,494 INFO [train.py:937] (2/4) Epoch 3, validation: loss=0.241, simple_loss=0.3346, pruned_loss=0.07374, over 944034.00 frames. 
+2023-03-31 23:36:24,495 INFO [train.py:938] (2/4) Maximum memory allocated so far is 17686MB
+2023-03-31 23:36:37,410 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-03-31 23:37:25,517 INFO [train.py:903] (2/4) Epoch 3, batch 50, loss[loss=0.3446, simple_loss=0.3996, pruned_loss=0.1448, over 19599.00 frames. ], tot_loss[loss=0.3345, simple_loss=0.3783, pruned_loss=0.1453, over 874397.88 frames. ], batch size: 61, lr: 2.73e-02, grad_scale: 8.0
+2023-03-31 23:37:38,312 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.119e+02 7.787e+02 9.326e+02 1.115e+03 3.182e+03, threshold=1.865e+03, percent-clipped=5.0
+2023-03-31 23:37:58,984 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-03-31 23:38:24,031 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=13755.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:38:25,859 INFO [train.py:903] (2/4) Epoch 3, batch 100, loss[loss=0.3618, simple_loss=0.401, pruned_loss=0.1613, over 19646.00 frames. ], tot_loss[loss=0.3389, simple_loss=0.383, pruned_loss=0.1475, over 1521615.55 frames. ], batch size: 58, lr: 2.72e-02, grad_scale: 8.0
+2023-03-31 23:38:35,117 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-03-31 23:39:17,302 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4190, 1.0611, 1.4606, 0.8725, 2.6078, 3.1522, 3.1051, 3.3041],
+       device='cuda:2'), covar=tensor([0.1271, 0.2661, 0.2598, 0.2069, 0.0386, 0.0107, 0.0192, 0.0106],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0276, 0.0325, 0.0275, 0.0189, 0.0104, 0.0193, 0.0110],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-03-31 23:39:26,999 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
+2023-03-31 23:39:27,420 INFO [train.py:903] (2/4) Epoch 3, batch 150, loss[loss=0.3542, simple_loss=0.3918, pruned_loss=0.1583, over 18194.00 frames. ], tot_loss[loss=0.3372, simple_loss=0.3811, pruned_loss=0.1466, over 2045500.00 frames. ], batch size: 83, lr: 2.72e-02, grad_scale: 8.0
+2023-03-31 23:39:40,068 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.782e+02 7.521e+02 1.009e+03 1.351e+03 3.530e+03, threshold=2.018e+03, percent-clipped=10.0
+2023-03-31 23:40:28,882 INFO [train.py:903] (2/4) Epoch 3, batch 200, loss[loss=0.4106, simple_loss=0.4338, pruned_loss=0.1937, over 18176.00 frames. ], tot_loss[loss=0.337, simple_loss=0.3812, pruned_loss=0.1464, over 2449590.62 frames. ], batch size: 83, lr: 2.71e-02, grad_scale: 8.0
+2023-03-31 23:40:28,933 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-03-31 23:41:28,996 INFO [train.py:903] (2/4) Epoch 3, batch 250, loss[loss=0.3528, simple_loss=0.3933, pruned_loss=0.1562, over 19633.00 frames. ], tot_loss[loss=0.3405, simple_loss=0.3838, pruned_loss=0.1487, over 2761792.24 frames. ], batch size: 60, lr: 2.71e-02, grad_scale: 8.0
+2023-03-31 23:41:36,400 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6049, 1.4660, 1.2584, 1.6115, 1.4546, 1.5736, 1.3588, 1.6329],
+       device='cuda:2'), covar=tensor([0.0951, 0.1703, 0.1495, 0.1021, 0.1315, 0.0627, 0.1086, 0.0703],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0389, 0.0292, 0.0259, 0.0327, 0.0274, 0.0281, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:41:44,257 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.886e+02 8.729e+02 1.056e+03 1.304e+03 3.760e+03, threshold=2.113e+03, percent-clipped=6.0
+2023-03-31 23:42:33,082 INFO [train.py:903] (2/4) Epoch 3, batch 300, loss[loss=0.2992, simple_loss=0.3512, pruned_loss=0.1236, over 19679.00 frames. ], tot_loss[loss=0.3376, simple_loss=0.3813, pruned_loss=0.1469, over 3003619.65 frames. ], batch size: 53, lr: 2.71e-02, grad_scale: 8.0
+2023-03-31 23:43:34,502 INFO [train.py:903] (2/4) Epoch 3, batch 350, loss[loss=0.3258, simple_loss=0.3771, pruned_loss=0.1372, over 19586.00 frames. ], tot_loss[loss=0.3382, simple_loss=0.3819, pruned_loss=0.1473, over 3175835.25 frames. ], batch size: 61, lr: 2.70e-02, grad_scale: 8.0
+2023-03-31 23:43:40,055 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-03-31 23:43:43,604 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6384, 1.5957, 1.4239, 1.9557, 3.4141, 1.4427, 2.0813, 3.4155],
+       device='cuda:2'), covar=tensor([0.0259, 0.2103, 0.2074, 0.1372, 0.0348, 0.1883, 0.1009, 0.0311],
+       device='cuda:2'), in_proj_covar=tensor([0.0239, 0.0310, 0.0295, 0.0277, 0.0275, 0.0326, 0.0270, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:43:46,965 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.582e+02 7.628e+02 9.853e+02 1.217e+03 3.369e+03, threshold=1.971e+03, percent-clipped=3.0
+2023-03-31 23:44:04,071 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5857, 1.1945, 1.4664, 1.1545, 2.7147, 3.3135, 3.3295, 3.5799],
+       device='cuda:2'), covar=tensor([0.1313, 0.2798, 0.2877, 0.2039, 0.0439, 0.0158, 0.0213, 0.0132],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0277, 0.0328, 0.0272, 0.0189, 0.0105, 0.0191, 0.0109],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-03-31 23:44:06,784 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.76 vs. limit=5.0
+2023-03-31 23:44:34,939 INFO [train.py:903] (2/4) Epoch 3, batch 400, loss[loss=0.3247, simple_loss=0.371, pruned_loss=0.1392, over 18756.00 frames. ], tot_loss[loss=0.336, simple_loss=0.3794, pruned_loss=0.1463, over 3310565.11 frames. ], batch size: 74, lr: 2.70e-02, grad_scale: 8.0
+2023-03-31 23:45:17,164 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14090.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:45:27,290 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14099.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:45:36,304 INFO [train.py:903] (2/4) Epoch 3, batch 450, loss[loss=0.3624, simple_loss=0.4043, pruned_loss=0.1602, over 18761.00 frames. ], tot_loss[loss=0.3371, simple_loss=0.3807, pruned_loss=0.1467, over 3420741.41 frames. ], batch size: 74, lr: 2.69e-02, grad_scale: 8.0
+2023-03-31 23:45:52,385 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.440e+02 8.213e+02 1.015e+03 1.206e+03 3.609e+03, threshold=2.029e+03, percent-clipped=6.0
+2023-03-31 23:45:55,985 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14121.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:46:10,177 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-03-31 23:46:11,139 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-03-31 23:46:14,955 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14138.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 23:46:25,079 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2479, 1.1991, 1.9884, 1.4488, 2.6539, 2.4814, 2.9637, 1.1935],
+       device='cuda:2'), covar=tensor([0.1345, 0.2104, 0.1145, 0.1191, 0.0768, 0.0818, 0.0903, 0.1861],
+       device='cuda:2'), in_proj_covar=tensor([0.0385, 0.0423, 0.0388, 0.0373, 0.0456, 0.0369, 0.0532, 0.0392],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:46:38,896 INFO [train.py:903] (2/4) Epoch 3, batch 500, loss[loss=0.2767, simple_loss=0.3257, pruned_loss=0.1138, over 19013.00 frames. ], tot_loss[loss=0.3386, simple_loss=0.3816, pruned_loss=0.1479, over 3506219.48 frames. ], batch size: 42, lr: 2.69e-02, grad_scale: 8.0
+2023-03-31 23:47:38,980 INFO [train.py:903] (2/4) Epoch 3, batch 550, loss[loss=0.4295, simple_loss=0.4395, pruned_loss=0.2098, over 12751.00 frames. ], tot_loss[loss=0.3403, simple_loss=0.3831, pruned_loss=0.1488, over 3559514.60 frames. ], batch size: 136, lr: 2.68e-02, grad_scale: 8.0
+2023-03-31 23:47:47,514 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14214.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:47:51,335 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.716e+02 8.063e+02 9.949e+02 1.307e+03 2.222e+03, threshold=1.990e+03, percent-clipped=3.0
+2023-03-31 23:48:38,812 INFO [train.py:903] (2/4) Epoch 3, batch 600, loss[loss=0.3686, simple_loss=0.4011, pruned_loss=0.168, over 19465.00 frames. ], tot_loss[loss=0.3402, simple_loss=0.3828, pruned_loss=0.1488, over 3626050.24 frames. ], batch size: 64, lr: 2.68e-02, grad_scale: 8.0
+2023-03-31 23:49:16,719 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-03-31 23:49:39,173 INFO [train.py:903] (2/4) Epoch 3, batch 650, loss[loss=0.3576, simple_loss=0.3961, pruned_loss=0.1595, over 19598.00 frames. ], tot_loss[loss=0.3391, simple_loss=0.3826, pruned_loss=0.1478, over 3676385.53 frames. ], batch size: 61, lr: 2.68e-02, grad_scale: 8.0
+2023-03-31 23:49:54,626 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.103e+02 8.257e+02 1.098e+03 1.322e+03 3.191e+03, threshold=2.197e+03, percent-clipped=10.0
+2023-03-31 23:50:41,500 INFO [train.py:903] (2/4) Epoch 3, batch 700, loss[loss=0.344, simple_loss=0.3897, pruned_loss=0.1491, over 18295.00 frames. ], tot_loss[loss=0.3387, simple_loss=0.3825, pruned_loss=0.1475, over 3696239.16 frames. ], batch size: 84, lr: 2.67e-02, grad_scale: 8.0
+2023-03-31 23:51:43,792 INFO [train.py:903] (2/4) Epoch 3, batch 750, loss[loss=0.318, simple_loss=0.3689, pruned_loss=0.1335, over 19824.00 frames. ], tot_loss[loss=0.3382, simple_loss=0.3822, pruned_loss=0.1471, over 3720711.47 frames. ], batch size: 52, lr: 2.67e-02, grad_scale: 8.0
+2023-03-31 23:51:56,452 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.299e+02 7.798e+02 9.551e+02 1.191e+03 2.807e+03, threshold=1.910e+03, percent-clipped=6.0
+2023-03-31 23:52:11,605 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14431.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:52:14,917 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14434.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:52:24,845 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0695, 2.0891, 1.7541, 3.2751, 2.2259, 3.3215, 2.8422, 1.9661],
+       device='cuda:2'), covar=tensor([0.0833, 0.0583, 0.0408, 0.0342, 0.0740, 0.0156, 0.0635, 0.0542],
+       device='cuda:2'), in_proj_covar=tensor([0.0422, 0.0392, 0.0401, 0.0530, 0.0475, 0.0299, 0.0498, 0.0399],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:52:44,745 INFO [train.py:903] (2/4) Epoch 3, batch 800, loss[loss=0.3111, simple_loss=0.3434, pruned_loss=0.1394, over 16521.00 frames. ], tot_loss[loss=0.3363, simple_loss=0.3808, pruned_loss=0.146, over 3728306.63 frames. ], batch size: 36, lr: 2.66e-02, grad_scale: 8.0
+2023-03-31 23:52:53,889 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14465.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:52:54,914 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-03-31 23:52:59,813 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14470.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:53:15,266 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14482.0, num_to_drop=1, layers_to_drop={1}
+2023-03-31 23:53:31,039 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14495.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:53:42,679 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14505.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:53:44,743 INFO [train.py:903] (2/4) Epoch 3, batch 850, loss[loss=0.3336, simple_loss=0.3609, pruned_loss=0.1532, over 19275.00 frames. ], tot_loss[loss=0.3377, simple_loss=0.3811, pruned_loss=0.1471, over 3747529.45 frames. ], batch size: 44, lr: 2.66e-02, grad_scale: 8.0
+2023-03-31 23:53:58,375 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.292e+02 8.633e+02 1.105e+03 1.534e+03 3.114e+03, threshold=2.210e+03, percent-clipped=11.0
+2023-03-31 23:54:20,419 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.82 vs. limit=5.0
+2023-03-31 23:54:32,139 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-03-31 23:54:35,834 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14549.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:54:40,442 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6885, 1.5187, 1.3594, 1.7246, 1.5698, 1.7477, 1.4864, 1.7392],
+       device='cuda:2'), covar=tensor([0.0829, 0.1340, 0.1202, 0.0771, 0.1078, 0.0481, 0.0880, 0.0558],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0378, 0.0290, 0.0257, 0.0321, 0.0270, 0.0281, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:54:45,552 INFO [train.py:903] (2/4) Epoch 3, batch 900, loss[loss=0.2915, simple_loss=0.3465, pruned_loss=0.1183, over 19850.00 frames. ], tot_loss[loss=0.337, simple_loss=0.3807, pruned_loss=0.1466, over 3765353.41 frames. ], batch size: 52, lr: 2.66e-02, grad_scale: 8.0
+2023-03-31 23:55:15,233 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14580.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:55:33,842 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14597.0, num_to_drop=1, layers_to_drop={0}
+2023-03-31 23:55:46,728 INFO [train.py:903] (2/4) Epoch 3, batch 950, loss[loss=0.3104, simple_loss=0.3595, pruned_loss=0.1306, over 19803.00 frames. ], tot_loss[loss=0.3364, simple_loss=0.3806, pruned_loss=0.1461, over 3784029.53 frames. ], batch size: 49, lr: 2.65e-02, grad_scale: 4.0
+2023-03-31 23:55:46,741 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-03-31 23:56:00,996 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.858e+02 7.381e+02 9.246e+02 1.263e+03 4.500e+03, threshold=1.849e+03, percent-clipped=5.0
+2023-03-31 23:56:46,902 INFO [train.py:903] (2/4) Epoch 3, batch 1000, loss[loss=0.3173, simple_loss=0.3763, pruned_loss=0.1291, over 19778.00 frames. ], tot_loss[loss=0.3391, simple_loss=0.3827, pruned_loss=0.1477, over 3774725.87 frames. ], batch size: 56, lr: 2.65e-02, grad_scale: 4.0
+2023-03-31 23:57:13,176 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
+2023-03-31 23:57:38,714 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-03-31 23:57:47,678 INFO [train.py:903] (2/4) Epoch 3, batch 1050, loss[loss=0.3877, simple_loss=0.4236, pruned_loss=0.1759, over 18909.00 frames. ], tot_loss[loss=0.3373, simple_loss=0.3815, pruned_loss=0.1465, over 3786037.52 frames. ], batch size: 75, lr: 2.64e-02, grad_scale: 4.0
+2023-03-31 23:57:55,773 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7228, 1.2070, 1.5087, 1.9214, 3.3146, 1.2700, 2.1233, 3.3682],
+       device='cuda:2'), covar=tensor([0.0288, 0.2584, 0.2258, 0.1398, 0.0363, 0.2063, 0.1049, 0.0374],
+       device='cuda:2'), in_proj_covar=tensor([0.0237, 0.0306, 0.0294, 0.0282, 0.0279, 0.0323, 0.0267, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:58:01,066 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.125e+02 7.305e+02 8.951e+02 1.118e+03 2.421e+03, threshold=1.790e+03, percent-clipped=2.0
+2023-03-31 23:58:17,608 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-03-31 23:58:39,313 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0448, 1.0071, 1.4871, 1.1397, 1.8042, 1.7025, 1.9832, 0.5235],
+       device='cuda:2'), covar=tensor([0.1422, 0.2195, 0.1159, 0.1327, 0.0820, 0.1108, 0.0770, 0.1929],
+       device='cuda:2'), in_proj_covar=tensor([0.0398, 0.0426, 0.0397, 0.0385, 0.0465, 0.0378, 0.0551, 0.0397],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-03-31 23:58:48,364 INFO [train.py:903] (2/4) Epoch 3, batch 1100, loss[loss=0.3836, simple_loss=0.4111, pruned_loss=0.1781, over 13100.00 frames. ], tot_loss[loss=0.335, simple_loss=0.3798, pruned_loss=0.1451, over 3795641.45 frames. ], batch size: 137, lr: 2.64e-02, grad_scale: 4.0
+2023-03-31 23:58:49,831 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=14758.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:59:10,902 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14775.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:59:20,667 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
+2023-03-31 23:59:47,773 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14805.0, num_to_drop=0, layers_to_drop=set()
+2023-03-31 23:59:49,457 INFO [train.py:903] (2/4) Epoch 3, batch 1150, loss[loss=0.3068, simple_loss=0.3438, pruned_loss=0.1348, over 19796.00 frames. ], tot_loss[loss=0.3335, simple_loss=0.3781, pruned_loss=0.1445, over 3798429.38 frames. ], batch size: 46, lr: 2.64e-02, grad_scale: 4.0
+2023-04-01 00:00:03,884 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.960e+02 7.465e+02 1.021e+03 1.238e+03 3.548e+03, threshold=2.043e+03, percent-clipped=7.0
+2023-04-01 00:00:16,789 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14830.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:00:23,667 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14836.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:00:40,914 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=14849.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:00:45,743 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=14853.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 00:00:49,939 INFO [train.py:903] (2/4) Epoch 3, batch 1200, loss[loss=0.3192, simple_loss=0.3745, pruned_loss=0.1319, over 18773.00 frames. ], tot_loss[loss=0.3328, simple_loss=0.3777, pruned_loss=0.144, over 3809114.95 frames. ], batch size: 74, lr: 2.63e-02, grad_scale: 8.0
+2023-04-01 00:00:55,832 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14861.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:01:15,139 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=14878.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 00:01:17,859 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 00:01:31,308 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14890.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:01:51,491 INFO [train.py:903] (2/4) Epoch 3, batch 1250, loss[loss=0.3539, simple_loss=0.4033, pruned_loss=0.1523, over 19544.00 frames. ], tot_loss[loss=0.3337, simple_loss=0.3782, pruned_loss=0.1446, over 3815240.03 frames. ], batch size: 56, lr: 2.63e-02, grad_scale: 8.0
+2023-04-01 00:02:05,941 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.325e+02 7.701e+02 1.002e+03 1.250e+03 2.941e+03, threshold=2.004e+03, percent-clipped=3.0
+2023-04-01 00:02:20,103 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4540, 4.4499, 5.2322, 5.0965, 2.0254, 4.7326, 4.3460, 4.6959],
+       device='cuda:2'), covar=tensor([0.0448, 0.0520, 0.0290, 0.0205, 0.2642, 0.0178, 0.0262, 0.0665],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0315, 0.0448, 0.0343, 0.0466, 0.0234, 0.0300, 0.0436],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 00:02:42,272 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.81 vs. limit=2.0
+2023-04-01 00:02:53,118 INFO [train.py:903] (2/4) Epoch 3, batch 1300, loss[loss=0.325, simple_loss=0.3828, pruned_loss=0.1336, over 19760.00 frames. ], tot_loss[loss=0.3318, simple_loss=0.3771, pruned_loss=0.1433, over 3812488.75 frames. ], batch size: 56, lr: 2.62e-02, grad_scale: 8.0
+2023-04-01 00:03:02,122 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=14964.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:03:54,919 INFO [train.py:903] (2/4) Epoch 3, batch 1350, loss[loss=0.2586, simple_loss=0.3149, pruned_loss=0.1012, over 19469.00 frames. ], tot_loss[loss=0.3322, simple_loss=0.377, pruned_loss=0.1437, over 3828488.31 frames. ], batch size: 49, lr: 2.62e-02, grad_scale: 8.0
+2023-04-01 00:04:08,775 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2119, 1.2255, 1.8097, 1.4741, 2.2836, 2.0818, 2.3882, 0.8515],
+       device='cuda:2'), covar=tensor([0.1292, 0.2108, 0.1132, 0.1156, 0.0752, 0.0954, 0.0784, 0.1815],
+       device='cuda:2'), in_proj_covar=tensor([0.0399, 0.0435, 0.0402, 0.0386, 0.0468, 0.0378, 0.0552, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:04:10,656 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.789e+02 8.351e+02 9.883e+02 1.225e+03 3.360e+03, threshold=1.977e+03, percent-clipped=2.0
+2023-04-01 00:04:21,275 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0227, 4.8494, 5.8263, 5.7166, 1.9380, 5.3679, 4.8375, 5.1860],
+       device='cuda:2'), covar=tensor([0.0507, 0.0405, 0.0431, 0.0239, 0.3129, 0.0186, 0.0260, 0.0897],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0308, 0.0443, 0.0334, 0.0460, 0.0232, 0.0293, 0.0423],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 00:04:57,767 INFO [train.py:903] (2/4) Epoch 3, batch 1400, loss[loss=0.3659, simple_loss=0.3984, pruned_loss=0.1667, over 19594.00 frames. ], tot_loss[loss=0.3315, simple_loss=0.3768, pruned_loss=0.1431, over 3832591.37 frames. ], batch size: 57, lr: 2.62e-02, grad_scale: 8.0
+2023-04-01 00:05:23,838 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-01 00:05:53,868 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=15102.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:05:59,128 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 00:06:00,259 INFO [train.py:903] (2/4) Epoch 3, batch 1450, loss[loss=0.3477, simple_loss=0.3983, pruned_loss=0.1486, over 17381.00 frames. ], tot_loss[loss=0.3318, simple_loss=0.3775, pruned_loss=0.143, over 3839289.79 frames. ], batch size: 101, lr: 2.61e-02, grad_scale: 8.0
+2023-04-01 00:06:13,784 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.668e+02 7.923e+02 9.351e+02 1.150e+03 2.880e+03, threshold=1.870e+03, percent-clipped=3.0
+2023-04-01 00:06:49,295 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=15146.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:07:01,535 INFO [train.py:903] (2/4) Epoch 3, batch 1500, loss[loss=0.3796, simple_loss=0.4195, pruned_loss=0.1698, over 19678.00 frames. ], tot_loss[loss=0.3342, simple_loss=0.3794, pruned_loss=0.1445, over 3815814.59 frames. ], batch size: 60, lr: 2.61e-02, grad_scale: 8.0
+2023-04-01 00:07:20,419 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=15171.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:08:03,674 INFO [train.py:903] (2/4) Epoch 3, batch 1550, loss[loss=0.3395, simple_loss=0.3762, pruned_loss=0.1514, over 19774.00 frames. ], tot_loss[loss=0.3323, simple_loss=0.3781, pruned_loss=0.1432, over 3829898.59 frames. ], batch size: 54, lr: 2.60e-02, grad_scale: 8.0
+2023-04-01 00:08:12,805 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=15213.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:08:18,432 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=15217.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:08:20,279 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.312e+02 7.825e+02 9.432e+02 1.149e+03 3.008e+03, threshold=1.886e+03, percent-clipped=3.0
+2023-04-01 00:08:21,853 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=15220.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:08:24,498 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
+2023-04-01 00:08:52,273 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=15245.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:09:08,812 INFO [train.py:903] (2/4) Epoch 3, batch 1600, loss[loss=0.3698, simple_loss=0.4088, pruned_loss=0.1654, over 17429.00 frames. ], tot_loss[loss=0.3325, simple_loss=0.378, pruned_loss=0.1435, over 3815754.76 frames. ], batch size: 101, lr: 2.60e-02, grad_scale: 8.0
+2023-04-01 00:09:32,835 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 00:10:10,183 INFO [train.py:903] (2/4) Epoch 3, batch 1650, loss[loss=0.3661, simple_loss=0.4026, pruned_loss=0.1648, over 19662.00 frames. ], tot_loss[loss=0.3325, simple_loss=0.3779, pruned_loss=0.1435, over 3811847.07 frames. ], batch size: 55, lr: 2.60e-02, grad_scale: 8.0
+2023-04-01 00:10:24,984 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.775e+02 8.096e+02 9.310e+02 1.117e+03 2.889e+03, threshold=1.862e+03, percent-clipped=6.0
+2023-04-01 00:10:52,990 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9377, 1.8912, 1.8019, 2.9492, 1.9100, 3.0814, 2.6625, 1.8756],
+       device='cuda:2'), covar=tensor([0.0984, 0.0732, 0.0472, 0.0442, 0.0889, 0.0208, 0.0752, 0.0672],
+       device='cuda:2'), in_proj_covar=tensor([0.0433, 0.0407, 0.0414, 0.0547, 0.0483, 0.0317, 0.0507, 0.0412],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:11:11,888 INFO [train.py:903] (2/4) Epoch 3, batch 1700, loss[loss=0.3229, simple_loss=0.3676, pruned_loss=0.1391, over 19681.00 frames. ], tot_loss[loss=0.3335, simple_loss=0.3784, pruned_loss=0.1443, over 3811750.10 frames. ], batch size: 53, lr: 2.59e-02, grad_scale: 8.0
+2023-04-01 00:11:46,112 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3714, 2.1273, 1.6384, 1.7390, 1.9281, 1.1058, 1.1530, 1.8481],
+       device='cuda:2'), covar=tensor([0.0766, 0.0471, 0.1026, 0.0483, 0.0485, 0.1180, 0.0804, 0.0465],
+       device='cuda:2'), in_proj_covar=tensor([0.0289, 0.0235, 0.0313, 0.0257, 0.0216, 0.0315, 0.0279, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:11:50,343 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 00:12:13,189 INFO [train.py:903] (2/4) Epoch 3, batch 1750, loss[loss=0.3644, simple_loss=0.4104, pruned_loss=0.1592, over 19544.00 frames. ], tot_loss[loss=0.3336, simple_loss=0.3783, pruned_loss=0.1444, over 3808097.70 frames. ], batch size: 54, lr: 2.59e-02, grad_scale: 8.0
+2023-04-01 00:12:30,191 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.268e+02 8.359e+02 1.065e+03 1.276e+03 4.198e+03, threshold=2.129e+03, percent-clipped=6.0
+2023-04-01 00:13:17,303 INFO [train.py:903] (2/4) Epoch 3, batch 1800, loss[loss=0.3239, simple_loss=0.3788, pruned_loss=0.1345, over 19579.00 frames. ], tot_loss[loss=0.3327, simple_loss=0.3777, pruned_loss=0.1438, over 3813511.78 frames. ], batch size: 61, lr: 2.58e-02, grad_scale: 8.0
+2023-04-01 00:13:37,329 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=15473.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:13:54,484 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8539, 1.0270, 1.3962, 1.4191, 2.4337, 1.3659, 1.9113, 2.4379],
+       device='cuda:2'), covar=tensor([0.0529, 0.2719, 0.2477, 0.1576, 0.0683, 0.1867, 0.0978, 0.0651],
+       device='cuda:2'), in_proj_covar=tensor([0.0245, 0.0300, 0.0293, 0.0277, 0.0284, 0.0320, 0.0268, 0.0279],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:14:07,901 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=15498.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:14:14,398 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 00:14:17,664 INFO [train.py:903] (2/4) Epoch 3, batch 1850, loss[loss=0.324, simple_loss=0.3818, pruned_loss=0.1331, over 19682.00 frames. ], tot_loss[loss=0.3303, simple_loss=0.3762, pruned_loss=0.1422, over 3826858.39 frames. ], batch size: 60, lr: 2.58e-02, grad_scale: 8.0
+2023-04-01 00:14:19,354 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-01 00:14:32,128 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.736e+02 7.448e+02 9.407e+02 1.169e+03 2.273e+03, threshold=1.881e+03, percent-clipped=1.0
+2023-04-01 00:14:50,378 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 00:15:18,043 INFO [train.py:903] (2/4) Epoch 3, batch 1900, loss[loss=0.3423, simple_loss=0.3857, pruned_loss=0.1495, over 18723.00 frames. ], tot_loss[loss=0.3324, simple_loss=0.3776, pruned_loss=0.1437, over 3814538.54 frames. ], batch size: 74, lr: 2.58e-02, grad_scale: 8.0
+2023-04-01 00:15:18,210 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=15557.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:15:36,161 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 00:15:41,742 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 00:15:55,569 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.8891, 5.3936, 2.8297, 4.7055, 1.4536, 5.2670, 5.2250, 5.5320],
+       device='cuda:2'), covar=tensor([0.0367, 0.0866, 0.1802, 0.0545, 0.3533, 0.0723, 0.0462, 0.0556],
+       device='cuda:2'), in_proj_covar=tensor([0.0315, 0.0296, 0.0327, 0.0270, 0.0343, 0.0285, 0.0239, 0.0270],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 00:16:01,253 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9685, 1.2820, 1.6079, 1.6811, 2.6105, 1.3855, 1.8083, 2.7119],
+       device='cuda:2'), covar=tensor([0.0394, 0.2364, 0.2065, 0.1281, 0.0481, 0.1791, 0.0956, 0.0454],
+       device='cuda:2'), in_proj_covar=tensor([0.0242, 0.0299, 0.0290, 0.0273, 0.0280, 0.0317, 0.0266, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:16:04,600 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 00:16:19,672 INFO [train.py:903] (2/4) Epoch 3, batch 1950, loss[loss=0.3462, simple_loss=0.3975, pruned_loss=0.1474, over 19536.00 frames. ], tot_loss[loss=0.3313, simple_loss=0.3767, pruned_loss=0.143, over 3813943.18 frames. ], batch size: 56, lr: 2.57e-02, grad_scale: 8.0
+2023-04-01 00:16:36,886 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.560e+02 7.789e+02 9.617e+02 1.296e+03 2.448e+03, threshold=1.923e+03, percent-clipped=3.0
+2023-04-01 00:16:39,487 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2829, 1.7821, 1.9674, 2.3238, 2.0146, 2.1982, 2.5062, 2.3736],
+       device='cuda:2'), covar=tensor([0.0645, 0.0998, 0.1014, 0.0974, 0.1023, 0.0802, 0.0783, 0.0556],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0298, 0.0283, 0.0326, 0.0325, 0.0271, 0.0304, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004],
+       device='cuda:2')
+2023-04-01 00:16:45,204 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2757, 1.1776, 1.2854, 1.7117, 2.9219, 1.3596, 2.0503, 2.8752],
+       device='cuda:2'), covar=tensor([0.0318, 0.2463, 0.2370, 0.1340, 0.0399, 0.1974, 0.0970, 0.0447],
+       device='cuda:2'), in_proj_covar=tensor([0.0243, 0.0301, 0.0293, 0.0274, 0.0281, 0.0317, 0.0267, 0.0279],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:16:57,467 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4171, 0.9239, 1.2238, 1.3131, 2.2288, 1.1334, 1.8271, 2.0422],
+       device='cuda:2'), covar=tensor([0.0528, 0.2654, 0.2451, 0.1365, 0.0553, 0.1814, 0.0849, 0.0691],
+       device='cuda:2'), in_proj_covar=tensor([0.0244, 0.0303, 0.0295, 0.0276, 0.0281, 0.0319, 0.0268, 0.0279],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:17:22,859 INFO [train.py:903] (2/4) Epoch 3, batch 2000, loss[loss=0.3899, simple_loss=0.4134, pruned_loss=0.1832, over 17460.00 frames. ], tot_loss[loss=0.3334, simple_loss=0.3783, pruned_loss=0.1442, over 3813053.84 frames. ], batch size: 101, lr: 2.57e-02, grad_scale: 8.0
+2023-04-01 00:17:41,449 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=15672.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:18:20,139 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 00:18:23,579 INFO [train.py:903] (2/4) Epoch 3, batch 2050, loss[loss=0.3295, simple_loss=0.3736, pruned_loss=0.1427, over 19764.00 frames. ], tot_loss[loss=0.3343, simple_loss=0.3792, pruned_loss=0.1447, over 3818451.80 frames. ], batch size: 54, lr: 2.57e-02, grad_scale: 8.0
+2023-04-01 00:18:38,223 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.734e+02 7.410e+02 9.269e+02 1.172e+03 2.915e+03, threshold=1.854e+03, percent-clipped=8.0
+2023-04-01 00:18:38,375 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 00:18:39,622 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 00:18:58,690 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 00:19:25,007 INFO [train.py:903] (2/4) Epoch 3, batch 2100, loss[loss=0.2771, simple_loss=0.3295, pruned_loss=0.1124, over 19781.00 frames. ], tot_loss[loss=0.3313, simple_loss=0.3767, pruned_loss=0.143, over 3825275.23 frames. ], batch size: 47, lr: 2.56e-02, grad_scale: 8.0
+2023-04-01 00:19:52,252 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 00:20:09,571 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1468, 4.8740, 5.9274, 5.7464, 1.9640, 5.4698, 4.8437, 5.2835],
+       device='cuda:2'), covar=tensor([0.0451, 0.0501, 0.0330, 0.0255, 0.3128, 0.0161, 0.0330, 0.0781],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0336, 0.0458, 0.0345, 0.0476, 0.0236, 0.0306, 0.0439],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 00:20:13,820 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 00:20:25,852 INFO [train.py:903] (2/4) Epoch 3, batch 2150, loss[loss=0.3296, simple_loss=0.3808, pruned_loss=0.1392, over 19096.00 frames. ], tot_loss[loss=0.3305, simple_loss=0.3761, pruned_loss=0.1425, over 3804878.27 frames. ], batch size: 69, lr: 2.56e-02, grad_scale: 8.0
+2023-04-01 00:20:42,352 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.336e+02 7.356e+02 9.022e+02 1.284e+03 2.686e+03, threshold=1.804e+03, percent-clipped=4.0
+2023-04-01 00:21:28,851 INFO [train.py:903] (2/4) Epoch 3, batch 2200, loss[loss=0.3185, simple_loss=0.3741, pruned_loss=0.1314, over 19618.00 frames. ], tot_loss[loss=0.3299, simple_loss=0.3756, pruned_loss=0.1421, over 3808631.92 frames. ], batch size: 57, lr: 2.55e-02, grad_scale: 8.0
+2023-04-01 00:22:23,692 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=15901.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:22:30,401 INFO [train.py:903] (2/4) Epoch 3, batch 2250, loss[loss=0.2637, simple_loss=0.3233, pruned_loss=0.102, over 19737.00 frames. ], tot_loss[loss=0.3291, simple_loss=0.3754, pruned_loss=0.1414, over 3810735.51 frames. ], batch size: 45, lr: 2.55e-02, grad_scale: 8.0
+2023-04-01 00:22:44,788 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.843e+02 7.012e+02 9.226e+02 1.146e+03 2.721e+03, threshold=1.845e+03, percent-clipped=4.0
+2023-04-01 00:22:55,707 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=15928.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:23:08,197 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-01 00:23:26,928 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=15953.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:23:31,837 INFO [train.py:903] (2/4) Epoch 3, batch 2300, loss[loss=0.3492, simple_loss=0.3779, pruned_loss=0.1602, over 19621.00 frames. ], tot_loss[loss=0.3282, simple_loss=0.3747, pruned_loss=0.1408, over 3811482.92 frames. ], batch size: 50, lr: 2.55e-02, grad_scale: 8.0
+2023-04-01 00:23:44,534 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 00:23:57,228 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
+2023-04-01 00:24:33,418 INFO [train.py:903] (2/4) Epoch 3, batch 2350, loss[loss=0.3513, simple_loss=0.3827, pruned_loss=0.1599, over 19619.00 frames. ], tot_loss[loss=0.3279, simple_loss=0.3745, pruned_loss=0.1406, over 3810753.57 frames. ], batch size: 50, lr: 2.54e-02, grad_scale: 8.0
+2023-04-01 00:24:48,796 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.022e+02 7.519e+02 9.138e+02 1.115e+03 3.205e+03, threshold=1.828e+03, percent-clipped=8.0
+2023-04-01 00:24:50,002 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16019.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:25:07,155 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9965, 1.9063, 1.4289, 1.3973, 1.6633, 0.9305, 0.8294, 1.6000],
+       device='cuda:2'), covar=tensor([0.0830, 0.0543, 0.1007, 0.0533, 0.0494, 0.1268, 0.0711, 0.0416],
+       device='cuda:2'), in_proj_covar=tensor([0.0283, 0.0227, 0.0309, 0.0259, 0.0214, 0.0309, 0.0274, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:25:15,405 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 00:25:31,110 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 00:25:34,308 INFO [train.py:903] (2/4) Epoch 3, batch 2400, loss[loss=0.3611, simple_loss=0.3999, pruned_loss=0.1612, over 17465.00 frames. ], tot_loss[loss=0.3283, simple_loss=0.3748, pruned_loss=0.1409, over 3822234.32 frames. ], batch size: 101, lr: 2.54e-02, grad_scale: 8.0
+2023-04-01 00:25:58,805 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9193, 1.5728, 1.7807, 2.2119, 4.3337, 1.2828, 2.2834, 3.8024],
+       device='cuda:2'), covar=tensor([0.0198, 0.2484, 0.2439, 0.1466, 0.0352, 0.2301, 0.1156, 0.0427],
+       device='cuda:2'), in_proj_covar=tensor([0.0240, 0.0295, 0.0293, 0.0269, 0.0280, 0.0319, 0.0261, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:26:23,876 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4785, 1.6934, 2.4039, 2.9102, 1.8809, 2.4544, 2.0815, 2.8680],
+       device='cuda:2'), covar=tensor([0.0670, 0.1801, 0.0937, 0.0704, 0.1219, 0.0442, 0.0806, 0.0450],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0387, 0.0286, 0.0253, 0.0319, 0.0262, 0.0271, 0.0237],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:26:33,084 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16103.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:26:37,322 INFO [train.py:903] (2/4) Epoch 3, batch 2450, loss[loss=0.282, simple_loss=0.3466, pruned_loss=0.1087, over 19685.00 frames. ], tot_loss[loss=0.3285, simple_loss=0.3747, pruned_loss=0.1411, over 3821805.64 frames. ], batch size: 59, lr: 2.54e-02, grad_scale: 8.0
+2023-04-01 00:26:51,588 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.658e+02 8.374e+02 9.822e+02 1.305e+03 3.634e+03, threshold=1.964e+03, percent-clipped=9.0
+2023-04-01 00:27:20,469 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2402, 2.1223, 1.8979, 3.2895, 2.4846, 4.0510, 3.3404, 1.8194],
+       device='cuda:2'), covar=tensor([0.1224, 0.0906, 0.0521, 0.0624, 0.1070, 0.0188, 0.0798, 0.0818],
+       device='cuda:2'), in_proj_covar=tensor([0.0449, 0.0419, 0.0423, 0.0558, 0.0500, 0.0329, 0.0516, 0.0420],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:27:38,202 INFO [train.py:903] (2/4) Epoch 3, batch 2500, loss[loss=0.3816, simple_loss=0.4098, pruned_loss=0.1766, over 17285.00 frames. ], tot_loss[loss=0.3286, simple_loss=0.3747, pruned_loss=0.1413, over 3815939.71 frames. ], batch size: 101, lr: 2.53e-02, grad_scale: 8.0
+2023-04-01 00:27:50,907 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16167.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:28:40,061 INFO [train.py:903] (2/4) Epoch 3, batch 2550, loss[loss=0.3762, simple_loss=0.4029, pruned_loss=0.1747, over 12686.00 frames. ], tot_loss[loss=0.3298, simple_loss=0.3754, pruned_loss=0.1421, over 3805040.27 frames. ], batch size: 136, lr: 2.53e-02, grad_scale: 8.0
+2023-04-01 00:28:56,250 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.521e+02 7.641e+02 9.209e+02 1.283e+03 2.881e+03, threshold=1.842e+03, percent-clipped=1.0
+2023-04-01 00:29:28,552 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16245.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:29:36,514 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 00:29:44,030 INFO [train.py:903] (2/4) Epoch 3, batch 2600, loss[loss=0.2912, simple_loss=0.3398, pruned_loss=0.1213, over 19733.00 frames. ], tot_loss[loss=0.3303, simple_loss=0.3755, pruned_loss=0.1425, over 3807774.97 frames. ], batch size: 51, lr: 2.53e-02, grad_scale: 8.0
+2023-04-01 00:29:59,769 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
+2023-04-01 00:30:46,342 INFO [train.py:903] (2/4) Epoch 3, batch 2650, loss[loss=0.3212, simple_loss=0.376, pruned_loss=0.1332, over 19606.00 frames. ], tot_loss[loss=0.327, simple_loss=0.3735, pruned_loss=0.1403, over 3804003.66 frames. ], batch size: 61, lr: 2.52e-02, grad_scale: 8.0
+2023-04-01 00:31:00,229 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.667e+02 7.570e+02 8.863e+02 1.283e+03 4.568e+03, threshold=1.773e+03, percent-clipped=9.0
+2023-04-01 00:31:06,944 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 00:31:18,246 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.5825, 4.1299, 2.6223, 3.8489, 1.2779, 3.9194, 3.8011, 3.9049],
+       device='cuda:2'), covar=tensor([0.0433, 0.0931, 0.1586, 0.0565, 0.3343, 0.0665, 0.0558, 0.0616],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0288, 0.0321, 0.0257, 0.0335, 0.0276, 0.0238, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 00:31:47,143 INFO [train.py:903] (2/4) Epoch 3, batch 2700, loss[loss=0.3808, simple_loss=0.4117, pruned_loss=0.175, over 19667.00 frames. ], tot_loss[loss=0.327, simple_loss=0.3738, pruned_loss=0.1401, over 3811624.90 frames. ], batch size: 58, lr: 2.52e-02, grad_scale: 8.0
+2023-04-01 00:31:51,950 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16360.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:31:54,892 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16363.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:32:18,387 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.89 vs. limit=5.0
+2023-04-01 00:32:26,185 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16389.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:32:47,344 INFO [train.py:903] (2/4) Epoch 3, batch 2750, loss[loss=0.2729, simple_loss=0.3253, pruned_loss=0.1102, over 19367.00 frames. ], tot_loss[loss=0.3269, simple_loss=0.3735, pruned_loss=0.1402, over 3812067.58 frames. ], batch size: 47, lr: 2.52e-02, grad_scale: 8.0
+2023-04-01 00:33:01,694 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.986e+02 7.672e+02 9.838e+02 1.209e+03 2.463e+03, threshold=1.968e+03, percent-clipped=5.0
+2023-04-01 00:33:35,971 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16447.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:33:46,977 INFO [train.py:903] (2/4) Epoch 3, batch 2800, loss[loss=0.3471, simple_loss=0.3948, pruned_loss=0.1497, over 17478.00 frames. ], tot_loss[loss=0.3278, simple_loss=0.3742, pruned_loss=0.1407, over 3813482.95 frames. ], batch size: 101, lr: 2.51e-02, grad_scale: 8.0
+2023-04-01 00:33:48,292 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.1957, 4.1553, 4.7453, 4.6724, 2.5337, 4.2403, 4.0067, 4.3179],
+       device='cuda:2'), covar=tensor([0.0406, 0.1102, 0.0291, 0.0215, 0.2161, 0.0205, 0.0297, 0.0625],
+       device='cuda:2'), in_proj_covar=tensor([0.0370, 0.0339, 0.0467, 0.0349, 0.0482, 0.0246, 0.0302, 0.0450],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 00:34:13,572 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:34:48,744 INFO [train.py:903] (2/4) Epoch 3, batch 2850, loss[loss=0.3629, simple_loss=0.4, pruned_loss=0.1629, over 19461.00 frames. ], tot_loss[loss=0.3287, simple_loss=0.374, pruned_loss=0.1417, over 3797124.68 frames. ], batch size: 64, lr: 2.51e-02, grad_scale: 8.0
+2023-04-01 00:34:54,289 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16511.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:35:03,282 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.663e+02 7.862e+02 1.093e+03 1.433e+03 3.382e+03, threshold=2.185e+03, percent-clipped=3.0
+2023-04-01 00:35:47,694 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 00:35:49,909 INFO [train.py:903] (2/4) Epoch 3, batch 2900, loss[loss=0.315, simple_loss=0.3608, pruned_loss=0.1346, over 19755.00 frames. ], tot_loss[loss=0.3263, simple_loss=0.3725, pruned_loss=0.1401, over 3807076.21 frames. ], batch size: 47, lr: 2.51e-02, grad_scale: 8.0
+2023-04-01 00:35:57,095 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16562.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:36:38,639 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8981, 1.8894, 1.7275, 2.7885, 1.9768, 2.8519, 2.4471, 1.8519],
+       device='cuda:2'), covar=tensor([0.0940, 0.0692, 0.0449, 0.0368, 0.0765, 0.0219, 0.0748, 0.0663],
+       device='cuda:2'), in_proj_covar=tensor([0.0449, 0.0418, 0.0423, 0.0554, 0.0500, 0.0332, 0.0512, 0.0422],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:36:51,758 INFO [train.py:903] (2/4) Epoch 3, batch 2950, loss[loss=0.3224, simple_loss=0.3727, pruned_loss=0.136, over 18836.00 frames. ], tot_loss[loss=0.3262, simple_loss=0.3726, pruned_loss=0.1399, over 3805483.76 frames. ], batch size: 74, lr: 2.50e-02, grad_scale: 16.0
+2023-04-01 00:37:02,822 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16616.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:37:07,334 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.542e+02 7.271e+02 9.405e+02 1.170e+03 2.853e+03, threshold=1.881e+03, percent-clipped=4.0
+2023-04-01 00:37:15,840 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16626.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:37:33,995 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16641.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:37:52,189 INFO [train.py:903] (2/4) Epoch 3, batch 3000, loss[loss=0.303, simple_loss=0.3481, pruned_loss=0.129, over 19751.00 frames. ], tot_loss[loss=0.3256, simple_loss=0.372, pruned_loss=0.1396, over 3808623.97 frames. ], batch size: 45, lr: 2.50e-02, grad_scale: 16.0
+2023-04-01 00:37:52,190 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 00:38:05,267 INFO [train.py:937] (2/4) Epoch 3, validation: loss=0.231, simple_loss=0.3246, pruned_loss=0.06867, over 944034.00 frames. 
+2023-04-01 00:38:05,268 INFO [train.py:938] (2/4) Maximum memory allocated so far is 17889MB
+2023-04-01 00:38:08,687 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 00:38:53,850 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4958, 0.9711, 1.2834, 2.3986, 3.0598, 1.6561, 2.1413, 3.0307],
+       device='cuda:2'), covar=tensor([0.0450, 0.3100, 0.2733, 0.1183, 0.0599, 0.1882, 0.1185, 0.0588],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0307, 0.0294, 0.0277, 0.0287, 0.0320, 0.0272, 0.0282],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:39:07,674 INFO [train.py:903] (2/4) Epoch 3, batch 3050, loss[loss=0.3767, simple_loss=0.4149, pruned_loss=0.1693, over 19290.00 frames. ], tot_loss[loss=0.3253, simple_loss=0.372, pruned_loss=0.1393, over 3799740.08 frames. ], batch size: 66, lr: 2.49e-02, grad_scale: 16.0
+2023-04-01 00:39:22,585 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.950e+02 7.860e+02 1.014e+03 1.267e+03 1.851e+03, threshold=2.027e+03, percent-clipped=0.0
+2023-04-01 00:39:35,557 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4026, 0.9374, 1.5646, 1.1695, 2.6121, 3.5848, 3.3941, 3.8114],
+       device='cuda:2'), covar=tensor([0.1425, 0.3044, 0.2674, 0.2014, 0.0474, 0.0105, 0.0216, 0.0085],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0277, 0.0329, 0.0271, 0.0196, 0.0106, 0.0197, 0.0111],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 00:39:38,685 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=16733.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:39:40,013 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16734.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:40:02,113 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.37 vs. limit=5.0
+2023-04-01 00:40:08,119 INFO [train.py:903] (2/4) Epoch 3, batch 3100, loss[loss=0.3466, simple_loss=0.3945, pruned_loss=0.1493, over 19662.00 frames. ], tot_loss[loss=0.3251, simple_loss=0.3721, pruned_loss=0.1391, over 3798756.15 frames. ], batch size: 58, lr: 2.49e-02, grad_scale: 16.0
+2023-04-01 00:40:11,544 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16759.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:40:24,963 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8489, 1.7973, 1.8993, 2.2187, 4.5027, 1.3557, 2.2632, 4.3561],
+       device='cuda:2'), covar=tensor([0.0189, 0.2143, 0.2095, 0.1382, 0.0338, 0.1978, 0.1168, 0.0283],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0303, 0.0298, 0.0280, 0.0288, 0.0317, 0.0272, 0.0284],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:41:08,260 INFO [train.py:903] (2/4) Epoch 3, batch 3150, loss[loss=0.344, simple_loss=0.3875, pruned_loss=0.1503, over 19536.00 frames. ], tot_loss[loss=0.3269, simple_loss=0.3736, pruned_loss=0.1401, over 3814084.43 frames. ], batch size: 54, lr: 2.49e-02, grad_scale: 16.0
+2023-04-01 00:41:21,866 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16818.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:41:22,522 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.096e+02 7.784e+02 9.820e+02 1.270e+03 2.923e+03, threshold=1.964e+03, percent-clipped=2.0
+2023-04-01 00:41:31,806 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 00:41:51,866 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:41:57,428 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=16848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:42:07,323 INFO [train.py:903] (2/4) Epoch 3, batch 3200, loss[loss=0.3723, simple_loss=0.3973, pruned_loss=0.1736, over 19487.00 frames. ], tot_loss[loss=0.3272, simple_loss=0.3739, pruned_loss=0.1402, over 3815463.00 frames. ], batch size: 49, lr: 2.48e-02, grad_scale: 8.0
+2023-04-01 00:42:39,230 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=16882.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:42:43,595 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16886.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 00:43:03,659 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1312, 1.1091, 1.8025, 1.2507, 2.5117, 2.4032, 2.6393, 1.0719],
+       device='cuda:2'), covar=tensor([0.1570, 0.2369, 0.1222, 0.1398, 0.1011, 0.1063, 0.1236, 0.2134],
+       device='cuda:2'), in_proj_covar=tensor([0.0407, 0.0446, 0.0411, 0.0387, 0.0486, 0.0393, 0.0570, 0.0413],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:43:08,573 INFO [train.py:903] (2/4) Epoch 3, batch 3250, loss[loss=0.3573, simple_loss=0.3909, pruned_loss=0.1619, over 19474.00 frames. ], tot_loss[loss=0.3256, simple_loss=0.3726, pruned_loss=0.1393, over 3827146.41 frames. ], batch size: 49, lr: 2.48e-02, grad_scale: 8.0
+2023-04-01 00:43:08,998 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=16907.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:43:24,380 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.206e+02 8.507e+02 1.021e+03 1.288e+03 2.328e+03, threshold=2.042e+03, percent-clipped=1.0
+2023-04-01 00:43:29,315 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=16924.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:44:09,590 INFO [train.py:903] (2/4) Epoch 3, batch 3300, loss[loss=0.3276, simple_loss=0.3826, pruned_loss=0.1363, over 19665.00 frames. ], tot_loss[loss=0.3259, simple_loss=0.373, pruned_loss=0.1394, over 3827902.43 frames. ], batch size: 55, lr: 2.48e-02, grad_scale: 8.0
+2023-04-01 00:44:16,149 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 00:45:10,102 INFO [train.py:903] (2/4) Epoch 3, batch 3350, loss[loss=0.2879, simple_loss=0.3444, pruned_loss=0.1157, over 19618.00 frames. ], tot_loss[loss=0.3262, simple_loss=0.3735, pruned_loss=0.1395, over 3827866.32 frames. ], batch size: 50, lr: 2.47e-02, grad_scale: 8.0
+2023-04-01 00:45:24,559 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.093e+02 7.847e+02 9.419e+02 1.175e+03 3.710e+03, threshold=1.884e+03, percent-clipped=5.0
+2023-04-01 00:46:10,035 INFO [train.py:903] (2/4) Epoch 3, batch 3400, loss[loss=0.3393, simple_loss=0.3876, pruned_loss=0.1455, over 19316.00 frames. ], tot_loss[loss=0.3264, simple_loss=0.3738, pruned_loss=0.1395, over 3811971.05 frames. ], batch size: 66, lr: 2.47e-02, grad_scale: 8.0
+2023-04-01 00:46:30,811 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
+2023-04-01 00:47:08,494 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17104.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:47:12,304 INFO [train.py:903] (2/4) Epoch 3, batch 3450, loss[loss=0.3196, simple_loss=0.3632, pruned_loss=0.138, over 19626.00 frames. ], tot_loss[loss=0.3235, simple_loss=0.3715, pruned_loss=0.1378, over 3826007.51 frames. ], batch size: 50, lr: 2.47e-02, grad_scale: 8.0
+2023-04-01 00:47:14,334 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 00:47:28,178 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.582e+02 8.544e+02 1.014e+03 1.278e+03 1.988e+03, threshold=2.028e+03, percent-clipped=3.0
+2023-04-01 00:47:39,710 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17129.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:48:12,442 INFO [train.py:903] (2/4) Epoch 3, batch 3500, loss[loss=0.4185, simple_loss=0.4259, pruned_loss=0.2056, over 13514.00 frames. ], tot_loss[loss=0.3279, simple_loss=0.3742, pruned_loss=0.1408, over 3813604.91 frames. ], batch size: 138, lr: 2.46e-02, grad_scale: 8.0
+2023-04-01 00:48:29,452 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9773, 2.5021, 1.8710, 2.2804, 2.2172, 1.5464, 1.4781, 1.7937],
+       device='cuda:2'), covar=tensor([0.0936, 0.0525, 0.0723, 0.0398, 0.0610, 0.0913, 0.0846, 0.0566],
+       device='cuda:2'), in_proj_covar=tensor([0.0284, 0.0232, 0.0315, 0.0259, 0.0224, 0.0314, 0.0280, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:49:12,365 INFO [train.py:903] (2/4) Epoch 3, batch 3550, loss[loss=0.2956, simple_loss=0.3409, pruned_loss=0.1252, over 19622.00 frames. ], tot_loss[loss=0.3266, simple_loss=0.3729, pruned_loss=0.1401, over 3814208.50 frames. ], batch size: 50, lr: 2.46e-02, grad_scale: 8.0
+2023-04-01 00:49:12,651 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17207.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:49:18,404 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5167, 2.4180, 1.6688, 2.0720, 2.1064, 1.0839, 1.2558, 1.5465],
+       device='cuda:2'), covar=tensor([0.0873, 0.0512, 0.0959, 0.0479, 0.0504, 0.1261, 0.0807, 0.0523],
+       device='cuda:2'), in_proj_covar=tensor([0.0289, 0.0238, 0.0323, 0.0262, 0.0228, 0.0321, 0.0284, 0.0265],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:49:24,943 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3853, 1.0562, 1.4782, 0.9760, 2.5788, 3.0993, 2.9628, 3.3356],
+       device='cuda:2'), covar=tensor([0.1344, 0.2786, 0.2665, 0.1985, 0.0410, 0.0110, 0.0242, 0.0102],
+       device='cuda:2'), in_proj_covar=tensor([0.0272, 0.0276, 0.0324, 0.0269, 0.0193, 0.0105, 0.0200, 0.0112],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 00:49:26,838 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.377e+02 8.429e+02 1.068e+03 1.302e+03 2.755e+03, threshold=2.137e+03, percent-clipped=4.0
+2023-04-01 00:49:27,544 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.06 vs. limit=2.0
+2023-04-01 00:49:40,883 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17230.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 00:50:11,395 INFO [train.py:903] (2/4) Epoch 3, batch 3600, loss[loss=0.2922, simple_loss=0.361, pruned_loss=0.1117, over 19527.00 frames. ], tot_loss[loss=0.3264, simple_loss=0.3729, pruned_loss=0.14, over 3824597.51 frames. ], batch size: 56, lr: 2.46e-02, grad_scale: 8.0
+2023-04-01 00:50:24,848 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17268.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:51:11,858 INFO [train.py:903] (2/4) Epoch 3, batch 3650, loss[loss=0.3049, simple_loss=0.3582, pruned_loss=0.1258, over 19589.00 frames. ], tot_loss[loss=0.3258, simple_loss=0.3725, pruned_loss=0.1395, over 3807173.37 frames. ], batch size: 52, lr: 2.45e-02, grad_scale: 8.0
+2023-04-01 00:51:27,521 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.083e+02 7.894e+02 9.345e+02 1.119e+03 1.949e+03, threshold=1.869e+03, percent-clipped=0.0
+2023-04-01 00:51:38,317 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1913, 2.5835, 1.7839, 2.2373, 1.6419, 1.7316, 0.5954, 2.0281],
+       device='cuda:2'), covar=tensor([0.0328, 0.0300, 0.0330, 0.0415, 0.0640, 0.0547, 0.0570, 0.0496],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0248, 0.0241, 0.0268, 0.0328, 0.0264, 0.0254, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 00:51:57,344 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17345.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 00:52:12,711 INFO [train.py:903] (2/4) Epoch 3, batch 3700, loss[loss=0.3209, simple_loss=0.3768, pruned_loss=0.1325, over 19691.00 frames. ], tot_loss[loss=0.3267, simple_loss=0.3735, pruned_loss=0.14, over 3818490.43 frames. ], batch size: 59, lr: 2.45e-02, grad_scale: 8.0
+2023-04-01 00:52:23,839 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1573, 1.2833, 1.9237, 1.3908, 2.5666, 2.3212, 2.8076, 1.0834],
+       device='cuda:2'), covar=tensor([0.1407, 0.2224, 0.1120, 0.1208, 0.0823, 0.1017, 0.0878, 0.2008],
+       device='cuda:2'), in_proj_covar=tensor([0.0408, 0.0448, 0.0411, 0.0386, 0.0483, 0.0403, 0.0568, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:52:39,388 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17380.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:52:42,875 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17383.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:53:02,165 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8160, 1.6628, 1.4809, 2.0190, 1.4334, 1.8780, 1.6545, 1.9612],
+       device='cuda:2'), covar=tensor([0.0775, 0.1331, 0.1120, 0.0772, 0.1165, 0.0415, 0.0793, 0.0555],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0370, 0.0279, 0.0252, 0.0312, 0.0259, 0.0269, 0.0241],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:53:05,646 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17401.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 00:53:12,837 INFO [train.py:903] (2/4) Epoch 3, batch 3750, loss[loss=0.3383, simple_loss=0.3726, pruned_loss=0.152, over 19853.00 frames. ], tot_loss[loss=0.3279, simple_loss=0.3745, pruned_loss=0.1407, over 3825993.20 frames. ], batch size: 52, lr: 2.45e-02, grad_scale: 8.0
+2023-04-01 00:53:27,556 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.653e+02 9.192e+02 1.060e+03 1.489e+03 3.397e+03, threshold=2.120e+03, percent-clipped=7.0
+2023-04-01 00:54:12,635 INFO [train.py:903] (2/4) Epoch 3, batch 3800, loss[loss=0.2855, simple_loss=0.3332, pruned_loss=0.1189, over 14676.00 frames. ], tot_loss[loss=0.3261, simple_loss=0.3735, pruned_loss=0.1393, over 3825449.97 frames. ], batch size: 32, lr: 2.44e-02, grad_scale: 8.0
+2023-04-01 00:54:45,646 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 00:55:11,735 INFO [train.py:903] (2/4) Epoch 3, batch 3850, loss[loss=0.3058, simple_loss=0.359, pruned_loss=0.1262, over 19577.00 frames. ], tot_loss[loss=0.3237, simple_loss=0.3713, pruned_loss=0.1381, over 3836240.64 frames. ], batch size: 52, lr: 2.44e-02, grad_scale: 8.0
+2023-04-01 00:55:28,329 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.037e+02 7.944e+02 9.720e+02 1.209e+03 3.103e+03, threshold=1.944e+03, percent-clipped=2.0
+2023-04-01 00:56:04,066 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17551.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:56:12,739 INFO [train.py:903] (2/4) Epoch 3, batch 3900, loss[loss=0.2682, simple_loss=0.3256, pruned_loss=0.1054, over 19807.00 frames. ], tot_loss[loss=0.3234, simple_loss=0.3708, pruned_loss=0.138, over 3820675.25 frames. ], batch size: 49, lr: 2.44e-02, grad_scale: 8.0
+2023-04-01 00:57:05,296 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17601.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 00:57:11,567 INFO [train.py:903] (2/4) Epoch 3, batch 3950, loss[loss=0.3201, simple_loss=0.3647, pruned_loss=0.1377, over 19398.00 frames. ], tot_loss[loss=0.3227, simple_loss=0.3703, pruned_loss=0.1376, over 3823055.28 frames. ], batch size: 48, lr: 2.44e-02, grad_scale: 8.0
+2023-04-01 00:57:18,162 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 00:57:27,253 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.216e+02 7.211e+02 9.089e+02 1.148e+03 2.193e+03, threshold=1.818e+03, percent-clipped=2.0
+2023-04-01 00:57:34,440 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17626.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 00:57:51,684 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17639.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:58:00,745 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9271, 1.3472, 1.6343, 2.3406, 1.8088, 1.9279, 1.9278, 2.1276],
+       device='cuda:2'), covar=tensor([0.0931, 0.2202, 0.1563, 0.1004, 0.1580, 0.0733, 0.1168, 0.0765],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0378, 0.0286, 0.0257, 0.0317, 0.0263, 0.0273, 0.0241],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:58:04,606 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4225, 1.2552, 1.0477, 1.5741, 1.3314, 1.3765, 1.1807, 1.4660],
+       device='cuda:2'), covar=tensor([0.0876, 0.1412, 0.1430, 0.0823, 0.1058, 0.0532, 0.1035, 0.0686],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0376, 0.0285, 0.0256, 0.0315, 0.0262, 0.0272, 0.0239],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:58:12,127 INFO [train.py:903] (2/4) Epoch 3, batch 4000, loss[loss=0.3856, simple_loss=0.4154, pruned_loss=0.1779, over 19593.00 frames. ], tot_loss[loss=0.323, simple_loss=0.3707, pruned_loss=0.1376, over 3833925.27 frames. ], batch size: 61, lr: 2.43e-02, grad_scale: 8.0
+2023-04-01 00:58:20,421 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17664.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:58:22,699 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17666.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:58:26,146 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7053, 1.3737, 1.3621, 2.0428, 1.6155, 1.9435, 2.0907, 1.6145],
+       device='cuda:2'), covar=tensor([0.0688, 0.1070, 0.1163, 0.0747, 0.0983, 0.0700, 0.0701, 0.0729],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0282, 0.0272, 0.0312, 0.0316, 0.0259, 0.0280, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 00:58:59,493 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 00:58:59,862 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4193, 2.4118, 1.6266, 1.7646, 2.0871, 0.9975, 1.1036, 1.7887],
+       device='cuda:2'), covar=tensor([0.0888, 0.0360, 0.0979, 0.0459, 0.0444, 0.1327, 0.0891, 0.0476],
+       device='cuda:2'), in_proj_covar=tensor([0.0285, 0.0236, 0.0315, 0.0258, 0.0224, 0.0313, 0.0279, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 00:59:11,470 INFO [train.py:903] (2/4) Epoch 3, batch 4050, loss[loss=0.3581, simple_loss=0.3918, pruned_loss=0.1622, over 17228.00 frames. ], tot_loss[loss=0.3208, simple_loss=0.3693, pruned_loss=0.1362, over 3836072.58 frames. ], batch size: 101, lr: 2.43e-02, grad_scale: 8.0
+2023-04-01 00:59:25,569 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17718.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:59:28,911 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.065e+02 7.398e+02 9.459e+02 1.250e+03 4.446e+03, threshold=1.892e+03, percent-clipped=10.0
+2023-04-01 00:59:32,675 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17724.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 00:59:37,323 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6676, 1.4770, 1.4187, 1.9562, 3.2090, 1.3196, 1.9470, 3.0961],
+       device='cuda:2'), covar=tensor([0.0273, 0.2265, 0.2210, 0.1255, 0.0423, 0.1887, 0.1080, 0.0427],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0300, 0.0294, 0.0272, 0.0278, 0.0314, 0.0271, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 00:59:57,739 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=17745.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 01:00:01,030 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17748.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:00:12,215 INFO [train.py:903] (2/4) Epoch 3, batch 4100, loss[loss=0.3071, simple_loss=0.3695, pruned_loss=0.1224, over 19434.00 frames. ], tot_loss[loss=0.321, simple_loss=0.3692, pruned_loss=0.1364, over 3837907.92 frames. ], batch size: 64, lr: 2.43e-02, grad_scale: 4.0
+2023-04-01 01:00:48,455 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 01:00:53,253 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.60 vs. limit=5.0
+2023-04-01 01:01:11,675 INFO [train.py:903] (2/4) Epoch 3, batch 4150, loss[loss=0.2693, simple_loss=0.3376, pruned_loss=0.1005, over 19603.00 frames. ], tot_loss[loss=0.3212, simple_loss=0.3698, pruned_loss=0.1363, over 3843111.20 frames. ], batch size: 57, lr: 2.42e-02, grad_scale: 4.0
+2023-04-01 01:01:17,885 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
+2023-04-01 01:01:28,529 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.446e+02 7.784e+02 9.706e+02 1.186e+03 3.618e+03, threshold=1.941e+03, percent-clipped=3.0
+2023-04-01 01:01:49,952 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17839.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:01:54,297 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8787, 4.8124, 5.7229, 5.5699, 1.6791, 5.3683, 4.5538, 5.0777],
+       device='cuda:2'), covar=tensor([0.0567, 0.0515, 0.0336, 0.0272, 0.3544, 0.0128, 0.0351, 0.0764],
+       device='cuda:2'), in_proj_covar=tensor([0.0380, 0.0346, 0.0478, 0.0367, 0.0492, 0.0251, 0.0316, 0.0459],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 01:02:10,745 INFO [train.py:903] (2/4) Epoch 3, batch 4200, loss[loss=0.2914, simple_loss=0.3411, pruned_loss=0.1208, over 19397.00 frames. ], tot_loss[loss=0.3221, simple_loss=0.3706, pruned_loss=0.1368, over 3837984.32 frames. ], batch size: 48, lr: 2.42e-02, grad_scale: 4.0
+2023-04-01 01:02:14,242 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=17860.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:02:14,922 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 01:03:04,553 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.60 vs. limit=5.0
+2023-04-01 01:03:09,269 INFO [train.py:903] (2/4) Epoch 3, batch 4250, loss[loss=0.3408, simple_loss=0.3685, pruned_loss=0.1566, over 19749.00 frames. ], tot_loss[loss=0.3239, simple_loss=0.3717, pruned_loss=0.138, over 3830336.43 frames. ], batch size: 48, lr: 2.42e-02, grad_scale: 4.0
+2023-04-01 01:03:26,776 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.782e+02 8.334e+02 9.808e+02 1.259e+03 2.577e+03, threshold=1.962e+03, percent-clipped=5.0
+2023-04-01 01:03:26,830 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 01:03:28,272 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=17922.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:03:38,010 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 01:03:57,685 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=17947.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:04:08,381 INFO [train.py:903] (2/4) Epoch 3, batch 4300, loss[loss=0.3055, simple_loss=0.3509, pruned_loss=0.13, over 19668.00 frames. ], tot_loss[loss=0.324, simple_loss=0.3716, pruned_loss=0.1382, over 3824428.17 frames. ], batch size: 53, lr: 2.41e-02, grad_scale: 4.0
+2023-04-01 01:04:15,406 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.82 vs. limit=2.0
+2023-04-01 01:04:35,068 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=17978.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:05:06,027 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 01:05:10,742 INFO [train.py:903] (2/4) Epoch 3, batch 4350, loss[loss=0.3255, simple_loss=0.3653, pruned_loss=0.1428, over 19719.00 frames. ], tot_loss[loss=0.3239, simple_loss=0.3717, pruned_loss=0.1381, over 3823457.01 frames. ], batch size: 51, lr: 2.41e-02, grad_scale: 4.0
+2023-04-01 01:05:27,033 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.929e+02 7.530e+02 9.485e+02 1.282e+03 2.824e+03, threshold=1.897e+03, percent-clipped=4.0
+2023-04-01 01:06:11,120 INFO [train.py:903] (2/4) Epoch 3, batch 4400, loss[loss=0.4023, simple_loss=0.416, pruned_loss=0.1943, over 13300.00 frames. ], tot_loss[loss=0.3249, simple_loss=0.3727, pruned_loss=0.1385, over 3796819.88 frames. ], batch size: 135, lr: 2.41e-02, grad_scale: 8.0
+2023-04-01 01:06:17,196 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:06:33,749 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 01:06:43,602 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 01:06:53,798 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18092.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:06:57,450 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18095.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:07:10,934 INFO [train.py:903] (2/4) Epoch 3, batch 4450, loss[loss=0.3343, simple_loss=0.3895, pruned_loss=0.1396, over 19576.00 frames. ], tot_loss[loss=0.324, simple_loss=0.3721, pruned_loss=0.138, over 3787373.03 frames. ], batch size: 61, lr: 2.40e-02, grad_scale: 8.0
+2023-04-01 01:07:21,282 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18116.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:07:26,624 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18120.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:07:28,236 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.891e+02 7.625e+02 9.248e+02 1.171e+03 2.408e+03, threshold=1.850e+03, percent-clipped=4.0
+2023-04-01 01:07:48,092 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
+2023-04-01 01:07:53,387 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18141.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:08:11,165 INFO [train.py:903] (2/4) Epoch 3, batch 4500, loss[loss=0.3386, simple_loss=0.377, pruned_loss=0.1501, over 19685.00 frames. ], tot_loss[loss=0.3226, simple_loss=0.371, pruned_loss=0.1371, over 3783527.43 frames. ], batch size: 60, lr: 2.40e-02, grad_scale: 4.0
+2023-04-01 01:08:37,502 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18177.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:08:54,076 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18192.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:08:55,185 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18193.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:09:11,759 INFO [train.py:903] (2/4) Epoch 3, batch 4550, loss[loss=0.3441, simple_loss=0.3894, pruned_loss=0.1494, over 19454.00 frames. ], tot_loss[loss=0.324, simple_loss=0.3721, pruned_loss=0.138, over 3784698.09 frames. ], batch size: 64, lr: 2.40e-02, grad_scale: 4.0
+2023-04-01 01:09:12,082 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18207.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:09:18,455 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 01:09:29,447 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.087e+02 7.616e+02 9.596e+02 1.201e+03 2.125e+03, threshold=1.919e+03, percent-clipped=4.0
+2023-04-01 01:09:42,220 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 01:10:11,990 INFO [train.py:903] (2/4) Epoch 3, batch 4600, loss[loss=0.3258, simple_loss=0.3659, pruned_loss=0.1428, over 19741.00 frames. ], tot_loss[loss=0.3251, simple_loss=0.3727, pruned_loss=0.1388, over 3780192.75 frames. ], batch size: 51, lr: 2.39e-02, grad_scale: 4.0
+2023-04-01 01:11:11,636 INFO [train.py:903] (2/4) Epoch 3, batch 4650, loss[loss=0.2807, simple_loss=0.3364, pruned_loss=0.1124, over 19386.00 frames. ], tot_loss[loss=0.3245, simple_loss=0.3725, pruned_loss=0.1382, over 3799352.66 frames. ], batch size: 48, lr: 2.39e-02, grad_scale: 4.0
+2023-04-01 01:11:27,781 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 01:11:28,861 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.638e+02 7.851e+02 9.796e+02 1.308e+03 3.825e+03, threshold=1.959e+03, percent-clipped=6.0
+2023-04-01 01:11:29,082 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:11:38,728 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 01:12:10,878 INFO [train.py:903] (2/4) Epoch 3, batch 4700, loss[loss=0.4083, simple_loss=0.4346, pruned_loss=0.191, over 19727.00 frames. ], tot_loss[loss=0.3263, simple_loss=0.3735, pruned_loss=0.1395, over 3812578.74 frames. ], batch size: 63, lr: 2.39e-02, grad_scale: 4.0
+2023-04-01 01:12:33,348 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 01:12:53,109 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.07 vs. limit=5.0
+2023-04-01 01:13:13,553 INFO [train.py:903] (2/4) Epoch 3, batch 4750, loss[loss=0.301, simple_loss=0.3668, pruned_loss=0.1176, over 19566.00 frames. ], tot_loss[loss=0.3242, simple_loss=0.3721, pruned_loss=0.1381, over 3821061.54 frames. ], batch size: 61, lr: 2.39e-02, grad_scale: 4.0
+2023-04-01 01:13:31,290 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.455e+02 7.810e+02 9.309e+02 1.222e+03 2.382e+03, threshold=1.862e+03, percent-clipped=4.0
+2023-04-01 01:13:42,057 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1857, 2.1250, 1.6201, 1.6439, 1.3566, 1.5580, 0.1974, 1.0360],
+       device='cuda:2'), covar=tensor([0.0220, 0.0199, 0.0132, 0.0207, 0.0499, 0.0276, 0.0443, 0.0387],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0248, 0.0244, 0.0268, 0.0323, 0.0259, 0.0252, 0.0262],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 01:13:44,335 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18433.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:13:48,785 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18437.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:14:15,106 INFO [train.py:903] (2/4) Epoch 3, batch 4800, loss[loss=0.3125, simple_loss=0.356, pruned_loss=0.1345, over 19630.00 frames. ], tot_loss[loss=0.3224, simple_loss=0.3709, pruned_loss=0.137, over 3826985.65 frames. ], batch size: 50, lr: 2.38e-02, grad_scale: 8.0
+2023-04-01 01:14:16,585 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18458.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:14:22,286 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18463.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:14:53,534 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18488.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:15:16,092 INFO [train.py:903] (2/4) Epoch 3, batch 4850, loss[loss=0.2844, simple_loss=0.3298, pruned_loss=0.1195, over 19833.00 frames. ], tot_loss[loss=0.3209, simple_loss=0.3698, pruned_loss=0.136, over 3820690.85 frames. ], batch size: 49, lr: 2.38e-02, grad_scale: 8.0
+2023-04-01 01:15:17,552 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18508.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:15:20,342 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.34 vs. limit=2.0
+2023-04-01 01:15:34,582 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.685e+02 7.295e+02 9.130e+02 1.063e+03 1.681e+03, threshold=1.826e+03, percent-clipped=0.0
+2023-04-01 01:15:38,174 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 01:15:40,602 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18526.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 01:15:52,387 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18536.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:15:53,567 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18537.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:16:00,113 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 01:16:04,602 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 01:16:05,768 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 01:16:14,595 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 01:16:15,641 INFO [train.py:903] (2/4) Epoch 3, batch 4900, loss[loss=0.2591, simple_loss=0.3124, pruned_loss=0.1029, over 19386.00 frames. ], tot_loss[loss=0.3209, simple_loss=0.3698, pruned_loss=0.136, over 3828245.38 frames. ], batch size: 47, lr: 2.38e-02, grad_scale: 8.0
+2023-04-01 01:16:34,649 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 01:17:11,786 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9685, 1.2357, 1.4126, 1.5558, 2.6804, 1.4719, 1.7857, 2.5737],
+       device='cuda:2'), covar=tensor([0.0425, 0.2239, 0.2092, 0.1393, 0.0452, 0.1667, 0.0979, 0.0492],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0300, 0.0297, 0.0274, 0.0283, 0.0315, 0.0270, 0.0279],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 01:17:14,800 INFO [train.py:903] (2/4) Epoch 3, batch 4950, loss[loss=0.3534, simple_loss=0.3999, pruned_loss=0.1535, over 19774.00 frames. ], tot_loss[loss=0.324, simple_loss=0.3719, pruned_loss=0.1381, over 3826140.10 frames. ], batch size: 56, lr: 2.37e-02, grad_scale: 4.0
+2023-04-01 01:17:30,515 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 01:17:34,980 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.825e+02 8.688e+02 1.059e+03 1.337e+03 3.400e+03, threshold=2.119e+03, percent-clipped=10.0
+2023-04-01 01:17:52,115 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 01:18:09,838 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18651.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:18:10,967 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18652.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:18:17,098 INFO [train.py:903] (2/4) Epoch 3, batch 5000, loss[loss=0.2832, simple_loss=0.3298, pruned_loss=0.1183, over 19727.00 frames. ], tot_loss[loss=0.3252, simple_loss=0.3727, pruned_loss=0.1389, over 3808586.81 frames. ], batch size: 46, lr: 2.37e-02, grad_scale: 4.0
+2023-04-01 01:18:21,589 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 01:18:32,449 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 01:18:43,453 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
+2023-04-01 01:18:59,271 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18692.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:19:00,357 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18693.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:19:16,429 INFO [train.py:903] (2/4) Epoch 3, batch 5050, loss[loss=0.3434, simple_loss=0.3734, pruned_loss=0.1567, over 19841.00 frames. ], tot_loss[loss=0.3251, simple_loss=0.3723, pruned_loss=0.139, over 3805952.94 frames. ], batch size: 52, lr: 2.37e-02, grad_scale: 4.0
+2023-04-01 01:19:29,200 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18718.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:19:35,293 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.108e+02 7.776e+02 1.028e+03 1.229e+03 3.550e+03, threshold=2.057e+03, percent-clipped=2.0
+2023-04-01 01:19:48,426 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 01:20:16,946 INFO [train.py:903] (2/4) Epoch 3, batch 5100, loss[loss=0.2817, simple_loss=0.3361, pruned_loss=0.1137, over 19609.00 frames. ], tot_loss[loss=0.3212, simple_loss=0.3692, pruned_loss=0.1365, over 3812691.74 frames. ], batch size: 50, lr: 2.36e-02, grad_scale: 4.0
+2023-04-01 01:20:24,660 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 01:20:27,867 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 01:20:32,465 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 01:21:19,966 INFO [train.py:903] (2/4) Epoch 3, batch 5150, loss[loss=0.3379, simple_loss=0.3854, pruned_loss=0.1452, over 18907.00 frames. ], tot_loss[loss=0.3201, simple_loss=0.3688, pruned_loss=0.1357, over 3822250.95 frames. ], batch size: 74, lr: 2.36e-02, grad_scale: 4.0
+2023-04-01 01:21:20,829 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.93 vs. limit=2.0
+2023-04-01 01:21:31,917 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 01:21:40,054 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.229e+02 6.924e+02 8.047e+02 1.080e+03 1.932e+03, threshold=1.609e+03, percent-clipped=0.0
+2023-04-01 01:22:06,984 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 01:22:14,773 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18852.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:22:20,359 INFO [train.py:903] (2/4) Epoch 3, batch 5200, loss[loss=0.3344, simple_loss=0.3914, pruned_loss=0.1387, over 19591.00 frames. ], tot_loss[loss=0.3163, simple_loss=0.3662, pruned_loss=0.1332, over 3831369.52 frames. ], batch size: 57, lr: 2.36e-02, grad_scale: 8.0
+2023-04-01 01:22:24,119 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.98 vs. limit=2.0
+2023-04-01 01:22:37,383 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 01:22:37,520 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=18870.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 01:23:21,215 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 01:23:23,216 INFO [train.py:903] (2/4) Epoch 3, batch 5250, loss[loss=0.2802, simple_loss=0.3414, pruned_loss=0.1094, over 19519.00 frames. ], tot_loss[loss=0.3167, simple_loss=0.3667, pruned_loss=0.1333, over 3843481.76 frames. ], batch size: 54, lr: 2.36e-02, grad_scale: 4.0
+2023-04-01 01:23:23,669 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18907.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:23:24,829 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=18908.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:23:42,382 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.727e+02 7.388e+02 9.793e+02 1.246e+03 4.620e+03, threshold=1.959e+03, percent-clipped=9.0
+2023-04-01 01:23:53,540 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18932.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:23:54,583 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=18933.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:24:12,757 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=18948.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:24:22,206 INFO [train.py:903] (2/4) Epoch 3, batch 5300, loss[loss=0.3634, simple_loss=0.413, pruned_loss=0.1569, over 19677.00 frames. ], tot_loss[loss=0.3186, simple_loss=0.368, pruned_loss=0.1346, over 3839144.96 frames. ], batch size: 55, lr: 2.35e-02, grad_scale: 4.0
+2023-04-01 01:24:35,224 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18967.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:24:39,541 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 01:24:44,236 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2112, 1.9867, 1.5413, 1.6790, 1.3102, 1.5643, 0.3775, 0.9902],
+       device='cuda:2'), covar=tensor([0.0184, 0.0217, 0.0166, 0.0189, 0.0442, 0.0261, 0.0413, 0.0361],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0252, 0.0250, 0.0275, 0.0331, 0.0264, 0.0258, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 01:24:56,500 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=18985.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 01:25:22,318 INFO [train.py:903] (2/4) Epoch 3, batch 5350, loss[loss=0.3287, simple_loss=0.3826, pruned_loss=0.1374, over 19524.00 frames. ], tot_loss[loss=0.3183, simple_loss=0.3675, pruned_loss=0.1345, over 3845749.26 frames. ], batch size: 64, lr: 2.35e-02, grad_scale: 4.0
+2023-04-01 01:25:42,786 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.207e+02 7.837e+02 1.011e+03 1.314e+03 3.062e+03, threshold=2.023e+03, percent-clipped=6.0
+2023-04-01 01:25:50,093 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4029, 2.2443, 1.7316, 1.7390, 1.5293, 1.7899, 0.3372, 1.1522],
+       device='cuda:2'), covar=tensor([0.0254, 0.0212, 0.0160, 0.0222, 0.0484, 0.0259, 0.0475, 0.0392],
+       device='cuda:2'), in_proj_covar=tensor([0.0257, 0.0248, 0.0248, 0.0275, 0.0331, 0.0261, 0.0258, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 01:25:55,461 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 01:25:56,693 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19036.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:26:20,423 INFO [train.py:903] (2/4) Epoch 3, batch 5400, loss[loss=0.2957, simple_loss=0.3611, pruned_loss=0.1152, over 19321.00 frames. ], tot_loss[loss=0.3176, simple_loss=0.3673, pruned_loss=0.1339, over 3847914.15 frames. ], batch size: 66, lr: 2.35e-02, grad_scale: 4.0
+2023-04-01 01:27:04,755 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4308, 1.0958, 1.5143, 0.8859, 2.5202, 3.0751, 3.0082, 3.2854],
+       device='cuda:2'), covar=tensor([0.1241, 0.2725, 0.2597, 0.2025, 0.0402, 0.0129, 0.0213, 0.0116],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0280, 0.0325, 0.0263, 0.0196, 0.0107, 0.0200, 0.0119],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 01:27:22,188 INFO [train.py:903] (2/4) Epoch 3, batch 5450, loss[loss=0.2872, simple_loss=0.3536, pruned_loss=0.1104, over 18225.00 frames. ], tot_loss[loss=0.3154, simple_loss=0.3659, pruned_loss=0.1325, over 3856775.20 frames. ], batch size: 83, lr: 2.34e-02, grad_scale: 4.0
+2023-04-01 01:27:41,224 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.092e+02 7.941e+02 9.480e+02 1.159e+03 2.761e+03, threshold=1.896e+03, percent-clipped=1.0
+2023-04-01 01:27:50,486 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0015, 1.9074, 1.7859, 3.0685, 1.9931, 3.0691, 2.7915, 1.7620],
+       device='cuda:2'), covar=tensor([0.1305, 0.1011, 0.0593, 0.0554, 0.1205, 0.0313, 0.0954, 0.0964],
+       device='cuda:2'), in_proj_covar=tensor([0.0491, 0.0460, 0.0462, 0.0616, 0.0536, 0.0378, 0.0558, 0.0458],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 01:28:10,104 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=19147.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:28:14,878 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19151.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:28:21,134 INFO [train.py:903] (2/4) Epoch 3, batch 5500, loss[loss=0.3842, simple_loss=0.4216, pruned_loss=0.1734, over 19364.00 frames. ], tot_loss[loss=0.3175, simple_loss=0.3673, pruned_loss=0.1338, over 3852258.93 frames. ], batch size: 70, lr: 2.34e-02, grad_scale: 4.0
+2023-04-01 01:28:45,302 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 01:29:20,074 INFO [train.py:903] (2/4) Epoch 3, batch 5550, loss[loss=0.4509, simple_loss=0.4447, pruned_loss=0.2286, over 13080.00 frames. ], tot_loss[loss=0.3207, simple_loss=0.3694, pruned_loss=0.136, over 3833923.36 frames. ], batch size: 136, lr: 2.34e-02, grad_scale: 4.0
+2023-04-01 01:29:27,438 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 01:29:34,005 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-01 01:29:41,400 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=19223.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:29:42,142 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.073e+02 7.947e+02 9.800e+02 1.342e+03 2.993e+03, threshold=1.960e+03, percent-clipped=6.0
+2023-04-01 01:29:53,830 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2764, 1.2565, 1.4076, 1.8227, 2.8686, 1.2468, 1.8732, 2.8306],
+       device='cuda:2'), covar=tensor([0.0328, 0.2365, 0.2211, 0.1352, 0.0455, 0.1952, 0.1110, 0.0443],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0305, 0.0297, 0.0275, 0.0287, 0.0312, 0.0271, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 01:30:02,025 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=19241.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:30:02,998 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3245, 3.7050, 3.9600, 3.9298, 1.5445, 3.4586, 3.2581, 3.5258],
+       device='cuda:2'), covar=tensor([0.0731, 0.0645, 0.0521, 0.0415, 0.3431, 0.0332, 0.0452, 0.1009],
+       device='cuda:2'), in_proj_covar=tensor([0.0394, 0.0357, 0.0489, 0.0379, 0.0495, 0.0262, 0.0313, 0.0466],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 01:30:09,722 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=19248.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:30:15,636 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 01:30:21,462 INFO [train.py:903] (2/4) Epoch 3, batch 5600, loss[loss=0.3128, simple_loss=0.3659, pruned_loss=0.1299, over 19523.00 frames. ], tot_loss[loss=0.3224, simple_loss=0.3711, pruned_loss=0.1368, over 3824202.26 frames. ], batch size: 54, lr: 2.34e-02, grad_scale: 8.0
+2023-04-01 01:30:33,696 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=19266.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:31:03,997 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19292.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:31:22,086 INFO [train.py:903] (2/4) Epoch 3, batch 5650, loss[loss=0.3247, simple_loss=0.3682, pruned_loss=0.1406, over 19662.00 frames. ], tot_loss[loss=0.3214, simple_loss=0.37, pruned_loss=0.1365, over 3827896.98 frames. ], batch size: 58, lr: 2.33e-02, grad_scale: 8.0
+2023-04-01 01:31:41,040 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.993e+02 7.403e+02 9.102e+02 1.185e+03 3.385e+03, threshold=1.820e+03, percent-clipped=3.0
+2023-04-01 01:32:09,521 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 01:32:21,818 INFO [train.py:903] (2/4) Epoch 3, batch 5700, loss[loss=0.27, simple_loss=0.3204, pruned_loss=0.1098, over 19739.00 frames. ], tot_loss[loss=0.3216, simple_loss=0.3703, pruned_loss=0.1364, over 3826869.41 frames. ], batch size: 47, lr: 2.33e-02, grad_scale: 8.0
+2023-04-01 01:32:39,011 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9680, 1.5958, 1.3177, 1.9439, 1.5786, 1.5726, 1.4626, 1.8232],
+       device='cuda:2'), covar=tensor([0.0809, 0.1698, 0.1390, 0.0841, 0.1184, 0.0674, 0.1008, 0.0702],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0380, 0.0283, 0.0250, 0.0313, 0.0264, 0.0269, 0.0244],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 01:32:43,522 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4811, 1.0785, 1.6556, 1.1624, 2.5953, 3.6303, 3.3586, 3.7661],
+       device='cuda:2'), covar=tensor([0.1281, 0.2827, 0.2643, 0.2006, 0.0473, 0.0121, 0.0207, 0.0096],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0277, 0.0320, 0.0265, 0.0198, 0.0106, 0.0200, 0.0118],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 01:33:22,532 INFO [train.py:903] (2/4) Epoch 3, batch 5750, loss[loss=0.291, simple_loss=0.3365, pruned_loss=0.1228, over 19736.00 frames. ], tot_loss[loss=0.3189, simple_loss=0.3683, pruned_loss=0.1347, over 3842423.15 frames. ], batch size: 46, lr: 2.33e-02, grad_scale: 8.0
+2023-04-01 01:33:22,921 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19407.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:33:22,999 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=19407.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:33:24,904 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 01:33:30,167 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=19412.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:33:34,048 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 01:33:39,379 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 01:33:43,560 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.926e+02 7.525e+02 9.538e+02 1.231e+03 3.556e+03, threshold=1.908e+03, percent-clipped=6.0
+2023-04-01 01:33:53,877 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=19432.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:34:22,887 INFO [train.py:903] (2/4) Epoch 3, batch 5800, loss[loss=0.2883, simple_loss=0.3377, pruned_loss=0.1195, over 19389.00 frames. ], tot_loss[loss=0.3187, simple_loss=0.3678, pruned_loss=0.1348, over 3845401.63 frames. ], batch size: 47, lr: 2.32e-02, grad_scale: 4.0
+2023-04-01 01:35:03,989 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19491.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:35:23,136 INFO [train.py:903] (2/4) Epoch 3, batch 5850, loss[loss=0.2989, simple_loss=0.3498, pruned_loss=0.124, over 19662.00 frames. ], tot_loss[loss=0.318, simple_loss=0.3672, pruned_loss=0.1344, over 3838052.21 frames. ], batch size: 53, lr: 2.32e-02, grad_scale: 4.0
+2023-04-01 01:35:43,370 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.468e+02 8.354e+02 1.035e+03 1.319e+03 5.609e+03, threshold=2.070e+03, percent-clipped=8.0
+2023-04-01 01:36:23,578 INFO [train.py:903] (2/4) Epoch 3, batch 5900, loss[loss=0.3408, simple_loss=0.3924, pruned_loss=0.1446, over 19483.00 frames. ], tot_loss[loss=0.3177, simple_loss=0.3669, pruned_loss=0.1342, over 3820584.25 frames. ], batch size: 64, lr: 2.32e-02, grad_scale: 4.0
+2023-04-01 01:36:26,966 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 01:36:46,206 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 01:37:21,793 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19606.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:37:22,518 INFO [train.py:903] (2/4) Epoch 3, batch 5950, loss[loss=0.273, simple_loss=0.3251, pruned_loss=0.1105, over 19760.00 frames. ], tot_loss[loss=0.3198, simple_loss=0.3687, pruned_loss=0.1354, over 3814508.95 frames. ], batch size: 45, lr: 2.32e-02, grad_scale: 4.0
+2023-04-01 01:37:45,646 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.616e+02 6.894e+02 9.030e+02 1.163e+03 3.004e+03, threshold=1.806e+03, percent-clipped=5.0
+2023-04-01 01:37:59,410 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=19636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:38:24,431 INFO [train.py:903] (2/4) Epoch 3, batch 6000, loss[loss=0.3673, simple_loss=0.4087, pruned_loss=0.1629, over 17264.00 frames. ], tot_loss[loss=0.3188, simple_loss=0.3677, pruned_loss=0.1349, over 3813721.06 frames. ], batch size: 101, lr: 2.31e-02, grad_scale: 8.0
+2023-04-01 01:38:24,431 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 01:38:37,345 INFO [train.py:937] (2/4) Epoch 3, validation: loss=0.2218, simple_loss=0.3182, pruned_loss=0.06273, over 944034.00 frames. 
+2023-04-01 01:38:37,346 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18149MB
+2023-04-01 01:38:45,568 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=19663.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:38:53,760 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3670, 1.4567, 2.2720, 1.5146, 3.0655, 3.2251, 3.4866, 1.6016],
+       device='cuda:2'), covar=tensor([0.1350, 0.2214, 0.1230, 0.1260, 0.0997, 0.0874, 0.1147, 0.2020],
+       device='cuda:2'), in_proj_covar=tensor([0.0414, 0.0465, 0.0423, 0.0393, 0.0509, 0.0412, 0.0587, 0.0422],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 01:39:15,761 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=19688.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:39:30,800 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8525, 1.0639, 1.6417, 1.6760, 2.4216, 4.0622, 4.3357, 4.6873],
+       device='cuda:2'), covar=tensor([0.1365, 0.3895, 0.3597, 0.1963, 0.0557, 0.0238, 0.0189, 0.0105],
+       device='cuda:2'), in_proj_covar=tensor([0.0262, 0.0272, 0.0318, 0.0265, 0.0195, 0.0108, 0.0198, 0.0120],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 01:39:37,218 INFO [train.py:903] (2/4) Epoch 3, batch 6050, loss[loss=0.2945, simple_loss=0.3476, pruned_loss=0.1207, over 19407.00 frames. ], tot_loss[loss=0.3193, simple_loss=0.3683, pruned_loss=0.1352, over 3802508.59 frames. ], batch size: 48, lr: 2.31e-02, grad_scale: 8.0
+2023-04-01 01:39:59,307 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.085e+02 7.768e+02 9.451e+02 1.306e+03 2.772e+03, threshold=1.890e+03, percent-clipped=6.0
+2023-04-01 01:40:37,817 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19756.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:40:38,852 INFO [train.py:903] (2/4) Epoch 3, batch 6100, loss[loss=0.3009, simple_loss=0.3462, pruned_loss=0.1278, over 17722.00 frames. ], tot_loss[loss=0.3195, simple_loss=0.3684, pruned_loss=0.1353, over 3818795.94 frames. ], batch size: 39, lr: 2.31e-02, grad_scale: 8.0
+2023-04-01 01:41:38,891 INFO [train.py:903] (2/4) Epoch 3, batch 6150, loss[loss=0.3089, simple_loss=0.3506, pruned_loss=0.1336, over 14729.00 frames. ], tot_loss[loss=0.3199, simple_loss=0.3686, pruned_loss=0.1356, over 3810914.51 frames. ], batch size: 32, lr: 2.30e-02, grad_scale: 8.0
+2023-04-01 01:42:01,430 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.829e+02 8.602e+02 1.123e+03 1.510e+03 2.312e+03, threshold=2.246e+03, percent-clipped=7.0
+2023-04-01 01:42:04,692 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 01:42:16,404 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
+2023-04-01 01:42:38,570 INFO [train.py:903] (2/4) Epoch 3, batch 6200, loss[loss=0.3322, simple_loss=0.3811, pruned_loss=0.1417, over 19509.00 frames. ], tot_loss[loss=0.3198, simple_loss=0.3685, pruned_loss=0.1355, over 3814592.75 frames. ], batch size: 64, lr: 2.30e-02, grad_scale: 8.0
+2023-04-01 01:42:46,178 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=19862.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:42:57,212 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=19871.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:43:15,909 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=19887.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 01:43:39,796 INFO [train.py:903] (2/4) Epoch 3, batch 6250, loss[loss=0.2711, simple_loss=0.3312, pruned_loss=0.1054, over 19597.00 frames. ], tot_loss[loss=0.3165, simple_loss=0.3661, pruned_loss=0.1334, over 3823472.81 frames. ], batch size: 52, lr: 2.30e-02, grad_scale: 8.0
+2023-04-01 01:43:51,138 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9969, 1.8575, 1.6905, 1.8088, 1.5703, 1.7794, 0.7980, 1.4716],
+       device='cuda:2'), covar=tensor([0.0205, 0.0236, 0.0158, 0.0217, 0.0375, 0.0279, 0.0478, 0.0322],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0248, 0.0245, 0.0274, 0.0327, 0.0265, 0.0257, 0.0262],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 01:44:01,759 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.496e+02 7.100e+02 9.208e+02 1.133e+03 3.490e+03, threshold=1.842e+03, percent-clipped=3.0
+2023-04-01 01:44:09,634 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 01:44:40,501 INFO [train.py:903] (2/4) Epoch 3, batch 6300, loss[loss=0.3171, simple_loss=0.3732, pruned_loss=0.1305, over 19514.00 frames. ], tot_loss[loss=0.3161, simple_loss=0.366, pruned_loss=0.1331, over 3821427.49 frames. ], batch size: 64, lr: 2.30e-02, grad_scale: 8.0
+2023-04-01 01:45:07,293 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=19980.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:45:42,110 INFO [train.py:903] (2/4) Epoch 3, batch 6350, loss[loss=0.4264, simple_loss=0.4501, pruned_loss=0.2013, over 17491.00 frames. ], tot_loss[loss=0.3182, simple_loss=0.3676, pruned_loss=0.1344, over 3825451.32 frames. ], batch size: 101, lr: 2.29e-02, grad_scale: 8.0
+2023-04-01 01:45:54,176 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
+2023-04-01 01:46:03,319 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.926e+02 7.424e+02 9.293e+02 1.158e+03 2.968e+03, threshold=1.859e+03, percent-clipped=5.0
+2023-04-01 01:46:20,207 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20038.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:46:42,146 INFO [train.py:903] (2/4) Epoch 3, batch 6400, loss[loss=0.2732, simple_loss=0.3276, pruned_loss=0.1094, over 19757.00 frames. ], tot_loss[loss=0.3182, simple_loss=0.3676, pruned_loss=0.1344, over 3834720.05 frames. ], batch size: 47, lr: 2.29e-02, grad_scale: 8.0
+2023-04-01 01:47:29,314 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20095.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:47:43,492 INFO [train.py:903] (2/4) Epoch 3, batch 6450, loss[loss=0.3165, simple_loss=0.3704, pruned_loss=0.1313, over 18116.00 frames. ], tot_loss[loss=0.317, simple_loss=0.3668, pruned_loss=0.1336, over 3836339.67 frames. ], batch size: 83, lr: 2.29e-02, grad_scale: 8.0
+2023-04-01 01:47:43,814 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20107.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:48:05,562 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.028e+02 7.833e+02 9.380e+02 1.145e+03 2.427e+03, threshold=1.876e+03, percent-clipped=3.0
+2023-04-01 01:48:08,331 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20127.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:48:12,615 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20130.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:48:29,097 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 01:48:39,362 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20152.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:48:44,547 INFO [train.py:903] (2/4) Epoch 3, batch 6500, loss[loss=0.3199, simple_loss=0.3686, pruned_loss=0.1356, over 19611.00 frames. ], tot_loss[loss=0.3158, simple_loss=0.366, pruned_loss=0.1328, over 3837350.66 frames. ], batch size: 50, lr: 2.29e-02, grad_scale: 8.0
+2023-04-01 01:48:52,301 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 01:49:07,001 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4531, 3.9633, 2.4559, 3.6560, 1.0363, 3.5920, 3.6876, 3.8726],
+       device='cuda:2'), covar=tensor([0.0775, 0.1419, 0.2096, 0.0724, 0.4085, 0.1017, 0.0698, 0.0862],
+       device='cuda:2'), in_proj_covar=tensor([0.0327, 0.0302, 0.0346, 0.0274, 0.0350, 0.0294, 0.0248, 0.0292],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 01:49:45,350 INFO [train.py:903] (2/4) Epoch 3, batch 6550, loss[loss=0.3253, simple_loss=0.3834, pruned_loss=0.1336, over 19381.00 frames. ], tot_loss[loss=0.3166, simple_loss=0.3669, pruned_loss=0.1331, over 3823573.97 frames. ], batch size: 70, lr: 2.28e-02, grad_scale: 8.0
+2023-04-01 01:50:03,599 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20222.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:50:07,447 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.125e+02 7.085e+02 9.596e+02 1.224e+03 2.377e+03, threshold=1.919e+03, percent-clipped=5.0
+2023-04-01 01:50:46,685 INFO [train.py:903] (2/4) Epoch 3, batch 6600, loss[loss=0.2641, simple_loss=0.3224, pruned_loss=0.1029, over 19756.00 frames. ], tot_loss[loss=0.3163, simple_loss=0.3667, pruned_loss=0.133, over 3818293.16 frames. ], batch size: 46, lr: 2.28e-02, grad_scale: 8.0
+2023-04-01 01:51:47,897 INFO [train.py:903] (2/4) Epoch 3, batch 6650, loss[loss=0.3344, simple_loss=0.3867, pruned_loss=0.141, over 17124.00 frames. ], tot_loss[loss=0.3156, simple_loss=0.3659, pruned_loss=0.1327, over 3815668.15 frames. ], batch size: 101, lr: 2.28e-02, grad_scale: 8.0
+2023-04-01 01:52:10,182 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.507e+02 7.672e+02 8.992e+02 1.144e+03 3.524e+03, threshold=1.798e+03, percent-clipped=4.0
+2023-04-01 01:52:42,311 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20351.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:52:49,535 INFO [train.py:903] (2/4) Epoch 3, batch 6700, loss[loss=0.2689, simple_loss=0.3165, pruned_loss=0.1107, over 19770.00 frames. ], tot_loss[loss=0.3157, simple_loss=0.3661, pruned_loss=0.1326, over 3814344.02 frames. ], batch size: 48, lr: 2.28e-02, grad_scale: 8.0
+2023-04-01 01:53:11,831 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20376.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:53:17,979 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20382.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:53:44,497 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:53:46,032 INFO [train.py:903] (2/4) Epoch 3, batch 6750, loss[loss=0.3349, simple_loss=0.3853, pruned_loss=0.1422, over 19528.00 frames. ], tot_loss[loss=0.3163, simple_loss=0.366, pruned_loss=0.1333, over 3826627.54 frames. ], batch size: 54, lr: 2.27e-02, grad_scale: 8.0
+2023-04-01 01:54:05,360 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.786e+02 7.667e+02 1.002e+03 1.269e+03 2.908e+03, threshold=2.004e+03, percent-clipped=6.0
+2023-04-01 01:54:17,381 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20436.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:54:34,797 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20451.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:54:41,604 INFO [train.py:903] (2/4) Epoch 3, batch 6800, loss[loss=0.2762, simple_loss=0.3316, pruned_loss=0.1104, over 19722.00 frames. ], tot_loss[loss=0.3152, simple_loss=0.3653, pruned_loss=0.1325, over 3835414.16 frames. ], batch size: 51, lr: 2.27e-02, grad_scale: 8.0
+2023-04-01 01:55:00,655 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20474.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:55:25,483 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 01:55:25,906 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 01:55:29,039 INFO [train.py:903] (2/4) Epoch 4, batch 0, loss[loss=0.3522, simple_loss=0.3918, pruned_loss=0.1563, over 19790.00 frames. ], tot_loss[loss=0.3522, simple_loss=0.3918, pruned_loss=0.1563, over 19790.00 frames. ], batch size: 54, lr: 2.12e-02, grad_scale: 8.0
+2023-04-01 01:55:29,039 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 01:55:40,526 INFO [train.py:937] (2/4) Epoch 4, validation: loss=0.2245, simple_loss=0.3205, pruned_loss=0.06426, over 944034.00 frames. 
+2023-04-01 01:55:40,527 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18297MB
+2023-04-01 01:55:53,644 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 01:55:55,139 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20497.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:56:27,869 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.490e+02 6.855e+02 8.790e+02 1.166e+03 2.960e+03, threshold=1.758e+03, percent-clipped=3.0
+2023-04-01 01:56:40,998 INFO [train.py:903] (2/4) Epoch 4, batch 50, loss[loss=0.2996, simple_loss=0.363, pruned_loss=0.1181, over 19527.00 frames. ], tot_loss[loss=0.3127, simple_loss=0.3645, pruned_loss=0.1305, over 868586.33 frames. ], batch size: 54, lr: 2.12e-02, grad_scale: 8.0
+2023-04-01 01:57:14,485 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 01:57:15,794 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20566.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:57:16,009 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20566.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:57:40,113 INFO [train.py:903] (2/4) Epoch 4, batch 100, loss[loss=0.3141, simple_loss=0.3659, pruned_loss=0.1312, over 19657.00 frames. ], tot_loss[loss=0.3161, simple_loss=0.3658, pruned_loss=0.1332, over 1521315.49 frames. ], batch size: 58, lr: 2.12e-02, grad_scale: 8.0
+2023-04-01 01:57:46,178 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20589.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:57:52,768 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 01:58:05,875 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=20606.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:58:29,320 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.104e+02 7.763e+02 9.275e+02 1.175e+03 2.763e+03, threshold=1.855e+03, percent-clipped=7.0
+2023-04-01 01:58:41,721 INFO [train.py:903] (2/4) Epoch 4, batch 150, loss[loss=0.2878, simple_loss=0.3558, pruned_loss=0.1099, over 19526.00 frames. ], tot_loss[loss=0.3124, simple_loss=0.3642, pruned_loss=0.1303, over 2036328.30 frames. ], batch size: 56, lr: 2.11e-02, grad_scale: 8.0
+2023-04-01 01:59:35,949 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20681.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 01:59:40,166 INFO [train.py:903] (2/4) Epoch 4, batch 200, loss[loss=0.338, simple_loss=0.3887, pruned_loss=0.1436, over 19537.00 frames. ], tot_loss[loss=0.3131, simple_loss=0.3646, pruned_loss=0.1308, over 2442219.09 frames. ], batch size: 56, lr: 2.11e-02, grad_scale: 8.0
+2023-04-01 01:59:41,286 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 02:00:28,682 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.823e+02 7.097e+02 9.184e+02 1.257e+03 2.857e+03, threshold=1.837e+03, percent-clipped=5.0
+2023-04-01 02:00:39,433 INFO [train.py:903] (2/4) Epoch 4, batch 250, loss[loss=0.2898, simple_loss=0.3537, pruned_loss=0.113, over 19626.00 frames. ], tot_loss[loss=0.3123, simple_loss=0.3641, pruned_loss=0.1303, over 2754074.77 frames. ], batch size: 57, lr: 2.11e-02, grad_scale: 8.0
+2023-04-01 02:00:57,788 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:01:02,439 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20753.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:01:24,130 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3709, 1.2591, 1.0364, 1.2781, 1.0913, 1.2789, 1.0816, 1.3208],
+       device='cuda:2'), covar=tensor([0.0922, 0.1148, 0.1328, 0.0818, 0.1062, 0.0562, 0.0978, 0.0677],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0381, 0.0282, 0.0245, 0.0316, 0.0261, 0.0266, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 02:01:32,669 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20778.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:01:34,833 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20780.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:01:41,112 INFO [train.py:903] (2/4) Epoch 4, batch 300, loss[loss=0.3404, simple_loss=0.3818, pruned_loss=0.1495, over 17289.00 frames. ], tot_loss[loss=0.3116, simple_loss=0.3635, pruned_loss=0.1299, over 2985224.45 frames. ], batch size: 101, lr: 2.11e-02, grad_scale: 8.0
+2023-04-01 02:02:25,205 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20822.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:02:29,138 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.541e+02 7.559e+02 9.012e+02 1.206e+03 2.235e+03, threshold=1.802e+03, percent-clipped=6.0
+2023-04-01 02:02:30,420 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9983, 4.6870, 5.7437, 5.7476, 1.7602, 5.3144, 4.5806, 5.1781],
+       device='cuda:2'), covar=tensor([0.0535, 0.0569, 0.0381, 0.0223, 0.3734, 0.0171, 0.0363, 0.0707],
+       device='cuda:2'), in_proj_covar=tensor([0.0422, 0.0379, 0.0512, 0.0395, 0.0520, 0.0278, 0.0337, 0.0489],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 02:02:31,771 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1665, 1.0863, 1.9188, 1.3400, 2.5218, 2.1699, 2.8085, 1.0140],
+       device='cuda:2'), covar=tensor([0.1758, 0.2938, 0.1483, 0.1596, 0.1130, 0.1338, 0.1212, 0.2668],
+       device='cuda:2'), in_proj_covar=tensor([0.0423, 0.0469, 0.0436, 0.0398, 0.0515, 0.0412, 0.0593, 0.0424],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 02:02:40,181 INFO [train.py:903] (2/4) Epoch 4, batch 350, loss[loss=0.2681, simple_loss=0.3396, pruned_loss=0.09831, over 19657.00 frames. ], tot_loss[loss=0.3106, simple_loss=0.3625, pruned_loss=0.1294, over 3174448.24 frames. ], batch size: 55, lr: 2.10e-02, grad_scale: 8.0
+2023-04-01 02:02:45,647 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 02:02:52,634 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20845.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:02:54,935 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20847.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:03:18,371 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:03:23,838 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20870.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:03:40,719 INFO [train.py:903] (2/4) Epoch 4, batch 400, loss[loss=0.3055, simple_loss=0.3629, pruned_loss=0.1241, over 19683.00 frames. ], tot_loss[loss=0.3123, simple_loss=0.3641, pruned_loss=0.1302, over 3312230.00 frames. ], batch size: 60, lr: 2.10e-02, grad_scale: 8.0
+2023-04-01 02:03:52,350 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=20895.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:04:27,879 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.312e+02 7.529e+02 9.870e+02 1.265e+03 2.610e+03, threshold=1.974e+03, percent-clipped=3.0
+2023-04-01 02:04:39,101 INFO [train.py:903] (2/4) Epoch 4, batch 450, loss[loss=0.3922, simple_loss=0.4132, pruned_loss=0.1856, over 12816.00 frames. ], tot_loss[loss=0.3102, simple_loss=0.3623, pruned_loss=0.129, over 3425236.59 frames. ], batch size: 135, lr: 2.10e-02, grad_scale: 8.0
+2023-04-01 02:04:41,840 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=20937.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:04:58,401 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=20950.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:05:12,740 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 02:05:13,145 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=20962.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:05:13,948 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 02:05:24,360 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4376, 1.3637, 1.1115, 1.2987, 1.1083, 1.1857, 1.0278, 1.2867],
+       device='cuda:2'), covar=tensor([0.0842, 0.0912, 0.1199, 0.0688, 0.0907, 0.0662, 0.0968, 0.0695],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0371, 0.0278, 0.0243, 0.0304, 0.0260, 0.0263, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 02:05:40,652 INFO [train.py:903] (2/4) Epoch 4, batch 500, loss[loss=0.3126, simple_loss=0.3717, pruned_loss=0.1268, over 17245.00 frames. ], tot_loss[loss=0.3097, simple_loss=0.3617, pruned_loss=0.1289, over 3524967.56 frames. ], batch size: 101, lr: 2.10e-02, grad_scale: 8.0
+2023-04-01 02:06:00,987 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1899, 2.1291, 1.5644, 1.7633, 1.4053, 1.7111, 0.2939, 0.9922],
+       device='cuda:2'), covar=tensor([0.0258, 0.0220, 0.0162, 0.0193, 0.0479, 0.0271, 0.0440, 0.0390],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0259, 0.0258, 0.0287, 0.0341, 0.0277, 0.0261, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 02:06:27,513 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.944e+02 7.370e+02 9.144e+02 1.191e+03 3.185e+03, threshold=1.829e+03, percent-clipped=4.0
+2023-04-01 02:06:40,248 INFO [train.py:903] (2/4) Epoch 4, batch 550, loss[loss=0.3244, simple_loss=0.3792, pruned_loss=0.1348, over 19390.00 frames. ], tot_loss[loss=0.3096, simple_loss=0.3619, pruned_loss=0.1286, over 3593196.56 frames. ], batch size: 70, lr: 2.10e-02, grad_scale: 8.0
+2023-04-01 02:07:17,103 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21065.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:07:23,318 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21070.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:07:39,555 INFO [train.py:903] (2/4) Epoch 4, batch 600, loss[loss=0.2968, simple_loss=0.3631, pruned_loss=0.1153, over 19613.00 frames. ], tot_loss[loss=0.3116, simple_loss=0.3633, pruned_loss=0.13, over 3640511.44 frames. ], batch size: 57, lr: 2.09e-02, grad_scale: 8.0
+2023-04-01 02:07:47,084 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2797, 3.0479, 1.9971, 2.8546, 1.0964, 2.8406, 2.7204, 2.8429],
+       device='cuda:2'), covar=tensor([0.0883, 0.1252, 0.1896, 0.0752, 0.3251, 0.1057, 0.0838, 0.0929],
+       device='cuda:2'), in_proj_covar=tensor([0.0323, 0.0296, 0.0340, 0.0273, 0.0339, 0.0294, 0.0252, 0.0289],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 02:08:19,250 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 02:08:23,048 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21121.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:08:27,129 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.199e+02 8.023e+02 1.001e+03 1.305e+03 2.804e+03, threshold=2.003e+03, percent-clipped=3.0
+2023-04-01 02:08:39,435 INFO [train.py:903] (2/4) Epoch 4, batch 650, loss[loss=0.2904, simple_loss=0.3516, pruned_loss=0.1146, over 19035.00 frames. ], tot_loss[loss=0.312, simple_loss=0.3637, pruned_loss=0.1302, over 3662421.36 frames. ], batch size: 69, lr: 2.09e-02, grad_scale: 8.0
+2023-04-01 02:08:40,602 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21136.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:08:52,196 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21146.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:09:00,269 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21151.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:09:06,879 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8064, 1.5510, 1.4807, 1.9132, 1.8017, 1.6801, 1.4400, 1.9524],
+       device='cuda:2'), covar=tensor([0.0886, 0.1543, 0.1277, 0.0906, 0.1025, 0.0506, 0.0983, 0.0596],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0365, 0.0274, 0.0245, 0.0302, 0.0254, 0.0259, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 02:09:29,125 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21176.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:09:38,635 INFO [train.py:903] (2/4) Epoch 4, batch 700, loss[loss=0.3254, simple_loss=0.3755, pruned_loss=0.1376, over 19787.00 frames. ], tot_loss[loss=0.3126, simple_loss=0.3644, pruned_loss=0.1304, over 3692174.53 frames. ], batch size: 56, lr: 2.09e-02, grad_scale: 8.0
+2023-04-01 02:10:26,834 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.035e+02 7.118e+02 8.929e+02 1.162e+03 2.438e+03, threshold=1.786e+03, percent-clipped=3.0
+2023-04-01 02:10:40,518 INFO [train.py:903] (2/4) Epoch 4, batch 750, loss[loss=0.345, simple_loss=0.3961, pruned_loss=0.1469, over 18792.00 frames. ], tot_loss[loss=0.3146, simple_loss=0.366, pruned_loss=0.1316, over 3708160.69 frames. ], batch size: 74, lr: 2.09e-02, grad_scale: 8.0
+2023-04-01 02:11:39,282 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3481, 1.1678, 1.3070, 1.5608, 2.9729, 1.3598, 1.9154, 2.9095],
+       device='cuda:2'), covar=tensor([0.0332, 0.2273, 0.2396, 0.1428, 0.0428, 0.1731, 0.1072, 0.0409],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0302, 0.0301, 0.0274, 0.0290, 0.0312, 0.0277, 0.0283],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 02:11:40,042 INFO [train.py:903] (2/4) Epoch 4, batch 800, loss[loss=0.309, simple_loss=0.3672, pruned_loss=0.1254, over 19726.00 frames. ], tot_loss[loss=0.3137, simple_loss=0.3653, pruned_loss=0.131, over 3736981.10 frames. ], batch size: 51, lr: 2.08e-02, grad_scale: 8.0
+2023-04-01 02:11:56,123 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 02:12:10,352 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-01 02:12:25,412 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21321.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:12:27,944 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.42 vs. limit=5.0
+2023-04-01 02:12:30,558 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.379e+02 8.113e+02 1.001e+03 1.207e+03 2.017e+03, threshold=2.002e+03, percent-clipped=2.0
+2023-04-01 02:12:35,443 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21330.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:12:40,720 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7385, 3.0885, 3.1908, 3.1777, 1.1071, 2.9480, 2.6293, 2.8479],
+       device='cuda:2'), covar=tensor([0.0919, 0.0647, 0.0627, 0.0532, 0.3338, 0.0391, 0.0580, 0.1095],
+       device='cuda:2'), in_proj_covar=tensor([0.0420, 0.0367, 0.0508, 0.0389, 0.0509, 0.0277, 0.0330, 0.0471],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 02:12:41,604 INFO [train.py:903] (2/4) Epoch 4, batch 850, loss[loss=0.3725, simple_loss=0.4115, pruned_loss=0.1667, over 19662.00 frames. ], tot_loss[loss=0.3114, simple_loss=0.3639, pruned_loss=0.1295, over 3765630.71 frames. ], batch size: 60, lr: 2.08e-02, grad_scale: 8.0
+2023-04-01 02:12:54,272 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21346.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:12:54,379 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21346.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:13:30,969 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 02:13:39,991 INFO [train.py:903] (2/4) Epoch 4, batch 900, loss[loss=0.2681, simple_loss=0.3264, pruned_loss=0.1049, over 19736.00 frames. ], tot_loss[loss=0.3109, simple_loss=0.3632, pruned_loss=0.1294, over 3780427.45 frames. ], batch size: 51, lr: 2.08e-02, grad_scale: 8.0
+2023-04-01 02:14:14,505 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21414.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:14:28,701 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.494e+02 7.656e+02 9.192e+02 1.106e+03 2.022e+03, threshold=1.838e+03, percent-clipped=1.0
+2023-04-01 02:14:40,651 INFO [train.py:903] (2/4) Epoch 4, batch 950, loss[loss=0.286, simple_loss=0.3369, pruned_loss=0.1176, over 19420.00 frames. ], tot_loss[loss=0.3085, simple_loss=0.3608, pruned_loss=0.128, over 3796073.70 frames. ], batch size: 48, lr: 2.08e-02, grad_scale: 8.0
+2023-04-01 02:14:43,030 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 02:15:29,266 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9762, 1.4362, 1.4910, 1.8820, 1.9427, 1.6894, 1.4766, 1.9410],
+       device='cuda:2'), covar=tensor([0.0756, 0.1612, 0.1198, 0.0814, 0.0906, 0.0494, 0.0983, 0.0587],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0372, 0.0274, 0.0248, 0.0305, 0.0259, 0.0263, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 02:15:35,415 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21480.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:15:40,662 INFO [train.py:903] (2/4) Epoch 4, batch 1000, loss[loss=0.4406, simple_loss=0.4472, pruned_loss=0.217, over 13001.00 frames. ], tot_loss[loss=0.3092, simple_loss=0.3617, pruned_loss=0.1283, over 3792370.35 frames. ], batch size: 136, lr: 2.07e-02, grad_scale: 8.0
+2023-04-01 02:16:15,655 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7946, 4.1623, 4.4455, 4.4235, 1.5351, 3.9736, 3.4150, 3.9662],
+       device='cuda:2'), covar=tensor([0.0815, 0.0517, 0.0464, 0.0331, 0.3895, 0.0273, 0.0514, 0.1003],
+       device='cuda:2'), in_proj_covar=tensor([0.0424, 0.0374, 0.0508, 0.0393, 0.0516, 0.0281, 0.0336, 0.0485],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 02:16:29,781 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.128e+02 7.436e+02 9.242e+02 1.292e+03 2.692e+03, threshold=1.848e+03, percent-clipped=7.0
+2023-04-01 02:16:33,304 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 02:16:33,648 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21529.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:16:40,204 INFO [train.py:903] (2/4) Epoch 4, batch 1050, loss[loss=0.2479, simple_loss=0.3116, pruned_loss=0.09213, over 19723.00 frames. ], tot_loss[loss=0.3085, simple_loss=0.3612, pruned_loss=0.1279, over 3803050.59 frames. ], batch size: 46, lr: 2.07e-02, grad_scale: 8.0
+2023-04-01 02:17:14,226 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 02:17:40,184 INFO [train.py:903] (2/4) Epoch 4, batch 1100, loss[loss=0.2849, simple_loss=0.3515, pruned_loss=0.1091, over 19587.00 frames. ], tot_loss[loss=0.306, simple_loss=0.3594, pruned_loss=0.1263, over 3817711.84 frames. ], batch size: 52, lr: 2.07e-02, grad_scale: 8.0
+2023-04-01 02:17:52,968 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21595.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:18:03,973 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2259, 1.2837, 1.1150, 1.0384, 0.9624, 1.2305, 0.0533, 0.5318],
+       device='cuda:2'), covar=tensor([0.0237, 0.0239, 0.0139, 0.0184, 0.0488, 0.0190, 0.0408, 0.0362],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0262, 0.0258, 0.0285, 0.0338, 0.0275, 0.0264, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 02:18:15,031 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21613.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:18:30,560 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.767e+02 7.921e+02 9.622e+02 1.275e+03 2.981e+03, threshold=1.924e+03, percent-clipped=6.0
+2023-04-01 02:18:36,412 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21631.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:18:43,707 INFO [train.py:903] (2/4) Epoch 4, batch 1150, loss[loss=0.239, simple_loss=0.2986, pruned_loss=0.08965, over 19796.00 frames. ], tot_loss[loss=0.3086, simple_loss=0.3612, pruned_loss=0.1279, over 3805008.91 frames. ], batch size: 48, lr: 2.07e-02, grad_scale: 8.0
+2023-04-01 02:19:31,577 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21674.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:19:45,559 INFO [train.py:903] (2/4) Epoch 4, batch 1200, loss[loss=0.2651, simple_loss=0.3192, pruned_loss=0.1054, over 19764.00 frames. ], tot_loss[loss=0.3071, simple_loss=0.3602, pruned_loss=0.127, over 3807016.65 frames. ], batch size: 48, lr: 2.07e-02, grad_scale: 8.0
+2023-04-01 02:19:51,437 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21690.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:19:54,809 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4662, 4.0758, 2.5507, 3.6842, 1.1503, 3.6852, 3.5888, 3.7866],
+       device='cuda:2'), covar=tensor([0.0575, 0.1132, 0.1691, 0.0641, 0.3750, 0.0826, 0.0710, 0.0782],
+       device='cuda:2'), in_proj_covar=tensor([0.0327, 0.0302, 0.0342, 0.0278, 0.0348, 0.0295, 0.0259, 0.0289],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 02:20:14,908 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 02:20:35,530 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.245e+02 7.515e+02 9.038e+02 1.111e+03 2.454e+03, threshold=1.808e+03, percent-clipped=2.0
+2023-04-01 02:20:45,440 INFO [train.py:903] (2/4) Epoch 4, batch 1250, loss[loss=0.2941, simple_loss=0.3549, pruned_loss=0.1166, over 19511.00 frames. ], tot_loss[loss=0.3075, simple_loss=0.3607, pruned_loss=0.1272, over 3811982.36 frames. ], batch size: 54, lr: 2.06e-02, grad_scale: 8.0
+2023-04-01 02:21:39,814 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21781.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:21:44,786 INFO [train.py:903] (2/4) Epoch 4, batch 1300, loss[loss=0.3213, simple_loss=0.3762, pruned_loss=0.1333, over 19794.00 frames. ], tot_loss[loss=0.3082, simple_loss=0.3613, pruned_loss=0.1275, over 3816079.00 frames. ], batch size: 56, lr: 2.06e-02, grad_scale: 8.0
+2023-04-01 02:21:45,224 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21785.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:21:49,713 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21789.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:22:08,387 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.47 vs. limit=2.0
+2023-04-01 02:22:10,082 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=21805.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:22:15,801 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21810.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:22:34,651 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.842e+02 7.410e+02 9.034e+02 1.121e+03 1.849e+03, threshold=1.807e+03, percent-clipped=1.0
+2023-04-01 02:22:45,109 INFO [train.py:903] (2/4) Epoch 4, batch 1350, loss[loss=0.3532, simple_loss=0.3941, pruned_loss=0.1561, over 19601.00 frames. ], tot_loss[loss=0.307, simple_loss=0.36, pruned_loss=0.127, over 3816837.00 frames. ], batch size: 61, lr: 2.06e-02, grad_scale: 8.0
+2023-04-01 02:23:04,112 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=21851.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:23:23,914 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21868.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:23:33,950 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=21876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:23:45,407 INFO [train.py:903] (2/4) Epoch 4, batch 1400, loss[loss=0.3198, simple_loss=0.3766, pruned_loss=0.1315, over 19549.00 frames. ], tot_loss[loss=0.3093, simple_loss=0.3616, pruned_loss=0.1285, over 3809514.44 frames. ], batch size: 56, lr: 2.06e-02, grad_scale: 8.0
+2023-04-01 02:24:35,710 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.358e+02 7.364e+02 9.517e+02 1.310e+03 2.254e+03, threshold=1.903e+03, percent-clipped=6.0
+2023-04-01 02:24:42,755 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 02:24:46,201 INFO [train.py:903] (2/4) Epoch 4, batch 1450, loss[loss=0.2927, simple_loss=0.3602, pruned_loss=0.1126, over 18771.00 frames. ], tot_loss[loss=0.3064, simple_loss=0.3597, pruned_loss=0.1266, over 3823797.93 frames. ], batch size: 74, lr: 2.05e-02, grad_scale: 8.0
+2023-04-01 02:25:01,770 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-01 02:25:13,229 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21957.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:25:34,252 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=21975.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:25:45,920 INFO [train.py:903] (2/4) Epoch 4, batch 1500, loss[loss=0.3791, simple_loss=0.4024, pruned_loss=0.1779, over 13176.00 frames. ], tot_loss[loss=0.3085, simple_loss=0.3613, pruned_loss=0.1278, over 3824695.78 frames. ], batch size: 135, lr: 2.05e-02, grad_scale: 8.0
+2023-04-01 02:25:49,618 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=21988.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:26:36,548 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.570e+02 6.805e+02 9.241e+02 1.170e+03 2.581e+03, threshold=1.848e+03, percent-clipped=2.0
+2023-04-01 02:26:47,130 INFO [train.py:903] (2/4) Epoch 4, batch 1550, loss[loss=0.2504, simple_loss=0.3095, pruned_loss=0.09565, over 19769.00 frames. ], tot_loss[loss=0.3072, simple_loss=0.3602, pruned_loss=0.1271, over 3824868.52 frames. ], batch size: 47, lr: 2.05e-02, grad_scale: 8.0
+2023-04-01 02:27:01,644 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:27:12,261 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.61 vs. limit=5.0
+2023-04-01 02:27:19,357 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22061.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:27:30,496 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22070.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:27:32,824 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22072.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:27:49,226 INFO [train.py:903] (2/4) Epoch 4, batch 1600, loss[loss=0.2999, simple_loss=0.3622, pruned_loss=0.1188, over 19594.00 frames. ], tot_loss[loss=0.3088, simple_loss=0.3615, pruned_loss=0.128, over 3833702.96 frames. ], batch size: 57, lr: 2.05e-02, grad_scale: 8.0
+2023-04-01 02:27:50,775 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22086.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:27:55,243 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22090.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:28:10,564 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 02:28:37,647 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22125.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:28:39,601 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.648e+02 8.565e+02 1.081e+03 1.346e+03 3.673e+03, threshold=2.162e+03, percent-clipped=6.0
+2023-04-01 02:28:48,844 INFO [train.py:903] (2/4) Epoch 4, batch 1650, loss[loss=0.2895, simple_loss=0.3463, pruned_loss=0.1164, over 19764.00 frames. ], tot_loss[loss=0.309, simple_loss=0.3613, pruned_loss=0.1283, over 3826885.91 frames. ], batch size: 47, lr: 2.05e-02, grad_scale: 4.0
+2023-04-01 02:28:54,193 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-01 02:29:04,248 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22148.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:29:49,257 INFO [train.py:903] (2/4) Epoch 4, batch 1700, loss[loss=0.2697, simple_loss=0.3374, pruned_loss=0.101, over 19803.00 frames. ], tot_loss[loss=0.3069, simple_loss=0.3597, pruned_loss=0.127, over 3814214.37 frames. ], batch size: 56, lr: 2.04e-02, grad_scale: 4.0
+2023-04-01 02:30:00,434 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22194.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:30:23,325 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22212.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:30:27,870 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 02:30:40,332 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.920e+02 6.276e+02 7.753e+02 9.050e+02 1.909e+03, threshold=1.551e+03, percent-clipped=1.0
+2023-04-01 02:30:48,108 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22233.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:30:49,925 INFO [train.py:903] (2/4) Epoch 4, batch 1750, loss[loss=0.3371, simple_loss=0.3897, pruned_loss=0.1423, over 19747.00 frames. ], tot_loss[loss=0.3053, simple_loss=0.3586, pruned_loss=0.126, over 3812892.24 frames. ], batch size: 63, lr: 2.04e-02, grad_scale: 4.0
+2023-04-01 02:30:57,712 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22240.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:31:15,626 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22255.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:31:28,796 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.46 vs. limit=2.0
+2023-04-01 02:31:40,428 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.1729, 3.7725, 2.3091, 3.4079, 1.2163, 3.3791, 3.4254, 3.6371],
+       device='cuda:2'), covar=tensor([0.0778, 0.1239, 0.2191, 0.0746, 0.3791, 0.1061, 0.0762, 0.0999],
+       device='cuda:2'), in_proj_covar=tensor([0.0336, 0.0294, 0.0344, 0.0269, 0.0342, 0.0293, 0.0253, 0.0289],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 02:31:52,437 INFO [train.py:903] (2/4) Epoch 4, batch 1800, loss[loss=0.3008, simple_loss=0.3452, pruned_loss=0.1283, over 19314.00 frames. ], tot_loss[loss=0.3064, simple_loss=0.3591, pruned_loss=0.1268, over 3811115.58 frames. ], batch size: 44, lr: 2.04e-02, grad_scale: 4.0
+2023-04-01 02:32:43,155 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.733e+02 7.313e+02 8.961e+02 1.128e+03 3.443e+03, threshold=1.792e+03, percent-clipped=8.0
+2023-04-01 02:32:43,404 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:32:44,419 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22328.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:32:46,333 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 02:32:48,649 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22332.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:32:52,005 INFO [train.py:903] (2/4) Epoch 4, batch 1850, loss[loss=0.3179, simple_loss=0.3781, pruned_loss=0.1289, over 19684.00 frames. ], tot_loss[loss=0.3073, simple_loss=0.3596, pruned_loss=0.1275, over 3804688.34 frames. ], batch size: 58, lr: 2.04e-02, grad_scale: 4.0
+2023-04-01 02:33:04,838 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22346.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:33:13,895 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22353.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:33:24,827 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 02:33:36,226 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22371.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:33:51,846 INFO [train.py:903] (2/4) Epoch 4, batch 1900, loss[loss=0.3925, simple_loss=0.4306, pruned_loss=0.1772, over 19510.00 frames. ], tot_loss[loss=0.3076, simple_loss=0.3598, pruned_loss=0.1277, over 3798772.15 frames. ], batch size: 64, lr: 2.03e-02, grad_scale: 4.0
+2023-04-01 02:34:09,608 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 02:34:14,797 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 02:34:15,088 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22403.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:34:39,436 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 02:34:42,868 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.044e+02 7.549e+02 9.520e+02 1.192e+03 3.384e+03, threshold=1.904e+03, percent-clipped=5.0
+2023-04-01 02:34:51,950 INFO [train.py:903] (2/4) Epoch 4, batch 1950, loss[loss=0.3147, simple_loss=0.3733, pruned_loss=0.128, over 19597.00 frames. ], tot_loss[loss=0.3084, simple_loss=0.3608, pruned_loss=0.128, over 3808049.97 frames. ], batch size: 57, lr: 2.03e-02, grad_scale: 4.0
+2023-04-01 02:35:08,597 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22447.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:35:53,492 INFO [train.py:903] (2/4) Epoch 4, batch 2000, loss[loss=0.2884, simple_loss=0.3455, pruned_loss=0.1156, over 19593.00 frames. ], tot_loss[loss=0.3079, simple_loss=0.3608, pruned_loss=0.1275, over 3798829.37 frames. ], batch size: 52, lr: 2.03e-02, grad_scale: 8.0
+2023-04-01 02:36:01,814 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22492.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:36:06,614 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22496.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:36:37,370 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22521.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:36:45,514 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.709e+02 6.735e+02 8.799e+02 1.102e+03 2.294e+03, threshold=1.760e+03, percent-clipped=1.0
+2023-04-01 02:36:46,724 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 02:36:54,498 INFO [train.py:903] (2/4) Epoch 4, batch 2050, loss[loss=0.4273, simple_loss=0.4403, pruned_loss=0.2071, over 17190.00 frames. ], tot_loss[loss=0.3068, simple_loss=0.3602, pruned_loss=0.1267, over 3803420.87 frames. ], batch size: 101, lr: 2.03e-02, grad_scale: 8.0
+2023-04-01 02:36:58,151 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22538.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:37:04,878 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 02:37:06,035 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 02:37:27,448 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 02:37:45,364 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22577.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:37:52,338 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:37:54,202 INFO [train.py:903] (2/4) Epoch 4, batch 2100, loss[loss=0.3258, simple_loss=0.381, pruned_loss=0.1353, over 19664.00 frames. ], tot_loss[loss=0.3057, simple_loss=0.3591, pruned_loss=0.1261, over 3795170.19 frames. ], batch size: 60, lr: 2.03e-02, grad_scale: 8.0
+2023-04-01 02:38:10,685 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22599.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:38:20,857 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2714, 1.1732, 1.8366, 1.4050, 2.5041, 2.2079, 2.7281, 0.9803],
+       device='cuda:2'), covar=tensor([0.1640, 0.2935, 0.1408, 0.1426, 0.1124, 0.1251, 0.1219, 0.2573],
+       device='cuda:2'), in_proj_covar=tensor([0.0429, 0.0483, 0.0449, 0.0402, 0.0522, 0.0417, 0.0606, 0.0430],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 02:38:21,632 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 02:38:21,982 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22607.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:38:23,343 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22608.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:38:36,192 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-01 02:38:42,463 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 02:38:44,807 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.772e+02 6.954e+02 8.861e+02 1.126e+03 2.028e+03, threshold=1.772e+03, percent-clipped=3.0
+2023-04-01 02:38:53,762 INFO [train.py:903] (2/4) Epoch 4, batch 2150, loss[loss=0.3148, simple_loss=0.3677, pruned_loss=0.1309, over 19508.00 frames. ], tot_loss[loss=0.3054, simple_loss=0.3588, pruned_loss=0.126, over 3809361.95 frames. ], batch size: 64, lr: 2.02e-02, grad_scale: 8.0
+2023-04-01 02:39:17,776 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22653.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:39:22,220 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22657.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:39:42,832 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.01 vs. limit=2.0
+2023-04-01 02:39:56,340 INFO [train.py:903] (2/4) Epoch 4, batch 2200, loss[loss=0.3506, simple_loss=0.3897, pruned_loss=0.1558, over 19754.00 frames. ], tot_loss[loss=0.3061, simple_loss=0.3596, pruned_loss=0.1262, over 3821667.56 frames. ], batch size: 54, lr: 2.02e-02, grad_scale: 8.0
+2023-04-01 02:40:05,447 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22692.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:40:18,029 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22703.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:40:19,021 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9494, 4.3061, 4.5909, 4.5542, 1.4298, 4.1458, 3.8817, 4.1127],
+       device='cuda:2'), covar=tensor([0.0784, 0.0491, 0.0445, 0.0358, 0.3633, 0.0253, 0.0420, 0.0882],
+       device='cuda:2'), in_proj_covar=tensor([0.0428, 0.0385, 0.0516, 0.0403, 0.0518, 0.0287, 0.0345, 0.0485],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 02:40:30,195 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22714.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:40:47,455 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.077e+02 6.866e+02 8.417e+02 1.098e+03 2.160e+03, threshold=1.683e+03, percent-clipped=4.0
+2023-04-01 02:40:49,072 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22728.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:40:56,692 INFO [train.py:903] (2/4) Epoch 4, batch 2250, loss[loss=0.2872, simple_loss=0.353, pruned_loss=0.1107, over 19667.00 frames. ], tot_loss[loss=0.3068, simple_loss=0.3606, pruned_loss=0.1265, over 3820103.38 frames. ], batch size: 58, lr: 2.02e-02, grad_scale: 8.0
+2023-04-01 02:41:10,276 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=22747.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:41:11,695 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9330, 1.9230, 1.7564, 2.7140, 1.8715, 2.4900, 2.4229, 1.8144],
+       device='cuda:2'), covar=tensor([0.1439, 0.1088, 0.0678, 0.0700, 0.1298, 0.0475, 0.1176, 0.1045],
+       device='cuda:2'), in_proj_covar=tensor([0.0541, 0.0521, 0.0497, 0.0689, 0.0585, 0.0431, 0.0603, 0.0502],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 02:41:57,018 INFO [train.py:903] (2/4) Epoch 4, batch 2300, loss[loss=0.298, simple_loss=0.3414, pruned_loss=0.1273, over 19780.00 frames. ], tot_loss[loss=0.3065, simple_loss=0.3603, pruned_loss=0.1264, over 3828308.31 frames. ], batch size: 48, lr: 2.02e-02, grad_scale: 8.0
+2023-04-01 02:42:06,242 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2755, 2.1181, 1.5756, 1.5461, 1.4435, 1.7359, 0.2867, 0.9587],
+       device='cuda:2'), covar=tensor([0.0222, 0.0222, 0.0172, 0.0254, 0.0449, 0.0283, 0.0443, 0.0386],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0258, 0.0259, 0.0282, 0.0337, 0.0270, 0.0261, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 02:42:09,279 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 02:42:31,190 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22812.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:42:47,874 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.632e+02 7.223e+02 9.387e+02 1.200e+03 1.860e+03, threshold=1.877e+03, percent-clipped=8.0
+2023-04-01 02:42:56,887 INFO [train.py:903] (2/4) Epoch 4, batch 2350, loss[loss=0.3137, simple_loss=0.372, pruned_loss=0.1277, over 19762.00 frames. ], tot_loss[loss=0.3064, simple_loss=0.3602, pruned_loss=0.1263, over 3823450.22 frames. ], batch size: 63, lr: 2.01e-02, grad_scale: 8.0
+2023-04-01 02:43:06,752 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=22843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:43:31,022 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=22862.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:43:32,308 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22863.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:43:38,746 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 02:43:54,375 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 02:43:57,673 INFO [train.py:903] (2/4) Epoch 4, batch 2400, loss[loss=0.3884, simple_loss=0.3945, pruned_loss=0.1911, over 19763.00 frames. ], tot_loss[loss=0.3049, simple_loss=0.359, pruned_loss=0.1254, over 3833002.48 frames. ], batch size: 47, lr: 2.01e-02, grad_scale: 8.0
+2023-04-01 02:44:03,318 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22888.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:44:09,585 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.05 vs. limit=5.0
+2023-04-01 02:44:27,652 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:44:49,611 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.703e+02 7.425e+02 9.466e+02 1.182e+03 3.064e+03, threshold=1.893e+03, percent-clipped=2.0
+2023-04-01 02:44:58,899 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22934.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:44:59,532 INFO [train.py:903] (2/4) Epoch 4, batch 2450, loss[loss=0.3438, simple_loss=0.3882, pruned_loss=0.1497, over 19695.00 frames. ], tot_loss[loss=0.3048, simple_loss=0.359, pruned_loss=0.1253, over 3825433.43 frames. ], batch size: 59, lr: 2.01e-02, grad_scale: 8.0
+2023-04-01 02:45:14,079 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22948.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:45:40,936 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=22970.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:45:44,388 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22973.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:45:57,753 INFO [train.py:903] (2/4) Epoch 4, batch 2500, loss[loss=0.3193, simple_loss=0.3745, pruned_loss=0.1321, over 19589.00 frames. ], tot_loss[loss=0.3033, simple_loss=0.3575, pruned_loss=0.1245, over 3828210.76 frames. ], batch size: 61, lr: 2.01e-02, grad_scale: 8.0
+2023-04-01 02:46:09,388 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=22995.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:46:16,269 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23001.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:46:48,542 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.107e+02 7.308e+02 8.619e+02 1.083e+03 2.930e+03, threshold=1.724e+03, percent-clipped=3.0
+2023-04-01 02:46:57,730 INFO [train.py:903] (2/4) Epoch 4, batch 2550, loss[loss=0.27, simple_loss=0.3209, pruned_loss=0.1095, over 19793.00 frames. ], tot_loss[loss=0.3024, simple_loss=0.3568, pruned_loss=0.124, over 3836879.43 frames. ], batch size: 48, lr: 2.01e-02, grad_scale: 8.0
+2023-04-01 02:47:49,716 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 02:47:57,389 INFO [train.py:903] (2/4) Epoch 4, batch 2600, loss[loss=0.318, simple_loss=0.3693, pruned_loss=0.1334, over 19690.00 frames. ], tot_loss[loss=0.3042, simple_loss=0.3585, pruned_loss=0.1249, over 3825968.86 frames. ], batch size: 53, lr: 2.00e-02, grad_scale: 8.0
+2023-04-01 02:48:33,825 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23116.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:48:36,226 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23118.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:48:46,653 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23126.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:48:47,920 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.28 vs. limit=5.0
+2023-04-01 02:48:48,300 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.619e+02 6.946e+02 8.555e+02 1.074e+03 2.756e+03, threshold=1.711e+03, percent-clipped=6.0
+2023-04-01 02:48:58,592 INFO [train.py:903] (2/4) Epoch 4, batch 2650, loss[loss=0.3443, simple_loss=0.3889, pruned_loss=0.1499, over 19607.00 frames. ], tot_loss[loss=0.3056, simple_loss=0.3594, pruned_loss=0.1259, over 3835033.05 frames. ], batch size: 57, lr: 2.00e-02, grad_scale: 8.0
+2023-04-01 02:49:08,308 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23143.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:49:17,083 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 02:49:22,936 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23156.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:49:58,047 INFO [train.py:903] (2/4) Epoch 4, batch 2700, loss[loss=0.2952, simple_loss=0.3592, pruned_loss=0.1156, over 19485.00 frames. ], tot_loss[loss=0.3049, simple_loss=0.3589, pruned_loss=0.1255, over 3835407.22 frames. ], batch size: 64, lr: 2.00e-02, grad_scale: 8.0
+2023-04-01 02:50:00,484 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23187.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:50:48,010 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.628e+02 7.002e+02 8.947e+02 1.091e+03 2.361e+03, threshold=1.789e+03, percent-clipped=7.0
+2023-04-01 02:50:57,137 INFO [train.py:903] (2/4) Epoch 4, batch 2750, loss[loss=0.22, simple_loss=0.2864, pruned_loss=0.07675, over 19715.00 frames. ], tot_loss[loss=0.3041, simple_loss=0.358, pruned_loss=0.1251, over 3839014.17 frames. ], batch size: 46, lr: 2.00e-02, grad_scale: 8.0
+2023-04-01 02:50:57,426 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23235.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:51:11,591 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:51:41,031 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23271.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:51:54,561 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4817, 1.2927, 1.6918, 1.2950, 2.8268, 3.4517, 3.3346, 3.5925],
+       device='cuda:2'), covar=tensor([0.1272, 0.2637, 0.2697, 0.1885, 0.0405, 0.0122, 0.0199, 0.0111],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0279, 0.0322, 0.0263, 0.0192, 0.0107, 0.0202, 0.0124],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 02:51:56,437 INFO [train.py:903] (2/4) Epoch 4, batch 2800, loss[loss=0.2574, simple_loss=0.3203, pruned_loss=0.09724, over 19599.00 frames. ], tot_loss[loss=0.3046, simple_loss=0.3583, pruned_loss=0.1254, over 3823646.35 frames. ], batch size: 50, lr: 2.00e-02, grad_scale: 8.0
+2023-04-01 02:52:17,020 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:52:45,201 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.435e+02 7.909e+02 1.044e+03 1.347e+03 2.323e+03, threshold=2.087e+03, percent-clipped=7.0
+2023-04-01 02:52:56,804 INFO [train.py:903] (2/4) Epoch 4, batch 2850, loss[loss=0.3447, simple_loss=0.3827, pruned_loss=0.1533, over 19689.00 frames. ], tot_loss[loss=0.3053, simple_loss=0.3588, pruned_loss=0.1259, over 3832296.92 frames. ], batch size: 60, lr: 1.99e-02, grad_scale: 8.0
+2023-04-01 02:53:03,164 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
+2023-04-01 02:53:41,846 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23372.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:53:44,370 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
+2023-04-01 02:53:56,278 INFO [train.py:903] (2/4) Epoch 4, batch 2900, loss[loss=0.3412, simple_loss=0.3934, pruned_loss=0.1445, over 19665.00 frames. ], tot_loss[loss=0.3053, simple_loss=0.3589, pruned_loss=0.1258, over 3824520.50 frames. ], batch size: 58, lr: 1.99e-02, grad_scale: 4.0
+2023-04-01 02:53:56,295 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 02:54:10,063 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23397.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:54:45,628 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.212e+02 7.852e+02 1.023e+03 1.284e+03 2.319e+03, threshold=2.047e+03, percent-clipped=2.0
+2023-04-01 02:54:53,632 INFO [train.py:903] (2/4) Epoch 4, batch 2950, loss[loss=0.2656, simple_loss=0.3232, pruned_loss=0.104, over 19785.00 frames. ], tot_loss[loss=0.3045, simple_loss=0.3582, pruned_loss=0.1253, over 3823220.48 frames. ], batch size: 48, lr: 1.99e-02, grad_scale: 4.0
+2023-04-01 02:55:20,533 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3603, 1.0940, 1.3168, 1.3153, 2.0837, 1.0513, 1.7586, 2.0069],
+       device='cuda:2'), covar=tensor([0.0552, 0.2414, 0.2129, 0.1260, 0.0673, 0.1775, 0.1023, 0.0648],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0304, 0.0304, 0.0276, 0.0297, 0.0319, 0.0280, 0.0286],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 02:55:35,104 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23470.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:55:45,353 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2068, 3.7913, 2.4251, 3.4587, 1.0182, 3.4615, 3.3790, 3.6214],
+       device='cuda:2'), covar=tensor([0.0715, 0.1122, 0.1841, 0.0799, 0.4006, 0.1032, 0.0802, 0.0847],
+       device='cuda:2'), in_proj_covar=tensor([0.0338, 0.0301, 0.0350, 0.0277, 0.0347, 0.0302, 0.0255, 0.0294],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 02:55:52,224 INFO [train.py:903] (2/4) Epoch 4, batch 3000, loss[loss=0.2934, simple_loss=0.3558, pruned_loss=0.1155, over 19684.00 frames. ], tot_loss[loss=0.3015, simple_loss=0.3562, pruned_loss=0.1234, over 3834293.27 frames. ], batch size: 59, lr: 1.99e-02, grad_scale: 4.0
+2023-04-01 02:55:52,224 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 02:56:05,151 INFO [train.py:937] (2/4) Epoch 4, validation: loss=0.2145, simple_loss=0.3118, pruned_loss=0.05862, over 944034.00 frames. 
+2023-04-01 02:56:05,153 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18297MB
+2023-04-01 02:56:09,792 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 02:56:32,363 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=23506.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:56:56,220 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23527.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:56:56,881 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.281e+02 6.234e+02 7.977e+02 1.046e+03 2.333e+03, threshold=1.595e+03, percent-clipped=2.0
+2023-04-01 02:57:05,055 INFO [train.py:903] (2/4) Epoch 4, batch 3050, loss[loss=0.2971, simple_loss=0.3568, pruned_loss=0.1186, over 19363.00 frames. ], tot_loss[loss=0.3017, simple_loss=0.3561, pruned_loss=0.1237, over 3827671.17 frames. ], batch size: 70, lr: 1.99e-02, grad_scale: 4.0
+2023-04-01 02:57:26,972 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23552.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:57:33,689 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23558.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:57:58,297 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23579.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:58:04,165 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:58:06,131 INFO [train.py:903] (2/4) Epoch 4, batch 3100, loss[loss=0.3042, simple_loss=0.3676, pruned_loss=0.1204, over 19630.00 frames. ], tot_loss[loss=0.3013, simple_loss=0.3557, pruned_loss=0.1234, over 3832279.19 frames. ], batch size: 61, lr: 1.98e-02, grad_scale: 4.0
+2023-04-01 02:58:06,522 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23585.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:58:13,281 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23591.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 02:58:55,942 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.118e+02 6.915e+02 8.546e+02 1.092e+03 2.878e+03, threshold=1.709e+03, percent-clipped=7.0
+2023-04-01 02:59:01,868 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0391, 5.3263, 2.9088, 4.8253, 1.2124, 5.2844, 5.2340, 5.4314],
+       device='cuda:2'), covar=tensor([0.0439, 0.0975, 0.1810, 0.0584, 0.4021, 0.0667, 0.0541, 0.0612],
+       device='cuda:2'), in_proj_covar=tensor([0.0337, 0.0297, 0.0346, 0.0276, 0.0344, 0.0294, 0.0257, 0.0291],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 02:59:03,926 INFO [train.py:903] (2/4) Epoch 4, batch 3150, loss[loss=0.3273, simple_loss=0.383, pruned_loss=0.1358, over 19757.00 frames. ], tot_loss[loss=0.3027, simple_loss=0.3568, pruned_loss=0.1243, over 3817487.85 frames. ], batch size: 54, lr: 1.98e-02, grad_scale: 4.0
+2023-04-01 02:59:28,006 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 03:00:02,534 INFO [train.py:903] (2/4) Epoch 4, batch 3200, loss[loss=0.2341, simple_loss=0.2958, pruned_loss=0.0862, over 18607.00 frames. ], tot_loss[loss=0.3039, simple_loss=0.3581, pruned_loss=0.1249, over 3821845.82 frames. ], batch size: 41, lr: 1.98e-02, grad_scale: 8.0
+2023-04-01 03:00:13,199 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23694.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:00:29,423 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23706.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:00:53,667 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.799e+02 7.379e+02 9.197e+02 1.143e+03 1.957e+03, threshold=1.839e+03, percent-clipped=5.0
+2023-04-01 03:01:02,114 INFO [train.py:903] (2/4) Epoch 4, batch 3250, loss[loss=0.2776, simple_loss=0.3452, pruned_loss=0.105, over 19665.00 frames. ], tot_loss[loss=0.305, simple_loss=0.3589, pruned_loss=0.1256, over 3807488.75 frames. ], batch size: 55, lr: 1.98e-02, grad_scale: 8.0
+2023-04-01 03:02:01,892 INFO [train.py:903] (2/4) Epoch 4, batch 3300, loss[loss=0.3621, simple_loss=0.4017, pruned_loss=0.1612, over 19671.00 frames. ], tot_loss[loss=0.3061, simple_loss=0.3597, pruned_loss=0.1262, over 3808967.20 frames. ], batch size: 58, lr: 1.98e-02, grad_scale: 8.0
+2023-04-01 03:02:04,057 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 03:02:54,096 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.057e+02 7.772e+02 9.614e+02 1.210e+03 2.492e+03, threshold=1.923e+03, percent-clipped=5.0
+2023-04-01 03:03:02,111 INFO [train.py:903] (2/4) Epoch 4, batch 3350, loss[loss=0.2669, simple_loss=0.3422, pruned_loss=0.09576, over 19518.00 frames. ], tot_loss[loss=0.3063, simple_loss=0.36, pruned_loss=0.1262, over 3812780.59 frames. ], batch size: 54, lr: 1.97e-02, grad_scale: 8.0
+2023-04-01 03:03:09,268 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23841.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:03:15,259 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-01 03:03:19,205 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=23850.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:03:40,453 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23866.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:04:01,844 INFO [train.py:903] (2/4) Epoch 4, batch 3400, loss[loss=0.3666, simple_loss=0.4025, pruned_loss=0.1654, over 19635.00 frames. ], tot_loss[loss=0.3047, simple_loss=0.3588, pruned_loss=0.1253, over 3808813.61 frames. ], batch size: 61, lr: 1.97e-02, grad_scale: 8.0
+2023-04-01 03:04:53,667 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.081e+02 7.350e+02 9.318e+02 1.202e+03 2.145e+03, threshold=1.864e+03, percent-clipped=3.0
+2023-04-01 03:05:01,728 INFO [train.py:903] (2/4) Epoch 4, batch 3450, loss[loss=0.298, simple_loss=0.3564, pruned_loss=0.1198, over 19487.00 frames. ], tot_loss[loss=0.3058, simple_loss=0.3597, pruned_loss=0.1259, over 3808288.08 frames. ], batch size: 64, lr: 1.97e-02, grad_scale: 8.0
+2023-04-01 03:05:01,752 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 03:05:22,649 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23950.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:05:36,138 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=23962.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:05:37,580 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-01 03:05:39,406 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=23965.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:05:50,617 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23975.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:06:04,987 INFO [train.py:903] (2/4) Epoch 4, batch 3500, loss[loss=0.2795, simple_loss=0.3474, pruned_loss=0.1058, over 19694.00 frames. ], tot_loss[loss=0.3057, simple_loss=0.3594, pruned_loss=0.126, over 3810405.98 frames. ], batch size: 59, lr: 1.97e-02, grad_scale: 8.0
+2023-04-01 03:06:07,778 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=23987.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:06:58,143 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.373e+02 7.196e+02 8.612e+02 1.120e+03 2.630e+03, threshold=1.722e+03, percent-clipped=5.0
+2023-04-01 03:07:06,277 INFO [train.py:903] (2/4) Epoch 4, batch 3550, loss[loss=0.2842, simple_loss=0.3502, pruned_loss=0.1091, over 19530.00 frames. ], tot_loss[loss=0.3041, simple_loss=0.3587, pruned_loss=0.1248, over 3803881.54 frames. ], batch size: 54, lr: 1.97e-02, grad_scale: 8.0
+2023-04-01 03:07:28,440 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=24055.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:07:45,451 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0754, 3.7362, 2.5304, 3.3635, 1.4660, 3.4883, 3.3466, 3.5135],
+       device='cuda:2'), covar=tensor([0.0709, 0.1037, 0.1804, 0.0735, 0.3229, 0.0942, 0.0816, 0.0990],
+       device='cuda:2'), in_proj_covar=tensor([0.0333, 0.0297, 0.0345, 0.0280, 0.0350, 0.0299, 0.0263, 0.0295],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 03:07:57,081 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.05 vs. limit=5.0
+2023-04-01 03:08:05,267 INFO [train.py:903] (2/4) Epoch 4, batch 3600, loss[loss=0.3179, simple_loss=0.383, pruned_loss=0.1264, over 19595.00 frames. ], tot_loss[loss=0.3052, simple_loss=0.3592, pruned_loss=0.1256, over 3804281.33 frames. ], batch size: 61, lr: 1.96e-02, grad_scale: 8.0
+2023-04-01 03:08:56,907 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.624e+02 7.148e+02 8.733e+02 1.077e+03 2.339e+03, threshold=1.747e+03, percent-clipped=4.0
+2023-04-01 03:09:04,842 INFO [train.py:903] (2/4) Epoch 4, batch 3650, loss[loss=0.25, simple_loss=0.3238, pruned_loss=0.0881, over 19577.00 frames. ], tot_loss[loss=0.3044, simple_loss=0.3585, pruned_loss=0.1251, over 3812515.52 frames. ], batch size: 52, lr: 1.96e-02, grad_scale: 8.0
+2023-04-01 03:09:34,971 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0037, 1.9797, 1.9393, 2.8190, 1.9874, 2.6884, 2.5745, 1.8797],
+       device='cuda:2'), covar=tensor([0.1407, 0.1070, 0.0636, 0.0606, 0.1178, 0.0407, 0.1075, 0.1016],
+       device='cuda:2'), in_proj_covar=tensor([0.0563, 0.0541, 0.0512, 0.0707, 0.0601, 0.0456, 0.0611, 0.0522],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 03:10:05,498 INFO [train.py:903] (2/4) Epoch 4, batch 3700, loss[loss=0.3264, simple_loss=0.3767, pruned_loss=0.138, over 19606.00 frames. ], tot_loss[loss=0.305, simple_loss=0.359, pruned_loss=0.1256, over 3816900.77 frames. ], batch size: 57, lr: 1.96e-02, grad_scale: 4.0
+2023-04-01 03:10:16,587 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1848, 1.1963, 1.7863, 1.2961, 2.4405, 2.0435, 2.5415, 0.8542],
+       device='cuda:2'), covar=tensor([0.1553, 0.2546, 0.1274, 0.1337, 0.0900, 0.1206, 0.1030, 0.2348],
+       device='cuda:2'), in_proj_covar=tensor([0.0434, 0.0481, 0.0451, 0.0398, 0.0525, 0.0423, 0.0602, 0.0434],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 03:10:37,976 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5063, 1.5557, 1.5010, 2.0690, 1.4119, 1.7450, 1.8565, 1.4599],
+       device='cuda:2'), covar=tensor([0.1274, 0.0960, 0.0630, 0.0515, 0.1043, 0.0452, 0.1045, 0.0985],
+       device='cuda:2'), in_proj_covar=tensor([0.0567, 0.0536, 0.0512, 0.0700, 0.0601, 0.0457, 0.0610, 0.0521],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 03:10:48,453 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=24221.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:10:58,949 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.206e+02 7.207e+02 9.640e+02 1.134e+03 2.323e+03, threshold=1.928e+03, percent-clipped=6.0
+2023-04-01 03:11:07,278 INFO [train.py:903] (2/4) Epoch 4, batch 3750, loss[loss=0.288, simple_loss=0.3432, pruned_loss=0.1164, over 19582.00 frames. ], tot_loss[loss=0.3033, simple_loss=0.3579, pruned_loss=0.1244, over 3825903.81 frames. ], batch size: 52, lr: 1.96e-02, grad_scale: 4.0
+2023-04-01 03:11:20,299 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=24246.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:12:07,329 INFO [train.py:903] (2/4) Epoch 4, batch 3800, loss[loss=0.2926, simple_loss=0.3556, pruned_loss=0.1148, over 19655.00 frames. ], tot_loss[loss=0.3019, simple_loss=0.357, pruned_loss=0.1234, over 3829803.19 frames. ], batch size: 55, lr: 1.96e-02, grad_scale: 4.0
+2023-04-01 03:12:38,499 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 03:12:53,008 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.78 vs. limit=5.0
+2023-04-01 03:13:00,197 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.239e+02 7.507e+02 9.076e+02 1.248e+03 3.254e+03, threshold=1.815e+03, percent-clipped=3.0
+2023-04-01 03:13:07,201 INFO [train.py:903] (2/4) Epoch 4, batch 3850, loss[loss=0.3059, simple_loss=0.3675, pruned_loss=0.1221, over 19673.00 frames. ], tot_loss[loss=0.3027, simple_loss=0.3576, pruned_loss=0.1239, over 3829363.48 frames. ], batch size: 58, lr: 1.95e-02, grad_scale: 4.0
+2023-04-01 03:13:38,834 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6674, 1.4551, 1.4372, 1.8682, 1.7584, 1.6972, 1.4780, 1.7313],
+       device='cuda:2'), covar=tensor([0.0853, 0.1422, 0.1262, 0.0755, 0.0937, 0.0456, 0.0921, 0.0624],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0373, 0.0282, 0.0249, 0.0309, 0.0254, 0.0272, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 03:14:06,612 INFO [train.py:903] (2/4) Epoch 4, batch 3900, loss[loss=0.2862, simple_loss=0.3456, pruned_loss=0.1134, over 19658.00 frames. ], tot_loss[loss=0.3018, simple_loss=0.3568, pruned_loss=0.1234, over 3831294.93 frames. ], batch size: 58, lr: 1.95e-02, grad_scale: 4.0
+2023-04-01 03:14:11,569 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.75 vs. limit=2.0
+2023-04-01 03:14:25,895 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=24399.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:14:27,392 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2613, 1.2476, 1.8506, 1.3762, 2.2945, 2.0699, 2.5548, 0.8474],
+       device='cuda:2'), covar=tensor([0.1600, 0.2702, 0.1290, 0.1443, 0.1092, 0.1361, 0.1197, 0.2522],
+       device='cuda:2'), in_proj_covar=tensor([0.0439, 0.0487, 0.0460, 0.0407, 0.0531, 0.0428, 0.0617, 0.0437],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 03:15:00,806 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.463e+02 8.238e+02 9.729e+02 1.230e+03 4.971e+03, threshold=1.946e+03, percent-clipped=9.0
+2023-04-01 03:15:09,427 INFO [train.py:903] (2/4) Epoch 4, batch 3950, loss[loss=0.3473, simple_loss=0.3982, pruned_loss=0.1482, over 19299.00 frames. ], tot_loss[loss=0.3012, simple_loss=0.3561, pruned_loss=0.1231, over 3838526.68 frames. ], batch size: 66, lr: 1.95e-02, grad_scale: 4.0
+2023-04-01 03:15:17,178 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 03:16:10,711 INFO [train.py:903] (2/4) Epoch 4, batch 4000, loss[loss=0.2944, simple_loss=0.3599, pruned_loss=0.1145, over 19681.00 frames. ], tot_loss[loss=0.3016, simple_loss=0.3566, pruned_loss=0.1233, over 3831741.61 frames. ], batch size: 59, lr: 1.95e-02, grad_scale: 8.0
+2023-04-01 03:16:45,801 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=24514.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:16:58,877 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 03:17:03,421 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.288e+02 6.850e+02 8.525e+02 1.041e+03 2.187e+03, threshold=1.705e+03, percent-clipped=1.0
+2023-04-01 03:17:08,325 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.7208, 0.8822, 0.6982, 0.7160, 0.8576, 0.5999, 0.4745, 0.8823],
+       device='cuda:2'), covar=tensor([0.0323, 0.0374, 0.0606, 0.0303, 0.0280, 0.0700, 0.0451, 0.0286],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0249, 0.0312, 0.0241, 0.0217, 0.0308, 0.0278, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 03:17:09,921 INFO [train.py:903] (2/4) Epoch 4, batch 4050, loss[loss=0.3509, simple_loss=0.3871, pruned_loss=0.1574, over 19693.00 frames. ], tot_loss[loss=0.304, simple_loss=0.358, pruned_loss=0.125, over 3807531.85 frames. ], batch size: 53, lr: 1.95e-02, grad_scale: 8.0
+2023-04-01 03:17:47,520 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=24565.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:17:47,594 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7695, 1.4728, 1.7195, 1.6950, 3.1236, 4.3951, 4.5131, 4.8596],
+       device='cuda:2'), covar=tensor([0.1199, 0.2586, 0.2682, 0.1629, 0.0382, 0.0125, 0.0132, 0.0054],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0283, 0.0325, 0.0260, 0.0192, 0.0110, 0.0205, 0.0126],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 03:18:10,043 INFO [train.py:903] (2/4) Epoch 4, batch 4100, loss[loss=0.2625, simple_loss=0.34, pruned_loss=0.09254, over 19310.00 frames. ], tot_loss[loss=0.3009, simple_loss=0.3555, pruned_loss=0.1232, over 3812710.53 frames. ], batch size: 66, lr: 1.94e-02, grad_scale: 8.0
+2023-04-01 03:18:12,599 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=24587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:18:49,627 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 03:19:04,395 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.283e+02 6.813e+02 8.989e+02 1.047e+03 2.179e+03, threshold=1.798e+03, percent-clipped=2.0
+2023-04-01 03:19:12,696 INFO [train.py:903] (2/4) Epoch 4, batch 4150, loss[loss=0.3179, simple_loss=0.3707, pruned_loss=0.1326, over 17683.00 frames. ], tot_loss[loss=0.3018, simple_loss=0.3562, pruned_loss=0.1237, over 3793670.06 frames. ], batch size: 101, lr: 1.94e-02, grad_scale: 8.0
+2023-04-01 03:20:13,432 INFO [train.py:903] (2/4) Epoch 4, batch 4200, loss[loss=0.321, simple_loss=0.3784, pruned_loss=0.1318, over 19309.00 frames. ], tot_loss[loss=0.3007, simple_loss=0.3555, pruned_loss=0.123, over 3779628.01 frames. ], batch size: 66, lr: 1.94e-02, grad_scale: 8.0
+2023-04-01 03:20:19,911 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 03:20:33,568 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2715, 1.0277, 1.0706, 1.5051, 1.1346, 1.2721, 1.3261, 1.2594],
+       device='cuda:2'), covar=tensor([0.0878, 0.1241, 0.1200, 0.0794, 0.0964, 0.0906, 0.0889, 0.0797],
+       device='cuda:2'), in_proj_covar=tensor([0.0246, 0.0269, 0.0260, 0.0298, 0.0299, 0.0247, 0.0255, 0.0242],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004],
+       device='cuda:2')
+2023-04-01 03:21:05,877 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.764e+02 7.220e+02 8.850e+02 1.090e+03 2.101e+03, threshold=1.770e+03, percent-clipped=3.0
+2023-04-01 03:21:12,814 INFO [train.py:903] (2/4) Epoch 4, batch 4250, loss[loss=0.2342, simple_loss=0.2964, pruned_loss=0.086, over 19036.00 frames. ], tot_loss[loss=0.302, simple_loss=0.3562, pruned_loss=0.1239, over 3784215.16 frames. ], batch size: 42, lr: 1.94e-02, grad_scale: 8.0
+2023-04-01 03:21:29,766 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 03:21:41,561 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 03:21:56,456 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=24770.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:22:10,833 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=24783.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:22:12,642 INFO [train.py:903] (2/4) Epoch 4, batch 4300, loss[loss=0.3518, simple_loss=0.3898, pruned_loss=0.1569, over 13079.00 frames. ], tot_loss[loss=0.3013, simple_loss=0.3555, pruned_loss=0.1236, over 3785267.26 frames. ], batch size: 136, lr: 1.94e-02, grad_scale: 8.0
+2023-04-01 03:22:26,981 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=24795.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:23:06,670 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.009e+02 7.093e+02 8.869e+02 1.163e+03 2.104e+03, threshold=1.774e+03, percent-clipped=1.0
+2023-04-01 03:23:08,964 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 03:23:14,545 INFO [train.py:903] (2/4) Epoch 4, batch 4350, loss[loss=0.3281, simple_loss=0.383, pruned_loss=0.1366, over 19672.00 frames. ], tot_loss[loss=0.3008, simple_loss=0.3553, pruned_loss=0.1231, over 3800126.58 frames. ], batch size: 55, lr: 1.94e-02, grad_scale: 8.0
+2023-04-01 03:23:23,220 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2115, 3.6437, 3.8202, 3.7264, 1.2116, 3.3040, 3.0365, 3.4617],
+       device='cuda:2'), covar=tensor([0.0837, 0.0551, 0.0532, 0.0459, 0.3671, 0.0436, 0.0532, 0.1022],
+       device='cuda:2'), in_proj_covar=tensor([0.0455, 0.0395, 0.0537, 0.0427, 0.0530, 0.0309, 0.0348, 0.0513],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 03:23:52,173 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=24866.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:24:05,240 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0378, 1.1265, 1.2894, 0.5817, 2.3853, 2.3976, 2.1154, 2.5385],
+       device='cuda:2'), covar=tensor([0.1302, 0.2780, 0.2904, 0.1998, 0.0339, 0.0159, 0.0352, 0.0163],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0282, 0.0323, 0.0259, 0.0195, 0.0112, 0.0208, 0.0126],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 03:24:15,082 INFO [train.py:903] (2/4) Epoch 4, batch 4400, loss[loss=0.2546, simple_loss=0.3176, pruned_loss=0.09577, over 19765.00 frames. ], tot_loss[loss=0.3003, simple_loss=0.3551, pruned_loss=0.1228, over 3801308.40 frames. ], batch size: 48, lr: 1.93e-02, grad_scale: 8.0
+2023-04-01 03:24:40,899 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 03:24:44,304 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=24909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:24:50,767 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 03:24:53,145 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9447, 1.1424, 1.3189, 1.5642, 2.6163, 1.3480, 1.8791, 2.5383],
+       device='cuda:2'), covar=tensor([0.0427, 0.2603, 0.2321, 0.1394, 0.0535, 0.1899, 0.1113, 0.0503],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0316, 0.0310, 0.0285, 0.0304, 0.0322, 0.0288, 0.0294],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 03:25:09,649 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.331e+02 8.078e+02 9.889e+02 1.280e+03 3.768e+03, threshold=1.978e+03, percent-clipped=10.0
+2023-04-01 03:25:12,027 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=24931.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:25:16,499 INFO [train.py:903] (2/4) Epoch 4, batch 4450, loss[loss=0.2921, simple_loss=0.3586, pruned_loss=0.1128, over 19663.00 frames. ], tot_loss[loss=0.3017, simple_loss=0.3559, pruned_loss=0.1237, over 3804927.19 frames. ], batch size: 55, lr: 1.93e-02, grad_scale: 8.0
+2023-04-01 03:26:17,088 INFO [train.py:903] (2/4) Epoch 4, batch 4500, loss[loss=0.224, simple_loss=0.2921, pruned_loss=0.07794, over 19472.00 frames. ], tot_loss[loss=0.2999, simple_loss=0.3546, pruned_loss=0.1226, over 3806266.05 frames. ], batch size: 49, lr: 1.93e-02, grad_scale: 8.0
+2023-04-01 03:26:52,434 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=25013.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:27:04,617 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25024.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:27:11,028 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.968e+02 6.473e+02 7.865e+02 1.057e+03 2.211e+03, threshold=1.573e+03, percent-clipped=1.0
+2023-04-01 03:27:18,546 INFO [train.py:903] (2/4) Epoch 4, batch 4550, loss[loss=0.283, simple_loss=0.352, pruned_loss=0.1069, over 19654.00 frames. ], tot_loss[loss=0.298, simple_loss=0.3531, pruned_loss=0.1214, over 3816201.48 frames. ], batch size: 55, lr: 1.93e-02, grad_scale: 8.0
+2023-04-01 03:27:27,111 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 03:27:31,924 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25046.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:27:50,579 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 03:27:54,641 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
+2023-04-01 03:28:18,977 INFO [train.py:903] (2/4) Epoch 4, batch 4600, loss[loss=0.3015, simple_loss=0.3627, pruned_loss=0.1202, over 19767.00 frames. ], tot_loss[loss=0.3001, simple_loss=0.355, pruned_loss=0.1226, over 3801370.36 frames. ], batch size: 56, lr: 1.93e-02, grad_scale: 8.0
+2023-04-01 03:29:10,648 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25127.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:29:12,893 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.682e+02 7.418e+02 9.211e+02 1.176e+03 2.853e+03, threshold=1.842e+03, percent-clipped=7.0
+2023-04-01 03:29:20,335 INFO [train.py:903] (2/4) Epoch 4, batch 4650, loss[loss=0.3373, simple_loss=0.3815, pruned_loss=0.1466, over 19669.00 frames. ], tot_loss[loss=0.2984, simple_loss=0.354, pruned_loss=0.1214, over 3805360.10 frames. ], batch size: 53, lr: 1.92e-02, grad_scale: 8.0
+2023-04-01 03:29:37,196 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 03:29:46,706 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 03:30:19,352 INFO [train.py:903] (2/4) Epoch 4, batch 4700, loss[loss=0.3221, simple_loss=0.3698, pruned_loss=0.1372, over 19782.00 frames. ], tot_loss[loss=0.3009, simple_loss=0.356, pruned_loss=0.1229, over 3793748.99 frames. ], batch size: 56, lr: 1.92e-02, grad_scale: 8.0
+2023-04-01 03:30:42,838 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 03:30:50,629 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25210.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:31:13,771 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.903e+02 7.587e+02 9.394e+02 1.259e+03 3.233e+03, threshold=1.879e+03, percent-clipped=11.0
+2023-04-01 03:31:21,430 INFO [train.py:903] (2/4) Epoch 4, batch 4750, loss[loss=0.3407, simple_loss=0.3801, pruned_loss=0.1506, over 13666.00 frames. ], tot_loss[loss=0.3011, simple_loss=0.3559, pruned_loss=0.1232, over 3792317.31 frames. ], batch size: 136, lr: 1.92e-02, grad_scale: 8.0
+2023-04-01 03:31:30,706 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25242.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:31:39,442 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9496, 1.3771, 1.5008, 2.0899, 1.8142, 1.7721, 1.7217, 1.8190],
+       device='cuda:2'), covar=tensor([0.0737, 0.1564, 0.1153, 0.0715, 0.0995, 0.0459, 0.0803, 0.0571],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0376, 0.0284, 0.0250, 0.0312, 0.0262, 0.0275, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 03:31:44,151 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
+2023-04-01 03:32:16,232 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=25280.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:32:21,434 INFO [train.py:903] (2/4) Epoch 4, batch 4800, loss[loss=0.2843, simple_loss=0.3451, pruned_loss=0.1118, over 19758.00 frames. ], tot_loss[loss=0.3046, simple_loss=0.3584, pruned_loss=0.1254, over 3782889.73 frames. ], batch size: 54, lr: 1.92e-02, grad_scale: 8.0
+2023-04-01 03:32:27,818 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
+2023-04-01 03:32:41,284 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=25302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:32:44,317 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=25305.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:33:00,525 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2000, 3.5031, 3.6615, 3.6366, 1.5904, 3.3657, 3.0727, 3.2932],
+       device='cuda:2'), covar=tensor([0.0902, 0.0819, 0.0609, 0.0502, 0.3282, 0.0451, 0.0473, 0.1120],
+       device='cuda:2'), in_proj_covar=tensor([0.0457, 0.0404, 0.0537, 0.0436, 0.0529, 0.0310, 0.0347, 0.0505],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 03:33:09,560 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25325.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:33:11,873 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=25327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:33:13,790 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.433e+02 7.095e+02 8.715e+02 1.261e+03 2.828e+03, threshold=1.743e+03, percent-clipped=4.0
+2023-04-01 03:33:21,559 INFO [train.py:903] (2/4) Epoch 4, batch 4850, loss[loss=0.299, simple_loss=0.3517, pruned_loss=0.1232, over 19748.00 frames. ], tot_loss[loss=0.3029, simple_loss=0.3569, pruned_loss=0.1245, over 3780649.50 frames. ], batch size: 51, lr: 1.92e-02, grad_scale: 8.0
+2023-04-01 03:33:45,828 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 03:33:48,282 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25357.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:34:04,847 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 03:34:11,330 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 03:34:12,502 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 03:34:21,576 INFO [train.py:903] (2/4) Epoch 4, batch 4900, loss[loss=0.3055, simple_loss=0.3609, pruned_loss=0.125, over 19577.00 frames. ], tot_loss[loss=0.3024, simple_loss=0.3566, pruned_loss=0.1241, over 3791284.13 frames. ], batch size: 61, lr: 1.92e-02, grad_scale: 8.0
+2023-04-01 03:34:21,595 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 03:34:34,886 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6275, 1.3151, 2.0261, 1.4643, 2.9609, 4.6267, 4.6627, 5.0821],
+       device='cuda:2'), covar=tensor([0.1237, 0.2566, 0.2360, 0.1682, 0.0398, 0.0093, 0.0110, 0.0051],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0278, 0.0317, 0.0257, 0.0195, 0.0113, 0.0201, 0.0126],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 03:34:41,698 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 03:35:15,146 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2686, 3.9169, 2.5274, 3.6292, 1.1758, 3.6242, 3.5343, 3.7308],
+       device='cuda:2'), covar=tensor([0.0587, 0.0970, 0.1719, 0.0581, 0.3517, 0.0808, 0.0686, 0.0798],
+       device='cuda:2'), in_proj_covar=tensor([0.0327, 0.0288, 0.0348, 0.0272, 0.0343, 0.0293, 0.0263, 0.0295],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 03:35:16,119 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.171e+02 7.094e+02 8.660e+02 1.069e+03 1.655e+03, threshold=1.732e+03, percent-clipped=0.0
+2023-04-01 03:35:23,612 INFO [train.py:903] (2/4) Epoch 4, batch 4950, loss[loss=0.275, simple_loss=0.347, pruned_loss=0.1015, over 19519.00 frames. ], tot_loss[loss=0.3006, simple_loss=0.3553, pruned_loss=0.123, over 3807102.67 frames. ], batch size: 54, lr: 1.91e-02, grad_scale: 8.0
+2023-04-01 03:35:32,098 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1750, 1.2222, 1.5028, 1.2690, 1.8058, 1.7636, 1.8993, 0.5512],
+       device='cuda:2'), covar=tensor([0.1599, 0.2423, 0.1273, 0.1341, 0.0931, 0.1360, 0.0987, 0.2255],
+       device='cuda:2'), in_proj_covar=tensor([0.0445, 0.0494, 0.0458, 0.0407, 0.0531, 0.0435, 0.0614, 0.0430],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 03:35:37,175 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=25446.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 03:35:41,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 03:36:04,457 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 03:36:08,235 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25472.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:36:19,306 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6064, 1.5811, 1.5885, 2.1696, 1.4276, 1.7303, 2.0048, 1.5297],
+       device='cuda:2'), covar=tensor([0.1312, 0.1090, 0.0700, 0.0595, 0.1157, 0.0523, 0.1223, 0.1103],
+       device='cuda:2'), in_proj_covar=tensor([0.0566, 0.0551, 0.0519, 0.0714, 0.0613, 0.0471, 0.0622, 0.0529],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 03:36:24,198 INFO [train.py:903] (2/4) Epoch 4, batch 5000, loss[loss=0.2259, simple_loss=0.2865, pruned_loss=0.08261, over 18648.00 frames. ], tot_loss[loss=0.3002, simple_loss=0.3552, pruned_loss=0.1226, over 3806552.49 frames. ], batch size: 41, lr: 1.91e-02, grad_scale: 8.0
+2023-04-01 03:36:33,154 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 03:36:40,182 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=25498.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:36:44,427 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 03:37:11,018 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=25523.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:37:17,569 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.118e+02 6.823e+02 8.824e+02 1.078e+03 2.588e+03, threshold=1.765e+03, percent-clipped=9.0
+2023-04-01 03:37:24,352 INFO [train.py:903] (2/4) Epoch 4, batch 5050, loss[loss=0.2935, simple_loss=0.3514, pruned_loss=0.1178, over 19536.00 frames. ], tot_loss[loss=0.2988, simple_loss=0.3538, pruned_loss=0.1219, over 3815065.57 frames. ], batch size: 54, lr: 1.91e-02, grad_scale: 8.0
+2023-04-01 03:38:02,132 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 03:38:21,768 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=25581.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:38:25,841 INFO [train.py:903] (2/4) Epoch 4, batch 5100, loss[loss=0.2766, simple_loss=0.33, pruned_loss=0.1116, over 19399.00 frames. ], tot_loss[loss=0.2977, simple_loss=0.3534, pruned_loss=0.121, over 3815016.12 frames. ], batch size: 48, lr: 1.91e-02, grad_scale: 8.0
+2023-04-01 03:38:36,807 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 03:38:40,930 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 03:38:44,277 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 03:38:52,406 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=25606.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:39:19,440 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.903e+02 6.354e+02 8.688e+02 1.168e+03 2.387e+03, threshold=1.738e+03, percent-clipped=4.0
+2023-04-01 03:39:27,225 INFO [train.py:903] (2/4) Epoch 4, batch 5150, loss[loss=0.276, simple_loss=0.3413, pruned_loss=0.1053, over 19512.00 frames. ], tot_loss[loss=0.2989, simple_loss=0.3545, pruned_loss=0.1216, over 3796555.50 frames. ], batch size: 56, lr: 1.91e-02, grad_scale: 8.0
+2023-04-01 03:39:39,302 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 03:40:12,892 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 03:40:28,120 INFO [train.py:903] (2/4) Epoch 4, batch 5200, loss[loss=0.3034, simple_loss=0.3674, pruned_loss=0.1197, over 19644.00 frames. ], tot_loss[loss=0.2988, simple_loss=0.3546, pruned_loss=0.1216, over 3806980.48 frames. ], batch size: 58, lr: 1.90e-02, grad_scale: 8.0
+2023-04-01 03:40:42,797 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 03:41:21,061 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=25728.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:41:21,774 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.810e+02 7.304e+02 9.145e+02 1.165e+03 2.884e+03, threshold=1.829e+03, percent-clipped=6.0
+2023-04-01 03:41:25,407 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 03:41:28,713 INFO [train.py:903] (2/4) Epoch 4, batch 5250, loss[loss=0.3633, simple_loss=0.4017, pruned_loss=0.1624, over 19756.00 frames. ], tot_loss[loss=0.2973, simple_loss=0.3528, pruned_loss=0.1209, over 3796232.00 frames. ], batch size: 54, lr: 1.90e-02, grad_scale: 8.0
+2023-04-01 03:41:51,432 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=25753.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:41:57,311 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.47 vs. limit=5.0
+2023-04-01 03:42:30,029 INFO [train.py:903] (2/4) Epoch 4, batch 5300, loss[loss=0.288, simple_loss=0.3366, pruned_loss=0.1197, over 19089.00 frames. ], tot_loss[loss=0.2978, simple_loss=0.3533, pruned_loss=0.1212, over 3799463.09 frames. ], batch size: 42, lr: 1.90e-02, grad_scale: 8.0
+2023-04-01 03:42:36,784 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=25790.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 03:42:48,057 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8681, 1.1498, 1.3262, 1.4609, 2.4876, 1.0085, 1.8574, 2.5805],
+       device='cuda:2'), covar=tensor([0.0502, 0.2532, 0.2482, 0.1464, 0.0682, 0.2130, 0.1058, 0.0481],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0310, 0.0306, 0.0281, 0.0303, 0.0314, 0.0283, 0.0291],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 03:42:48,920 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 03:43:23,330 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.781e+02 7.857e+02 9.756e+02 1.201e+03 3.803e+03, threshold=1.951e+03, percent-clipped=8.0
+2023-04-01 03:43:31,869 INFO [train.py:903] (2/4) Epoch 4, batch 5350, loss[loss=0.4409, simple_loss=0.4412, pruned_loss=0.2203, over 13402.00 frames. ], tot_loss[loss=0.3005, simple_loss=0.3555, pruned_loss=0.1227, over 3813493.53 frames. ], batch size: 137, lr: 1.90e-02, grad_scale: 8.0
+2023-04-01 03:43:44,654 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.99 vs. limit=2.0
+2023-04-01 03:43:48,748 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6882, 3.0681, 3.1248, 3.1154, 1.1049, 2.8441, 2.6133, 2.7165],
+       device='cuda:2'), covar=tensor([0.1100, 0.0745, 0.0709, 0.0631, 0.3749, 0.0560, 0.0642, 0.1319],
+       device='cuda:2'), in_proj_covar=tensor([0.0463, 0.0408, 0.0542, 0.0437, 0.0535, 0.0317, 0.0360, 0.0514],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 03:44:04,175 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 03:44:10,546 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.51 vs. limit=2.0
+2023-04-01 03:44:21,926 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=25876.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 03:44:32,192 INFO [train.py:903] (2/4) Epoch 4, batch 5400, loss[loss=0.267, simple_loss=0.3308, pruned_loss=0.1017, over 19473.00 frames. ], tot_loss[loss=0.3009, simple_loss=0.3556, pruned_loss=0.1231, over 3815001.23 frames. ], batch size: 49, lr: 1.90e-02, grad_scale: 8.0
+2023-04-01 03:44:56,634 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=25905.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 03:45:26,555 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.180e+02 6.939e+02 8.636e+02 1.056e+03 2.577e+03, threshold=1.727e+03, percent-clipped=2.0
+2023-04-01 03:45:33,337 INFO [train.py:903] (2/4) Epoch 4, batch 5450, loss[loss=0.3523, simple_loss=0.3855, pruned_loss=0.1596, over 19773.00 frames. ], tot_loss[loss=0.3025, simple_loss=0.3567, pruned_loss=0.1241, over 3794739.95 frames. ], batch size: 54, lr: 1.90e-02, grad_scale: 8.0
+2023-04-01 03:46:34,626 INFO [train.py:903] (2/4) Epoch 4, batch 5500, loss[loss=0.3252, simple_loss=0.3755, pruned_loss=0.1375, over 18830.00 frames. ], tot_loss[loss=0.3022, simple_loss=0.3564, pruned_loss=0.124, over 3803158.49 frames. ], batch size: 74, lr: 1.89e-02, grad_scale: 4.0
+2023-04-01 03:46:58,092 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 03:47:31,759 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.407e+02 7.568e+02 9.013e+02 1.115e+03 1.816e+03, threshold=1.803e+03, percent-clipped=1.0
+2023-04-01 03:47:37,484 INFO [train.py:903] (2/4) Epoch 4, batch 5550, loss[loss=0.2885, simple_loss=0.3557, pruned_loss=0.1107, over 19557.00 frames. ], tot_loss[loss=0.2987, simple_loss=0.354, pruned_loss=0.1217, over 3816764.70 frames. ], batch size: 61, lr: 1.89e-02, grad_scale: 4.0
+2023-04-01 03:47:45,453 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 03:47:49,025 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5987, 4.0381, 4.2707, 4.2725, 1.3763, 3.9276, 3.4480, 3.7309],
+       device='cuda:2'), covar=tensor([0.0974, 0.0557, 0.0524, 0.0465, 0.3959, 0.0356, 0.0495, 0.1171],
+       device='cuda:2'), in_proj_covar=tensor([0.0463, 0.0413, 0.0548, 0.0445, 0.0540, 0.0320, 0.0362, 0.0517],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 03:48:08,115 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3754, 2.4076, 1.5902, 1.6695, 2.2028, 1.2127, 1.1882, 1.7831],
+       device='cuda:2'), covar=tensor([0.0857, 0.0436, 0.0881, 0.0449, 0.0354, 0.1001, 0.0715, 0.0400],
+       device='cuda:2'), in_proj_covar=tensor([0.0280, 0.0258, 0.0315, 0.0243, 0.0218, 0.0312, 0.0282, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 03:48:33,402 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 03:48:38,941 INFO [train.py:903] (2/4) Epoch 4, batch 5600, loss[loss=0.3065, simple_loss=0.3674, pruned_loss=0.1228, over 18663.00 frames. ], tot_loss[loss=0.2982, simple_loss=0.3539, pruned_loss=0.1213, over 3810190.76 frames. ], batch size: 74, lr: 1.89e-02, grad_scale: 8.0
+2023-04-01 03:49:11,658 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-01 03:49:22,497 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26120.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:49:34,176 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.637e+02 7.669e+02 9.359e+02 1.114e+03 3.409e+03, threshold=1.872e+03, percent-clipped=3.0
+2023-04-01 03:49:40,055 INFO [train.py:903] (2/4) Epoch 4, batch 5650, loss[loss=0.2971, simple_loss=0.3567, pruned_loss=0.1188, over 19492.00 frames. ], tot_loss[loss=0.2992, simple_loss=0.3551, pruned_loss=0.1216, over 3825405.80 frames. ], batch size: 64, lr: 1.89e-02, grad_scale: 8.0
+2023-04-01 03:49:44,977 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8856, 4.3152, 4.5713, 4.5059, 1.4830, 4.1477, 3.7420, 4.0557],
+       device='cuda:2'), covar=tensor([0.0854, 0.0591, 0.0469, 0.0378, 0.3934, 0.0334, 0.0478, 0.1005],
+       device='cuda:2'), in_proj_covar=tensor([0.0456, 0.0404, 0.0533, 0.0434, 0.0530, 0.0311, 0.0354, 0.0506],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 03:50:12,602 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26161.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 03:50:25,378 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 03:50:40,062 INFO [train.py:903] (2/4) Epoch 4, batch 5700, loss[loss=0.2963, simple_loss=0.3628, pruned_loss=0.1149, over 19679.00 frames. ], tot_loss[loss=0.3004, simple_loss=0.3563, pruned_loss=0.1222, over 3829435.70 frames. ], batch size: 59, lr: 1.89e-02, grad_scale: 8.0
+2023-04-01 03:50:42,179 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26186.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:50:42,287 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26186.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 03:51:23,011 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26220.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 03:51:35,340 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.235e+02 7.760e+02 9.507e+02 1.157e+03 2.773e+03, threshold=1.901e+03, percent-clipped=5.0
+2023-04-01 03:51:39,945 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 03:51:40,953 INFO [train.py:903] (2/4) Epoch 4, batch 5750, loss[loss=0.3348, simple_loss=0.3868, pruned_loss=0.1414, over 18699.00 frames. ], tot_loss[loss=0.3017, simple_loss=0.3571, pruned_loss=0.1231, over 3825312.89 frames. ], batch size: 74, lr: 1.89e-02, grad_scale: 8.0
+2023-04-01 03:51:48,700 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 03:51:50,014 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3178, 1.2444, 1.3277, 1.6713, 2.9039, 1.1781, 1.8284, 2.9132],
+       device='cuda:2'), covar=tensor([0.0330, 0.2355, 0.2323, 0.1353, 0.0524, 0.1962, 0.1133, 0.0406],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0308, 0.0304, 0.0280, 0.0300, 0.0310, 0.0286, 0.0288],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 03:51:52,990 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 03:52:04,018 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2113, 1.2607, 1.8187, 1.3891, 2.3859, 2.1143, 2.6922, 1.0824],
+       device='cuda:2'), covar=tensor([0.1754, 0.2781, 0.1441, 0.1503, 0.1251, 0.1462, 0.1406, 0.2659],
+       device='cuda:2'), in_proj_covar=tensor([0.0438, 0.0494, 0.0455, 0.0410, 0.0536, 0.0440, 0.0613, 0.0434],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 03:52:13,181 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.68 vs. limit=5.0
+2023-04-01 03:52:21,194 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26268.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:52:40,306 INFO [train.py:903] (2/4) Epoch 4, batch 5800, loss[loss=0.3732, simple_loss=0.4079, pruned_loss=0.1693, over 13500.00 frames. ], tot_loss[loss=0.3015, simple_loss=0.3569, pruned_loss=0.1231, over 3826155.95 frames. ], batch size: 137, lr: 1.88e-02, grad_scale: 8.0
+2023-04-01 03:53:36,643 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.499e+02 6.787e+02 8.542e+02 1.114e+03 2.576e+03, threshold=1.708e+03, percent-clipped=4.0
+2023-04-01 03:53:41,252 INFO [train.py:903] (2/4) Epoch 4, batch 5850, loss[loss=0.3044, simple_loss=0.3644, pruned_loss=0.1221, over 19780.00 frames. ], tot_loss[loss=0.3008, simple_loss=0.3566, pruned_loss=0.1225, over 3831214.86 frames. ], batch size: 56, lr: 1.88e-02, grad_scale: 4.0
+2023-04-01 03:53:41,612 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26335.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 03:54:40,809 INFO [train.py:903] (2/4) Epoch 4, batch 5900, loss[loss=0.2958, simple_loss=0.3688, pruned_loss=0.1115, over 19607.00 frames. ], tot_loss[loss=0.2997, simple_loss=0.3555, pruned_loss=0.1219, over 3832892.83 frames. ], batch size: 57, lr: 1.88e-02, grad_scale: 4.0
+2023-04-01 03:54:41,849 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 03:55:03,853 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 03:55:06,496 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2225, 1.1141, 1.0705, 1.3156, 1.0333, 1.2290, 1.3999, 1.2104],
+       device='cuda:2'), covar=tensor([0.0908, 0.1132, 0.1239, 0.0891, 0.0965, 0.1022, 0.0912, 0.0839],
+       device='cuda:2'), in_proj_covar=tensor([0.0243, 0.0262, 0.0254, 0.0292, 0.0287, 0.0242, 0.0251, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004],
+       device='cuda:2')
+2023-04-01 03:55:37,697 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.672e+02 6.673e+02 8.574e+02 1.115e+03 3.080e+03, threshold=1.715e+03, percent-clipped=4.0
+2023-04-01 03:55:39,792 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26432.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:55:43,002 INFO [train.py:903] (2/4) Epoch 4, batch 5950, loss[loss=0.255, simple_loss=0.3249, pruned_loss=0.09255, over 19848.00 frames. ], tot_loss[loss=0.2983, simple_loss=0.3543, pruned_loss=0.1211, over 3838198.57 frames. ], batch size: 52, lr: 1.88e-02, grad_scale: 4.0
+2023-04-01 03:56:17,508 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26464.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:56:43,854 INFO [train.py:903] (2/4) Epoch 4, batch 6000, loss[loss=0.3341, simple_loss=0.3859, pruned_loss=0.1411, over 18179.00 frames. ], tot_loss[loss=0.2959, simple_loss=0.3522, pruned_loss=0.1198, over 3841723.32 frames. ], batch size: 83, lr: 1.88e-02, grad_scale: 8.0
+2023-04-01 03:56:43,855 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 03:56:57,361 INFO [train.py:937] (2/4) Epoch 4, validation: loss=0.2103, simple_loss=0.3081, pruned_loss=0.05622, over 944034.00 frames. 
+2023-04-01 03:56:57,362 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18488MB
+2023-04-01 03:57:09,389 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0566, 5.3801, 2.9534, 4.8271, 1.4693, 5.2847, 5.3211, 5.5270],
+       device='cuda:2'), covar=tensor([0.0444, 0.0971, 0.1746, 0.0582, 0.3550, 0.0646, 0.0542, 0.0621],
+       device='cuda:2'), in_proj_covar=tensor([0.0330, 0.0299, 0.0351, 0.0278, 0.0341, 0.0296, 0.0264, 0.0294],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 03:57:51,992 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26530.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:57:52,992 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.403e+02 7.085e+02 8.722e+02 1.145e+03 2.334e+03, threshold=1.744e+03, percent-clipped=4.0
+2023-04-01 03:57:57,465 INFO [train.py:903] (2/4) Epoch 4, batch 6050, loss[loss=0.3304, simple_loss=0.3772, pruned_loss=0.1419, over 18198.00 frames. ], tot_loss[loss=0.2966, simple_loss=0.3533, pruned_loss=0.1199, over 3849821.56 frames. ], batch size: 83, lr: 1.87e-02, grad_scale: 8.0
+2023-04-01 03:58:49,942 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26579.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:58:57,303 INFO [train.py:903] (2/4) Epoch 4, batch 6100, loss[loss=0.2708, simple_loss=0.3402, pruned_loss=0.1007, over 19662.00 frames. ], tot_loss[loss=0.2965, simple_loss=0.3531, pruned_loss=0.1199, over 3839579.15 frames. ], batch size: 55, lr: 1.87e-02, grad_scale: 8.0
+2023-04-01 03:59:04,713 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26591.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 03:59:09,029 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1055, 1.0152, 1.3767, 0.8711, 2.4333, 2.8962, 2.7804, 3.1145],
+       device='cuda:2'), covar=tensor([0.1407, 0.3024, 0.2863, 0.2046, 0.0413, 0.0137, 0.0250, 0.0126],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0284, 0.0317, 0.0260, 0.0195, 0.0115, 0.0202, 0.0127],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 03:59:09,983 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3169, 1.2964, 1.3896, 1.7800, 2.9138, 1.0954, 1.8943, 3.0135],
+       device='cuda:2'), covar=tensor([0.0366, 0.2254, 0.2194, 0.1290, 0.0523, 0.2051, 0.1159, 0.0384],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0306, 0.0300, 0.0282, 0.0301, 0.0311, 0.0283, 0.0293],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 03:59:29,867 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26612.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 03:59:34,653 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26616.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 03:59:44,275 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1360, 1.1486, 1.6796, 1.2871, 2.4716, 2.0323, 2.5922, 0.9622],
+       device='cuda:2'), covar=tensor([0.1576, 0.2583, 0.1317, 0.1308, 0.0959, 0.1286, 0.1002, 0.2251],
+       device='cuda:2'), in_proj_covar=tensor([0.0434, 0.0486, 0.0452, 0.0404, 0.0530, 0.0431, 0.0601, 0.0427],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 03:59:51,599 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.600e+02 6.768e+02 7.963e+02 1.032e+03 2.370e+03, threshold=1.593e+03, percent-clipped=5.0
+2023-04-01 03:59:56,257 INFO [train.py:903] (2/4) Epoch 4, batch 6150, loss[loss=0.3041, simple_loss=0.3646, pruned_loss=0.1218, over 19782.00 frames. ], tot_loss[loss=0.2983, simple_loss=0.3548, pruned_loss=0.1209, over 3842618.10 frames. ], batch size: 56, lr: 1.87e-02, grad_scale: 8.0
+2023-04-01 04:00:08,590 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26645.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:00:23,790 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 04:00:52,201 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7884, 1.7802, 1.7163, 2.6941, 1.6436, 2.3339, 2.3877, 1.6590],
+       device='cuda:2'), covar=tensor([0.1629, 0.1347, 0.0780, 0.0669, 0.1453, 0.0514, 0.1336, 0.1327],
+       device='cuda:2'), in_proj_covar=tensor([0.0589, 0.0571, 0.0539, 0.0736, 0.0633, 0.0492, 0.0638, 0.0547],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 04:00:54,794 INFO [train.py:903] (2/4) Epoch 4, batch 6200, loss[loss=0.3526, simple_loss=0.3913, pruned_loss=0.157, over 19133.00 frames. ], tot_loss[loss=0.2972, simple_loss=0.3543, pruned_loss=0.1201, over 3848875.74 frames. ], batch size: 69, lr: 1.87e-02, grad_scale: 8.0
+2023-04-01 04:01:45,274 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26727.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:01:51,167 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.725e+02 7.340e+02 8.907e+02 1.200e+03 2.630e+03, threshold=1.781e+03, percent-clipped=5.0
+2023-04-01 04:01:55,635 INFO [train.py:903] (2/4) Epoch 4, batch 6250, loss[loss=0.3033, simple_loss=0.3686, pruned_loss=0.119, over 19604.00 frames. ], tot_loss[loss=0.2979, simple_loss=0.3543, pruned_loss=0.1207, over 3840356.08 frames. ], batch size: 61, lr: 1.87e-02, grad_scale: 8.0
+2023-04-01 04:02:24,764 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 04:02:44,565 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=26776.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:02:52,591 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2911, 3.7572, 2.3824, 2.9440, 3.3838, 2.0853, 1.4467, 2.0602],
+       device='cuda:2'), covar=tensor([0.0996, 0.0330, 0.0778, 0.0465, 0.0288, 0.0861, 0.0813, 0.0522],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0253, 0.0314, 0.0241, 0.0215, 0.0309, 0.0280, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 04:02:55,313 INFO [train.py:903] (2/4) Epoch 4, batch 6300, loss[loss=0.3609, simple_loss=0.4099, pruned_loss=0.1559, over 19733.00 frames. ], tot_loss[loss=0.2987, simple_loss=0.3548, pruned_loss=0.1213, over 3832833.61 frames. ], batch size: 63, lr: 1.87e-02, grad_scale: 8.0
+2023-04-01 04:03:07,894 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8456, 1.8636, 1.7981, 2.4762, 1.7339, 2.3418, 2.2310, 1.7834],
+       device='cuda:2'), covar=tensor([0.1464, 0.1163, 0.0740, 0.0703, 0.1323, 0.0486, 0.1341, 0.1137],
+       device='cuda:2'), in_proj_covar=tensor([0.0584, 0.0567, 0.0531, 0.0730, 0.0631, 0.0483, 0.0635, 0.0539],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 04:03:49,861 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.898e+02 7.473e+02 9.358e+02 1.215e+03 3.413e+03, threshold=1.872e+03, percent-clipped=4.0
+2023-04-01 04:03:54,564 INFO [train.py:903] (2/4) Epoch 4, batch 6350, loss[loss=0.2833, simple_loss=0.3445, pruned_loss=0.1111, over 17231.00 frames. ], tot_loss[loss=0.2986, simple_loss=0.3547, pruned_loss=0.1213, over 3832633.99 frames. ], batch size: 101, lr: 1.86e-02, grad_scale: 8.0
+2023-04-01 04:03:54,971 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26835.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:04:26,022 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26860.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:04:51,101 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8438, 4.7507, 5.5160, 5.4956, 1.9483, 5.1511, 4.6277, 5.0034],
+       device='cuda:2'), covar=tensor([0.0728, 0.0666, 0.0392, 0.0274, 0.3679, 0.0264, 0.0340, 0.0837],
+       device='cuda:2'), in_proj_covar=tensor([0.0467, 0.0415, 0.0557, 0.0442, 0.0540, 0.0319, 0.0366, 0.0523],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 04:04:55,430 INFO [train.py:903] (2/4) Epoch 4, batch 6400, loss[loss=0.2772, simple_loss=0.3342, pruned_loss=0.1101, over 19738.00 frames. ], tot_loss[loss=0.2961, simple_loss=0.3531, pruned_loss=0.1195, over 3827374.67 frames. ], batch size: 51, lr: 1.86e-02, grad_scale: 8.0
+2023-04-01 04:05:05,474 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=26891.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:05:16,567 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26901.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:05:41,164 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26922.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 04:05:45,920 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=26926.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:05:52,840 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.488e+02 6.991e+02 8.678e+02 1.023e+03 2.915e+03, threshold=1.736e+03, percent-clipped=2.0
+2023-04-01 04:05:55,164 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8276, 4.1102, 4.6166, 4.5152, 1.6449, 4.1986, 3.8805, 4.1307],
+       device='cuda:2'), covar=tensor([0.0804, 0.0680, 0.0433, 0.0375, 0.3794, 0.0356, 0.0399, 0.0867],
+       device='cuda:2'), in_proj_covar=tensor([0.0470, 0.0424, 0.0568, 0.0450, 0.0552, 0.0323, 0.0369, 0.0527],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 04:05:58,078 INFO [train.py:903] (2/4) Epoch 4, batch 6450, loss[loss=0.3242, simple_loss=0.3704, pruned_loss=0.139, over 19133.00 frames. ], tot_loss[loss=0.2973, simple_loss=0.3544, pruned_loss=0.1201, over 3809443.78 frames. ], batch size: 69, lr: 1.86e-02, grad_scale: 8.0
+2023-04-01 04:06:37,699 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=26968.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:06:39,716 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 04:06:56,671 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=26983.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:06:58,601 INFO [train.py:903] (2/4) Epoch 4, batch 6500, loss[loss=0.3182, simple_loss=0.3693, pruned_loss=0.1336, over 19670.00 frames. ], tot_loss[loss=0.2977, simple_loss=0.3545, pruned_loss=0.1204, over 3807066.81 frames. ], batch size: 55, lr: 1.86e-02, grad_scale: 8.0
+2023-04-01 04:07:03,001 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 04:07:05,796 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
+2023-04-01 04:07:25,328 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=27008.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:07:31,707 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-01 04:07:53,581 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.310e+02 7.867e+02 9.982e+02 1.245e+03 2.621e+03, threshold=1.996e+03, percent-clipped=6.0
+2023-04-01 04:07:57,611 INFO [train.py:903] (2/4) Epoch 4, batch 6550, loss[loss=0.3385, simple_loss=0.3725, pruned_loss=0.1523, over 19766.00 frames. ], tot_loss[loss=0.2991, simple_loss=0.3554, pruned_loss=0.1214, over 3803855.68 frames. ], batch size: 54, lr: 1.86e-02, grad_scale: 8.0
+2023-04-01 04:08:57,146 INFO [train.py:903] (2/4) Epoch 4, batch 6600, loss[loss=0.3106, simple_loss=0.368, pruned_loss=0.1266, over 19289.00 frames. ], tot_loss[loss=0.2978, simple_loss=0.354, pruned_loss=0.1208, over 3808071.22 frames. ], batch size: 66, lr: 1.86e-02, grad_scale: 8.0
+2023-04-01 04:09:53,358 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.938e+02 7.635e+02 9.605e+02 1.185e+03 2.942e+03, threshold=1.921e+03, percent-clipped=6.0
+2023-04-01 04:09:58,813 INFO [train.py:903] (2/4) Epoch 4, batch 6650, loss[loss=0.2914, simple_loss=0.3552, pruned_loss=0.1138, over 19548.00 frames. ], tot_loss[loss=0.2985, simple_loss=0.3547, pruned_loss=0.1212, over 3817116.96 frames. ], batch size: 61, lr: 1.85e-02, grad_scale: 8.0
+2023-04-01 04:10:01,417 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2821, 1.1794, 1.5287, 1.1984, 2.7332, 3.6486, 3.5621, 3.9896],
+       device='cuda:2'), covar=tensor([0.1370, 0.2758, 0.2696, 0.1843, 0.0413, 0.0122, 0.0169, 0.0086],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0278, 0.0315, 0.0258, 0.0194, 0.0114, 0.0200, 0.0129],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 04:10:13,144 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=27147.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:10:25,009 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7102, 4.0173, 4.2556, 4.2598, 1.5355, 3.8084, 3.5255, 3.8518],
+       device='cuda:2'), covar=tensor([0.0721, 0.0649, 0.0486, 0.0352, 0.3725, 0.0420, 0.0455, 0.0889],
+       device='cuda:2'), in_proj_covar=tensor([0.0465, 0.0409, 0.0557, 0.0441, 0.0542, 0.0323, 0.0361, 0.0528],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 04:10:35,270 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=27166.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:10:42,762 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=27172.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:10:58,830 INFO [train.py:903] (2/4) Epoch 4, batch 6700, loss[loss=0.2711, simple_loss=0.3268, pruned_loss=0.1077, over 19764.00 frames. ], tot_loss[loss=0.2986, simple_loss=0.3543, pruned_loss=0.1215, over 3811305.14 frames. ], batch size: 47, lr: 1.85e-02, grad_scale: 8.0
+2023-04-01 04:11:03,069 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
+2023-04-01 04:11:52,643 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.097e+02 7.210e+02 9.176e+02 1.266e+03 4.477e+03, threshold=1.835e+03, percent-clipped=7.0
+2023-04-01 04:11:57,029 INFO [train.py:903] (2/4) Epoch 4, batch 6750, loss[loss=0.2636, simple_loss=0.3165, pruned_loss=0.1053, over 19768.00 frames. ], tot_loss[loss=0.2985, simple_loss=0.3542, pruned_loss=0.1213, over 3805564.50 frames. ], batch size: 46, lr: 1.85e-02, grad_scale: 8.0
+2023-04-01 04:12:31,973 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=27266.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 04:12:52,952 INFO [train.py:903] (2/4) Epoch 4, batch 6800, loss[loss=0.2807, simple_loss=0.3392, pruned_loss=0.1111, over 19402.00 frames. ], tot_loss[loss=0.2993, simple_loss=0.3545, pruned_loss=0.122, over 3822233.75 frames. ], batch size: 48, lr: 1.85e-02, grad_scale: 8.0
+2023-04-01 04:13:36,997 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 04:13:38,072 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 04:13:40,498 INFO [train.py:903] (2/4) Epoch 5, batch 0, loss[loss=0.3129, simple_loss=0.3693, pruned_loss=0.1283, over 18849.00 frames. ], tot_loss[loss=0.3129, simple_loss=0.3693, pruned_loss=0.1283, over 18849.00 frames. ], batch size: 74, lr: 1.72e-02, grad_scale: 8.0
+2023-04-01 04:13:40,499 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 04:13:52,273 INFO [train.py:937] (2/4) Epoch 5, validation: loss=0.2121, simple_loss=0.3102, pruned_loss=0.05704, over 944034.00 frames. 
+2023-04-01 04:13:52,274 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18488MB
+2023-04-01 04:13:52,415 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=27312.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:14:04,619 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 04:14:16,053 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 5.218e+02 7.861e+02 9.859e+02 1.236e+03 2.711e+03, threshold=1.972e+03, percent-clipped=3.0
+2023-04-01 04:14:52,472 INFO [train.py:903] (2/4) Epoch 5, batch 50, loss[loss=0.2641, simple_loss=0.3324, pruned_loss=0.09792, over 19675.00 frames. ], tot_loss[loss=0.2944, simple_loss=0.352, pruned_loss=0.1183, over 871318.01 frames. ], batch size: 53, lr: 1.72e-02, grad_scale: 8.0
+2023-04-01 04:15:15,108 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=27381.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 04:15:26,101 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 04:15:53,859 INFO [train.py:903] (2/4) Epoch 5, batch 100, loss[loss=0.3634, simple_loss=0.3931, pruned_loss=0.1669, over 12724.00 frames. ], tot_loss[loss=0.2929, simple_loss=0.3511, pruned_loss=0.1174, over 1528027.55 frames. ], batch size: 136, lr: 1.72e-02, grad_scale: 8.0
+2023-04-01 04:16:05,281 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 04:16:11,187 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=27427.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:16:15,198 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.977e+02 6.953e+02 8.679e+02 1.081e+03 2.199e+03, threshold=1.736e+03, percent-clipped=1.0
+2023-04-01 04:16:53,750 INFO [train.py:903] (2/4) Epoch 5, batch 150, loss[loss=0.2571, simple_loss=0.3149, pruned_loss=0.09969, over 19376.00 frames. ], tot_loss[loss=0.2936, simple_loss=0.3514, pruned_loss=0.1179, over 2049549.27 frames. ], batch size: 47, lr: 1.72e-02, grad_scale: 8.0
+2023-04-01 04:17:52,417 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=27510.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:17:54,460 INFO [train.py:903] (2/4) Epoch 5, batch 200, loss[loss=0.2923, simple_loss=0.3391, pruned_loss=0.1227, over 19745.00 frames. ], tot_loss[loss=0.2896, simple_loss=0.3481, pruned_loss=0.1155, over 2454174.94 frames. ], batch size: 47, lr: 1.72e-02, grad_scale: 8.0
+2023-04-01 04:17:54,475 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 04:18:19,388 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.602e+02 6.870e+02 8.382e+02 1.064e+03 2.606e+03, threshold=1.676e+03, percent-clipped=3.0
+2023-04-01 04:18:56,512 INFO [train.py:903] (2/4) Epoch 5, batch 250, loss[loss=0.2847, simple_loss=0.3376, pruned_loss=0.1159, over 19482.00 frames. ], tot_loss[loss=0.2926, simple_loss=0.3505, pruned_loss=0.1174, over 2752333.59 frames. ], batch size: 49, lr: 1.71e-02, grad_scale: 4.0
+2023-04-01 04:19:58,941 INFO [train.py:903] (2/4) Epoch 5, batch 300, loss[loss=0.2258, simple_loss=0.2938, pruned_loss=0.07889, over 19323.00 frames. ], tot_loss[loss=0.2907, simple_loss=0.3481, pruned_loss=0.1166, over 2991917.53 frames. ], batch size: 47, lr: 1.71e-02, grad_scale: 4.0
+2023-04-01 04:20:15,375 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=27625.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:20:22,960 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.497e+02 6.581e+02 8.607e+02 1.103e+03 1.922e+03, threshold=1.721e+03, percent-clipped=6.0
+2023-04-01 04:20:28,926 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=27637.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 04:21:01,029 INFO [train.py:903] (2/4) Epoch 5, batch 350, loss[loss=0.2798, simple_loss=0.3454, pruned_loss=0.1071, over 19870.00 frames. ], tot_loss[loss=0.29, simple_loss=0.3476, pruned_loss=0.1162, over 3175416.24 frames. ], batch size: 52, lr: 1.71e-02, grad_scale: 4.0
+2023-04-01 04:21:01,371 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=27662.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 04:21:07,181 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 04:21:26,434 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=27683.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:21:58,725 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=27708.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:22:02,932 INFO [train.py:903] (2/4) Epoch 5, batch 400, loss[loss=0.2727, simple_loss=0.3284, pruned_loss=0.1085, over 19765.00 frames. ], tot_loss[loss=0.2896, simple_loss=0.3472, pruned_loss=0.116, over 3321544.11 frames. ], batch size: 47, lr: 1.71e-02, grad_scale: 8.0
+2023-04-01 04:22:25,048 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9023, 1.8748, 1.9114, 2.5835, 1.6960, 2.3559, 2.3495, 1.8865],
+       device='cuda:2'), covar=tensor([0.1609, 0.1386, 0.0732, 0.0769, 0.1559, 0.0575, 0.1405, 0.1260],
+       device='cuda:2'), in_proj_covar=tensor([0.0595, 0.0583, 0.0534, 0.0742, 0.0638, 0.0499, 0.0647, 0.0548],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 04:22:27,962 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.948e+02 7.305e+02 9.017e+02 1.065e+03 1.815e+03, threshold=1.803e+03, percent-clipped=3.0
+2023-04-01 04:22:28,325 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=27732.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 04:23:04,211 INFO [train.py:903] (2/4) Epoch 5, batch 450, loss[loss=0.3195, simple_loss=0.3757, pruned_loss=0.1316, over 19616.00 frames. ], tot_loss[loss=0.2896, simple_loss=0.3474, pruned_loss=0.1159, over 3442507.11 frames. ], batch size: 57, lr: 1.71e-02, grad_scale: 8.0
+2023-04-01 04:23:33,147 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.07 vs. limit=5.0
+2023-04-01 04:23:45,984 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 04:23:47,111 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 04:24:07,128 INFO [train.py:903] (2/4) Epoch 5, batch 500, loss[loss=0.3143, simple_loss=0.3677, pruned_loss=0.1304, over 19665.00 frames. ], tot_loss[loss=0.2891, simple_loss=0.3469, pruned_loss=0.1156, over 3526430.85 frames. ], batch size: 53, lr: 1.71e-02, grad_scale: 8.0
+2023-04-01 04:24:31,787 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.519e+02 6.150e+02 8.318e+02 1.057e+03 1.987e+03, threshold=1.664e+03, percent-clipped=1.0
+2023-04-01 04:25:11,313 INFO [train.py:903] (2/4) Epoch 5, batch 550, loss[loss=0.3075, simple_loss=0.3547, pruned_loss=0.1302, over 19488.00 frames. ], tot_loss[loss=0.2906, simple_loss=0.3482, pruned_loss=0.1164, over 3594991.23 frames. ], batch size: 49, lr: 1.71e-02, grad_scale: 8.0
+2023-04-01 04:25:35,615 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=27881.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:26:07,932 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=27906.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:26:14,571 INFO [train.py:903] (2/4) Epoch 5, batch 600, loss[loss=0.2794, simple_loss=0.3469, pruned_loss=0.1059, over 19784.00 frames. ], tot_loss[loss=0.291, simple_loss=0.3487, pruned_loss=0.1166, over 3638719.70 frames. ], batch size: 56, lr: 1.70e-02, grad_scale: 8.0
+2023-04-01 04:26:38,766 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.822e+02 6.595e+02 8.388e+02 1.023e+03 2.578e+03, threshold=1.678e+03, percent-clipped=3.0
+2023-04-01 04:27:02,814 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 04:27:07,045 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.81 vs. limit=2.0
+2023-04-01 04:27:17,954 INFO [train.py:903] (2/4) Epoch 5, batch 650, loss[loss=0.2551, simple_loss=0.3226, pruned_loss=0.09385, over 19583.00 frames. ], tot_loss[loss=0.2922, simple_loss=0.3497, pruned_loss=0.1173, over 3682447.43 frames. ], batch size: 52, lr: 1.70e-02, grad_scale: 8.0
+2023-04-01 04:28:20,087 INFO [train.py:903] (2/4) Epoch 5, batch 700, loss[loss=0.3055, simple_loss=0.367, pruned_loss=0.122, over 19291.00 frames. ], tot_loss[loss=0.2914, simple_loss=0.349, pruned_loss=0.1169, over 3714376.09 frames. ], batch size: 66, lr: 1.70e-02, grad_scale: 8.0
+2023-04-01 04:28:47,054 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.733e+02 7.486e+02 9.333e+02 1.140e+03 2.488e+03, threshold=1.867e+03, percent-clipped=5.0
+2023-04-01 04:29:25,964 INFO [train.py:903] (2/4) Epoch 5, batch 750, loss[loss=0.2661, simple_loss=0.332, pruned_loss=0.1001, over 19861.00 frames. ], tot_loss[loss=0.2923, simple_loss=0.35, pruned_loss=0.1173, over 3741206.87 frames. ], batch size: 52, lr: 1.70e-02, grad_scale: 8.0
+2023-04-01 04:29:43,613 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28076.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 04:30:27,878 INFO [train.py:903] (2/4) Epoch 5, batch 800, loss[loss=0.2135, simple_loss=0.2807, pruned_loss=0.07315, over 19742.00 frames. ], tot_loss[loss=0.2915, simple_loss=0.3495, pruned_loss=0.1167, over 3762294.48 frames. ], batch size: 45, lr: 1.70e-02, grad_scale: 8.0
+2023-04-01 04:30:48,163 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 04:30:52,983 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.190e+02 6.427e+02 8.567e+02 1.032e+03 2.729e+03, threshold=1.713e+03, percent-clipped=3.0
+2023-04-01 04:31:32,199 INFO [train.py:903] (2/4) Epoch 5, batch 850, loss[loss=0.3597, simple_loss=0.3963, pruned_loss=0.1616, over 19771.00 frames. ], tot_loss[loss=0.2911, simple_loss=0.3492, pruned_loss=0.1165, over 3785098.44 frames. ], batch size: 56, lr: 1.70e-02, grad_scale: 8.0
+2023-04-01 04:32:08,701 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28191.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 04:32:14,397 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6030, 3.9607, 4.1194, 4.1756, 1.3333, 3.8482, 3.4646, 3.7362],
+       device='cuda:2'), covar=tensor([0.0859, 0.0605, 0.0573, 0.0403, 0.4343, 0.0353, 0.0465, 0.1080],
+       device='cuda:2'), in_proj_covar=tensor([0.0483, 0.0431, 0.0579, 0.0449, 0.0562, 0.0329, 0.0375, 0.0532],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 04:32:29,190 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 04:32:33,623 INFO [train.py:903] (2/4) Epoch 5, batch 900, loss[loss=0.3077, simple_loss=0.3701, pruned_loss=0.1226, over 19708.00 frames. ], tot_loss[loss=0.2908, simple_loss=0.3492, pruned_loss=0.1162, over 3803290.77 frames. ], batch size: 59, lr: 1.69e-02, grad_scale: 8.0
+2023-04-01 04:32:59,334 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.597e+02 6.938e+02 8.196e+02 1.125e+03 2.658e+03, threshold=1.639e+03, percent-clipped=4.0
+2023-04-01 04:33:17,437 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:33:36,692 INFO [train.py:903] (2/4) Epoch 5, batch 950, loss[loss=0.2602, simple_loss=0.33, pruned_loss=0.0952, over 19675.00 frames. ], tot_loss[loss=0.2913, simple_loss=0.35, pruned_loss=0.1163, over 3808099.88 frames. ], batch size: 53, lr: 1.69e-02, grad_scale: 8.0
+2023-04-01 04:33:42,369 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 04:33:49,437 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28273.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 04:34:28,469 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28305.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:34:36,190 INFO [train.py:903] (2/4) Epoch 5, batch 1000, loss[loss=0.2787, simple_loss=0.3499, pruned_loss=0.1038, over 19615.00 frames. ], tot_loss[loss=0.2909, simple_loss=0.3495, pruned_loss=0.1161, over 3800728.54 frames. ], batch size: 57, lr: 1.69e-02, grad_scale: 8.0
+2023-04-01 04:34:51,467 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.80 vs. limit=5.0
+2023-04-01 04:34:59,300 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.517e+02 7.143e+02 8.888e+02 1.138e+03 2.880e+03, threshold=1.778e+03, percent-clipped=9.0
+2023-04-01 04:35:30,269 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 04:35:36,628 INFO [train.py:903] (2/4) Epoch 5, batch 1050, loss[loss=0.3544, simple_loss=0.3944, pruned_loss=0.1573, over 19329.00 frames. ], tot_loss[loss=0.291, simple_loss=0.3495, pruned_loss=0.1163, over 3807526.78 frames. ], batch size: 66, lr: 1.69e-02, grad_scale: 8.0
+2023-04-01 04:36:09,492 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 04:36:36,350 INFO [train.py:903] (2/4) Epoch 5, batch 1100, loss[loss=0.3358, simple_loss=0.3858, pruned_loss=0.1429, over 19657.00 frames. ], tot_loss[loss=0.2906, simple_loss=0.3489, pruned_loss=0.1162, over 3806226.32 frames. ], batch size: 55, lr: 1.69e-02, grad_scale: 8.0
+2023-04-01 04:36:56,333 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7780, 1.5623, 2.0779, 1.8336, 3.0179, 2.7057, 3.2279, 1.6211],
+       device='cuda:2'), covar=tensor([0.1429, 0.2706, 0.1479, 0.1213, 0.0994, 0.1091, 0.1091, 0.2373],
+       device='cuda:2'), in_proj_covar=tensor([0.0441, 0.0495, 0.0467, 0.0408, 0.0538, 0.0439, 0.0616, 0.0430],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 04:37:01,566 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.535e+02 6.917e+02 8.996e+02 1.190e+03 3.192e+03, threshold=1.799e+03, percent-clipped=6.0
+2023-04-01 04:37:19,649 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28447.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 04:37:37,667 INFO [train.py:903] (2/4) Epoch 5, batch 1150, loss[loss=0.3326, simple_loss=0.3801, pruned_loss=0.1426, over 19681.00 frames. ], tot_loss[loss=0.2905, simple_loss=0.3488, pruned_loss=0.1161, over 3800070.89 frames. ], batch size: 60, lr: 1.69e-02, grad_scale: 8.0
+2023-04-01 04:37:50,309 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=28472.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 04:38:11,073 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6104, 1.2619, 1.2299, 1.9619, 1.5278, 1.7465, 1.9307, 1.6699],
+       device='cuda:2'), covar=tensor([0.0858, 0.1117, 0.1190, 0.0838, 0.0941, 0.0780, 0.0904, 0.0726],
+       device='cuda:2'), in_proj_covar=tensor([0.0232, 0.0254, 0.0245, 0.0279, 0.0280, 0.0237, 0.0242, 0.0229],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0004, 0.0004, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004],
+       device='cuda:2')
+2023-04-01 04:38:29,216 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:38:36,126 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28510.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:38:38,089 INFO [train.py:903] (2/4) Epoch 5, batch 1200, loss[loss=0.3266, simple_loss=0.378, pruned_loss=0.1376, over 19667.00 frames. ], tot_loss[loss=0.2902, simple_loss=0.3482, pruned_loss=0.1161, over 3803284.29 frames. ], batch size: 59, lr: 1.69e-02, grad_scale: 8.0
+2023-04-01 04:39:01,764 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.620e+02 6.666e+02 7.999e+02 1.012e+03 1.920e+03, threshold=1.600e+03, percent-clipped=0.0
+2023-04-01 04:39:11,402 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4198, 1.4381, 1.7255, 1.3980, 2.3620, 2.6597, 2.6681, 2.8371],
+       device='cuda:2'), covar=tensor([0.1165, 0.2180, 0.2087, 0.1705, 0.0616, 0.0390, 0.0226, 0.0157],
+       device='cuda:2'), in_proj_covar=tensor([0.0260, 0.0281, 0.0318, 0.0255, 0.0197, 0.0114, 0.0205, 0.0134],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0001],
+       device='cuda:2')
+2023-04-01 04:39:12,216 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 04:39:37,127 INFO [train.py:903] (2/4) Epoch 5, batch 1250, loss[loss=0.2371, simple_loss=0.3042, pruned_loss=0.08503, over 19773.00 frames. ], tot_loss[loss=0.2905, simple_loss=0.3483, pruned_loss=0.1164, over 3804162.66 frames. ], batch size: 47, lr: 1.68e-02, grad_scale: 8.0
+2023-04-01 04:40:13,036 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28591.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:40:37,857 INFO [train.py:903] (2/4) Epoch 5, batch 1300, loss[loss=0.3162, simple_loss=0.3735, pruned_loss=0.1295, over 19475.00 frames. ], tot_loss[loss=0.2898, simple_loss=0.3484, pruned_loss=0.1156, over 3821335.12 frames. ], batch size: 64, lr: 1.68e-02, grad_scale: 8.0
+2023-04-01 04:40:43,794 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28617.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 04:41:03,191 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.211e+02 7.072e+02 8.596e+02 1.219e+03 1.879e+03, threshold=1.719e+03, percent-clipped=8.0
+2023-04-01 04:41:11,335 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6856, 1.7618, 1.3008, 1.3439, 1.2154, 1.4618, 0.1021, 0.7776],
+       device='cuda:2'), covar=tensor([0.0238, 0.0214, 0.0174, 0.0201, 0.0470, 0.0206, 0.0429, 0.0364],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0277, 0.0275, 0.0296, 0.0360, 0.0277, 0.0273, 0.0281],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 04:41:23,386 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28649.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:41:39,864 INFO [train.py:903] (2/4) Epoch 5, batch 1350, loss[loss=0.2918, simple_loss=0.3577, pruned_loss=0.1129, over 19518.00 frames. ], tot_loss[loss=0.2889, simple_loss=0.3477, pruned_loss=0.115, over 3820856.11 frames. ], batch size: 56, lr: 1.68e-02, grad_scale: 8.0
+2023-04-01 04:42:34,107 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28706.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:42:40,556 INFO [train.py:903] (2/4) Epoch 5, batch 1400, loss[loss=0.2612, simple_loss=0.329, pruned_loss=0.09666, over 19609.00 frames. ], tot_loss[loss=0.2894, simple_loss=0.3484, pruned_loss=0.1152, over 3817502.17 frames. ], batch size: 50, lr: 1.68e-02, grad_scale: 8.0
+2023-04-01 04:43:01,006 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1589, 3.5511, 3.7245, 3.6950, 1.5261, 3.3597, 3.0920, 3.3057],
+       device='cuda:2'), covar=tensor([0.1041, 0.0835, 0.0584, 0.0489, 0.3602, 0.0468, 0.0553, 0.1050],
+       device='cuda:2'), in_proj_covar=tensor([0.0495, 0.0445, 0.0587, 0.0466, 0.0564, 0.0337, 0.0379, 0.0543],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 04:43:04,143 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.747e+02 6.792e+02 9.169e+02 1.129e+03 1.829e+03, threshold=1.834e+03, percent-clipped=1.0
+2023-04-01 04:43:04,544 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28732.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 04:43:40,826 INFO [train.py:903] (2/4) Epoch 5, batch 1450, loss[loss=0.2586, simple_loss=0.318, pruned_loss=0.09962, over 19743.00 frames. ], tot_loss[loss=0.2884, simple_loss=0.3475, pruned_loss=0.1146, over 3818411.78 frames. ], batch size: 51, lr: 1.68e-02, grad_scale: 8.0
+2023-04-01 04:43:43,168 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 04:43:43,502 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28764.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:44:41,293 INFO [train.py:903] (2/4) Epoch 5, batch 1500, loss[loss=0.4456, simple_loss=0.4481, pruned_loss=0.2215, over 13437.00 frames. ], tot_loss[loss=0.2873, simple_loss=0.3463, pruned_loss=0.1142, over 3808148.19 frames. ], batch size: 135, lr: 1.68e-02, grad_scale: 8.0
+2023-04-01 04:45:06,144 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.730e+02 6.912e+02 8.562e+02 1.022e+03 2.509e+03, threshold=1.712e+03, percent-clipped=1.0
+2023-04-01 04:45:24,295 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:45:31,731 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=28854.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:45:42,343 INFO [train.py:903] (2/4) Epoch 5, batch 1550, loss[loss=0.2336, simple_loss=0.2882, pruned_loss=0.08957, over 19741.00 frames. ], tot_loss[loss=0.2878, simple_loss=0.3467, pruned_loss=0.1145, over 3797276.08 frames. ], batch size: 46, lr: 1.68e-02, grad_scale: 8.0
+2023-04-01 04:45:54,746 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7445, 1.7504, 1.7309, 2.5154, 1.6808, 2.2377, 2.3024, 1.7763],
+       device='cuda:2'), covar=tensor([0.1634, 0.1325, 0.0768, 0.0704, 0.1467, 0.0600, 0.1430, 0.1281],
+       device='cuda:2'), in_proj_covar=tensor([0.0606, 0.0595, 0.0546, 0.0753, 0.0650, 0.0508, 0.0658, 0.0563],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 04:46:02,328 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=28879.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:46:23,062 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3130, 2.2129, 1.9214, 1.6357, 1.5952, 1.8768, 0.3649, 1.2318],
+       device='cuda:2'), covar=tensor([0.0247, 0.0213, 0.0149, 0.0318, 0.0491, 0.0249, 0.0514, 0.0365],
+       device='cuda:2'), in_proj_covar=tensor([0.0292, 0.0282, 0.0278, 0.0304, 0.0369, 0.0285, 0.0278, 0.0285],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 04:46:41,468 INFO [train.py:903] (2/4) Epoch 5, batch 1600, loss[loss=0.3154, simple_loss=0.3642, pruned_loss=0.1333, over 19760.00 frames. ], tot_loss[loss=0.2875, simple_loss=0.3467, pruned_loss=0.1141, over 3818610.04 frames. ], batch size: 54, lr: 1.67e-02, grad_scale: 8.0
+2023-04-01 04:47:04,538 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.940e+02 6.984e+02 8.420e+02 1.102e+03 2.946e+03, threshold=1.684e+03, percent-clipped=4.0
+2023-04-01 04:47:04,569 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 04:47:41,586 INFO [train.py:903] (2/4) Epoch 5, batch 1650, loss[loss=0.2845, simple_loss=0.3499, pruned_loss=0.1096, over 19058.00 frames. ], tot_loss[loss=0.2868, simple_loss=0.3464, pruned_loss=0.1136, over 3827229.89 frames. ], batch size: 69, lr: 1.67e-02, grad_scale: 4.0
+2023-04-01 04:47:42,038 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28962.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:47:43,187 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28963.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:47:49,868 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=28969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:48:11,664 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.63 vs. limit=2.0
+2023-04-01 04:48:12,489 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=28987.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:48:14,415 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=28988.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 04:48:42,351 INFO [train.py:903] (2/4) Epoch 5, batch 1700, loss[loss=0.2946, simple_loss=0.3372, pruned_loss=0.126, over 14729.00 frames. ], tot_loss[loss=0.2885, simple_loss=0.3477, pruned_loss=0.1147, over 3832687.93 frames. ], batch size: 32, lr: 1.67e-02, grad_scale: 4.0
+2023-04-01 04:48:43,857 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29013.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 04:48:51,929 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29020.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:48:52,073 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29020.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:49:08,764 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.635e+02 6.699e+02 8.227e+02 1.083e+03 2.721e+03, threshold=1.645e+03, percent-clipped=4.0
+2023-04-01 04:49:21,045 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 04:49:22,488 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:49:42,474 INFO [train.py:903] (2/4) Epoch 5, batch 1750, loss[loss=0.24, simple_loss=0.3112, pruned_loss=0.08446, over 19721.00 frames. ], tot_loss[loss=0.2893, simple_loss=0.3484, pruned_loss=0.1151, over 3832190.42 frames. ], batch size: 51, lr: 1.67e-02, grad_scale: 4.0
+2023-04-01 04:50:43,933 INFO [train.py:903] (2/4) Epoch 5, batch 1800, loss[loss=0.3999, simple_loss=0.4198, pruned_loss=0.19, over 13151.00 frames. ], tot_loss[loss=0.2882, simple_loss=0.3475, pruned_loss=0.1145, over 3824518.99 frames. ], batch size: 136, lr: 1.67e-02, grad_scale: 4.0
+2023-04-01 04:51:00,721 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.68 vs. limit=2.0
+2023-04-01 04:51:07,719 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.740e+02 6.050e+02 7.849e+02 1.011e+03 2.328e+03, threshold=1.570e+03, percent-clipped=7.0
+2023-04-01 04:51:39,757 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 04:51:44,191 INFO [train.py:903] (2/4) Epoch 5, batch 1850, loss[loss=0.2847, simple_loss=0.3482, pruned_loss=0.1106, over 19536.00 frames. ], tot_loss[loss=0.2881, simple_loss=0.3477, pruned_loss=0.1142, over 3817107.15 frames. ], batch size: 54, lr: 1.67e-02, grad_scale: 4.0
+2023-04-01 04:52:17,657 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 04:52:43,727 INFO [train.py:903] (2/4) Epoch 5, batch 1900, loss[loss=0.3235, simple_loss=0.3836, pruned_loss=0.1317, over 19381.00 frames. ], tot_loss[loss=0.2896, simple_loss=0.3482, pruned_loss=0.1155, over 3817240.03 frames. ], batch size: 70, lr: 1.67e-02, grad_scale: 4.0
+2023-04-01 04:52:53,238 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29219.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:52:59,221 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29223.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:53:01,728 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29225.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:53:02,418 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 04:53:07,799 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 04:53:11,312 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.676e+02 6.988e+02 9.073e+02 1.156e+03 1.890e+03, threshold=1.815e+03, percent-clipped=5.0
+2023-04-01 04:53:23,883 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29244.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:53:24,460 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
+2023-04-01 04:53:28,885 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 04:53:30,456 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:53:35,747 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29254.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:53:44,960 INFO [train.py:903] (2/4) Epoch 5, batch 1950, loss[loss=0.2774, simple_loss=0.3326, pruned_loss=0.1112, over 19598.00 frames. ], tot_loss[loss=0.2878, simple_loss=0.3464, pruned_loss=0.1145, over 3814267.36 frames. ], batch size: 52, lr: 1.67e-02, grad_scale: 4.0
+2023-04-01 04:54:46,875 INFO [train.py:903] (2/4) Epoch 5, batch 2000, loss[loss=0.2619, simple_loss=0.3343, pruned_loss=0.09476, over 19529.00 frames. ], tot_loss[loss=0.2864, simple_loss=0.3457, pruned_loss=0.1135, over 3826062.15 frames. ], batch size: 56, lr: 1.66e-02, grad_scale: 8.0
+2023-04-01 04:55:10,279 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.142e+02 7.102e+02 9.141e+02 1.135e+03 3.050e+03, threshold=1.828e+03, percent-clipped=2.0
+2023-04-01 04:55:16,883 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=29338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:55:43,165 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 04:55:46,566 INFO [train.py:903] (2/4) Epoch 5, batch 2050, loss[loss=0.3043, simple_loss=0.3597, pruned_loss=0.1244, over 19536.00 frames. ], tot_loss[loss=0.2878, simple_loss=0.3469, pruned_loss=0.1143, over 3829433.63 frames. ], batch size: 54, lr: 1.66e-02, grad_scale: 8.0
+2023-04-01 04:55:49,012 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29364.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:55:59,087 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9364, 1.4661, 1.4949, 1.9626, 1.6289, 1.6996, 1.6403, 1.9419],
+       device='cuda:2'), covar=tensor([0.0751, 0.1440, 0.1234, 0.0844, 0.1130, 0.0451, 0.0903, 0.0570],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0370, 0.0286, 0.0242, 0.0306, 0.0249, 0.0273, 0.0234],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 04:55:59,871 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 04:56:00,832 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 04:56:23,067 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 04:56:45,828 INFO [train.py:903] (2/4) Epoch 5, batch 2100, loss[loss=0.27, simple_loss=0.3338, pruned_loss=0.1031, over 19777.00 frames. ], tot_loss[loss=0.2881, simple_loss=0.3469, pruned_loss=0.1146, over 3836371.74 frames. ], batch size: 56, lr: 1.66e-02, grad_scale: 8.0
+2023-04-01 04:57:12,304 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.101e+02 7.145e+02 9.347e+02 1.270e+03 4.921e+03, threshold=1.869e+03, percent-clipped=10.0
+2023-04-01 04:57:13,533 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 04:57:34,263 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 04:57:46,685 INFO [train.py:903] (2/4) Epoch 5, batch 2150, loss[loss=0.2597, simple_loss=0.32, pruned_loss=0.09967, over 19873.00 frames. ], tot_loss[loss=0.2897, simple_loss=0.3479, pruned_loss=0.1158, over 3811899.91 frames. ], batch size: 52, lr: 1.66e-02, grad_scale: 8.0
+2023-04-01 04:58:01,874 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5179, 1.4270, 1.5636, 1.8771, 3.1300, 1.2092, 2.3208, 3.1296],
+       device='cuda:2'), covar=tensor([0.0316, 0.2283, 0.2199, 0.1341, 0.0497, 0.2234, 0.1195, 0.0388],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0308, 0.0310, 0.0286, 0.0302, 0.0315, 0.0286, 0.0300],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 04:58:08,960 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=29479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 04:58:48,385 INFO [train.py:903] (2/4) Epoch 5, batch 2200, loss[loss=0.3069, simple_loss=0.3678, pruned_loss=0.123, over 19626.00 frames. ], tot_loss[loss=0.2881, simple_loss=0.3469, pruned_loss=0.1146, over 3826778.59 frames. ], batch size: 61, lr: 1.66e-02, grad_scale: 8.0
+2023-04-01 04:59:11,936 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.753e+02 6.760e+02 8.285e+02 1.117e+03 1.782e+03, threshold=1.657e+03, percent-clipped=0.0
+2023-04-01 04:59:47,491 INFO [train.py:903] (2/4) Epoch 5, batch 2250, loss[loss=0.2751, simple_loss=0.3254, pruned_loss=0.1124, over 19758.00 frames. ], tot_loss[loss=0.2872, simple_loss=0.3461, pruned_loss=0.1141, over 3836392.34 frames. ], batch size: 45, lr: 1.66e-02, grad_scale: 8.0
+2023-04-01 04:59:55,535 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29569.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:00:28,239 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29594.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:00:32,407 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29598.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:00:48,024 INFO [train.py:903] (2/4) Epoch 5, batch 2300, loss[loss=0.3172, simple_loss=0.3683, pruned_loss=0.133, over 17383.00 frames. ], tot_loss[loss=0.2863, simple_loss=0.3456, pruned_loss=0.1135, over 3848454.04 frames. ], batch size: 101, lr: 1.66e-02, grad_scale: 8.0
+2023-04-01 05:00:56,322 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29619.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:01:03,667 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 05:01:15,152 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.694e+02 6.380e+02 7.654e+02 9.572e+02 1.859e+03, threshold=1.531e+03, percent-clipped=2.0
+2023-04-01 05:01:48,834 INFO [train.py:903] (2/4) Epoch 5, batch 2350, loss[loss=0.3239, simple_loss=0.3771, pruned_loss=0.1354, over 18286.00 frames. ], tot_loss[loss=0.2873, simple_loss=0.3466, pruned_loss=0.1141, over 3827170.26 frames. ], batch size: 84, lr: 1.65e-02, grad_scale: 8.0
+2023-04-01 05:02:11,353 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29680.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:02:28,864 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 05:02:45,264 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 05:02:49,424 INFO [train.py:903] (2/4) Epoch 5, batch 2400, loss[loss=0.2795, simple_loss=0.3447, pruned_loss=0.1072, over 19774.00 frames. ], tot_loss[loss=0.2878, simple_loss=0.3472, pruned_loss=0.1143, over 3820764.50 frames. ], batch size: 56, lr: 1.65e-02, grad_scale: 8.0
+2023-04-01 05:02:50,600 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=29713.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:03:12,596 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.376e+02 6.843e+02 7.889e+02 1.103e+03 3.246e+03, threshold=1.578e+03, percent-clipped=5.0
+2023-04-01 05:03:15,309 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29735.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:03:46,780 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:03:48,490 INFO [train.py:903] (2/4) Epoch 5, batch 2450, loss[loss=0.2645, simple_loss=0.3127, pruned_loss=0.1082, over 19801.00 frames. ], tot_loss[loss=0.2883, simple_loss=0.3475, pruned_loss=0.1145, over 3817285.52 frames. ], batch size: 47, lr: 1.65e-02, grad_scale: 8.0
+2023-04-01 05:04:38,515 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7768, 4.1794, 4.5106, 4.4533, 1.4152, 4.1203, 3.5897, 4.0405],
+       device='cuda:2'), covar=tensor([0.1040, 0.0558, 0.0464, 0.0437, 0.4359, 0.0326, 0.0505, 0.0979],
+       device='cuda:2'), in_proj_covar=tensor([0.0497, 0.0442, 0.0580, 0.0477, 0.0570, 0.0347, 0.0378, 0.0540],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 05:04:48,612 INFO [train.py:903] (2/4) Epoch 5, batch 2500, loss[loss=0.3014, simple_loss=0.3686, pruned_loss=0.1171, over 19602.00 frames. ], tot_loss[loss=0.2868, simple_loss=0.3464, pruned_loss=0.1136, over 3820957.42 frames. ], batch size: 57, lr: 1.65e-02, grad_scale: 8.0
+2023-04-01 05:04:57,783 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=29820.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:05:14,591 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.471e+02 6.790e+02 8.500e+02 1.086e+03 2.138e+03, threshold=1.700e+03, percent-clipped=3.0
+2023-04-01 05:05:45,456 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6575, 1.2958, 1.2870, 2.0811, 1.6176, 1.8996, 2.1317, 1.8669],
+       device='cuda:2'), covar=tensor([0.0733, 0.0990, 0.1058, 0.0767, 0.0874, 0.0775, 0.0747, 0.0648],
+       device='cuda:2'), in_proj_covar=tensor([0.0231, 0.0252, 0.0243, 0.0281, 0.0273, 0.0230, 0.0237, 0.0228],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0004, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 05:05:45,875 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.69 vs. limit=5.0
+2023-04-01 05:05:48,271 INFO [train.py:903] (2/4) Epoch 5, batch 2550, loss[loss=0.2643, simple_loss=0.3257, pruned_loss=0.1014, over 19377.00 frames. ], tot_loss[loss=0.2881, simple_loss=0.3471, pruned_loss=0.1145, over 3817489.99 frames. ], batch size: 48, lr: 1.65e-02, grad_scale: 8.0
+2023-04-01 05:06:40,390 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 05:06:43,847 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3087, 1.3724, 1.8755, 1.5563, 2.9206, 4.2727, 4.2733, 4.7136],
+       device='cuda:2'), covar=tensor([0.1477, 0.2890, 0.2771, 0.1865, 0.0453, 0.0135, 0.0162, 0.0083],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0282, 0.0317, 0.0254, 0.0197, 0.0117, 0.0207, 0.0139],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 05:06:48,588 INFO [train.py:903] (2/4) Epoch 5, batch 2600, loss[loss=0.2605, simple_loss=0.321, pruned_loss=0.09999, over 19391.00 frames. ], tot_loss[loss=0.2874, simple_loss=0.3467, pruned_loss=0.114, over 3826686.30 frames. ], batch size: 48, lr: 1.65e-02, grad_scale: 8.0
+2023-04-01 05:06:50,714 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=29913.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:07:13,514 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.137e+02 6.882e+02 9.175e+02 1.239e+03 1.828e+03, threshold=1.835e+03, percent-clipped=5.0
+2023-04-01 05:07:50,213 INFO [train.py:903] (2/4) Epoch 5, batch 2650, loss[loss=0.2965, simple_loss=0.3612, pruned_loss=0.1159, over 19338.00 frames. ], tot_loss[loss=0.2844, simple_loss=0.344, pruned_loss=0.1124, over 3826507.20 frames. ], batch size: 66, lr: 1.65e-02, grad_scale: 8.0
+2023-04-01 05:07:58,234 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=29969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:08:08,344 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 05:08:29,807 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=29994.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:08:50,702 INFO [train.py:903] (2/4) Epoch 5, batch 2700, loss[loss=0.2891, simple_loss=0.354, pruned_loss=0.1121, over 19674.00 frames. ], tot_loss[loss=0.2836, simple_loss=0.3435, pruned_loss=0.1119, over 3832077.54 frames. ], batch size: 60, lr: 1.64e-02, grad_scale: 8.0
+2023-04-01 05:09:04,703 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30024.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:09:10,314 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30028.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:09:17,305 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.255e+02 6.674e+02 8.375e+02 9.964e+02 1.932e+03, threshold=1.675e+03, percent-clipped=1.0
+2023-04-01 05:09:22,315 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9502, 1.9308, 1.8724, 2.7147, 1.9114, 2.5158, 2.4286, 1.7358],
+       device='cuda:2'), covar=tensor([0.1728, 0.1354, 0.0756, 0.0845, 0.1667, 0.0630, 0.1433, 0.1332],
+       device='cuda:2'), in_proj_covar=tensor([0.0602, 0.0592, 0.0541, 0.0753, 0.0648, 0.0517, 0.0658, 0.0562],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 05:09:49,950 INFO [train.py:903] (2/4) Epoch 5, batch 2750, loss[loss=0.2958, simple_loss=0.3525, pruned_loss=0.1195, over 19734.00 frames. ], tot_loss[loss=0.2839, simple_loss=0.3436, pruned_loss=0.1121, over 3843572.17 frames. ], batch size: 51, lr: 1.64e-02, grad_scale: 4.0
+2023-04-01 05:10:19,015 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9886, 4.4371, 4.6975, 4.6096, 1.4915, 4.2557, 3.8161, 4.2431],
+       device='cuda:2'), covar=tensor([0.0852, 0.0523, 0.0401, 0.0366, 0.4149, 0.0356, 0.0431, 0.0937],
+       device='cuda:2'), in_proj_covar=tensor([0.0503, 0.0448, 0.0597, 0.0486, 0.0575, 0.0354, 0.0380, 0.0552],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 05:10:50,796 INFO [train.py:903] (2/4) Epoch 5, batch 2800, loss[loss=0.3409, simple_loss=0.3867, pruned_loss=0.1475, over 13564.00 frames. ], tot_loss[loss=0.2832, simple_loss=0.3429, pruned_loss=0.1117, over 3823412.87 frames. ], batch size: 136, lr: 1.64e-02, grad_scale: 8.0
+2023-04-01 05:11:17,049 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.279e+02 7.041e+02 9.072e+02 1.191e+03 2.188e+03, threshold=1.814e+03, percent-clipped=6.0
+2023-04-01 05:11:22,827 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30139.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:11:27,404 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30143.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:11:51,983 INFO [train.py:903] (2/4) Epoch 5, batch 2850, loss[loss=0.2246, simple_loss=0.2867, pruned_loss=0.08125, over 19770.00 frames. ], tot_loss[loss=0.2838, simple_loss=0.3431, pruned_loss=0.1122, over 3834730.95 frames. ], batch size: 48, lr: 1.64e-02, grad_scale: 4.0
+2023-04-01 05:11:54,301 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30164.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:12:40,238 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.71 vs. limit=5.0
+2023-04-01 05:12:47,799 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5493, 1.5820, 1.6430, 2.1277, 1.3714, 1.7950, 1.9819, 1.6276],
+       device='cuda:2'), covar=tensor([0.1804, 0.1371, 0.0837, 0.0758, 0.1573, 0.0690, 0.1671, 0.1374],
+       device='cuda:2'), in_proj_covar=tensor([0.0617, 0.0601, 0.0549, 0.0765, 0.0664, 0.0527, 0.0669, 0.0572],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 05:12:51,657 INFO [train.py:903] (2/4) Epoch 5, batch 2900, loss[loss=0.2691, simple_loss=0.3384, pruned_loss=0.09989, over 19450.00 frames. ], tot_loss[loss=0.2837, simple_loss=0.3431, pruned_loss=0.1121, over 3848341.35 frames. ], batch size: 64, lr: 1.64e-02, grad_scale: 4.0
+2023-04-01 05:12:51,675 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 05:13:09,285 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30227.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:13:20,144 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.023e+02 7.237e+02 9.091e+02 1.153e+03 2.755e+03, threshold=1.818e+03, percent-clipped=7.0
+2023-04-01 05:13:51,429 INFO [train.py:903] (2/4) Epoch 5, batch 2950, loss[loss=0.2985, simple_loss=0.3561, pruned_loss=0.1205, over 19580.00 frames. ], tot_loss[loss=0.2842, simple_loss=0.3434, pruned_loss=0.1125, over 3833815.27 frames. ], batch size: 61, lr: 1.64e-02, grad_scale: 4.0
+2023-04-01 05:14:12,809 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30279.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:14:18,199 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30284.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:14:21,854 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.77 vs. limit=2.0
+2023-04-01 05:14:46,956 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30309.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:14:50,603 INFO [train.py:903] (2/4) Epoch 5, batch 3000, loss[loss=0.2851, simple_loss=0.3366, pruned_loss=0.1168, over 19487.00 frames. ], tot_loss[loss=0.2848, simple_loss=0.3437, pruned_loss=0.113, over 3823520.83 frames. ], batch size: 49, lr: 1.64e-02, grad_scale: 4.0
+2023-04-01 05:14:50,603 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 05:15:03,138 INFO [train.py:937] (2/4) Epoch 5, validation: loss=0.2047, simple_loss=0.3034, pruned_loss=0.05296, over 944034.00 frames. 
+2023-04-01 05:15:03,140 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18488MB
+2023-04-01 05:15:05,756 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 05:15:33,551 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.690e+02 7.155e+02 8.736e+02 1.085e+03 2.346e+03, threshold=1.747e+03, percent-clipped=4.0
+2023-04-01 05:16:06,356 INFO [train.py:903] (2/4) Epoch 5, batch 3050, loss[loss=0.2523, simple_loss=0.3249, pruned_loss=0.08987, over 19749.00 frames. ], tot_loss[loss=0.2831, simple_loss=0.3427, pruned_loss=0.1117, over 3813565.88 frames. ], batch size: 54, lr: 1.64e-02, grad_scale: 4.0
+2023-04-01 05:16:26,414 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30378.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:16:45,575 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30395.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:17:07,567 INFO [train.py:903] (2/4) Epoch 5, batch 3100, loss[loss=0.2825, simple_loss=0.3406, pruned_loss=0.1122, over 19671.00 frames. ], tot_loss[loss=0.2853, simple_loss=0.3441, pruned_loss=0.1132, over 3812647.92 frames. ], batch size: 58, lr: 1.63e-02, grad_scale: 4.0
+2023-04-01 05:17:17,136 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30420.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:17:25,522 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.56 vs. limit=5.0
+2023-04-01 05:17:33,698 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.705e+02 6.847e+02 8.274e+02 1.001e+03 3.134e+03, threshold=1.655e+03, percent-clipped=2.0
+2023-04-01 05:18:06,700 INFO [train.py:903] (2/4) Epoch 5, batch 3150, loss[loss=0.2429, simple_loss=0.3022, pruned_loss=0.09178, over 19321.00 frames. ], tot_loss[loss=0.2861, simple_loss=0.3449, pruned_loss=0.1137, over 3821604.35 frames. ], batch size: 44, lr: 1.63e-02, grad_scale: 4.0
+2023-04-01 05:18:34,301 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 05:18:37,229 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30487.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:19:06,283 INFO [train.py:903] (2/4) Epoch 5, batch 3200, loss[loss=0.2596, simple_loss=0.3284, pruned_loss=0.0954, over 19856.00 frames. ], tot_loss[loss=0.2854, simple_loss=0.344, pruned_loss=0.1134, over 3825546.81 frames. ], batch size: 52, lr: 1.63e-02, grad_scale: 8.0
+2023-04-01 05:19:35,547 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.065e+02 7.005e+02 8.588e+02 1.128e+03 3.335e+03, threshold=1.718e+03, percent-clipped=13.0
+2023-04-01 05:19:35,955 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30535.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:20:04,521 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30560.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:20:06,325 INFO [train.py:903] (2/4) Epoch 5, batch 3250, loss[loss=0.3276, simple_loss=0.3857, pruned_loss=0.1347, over 19675.00 frames. ], tot_loss[loss=0.2858, simple_loss=0.3443, pruned_loss=0.1137, over 3818165.53 frames. ], batch size: 60, lr: 1.63e-02, grad_scale: 8.0
+2023-04-01 05:20:20,422 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30571.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:20:55,332 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30602.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:21:08,680 INFO [train.py:903] (2/4) Epoch 5, batch 3300, loss[loss=0.3651, simple_loss=0.4067, pruned_loss=0.1618, over 18356.00 frames. ], tot_loss[loss=0.2837, simple_loss=0.3425, pruned_loss=0.1125, over 3830534.59 frames. ], batch size: 84, lr: 1.63e-02, grad_scale: 8.0
+2023-04-01 05:21:16,491 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 05:21:31,848 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-01 05:21:35,518 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.601e+02 6.699e+02 7.755e+02 9.198e+02 2.155e+03, threshold=1.551e+03, percent-clipped=1.0
+2023-04-01 05:21:37,205 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9757, 2.0831, 1.4246, 1.4949, 1.2090, 1.5434, 0.3755, 0.8818],
+       device='cuda:2'), covar=tensor([0.0398, 0.0303, 0.0277, 0.0354, 0.0690, 0.0412, 0.0571, 0.0515],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0277, 0.0276, 0.0298, 0.0361, 0.0287, 0.0270, 0.0283],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 05:22:09,102 INFO [train.py:903] (2/4) Epoch 5, batch 3350, loss[loss=0.2658, simple_loss=0.3263, pruned_loss=0.1026, over 19614.00 frames. ], tot_loss[loss=0.2855, simple_loss=0.344, pruned_loss=0.1135, over 3816133.03 frames. ], batch size: 50, lr: 1.63e-02, grad_scale: 8.0
+2023-04-01 05:22:21,630 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30673.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:22:38,251 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30686.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:23:09,780 INFO [train.py:903] (2/4) Epoch 5, batch 3400, loss[loss=0.2542, simple_loss=0.3048, pruned_loss=0.1018, over 19766.00 frames. ], tot_loss[loss=0.2864, simple_loss=0.3453, pruned_loss=0.1138, over 3813152.45 frames. ], batch size: 45, lr: 1.63e-02, grad_scale: 8.0
+2023-04-01 05:23:22,337 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=30722.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:23:31,352 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7918, 1.8586, 1.5306, 1.5911, 1.4102, 1.6187, 0.6756, 1.2465],
+       device='cuda:2'), covar=tensor([0.0203, 0.0220, 0.0145, 0.0195, 0.0370, 0.0237, 0.0409, 0.0320],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0280, 0.0279, 0.0301, 0.0368, 0.0290, 0.0276, 0.0288],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 05:23:39,933 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.254e+02 6.893e+02 8.724e+02 1.073e+03 2.213e+03, threshold=1.745e+03, percent-clipped=7.0
+2023-04-01 05:24:11,822 INFO [train.py:903] (2/4) Epoch 5, batch 3450, loss[loss=0.2977, simple_loss=0.3549, pruned_loss=0.1202, over 19659.00 frames. ], tot_loss[loss=0.2852, simple_loss=0.3438, pruned_loss=0.1133, over 3798068.24 frames. ], batch size: 55, lr: 1.63e-02, grad_scale: 8.0
+2023-04-01 05:24:15,168 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 05:25:13,755 INFO [train.py:903] (2/4) Epoch 5, batch 3500, loss[loss=0.2403, simple_loss=0.3149, pruned_loss=0.08286, over 19851.00 frames. ], tot_loss[loss=0.2848, simple_loss=0.3438, pruned_loss=0.1129, over 3800725.69 frames. ], batch size: 52, lr: 1.62e-02, grad_scale: 8.0
+2023-04-01 05:25:39,220 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.495e+02 7.015e+02 8.195e+02 1.097e+03 2.546e+03, threshold=1.639e+03, percent-clipped=5.0
+2023-04-01 05:25:41,876 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=30837.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:25:58,596 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
+2023-04-01 05:26:09,330 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30858.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:26:13,366 INFO [train.py:903] (2/4) Epoch 5, batch 3550, loss[loss=0.2332, simple_loss=0.3072, pruned_loss=0.07958, over 19751.00 frames. ], tot_loss[loss=0.2859, simple_loss=0.345, pruned_loss=0.1134, over 3794715.70 frames. ], batch size: 51, lr: 1.62e-02, grad_scale: 8.0
+2023-04-01 05:26:38,709 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30883.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:26:56,060 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8745, 1.1540, 1.3125, 1.4247, 2.3458, 0.9459, 1.8379, 2.5208],
+       device='cuda:2'), covar=tensor([0.0628, 0.2746, 0.2498, 0.1567, 0.0863, 0.2367, 0.1218, 0.0638],
+       device='cuda:2'), in_proj_covar=tensor([0.0284, 0.0311, 0.0308, 0.0283, 0.0301, 0.0312, 0.0286, 0.0303],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 05:27:13,895 INFO [train.py:903] (2/4) Epoch 5, batch 3600, loss[loss=0.3478, simple_loss=0.3785, pruned_loss=0.1586, over 19840.00 frames. ], tot_loss[loss=0.2859, simple_loss=0.345, pruned_loss=0.1134, over 3789245.39 frames. ], batch size: 52, lr: 1.62e-02, grad_scale: 8.0
+2023-04-01 05:27:24,192 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30921.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:27:43,240 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.778e+02 6.769e+02 8.289e+02 1.066e+03 2.218e+03, threshold=1.658e+03, percent-clipped=4.0
+2023-04-01 05:27:51,242 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=30942.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:27:52,190 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30943.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:27:55,752 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0970, 1.8304, 1.3204, 1.0405, 1.6434, 0.8567, 0.8749, 1.6519],
+       device='cuda:2'), covar=tensor([0.0608, 0.0436, 0.0854, 0.0618, 0.0349, 0.1003, 0.0589, 0.0276],
+       device='cuda:2'), in_proj_covar=tensor([0.0291, 0.0271, 0.0317, 0.0243, 0.0223, 0.0312, 0.0286, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 05:28:02,186 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=30952.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:28:13,481 INFO [train.py:903] (2/4) Epoch 5, batch 3650, loss[loss=0.2517, simple_loss=0.3154, pruned_loss=0.09403, over 19586.00 frames. ], tot_loss[loss=0.2865, simple_loss=0.3452, pruned_loss=0.1139, over 3801810.84 frames. ], batch size: 52, lr: 1.62e-02, grad_scale: 8.0
+2023-04-01 05:28:20,044 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=30967.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:29:14,323 INFO [train.py:903] (2/4) Epoch 5, batch 3700, loss[loss=0.2646, simple_loss=0.3396, pruned_loss=0.09483, over 19532.00 frames. ], tot_loss[loss=0.2868, simple_loss=0.3456, pruned_loss=0.1141, over 3795124.29 frames. ], batch size: 56, lr: 1.62e-02, grad_scale: 8.0
+2023-04-01 05:29:21,024 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31017.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:29:34,017 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31029.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 05:29:40,640 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.405e+02 7.099e+02 8.962e+02 1.140e+03 3.223e+03, threshold=1.792e+03, percent-clipped=9.0
+2023-04-01 05:30:15,317 INFO [train.py:903] (2/4) Epoch 5, batch 3750, loss[loss=0.3253, simple_loss=0.376, pruned_loss=0.1373, over 17548.00 frames. ], tot_loss[loss=0.2865, simple_loss=0.3452, pruned_loss=0.1139, over 3802120.24 frames. ], batch size: 101, lr: 1.62e-02, grad_scale: 8.0
+2023-04-01 05:30:53,682 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:31:15,741 INFO [train.py:903] (2/4) Epoch 5, batch 3800, loss[loss=0.284, simple_loss=0.3372, pruned_loss=0.1154, over 19581.00 frames. ], tot_loss[loss=0.2861, simple_loss=0.3449, pruned_loss=0.1137, over 3797870.34 frames. ], batch size: 52, lr: 1.62e-02, grad_scale: 8.0
+2023-04-01 05:31:22,779 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31118.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:31:40,713 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:31:44,604 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.073e+02 5.856e+02 8.467e+02 1.115e+03 2.554e+03, threshold=1.693e+03, percent-clipped=5.0
+2023-04-01 05:31:49,119 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 05:32:15,367 INFO [train.py:903] (2/4) Epoch 5, batch 3850, loss[loss=0.3007, simple_loss=0.3572, pruned_loss=0.1221, over 19540.00 frames. ], tot_loss[loss=0.286, simple_loss=0.3446, pruned_loss=0.1137, over 3796825.55 frames. ], batch size: 56, lr: 1.61e-02, grad_scale: 8.0
+2023-04-01 05:32:36,226 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4340, 0.9412, 1.1588, 1.3503, 2.0562, 0.9140, 1.8449, 2.0845],
+       device='cuda:2'), covar=tensor([0.0610, 0.2535, 0.2449, 0.1351, 0.0772, 0.1975, 0.0942, 0.0638],
+       device='cuda:2'), in_proj_covar=tensor([0.0287, 0.0309, 0.0311, 0.0286, 0.0302, 0.0312, 0.0286, 0.0303],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 05:33:19,175 INFO [train.py:903] (2/4) Epoch 5, batch 3900, loss[loss=0.3845, simple_loss=0.4108, pruned_loss=0.1791, over 13343.00 frames. ], tot_loss[loss=0.2852, simple_loss=0.3441, pruned_loss=0.1131, over 3795064.43 frames. ], batch size: 136, lr: 1.61e-02, grad_scale: 8.0
+2023-04-01 05:33:40,143 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4824, 1.1775, 1.2085, 1.9475, 1.5374, 1.7697, 1.9638, 1.6483],
+       device='cuda:2'), covar=tensor([0.0910, 0.1161, 0.1237, 0.0924, 0.1021, 0.0790, 0.0902, 0.0718],
+       device='cuda:2'), in_proj_covar=tensor([0.0232, 0.0252, 0.0244, 0.0282, 0.0273, 0.0233, 0.0231, 0.0224],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 05:33:45,281 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.653e+02 6.709e+02 8.069e+02 1.055e+03 2.198e+03, threshold=1.614e+03, percent-clipped=3.0
+2023-04-01 05:33:57,807 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0885, 2.1243, 1.6268, 1.6838, 1.5073, 1.6833, 0.3955, 1.1081],
+       device='cuda:2'), covar=tensor([0.0210, 0.0211, 0.0155, 0.0216, 0.0413, 0.0227, 0.0443, 0.0366],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0276, 0.0277, 0.0299, 0.0368, 0.0289, 0.0271, 0.0286],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 05:34:13,962 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3309, 3.0214, 2.0133, 2.1833, 2.0043, 2.4803, 0.5269, 2.1305],
+       device='cuda:2'), covar=tensor([0.0292, 0.0241, 0.0293, 0.0416, 0.0515, 0.0382, 0.0642, 0.0453],
+       device='cuda:2'), in_proj_covar=tensor([0.0286, 0.0281, 0.0282, 0.0304, 0.0375, 0.0294, 0.0275, 0.0291],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 05:34:18,970 INFO [train.py:903] (2/4) Epoch 5, batch 3950, loss[loss=0.2662, simple_loss=0.3395, pruned_loss=0.09646, over 19619.00 frames. ], tot_loss[loss=0.2847, simple_loss=0.3434, pruned_loss=0.113, over 3794018.80 frames. ], batch size: 57, lr: 1.61e-02, grad_scale: 4.0
+2023-04-01 05:34:22,384 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31265.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:34:24,544 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 05:34:33,076 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.11 vs. limit=2.0
+2023-04-01 05:34:38,631 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-01 05:34:47,815 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31287.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:35:00,478 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31296.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:35:00,741 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2688, 2.2527, 1.5785, 1.3579, 2.0785, 0.9991, 1.0370, 1.6435],
+       device='cuda:2'), covar=tensor([0.0783, 0.0434, 0.0791, 0.0555, 0.0359, 0.0971, 0.0591, 0.0387],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0272, 0.0317, 0.0237, 0.0219, 0.0310, 0.0282, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 05:35:17,642 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3066, 1.4767, 2.1034, 1.7011, 2.9947, 2.6231, 3.2504, 1.4529],
+       device='cuda:2'), covar=tensor([0.1854, 0.2878, 0.1592, 0.1439, 0.1304, 0.1431, 0.1642, 0.2855],
+       device='cuda:2'), in_proj_covar=tensor([0.0445, 0.0506, 0.0482, 0.0410, 0.0548, 0.0446, 0.0624, 0.0448],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 05:35:18,261 INFO [train.py:903] (2/4) Epoch 5, batch 4000, loss[loss=0.2867, simple_loss=0.355, pruned_loss=0.1092, over 19771.00 frames. ], tot_loss[loss=0.2858, simple_loss=0.3444, pruned_loss=0.1135, over 3801219.51 frames. ], batch size: 56, lr: 1.61e-02, grad_scale: 8.0
+2023-04-01 05:35:48,955 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.459e+02 7.061e+02 8.767e+02 1.081e+03 2.366e+03, threshold=1.753e+03, percent-clipped=7.0
+2023-04-01 05:36:02,938 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9875, 4.9354, 5.7892, 5.7827, 1.8551, 5.5505, 4.8821, 5.2626],
+       device='cuda:2'), covar=tensor([0.0843, 0.0559, 0.0407, 0.0284, 0.3882, 0.0239, 0.0380, 0.0832],
+       device='cuda:2'), in_proj_covar=tensor([0.0502, 0.0438, 0.0587, 0.0481, 0.0569, 0.0356, 0.0383, 0.0546],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 05:36:06,110 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 05:36:18,326 INFO [train.py:903] (2/4) Epoch 5, batch 4050, loss[loss=0.2906, simple_loss=0.3556, pruned_loss=0.1128, over 19600.00 frames. ], tot_loss[loss=0.2851, simple_loss=0.3441, pruned_loss=0.113, over 3813517.01 frames. ], batch size: 61, lr: 1.61e-02, grad_scale: 4.0
+2023-04-01 05:36:33,380 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31373.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 05:36:42,222 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31380.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:36:51,307 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31388.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:37:07,130 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31402.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:37:18,615 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31411.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:37:19,401 INFO [train.py:903] (2/4) Epoch 5, batch 4100, loss[loss=0.2548, simple_loss=0.3236, pruned_loss=0.09295, over 19621.00 frames. ], tot_loss[loss=0.2851, simple_loss=0.3442, pruned_loss=0.113, over 3815820.87 frames. ], batch size: 50, lr: 1.61e-02, grad_scale: 4.0
+2023-04-01 05:37:20,891 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31413.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:37:37,709 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31427.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:37:48,921 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.057e+02 5.964e+02 7.397e+02 9.605e+02 3.908e+03, threshold=1.479e+03, percent-clipped=5.0
+2023-04-01 05:37:53,736 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 05:38:20,933 INFO [train.py:903] (2/4) Epoch 5, batch 4150, loss[loss=0.2681, simple_loss=0.3261, pruned_loss=0.1051, over 19785.00 frames. ], tot_loss[loss=0.2848, simple_loss=0.3437, pruned_loss=0.1129, over 3803617.78 frames. ], batch size: 48, lr: 1.61e-02, grad_scale: 4.0
+2023-04-01 05:38:50,985 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31488.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 05:39:16,873 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31509.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 05:39:20,063 INFO [train.py:903] (2/4) Epoch 5, batch 4200, loss[loss=0.231, simple_loss=0.2892, pruned_loss=0.08643, over 19766.00 frames. ], tot_loss[loss=0.2842, simple_loss=0.3433, pruned_loss=0.1126, over 3809666.87 frames. ], batch size: 47, lr: 1.61e-02, grad_scale: 4.0
+2023-04-01 05:39:23,673 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 05:39:50,934 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.017e+02 6.856e+02 8.101e+02 1.045e+03 3.023e+03, threshold=1.620e+03, percent-clipped=6.0
+2023-04-01 05:40:19,248 INFO [train.py:903] (2/4) Epoch 5, batch 4250, loss[loss=0.2351, simple_loss=0.311, pruned_loss=0.0796, over 19683.00 frames. ], tot_loss[loss=0.2841, simple_loss=0.3438, pruned_loss=0.1122, over 3806575.99 frames. ], batch size: 58, lr: 1.60e-02, grad_scale: 4.0
+2023-04-01 05:40:35,460 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 05:40:46,359 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 05:41:20,812 INFO [train.py:903] (2/4) Epoch 5, batch 4300, loss[loss=0.2531, simple_loss=0.3212, pruned_loss=0.09253, over 19604.00 frames. ], tot_loss[loss=0.2836, simple_loss=0.3438, pruned_loss=0.1117, over 3812869.81 frames. ], batch size: 50, lr: 1.60e-02, grad_scale: 4.0
+2023-04-01 05:41:51,079 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:41:51,774 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.826e+02 7.144e+02 8.425e+02 1.091e+03 2.021e+03, threshold=1.685e+03, percent-clipped=5.0
+2023-04-01 05:42:13,886 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 05:42:18,604 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31658.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:42:21,699 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31661.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:42:22,341 INFO [train.py:903] (2/4) Epoch 5, batch 4350, loss[loss=0.4297, simple_loss=0.4413, pruned_loss=0.209, over 13415.00 frames. ], tot_loss[loss=0.2848, simple_loss=0.3445, pruned_loss=0.1125, over 3792703.96 frames. ], batch size: 136, lr: 1.60e-02, grad_scale: 4.0
+2023-04-01 05:42:28,421 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31667.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:42:45,986 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31683.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:42:57,882 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31692.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:43:22,093 INFO [train.py:903] (2/4) Epoch 5, batch 4400, loss[loss=0.2588, simple_loss=0.3299, pruned_loss=0.09381, over 19839.00 frames. ], tot_loss[loss=0.2857, simple_loss=0.3451, pruned_loss=0.1132, over 3798368.26 frames. ], batch size: 52, lr: 1.60e-02, grad_scale: 8.0
+2023-04-01 05:43:34,006 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31722.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:43:44,929 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 05:43:53,322 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.183e+02 7.191e+02 8.879e+02 1.082e+03 1.961e+03, threshold=1.776e+03, percent-clipped=1.0
+2023-04-01 05:43:55,443 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 05:44:01,523 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5091, 1.2410, 1.3659, 1.8980, 2.9500, 1.0213, 1.9077, 3.1421],
+       device='cuda:2'), covar=tensor([0.0335, 0.2525, 0.2376, 0.1278, 0.0575, 0.2266, 0.1211, 0.0391],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0309, 0.0306, 0.0279, 0.0298, 0.0308, 0.0281, 0.0295],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 05:44:02,773 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=31744.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 05:44:15,733 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.48 vs. limit=2.0
+2023-04-01 05:44:22,702 INFO [train.py:903] (2/4) Epoch 5, batch 4450, loss[loss=0.2957, simple_loss=0.3553, pruned_loss=0.1181, over 19685.00 frames. ], tot_loss[loss=0.2847, simple_loss=0.3442, pruned_loss=0.1126, over 3794380.42 frames. ], batch size: 60, lr: 1.60e-02, grad_scale: 8.0
+2023-04-01 05:44:30,970 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=31769.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 05:44:32,885 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31771.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:45:16,679 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31806.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:45:23,180 INFO [train.py:903] (2/4) Epoch 5, batch 4500, loss[loss=0.2238, simple_loss=0.2867, pruned_loss=0.08048, over 18661.00 frames. ], tot_loss[loss=0.2837, simple_loss=0.3432, pruned_loss=0.1121, over 3802313.21 frames. ], batch size: 41, lr: 1.60e-02, grad_scale: 8.0
+2023-04-01 05:45:27,467 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2415, 2.0451, 1.6268, 1.3341, 2.0256, 1.0584, 1.1993, 1.7446],
+       device='cuda:2'), covar=tensor([0.0634, 0.0502, 0.0747, 0.0539, 0.0306, 0.0942, 0.0511, 0.0339],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0265, 0.0315, 0.0238, 0.0213, 0.0309, 0.0281, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 05:45:53,690 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.229e+02 6.666e+02 8.776e+02 1.149e+03 2.550e+03, threshold=1.755e+03, percent-clipped=7.0
+2023-04-01 05:45:55,220 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0145, 2.0314, 1.4963, 1.4441, 1.3568, 1.4513, 0.2168, 0.9474],
+       device='cuda:2'), covar=tensor([0.0218, 0.0216, 0.0186, 0.0238, 0.0501, 0.0289, 0.0472, 0.0368],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0280, 0.0279, 0.0301, 0.0374, 0.0293, 0.0273, 0.0289],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 05:45:58,570 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31841.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:46:12,827 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=31853.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 05:46:24,489 INFO [train.py:903] (2/4) Epoch 5, batch 4550, loss[loss=0.2796, simple_loss=0.3486, pruned_loss=0.1053, over 19335.00 frames. ], tot_loss[loss=0.2838, simple_loss=0.3432, pruned_loss=0.1123, over 3796941.55 frames. ], batch size: 66, lr: 1.60e-02, grad_scale: 8.0
+2023-04-01 05:46:30,252 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 05:46:49,019 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8294, 1.8041, 1.8864, 2.7231, 1.7121, 2.3765, 2.6208, 1.7571],
+       device='cuda:2'), covar=tensor([0.2090, 0.1702, 0.0961, 0.0916, 0.1913, 0.0752, 0.1450, 0.1613],
+       device='cuda:2'), in_proj_covar=tensor([0.0624, 0.0614, 0.0554, 0.0769, 0.0660, 0.0529, 0.0680, 0.0583],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 05:46:51,946 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 05:46:52,312 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31886.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:47:05,612 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31896.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:47:06,878 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
+2023-04-01 05:47:25,656 INFO [train.py:903] (2/4) Epoch 5, batch 4600, loss[loss=0.3047, simple_loss=0.3658, pruned_loss=0.1218, over 18746.00 frames. ], tot_loss[loss=0.2814, simple_loss=0.3414, pruned_loss=0.1107, over 3807095.41 frames. ], batch size: 74, lr: 1.60e-02, grad_scale: 8.0
+2023-04-01 05:47:29,617 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5146, 1.3853, 1.3173, 1.8341, 1.5786, 1.9224, 2.0199, 1.6996],
+       device='cuda:2'), covar=tensor([0.0836, 0.1070, 0.1146, 0.0996, 0.0986, 0.0719, 0.0923, 0.0705],
+       device='cuda:2'), in_proj_covar=tensor([0.0231, 0.0256, 0.0245, 0.0282, 0.0272, 0.0235, 0.0235, 0.0225],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004],
+       device='cuda:2')
+2023-04-01 05:47:31,124 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-01 05:47:50,451 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31933.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:47:55,744 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.582e+02 6.775e+02 7.918e+02 9.900e+02 3.222e+03, threshold=1.584e+03, percent-clipped=3.0
+2023-04-01 05:48:25,674 INFO [train.py:903] (2/4) Epoch 5, batch 4650, loss[loss=0.3614, simple_loss=0.4061, pruned_loss=0.1584, over 19584.00 frames. ], tot_loss[loss=0.2805, simple_loss=0.3409, pruned_loss=0.1101, over 3822456.06 frames. ], batch size: 61, lr: 1.60e-02, grad_scale: 8.0
+2023-04-01 05:48:32,770 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=31968.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:48:32,840 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=31968.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 05:48:41,067 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 05:48:52,750 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 05:49:02,077 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1730, 1.1921, 1.7363, 1.3179, 2.4801, 2.0491, 2.8409, 0.9547],
+       device='cuda:2'), covar=tensor([0.1837, 0.3258, 0.1676, 0.1508, 0.1302, 0.1576, 0.1224, 0.3019],
+       device='cuda:2'), in_proj_covar=tensor([0.0440, 0.0500, 0.0477, 0.0405, 0.0549, 0.0443, 0.0617, 0.0441],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 05:49:19,928 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.2396, 5.1193, 5.9804, 5.9280, 1.8195, 5.4443, 4.8977, 5.4526],
+       device='cuda:2'), covar=tensor([0.0727, 0.0483, 0.0356, 0.0261, 0.4176, 0.0258, 0.0411, 0.0813],
+       device='cuda:2'), in_proj_covar=tensor([0.0515, 0.0454, 0.0599, 0.0497, 0.0583, 0.0361, 0.0392, 0.0564],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 05:49:25,340 INFO [train.py:903] (2/4) Epoch 5, batch 4700, loss[loss=0.2674, simple_loss=0.3149, pruned_loss=0.1099, over 17816.00 frames. ], tot_loss[loss=0.2808, simple_loss=0.3413, pruned_loss=0.1102, over 3832143.27 frames. ], batch size: 39, lr: 1.59e-02, grad_scale: 8.0
+2023-04-01 05:49:48,443 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 05:49:56,507 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.386e+02 6.540e+02 8.637e+02 1.061e+03 2.519e+03, threshold=1.727e+03, percent-clipped=5.0
+2023-04-01 05:50:02,434 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8318, 4.8756, 5.6569, 5.5747, 1.7796, 5.1772, 4.5583, 5.1472],
+       device='cuda:2'), covar=tensor([0.0791, 0.0527, 0.0334, 0.0280, 0.3998, 0.0246, 0.0384, 0.0727],
+       device='cuda:2'), in_proj_covar=tensor([0.0511, 0.0452, 0.0593, 0.0495, 0.0575, 0.0361, 0.0389, 0.0557],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 05:50:27,325 INFO [train.py:903] (2/4) Epoch 5, batch 4750, loss[loss=0.2303, simple_loss=0.2984, pruned_loss=0.08109, over 19368.00 frames. ], tot_loss[loss=0.282, simple_loss=0.3421, pruned_loss=0.1109, over 3829541.70 frames. ], batch size: 47, lr: 1.59e-02, grad_scale: 8.0
+2023-04-01 05:50:32,841 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32066.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:51:28,010 INFO [train.py:903] (2/4) Epoch 5, batch 4800, loss[loss=0.3003, simple_loss=0.3604, pruned_loss=0.1201, over 19783.00 frames. ], tot_loss[loss=0.2817, simple_loss=0.3417, pruned_loss=0.1109, over 3825693.13 frames. ], batch size: 56, lr: 1.59e-02, grad_scale: 8.0
+2023-04-01 05:51:57,644 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.741e+02 7.051e+02 8.763e+02 1.042e+03 3.094e+03, threshold=1.753e+03, percent-clipped=4.0
+2023-04-01 05:52:00,450 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8210, 1.4187, 1.5203, 2.0813, 1.6022, 2.1436, 2.1226, 2.0343],
+       device='cuda:2'), covar=tensor([0.0783, 0.1036, 0.1041, 0.0917, 0.1040, 0.0702, 0.0980, 0.0609],
+       device='cuda:2'), in_proj_covar=tensor([0.0226, 0.0248, 0.0243, 0.0275, 0.0266, 0.0229, 0.0230, 0.0222],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 05:52:04,777 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32142.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:52:14,252 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32150.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:52:27,944 INFO [train.py:903] (2/4) Epoch 5, batch 4850, loss[loss=0.2501, simple_loss=0.3073, pruned_loss=0.09641, over 15978.00 frames. ], tot_loss[loss=0.2808, simple_loss=0.3413, pruned_loss=0.1101, over 3821433.85 frames. ], batch size: 35, lr: 1.59e-02, grad_scale: 8.0
+2023-04-01 05:52:34,190 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32167.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:52:51,465 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32181.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:52:54,117 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 05:52:57,432 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32185.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:53:12,909 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 05:53:17,731 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 05:53:18,685 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 05:53:26,872 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 05:53:27,949 INFO [train.py:903] (2/4) Epoch 5, batch 4900, loss[loss=0.2977, simple_loss=0.3537, pruned_loss=0.1209, over 19752.00 frames. ], tot_loss[loss=0.2821, simple_loss=0.3422, pruned_loss=0.111, over 3828136.05 frames. ], batch size: 63, lr: 1.59e-02, grad_scale: 8.0
+2023-04-01 05:53:45,221 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32224.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 05:53:48,959 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 05:53:54,780 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2409, 3.6257, 3.7733, 3.8075, 1.2466, 3.4927, 3.0987, 3.3728],
+       device='cuda:2'), covar=tensor([0.0898, 0.0622, 0.0516, 0.0479, 0.4090, 0.0402, 0.0576, 0.1108],
+       device='cuda:2'), in_proj_covar=tensor([0.0511, 0.0452, 0.0592, 0.0498, 0.0579, 0.0363, 0.0393, 0.0560],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 05:53:59,194 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.307e+02 6.585e+02 7.912e+02 1.039e+03 2.328e+03, threshold=1.582e+03, percent-clipped=1.0
+2023-04-01 05:54:02,592 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32240.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:54:09,672 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2772, 1.2609, 1.3309, 1.6685, 2.7980, 0.9242, 1.8078, 2.8542],
+       device='cuda:2'), covar=tensor([0.0465, 0.2719, 0.2691, 0.1516, 0.0660, 0.2517, 0.1298, 0.0507],
+       device='cuda:2'), in_proj_covar=tensor([0.0288, 0.0320, 0.0319, 0.0285, 0.0307, 0.0316, 0.0289, 0.0306],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 05:54:13,281 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32249.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 05:54:19,411 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
+2023-04-01 05:54:29,207 INFO [train.py:903] (2/4) Epoch 5, batch 4950, loss[loss=0.3071, simple_loss=0.3607, pruned_loss=0.1267, over 19777.00 frames. ], tot_loss[loss=0.2815, simple_loss=0.3416, pruned_loss=0.1107, over 3837466.46 frames. ], batch size: 56, lr: 1.59e-02, grad_scale: 8.0
+2023-04-01 05:54:33,938 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32265.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:54:48,160 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32277.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:54:49,219 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 05:54:55,499 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9762, 1.9520, 1.6191, 1.4133, 1.3172, 1.5933, 0.2801, 0.7713],
+       device='cuda:2'), covar=tensor([0.0226, 0.0244, 0.0166, 0.0277, 0.0577, 0.0289, 0.0474, 0.0436],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0284, 0.0277, 0.0305, 0.0375, 0.0297, 0.0275, 0.0293],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 05:55:12,825 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 05:55:15,579 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32300.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:55:30,486 INFO [train.py:903] (2/4) Epoch 5, batch 5000, loss[loss=0.2949, simple_loss=0.355, pruned_loss=0.1174, over 18846.00 frames. ], tot_loss[loss=0.2819, simple_loss=0.3416, pruned_loss=0.1111, over 3839859.12 frames. ], batch size: 74, lr: 1.59e-02, grad_scale: 8.0
+2023-04-01 05:55:30,636 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=32312.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:55:40,422 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 05:55:50,546 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 05:55:58,321 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.834e+02 7.030e+02 8.789e+02 1.165e+03 2.289e+03, threshold=1.758e+03, percent-clipped=7.0
+2023-04-01 05:56:01,850 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2779, 3.0092, 2.1896, 2.7690, 0.8791, 2.7438, 2.6568, 2.8581],
+       device='cuda:2'), covar=tensor([0.0968, 0.1396, 0.1785, 0.0981, 0.3756, 0.1250, 0.1100, 0.1035],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0316, 0.0363, 0.0287, 0.0353, 0.0304, 0.0287, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 05:56:21,789 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32355.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:56:29,551 INFO [train.py:903] (2/4) Epoch 5, batch 5050, loss[loss=0.2567, simple_loss=0.3131, pruned_loss=0.1001, over 19384.00 frames. ], tot_loss[loss=0.2816, simple_loss=0.3409, pruned_loss=0.1111, over 3839013.49 frames. ], batch size: 47, lr: 1.59e-02, grad_scale: 8.0
+2023-04-01 05:57:05,117 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 05:57:07,722 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:57:30,264 INFO [train.py:903] (2/4) Epoch 5, batch 5100, loss[loss=0.291, simple_loss=0.3566, pruned_loss=0.1127, over 19770.00 frames. ], tot_loss[loss=0.282, simple_loss=0.3419, pruned_loss=0.111, over 3816382.72 frames. ], batch size: 56, lr: 1.58e-02, grad_scale: 8.0
+2023-04-01 05:57:40,609 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 05:57:44,919 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 05:57:51,248 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 05:57:51,541 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=32427.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:58:02,218 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.811e+02 6.879e+02 8.267e+02 1.044e+03 2.791e+03, threshold=1.653e+03, percent-clipped=3.0
+2023-04-01 05:58:02,688 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32437.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:58:32,016 INFO [train.py:903] (2/4) Epoch 5, batch 5150, loss[loss=0.2988, simple_loss=0.3441, pruned_loss=0.1268, over 19412.00 frames. ], tot_loss[loss=0.2818, simple_loss=0.342, pruned_loss=0.1108, over 3812487.19 frames. ], batch size: 48, lr: 1.58e-02, grad_scale: 8.0
+2023-04-01 05:58:32,381 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32462.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:58:45,292 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 05:59:18,360 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8523, 4.2283, 4.5651, 4.5267, 1.6961, 4.1223, 3.6694, 4.1374],
+       device='cuda:2'), covar=tensor([0.0883, 0.0573, 0.0459, 0.0426, 0.4034, 0.0375, 0.0494, 0.1026],
+       device='cuda:2'), in_proj_covar=tensor([0.0517, 0.0452, 0.0598, 0.0501, 0.0579, 0.0366, 0.0395, 0.0567],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 05:59:19,213 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 05:59:33,455 INFO [train.py:903] (2/4) Epoch 5, batch 5200, loss[loss=0.2705, simple_loss=0.3337, pruned_loss=0.1036, over 19683.00 frames. ], tot_loss[loss=0.2801, simple_loss=0.3411, pruned_loss=0.1096, over 3829014.66 frames. ], batch size: 53, lr: 1.58e-02, grad_scale: 8.0
+2023-04-01 05:59:39,262 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6849, 4.1046, 4.3641, 4.3666, 1.7210, 3.9133, 3.5160, 3.9506],
+       device='cuda:2'), covar=tensor([0.0959, 0.0577, 0.0471, 0.0426, 0.3734, 0.0395, 0.0496, 0.1041],
+       device='cuda:2'), in_proj_covar=tensor([0.0514, 0.0449, 0.0594, 0.0497, 0.0576, 0.0363, 0.0393, 0.0564],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 05:59:43,873 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32521.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 05:59:45,956 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 06:00:02,753 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.318e+02 6.175e+02 7.903e+02 1.065e+03 1.799e+03, threshold=1.581e+03, percent-clipped=1.0
+2023-04-01 06:00:15,171 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32546.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:00:26,334 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32556.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:00:29,348 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 06:00:32,701 INFO [train.py:903] (2/4) Epoch 5, batch 5250, loss[loss=0.2479, simple_loss=0.3076, pruned_loss=0.09406, over 19613.00 frames. ], tot_loss[loss=0.2811, simple_loss=0.3418, pruned_loss=0.1101, over 3810530.66 frames. ], batch size: 50, lr: 1.58e-02, grad_scale: 8.0
+2023-04-01 06:00:49,553 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.80 vs. limit=5.0
+2023-04-01 06:00:53,232 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-01 06:00:55,210 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32581.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:01:32,228 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32611.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:01:32,913 INFO [train.py:903] (2/4) Epoch 5, batch 5300, loss[loss=0.2436, simple_loss=0.2974, pruned_loss=0.0949, over 19774.00 frames. ], tot_loss[loss=0.2805, simple_loss=0.3409, pruned_loss=0.1101, over 3793800.50 frames. ], batch size: 47, lr: 1.58e-02, grad_scale: 8.0
+2023-04-01 06:01:51,035 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
+2023-04-01 06:01:51,395 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 06:02:04,596 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:02:05,309 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.788e+02 6.583e+02 8.041e+02 1.027e+03 2.106e+03, threshold=1.608e+03, percent-clipped=4.0
+2023-04-01 06:02:15,440 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1534, 1.9838, 2.0924, 2.0683, 4.4817, 0.9830, 2.5253, 4.5571],
+       device='cuda:2'), covar=tensor([0.0226, 0.2333, 0.2119, 0.1561, 0.0469, 0.2588, 0.1097, 0.0285],
+       device='cuda:2'), in_proj_covar=tensor([0.0286, 0.0312, 0.0315, 0.0286, 0.0303, 0.0316, 0.0288, 0.0304],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:02:17,889 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32648.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:02:30,208 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6812, 1.6485, 1.7778, 2.6666, 1.5807, 2.3112, 2.3061, 1.7021],
+       device='cuda:2'), covar=tensor([0.2210, 0.1860, 0.0907, 0.0869, 0.1970, 0.0761, 0.1851, 0.1624],
+       device='cuda:2'), in_proj_covar=tensor([0.0631, 0.0624, 0.0557, 0.0783, 0.0662, 0.0547, 0.0686, 0.0589],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:02:34,332 INFO [train.py:903] (2/4) Epoch 5, batch 5350, loss[loss=0.2997, simple_loss=0.3471, pruned_loss=0.1261, over 19741.00 frames. ], tot_loss[loss=0.2803, simple_loss=0.3407, pruned_loss=0.11, over 3786016.68 frames. ], batch size: 51, lr: 1.58e-02, grad_scale: 8.0
+2023-04-01 06:02:48,932 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32673.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:02:54,282 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2753, 3.8828, 2.2533, 3.4373, 1.1303, 3.3709, 3.4564, 3.6989],
+       device='cuda:2'), covar=tensor([0.0660, 0.1142, 0.2046, 0.0773, 0.3893, 0.0941, 0.0776, 0.0740],
+       device='cuda:2'), in_proj_covar=tensor([0.0347, 0.0307, 0.0361, 0.0285, 0.0354, 0.0303, 0.0288, 0.0310],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:03:00,325 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=32683.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:03:06,675 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 06:03:31,059 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=32708.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:03:35,126 INFO [train.py:903] (2/4) Epoch 5, batch 5400, loss[loss=0.3335, simple_loss=0.3767, pruned_loss=0.1451, over 12970.00 frames. ], tot_loss[loss=0.2817, simple_loss=0.3419, pruned_loss=0.1108, over 3793596.17 frames. ], batch size: 135, lr: 1.58e-02, grad_scale: 8.0
+2023-04-01 06:03:43,270 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4561, 1.1360, 1.1370, 1.3959, 1.1624, 1.2778, 1.1181, 1.3136],
+       device='cuda:2'), covar=tensor([0.0820, 0.1105, 0.1161, 0.0716, 0.0928, 0.0506, 0.1002, 0.0651],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0360, 0.0280, 0.0239, 0.0305, 0.0239, 0.0268, 0.0228],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:03:46,774 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3117, 2.3763, 1.7215, 1.4233, 2.2168, 1.1081, 0.9988, 1.7002],
+       device='cuda:2'), covar=tensor([0.0985, 0.0548, 0.0981, 0.0715, 0.0404, 0.1194, 0.0791, 0.0470],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0267, 0.0319, 0.0240, 0.0219, 0.0307, 0.0285, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:04:03,208 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.192e+02 6.673e+02 8.431e+02 1.064e+03 2.658e+03, threshold=1.686e+03, percent-clipped=8.0
+2023-04-01 06:04:34,472 INFO [train.py:903] (2/4) Epoch 5, batch 5450, loss[loss=0.2804, simple_loss=0.3396, pruned_loss=0.1106, over 19502.00 frames. ], tot_loss[loss=0.2821, simple_loss=0.342, pruned_loss=0.1111, over 3792022.25 frames. ], batch size: 64, lr: 1.58e-02, grad_scale: 8.0
+2023-04-01 06:05:34,682 INFO [train.py:903] (2/4) Epoch 5, batch 5500, loss[loss=0.2541, simple_loss=0.3102, pruned_loss=0.09901, over 19780.00 frames. ], tot_loss[loss=0.2818, simple_loss=0.3419, pruned_loss=0.1109, over 3799104.71 frames. ], batch size: 47, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:05:56,680 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 06:06:05,437 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.564e+02 6.283e+02 7.782e+02 1.000e+03 2.107e+03, threshold=1.556e+03, percent-clipped=4.0
+2023-04-01 06:06:06,856 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7265, 1.4188, 1.8122, 1.4621, 2.7559, 3.2369, 3.1832, 3.4073],
+       device='cuda:2'), covar=tensor([0.1142, 0.2711, 0.2472, 0.1740, 0.0460, 0.0264, 0.0211, 0.0141],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0283, 0.0315, 0.0248, 0.0197, 0.0116, 0.0204, 0.0139],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:06:34,477 INFO [train.py:903] (2/4) Epoch 5, batch 5550, loss[loss=0.2648, simple_loss=0.3212, pruned_loss=0.1042, over 19835.00 frames. ], tot_loss[loss=0.2828, simple_loss=0.3428, pruned_loss=0.1113, over 3795368.53 frames. ], batch size: 52, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:06:40,855 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 06:06:53,491 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1828, 1.1977, 1.7083, 1.3547, 2.5421, 2.1122, 2.6686, 1.0125],
+       device='cuda:2'), covar=tensor([0.1929, 0.3443, 0.1788, 0.1675, 0.1276, 0.1606, 0.1364, 0.2989],
+       device='cuda:2'), in_proj_covar=tensor([0.0447, 0.0505, 0.0481, 0.0409, 0.0552, 0.0444, 0.0627, 0.0444],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:07:29,978 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 06:07:36,770 INFO [train.py:903] (2/4) Epoch 5, batch 5600, loss[loss=0.2651, simple_loss=0.3445, pruned_loss=0.09285, over 19779.00 frames. ], tot_loss[loss=0.2827, simple_loss=0.343, pruned_loss=0.1112, over 3807866.23 frames. ], batch size: 56, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:08:06,606 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.479e+02 7.188e+02 9.159e+02 1.163e+03 2.158e+03, threshold=1.832e+03, percent-clipped=9.0
+2023-04-01 06:08:38,303 INFO [train.py:903] (2/4) Epoch 5, batch 5650, loss[loss=0.2667, simple_loss=0.3418, pruned_loss=0.09582, over 19540.00 frames. ], tot_loss[loss=0.2813, simple_loss=0.3423, pruned_loss=0.1102, over 3819644.83 frames. ], batch size: 56, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:09:04,591 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=32984.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:09:24,859 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 06:09:38,279 INFO [train.py:903] (2/4) Epoch 5, batch 5700, loss[loss=0.343, simple_loss=0.3802, pruned_loss=0.1529, over 13327.00 frames. ], tot_loss[loss=0.2816, simple_loss=0.3425, pruned_loss=0.1104, over 3816934.55 frames. ], batch size: 137, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:09:59,223 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4169, 2.9656, 2.2328, 2.1938, 2.2156, 2.5027, 0.6848, 2.2182],
+       device='cuda:2'), covar=tensor([0.0255, 0.0237, 0.0257, 0.0364, 0.0462, 0.0398, 0.0561, 0.0422],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0288, 0.0287, 0.0300, 0.0375, 0.0297, 0.0276, 0.0296],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:10:09,250 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.491e+02 7.117e+02 8.783e+02 1.086e+03 2.576e+03, threshold=1.757e+03, percent-clipped=4.0
+2023-04-01 06:10:21,210 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-01 06:10:26,586 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3657, 1.4633, 1.5273, 1.8079, 2.9408, 1.2229, 2.0706, 3.2008],
+       device='cuda:2'), covar=tensor([0.0383, 0.2287, 0.2160, 0.1443, 0.0570, 0.2262, 0.1210, 0.0316],
+       device='cuda:2'), in_proj_covar=tensor([0.0283, 0.0310, 0.0312, 0.0288, 0.0305, 0.0314, 0.0284, 0.0300],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:10:38,545 INFO [train.py:903] (2/4) Epoch 5, batch 5750, loss[loss=0.2877, simple_loss=0.3535, pruned_loss=0.111, over 19779.00 frames. ], tot_loss[loss=0.2829, simple_loss=0.3435, pruned_loss=0.1111, over 3814812.09 frames. ], batch size: 56, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:10:39,678 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 06:10:47,559 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 06:10:52,569 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 06:11:09,100 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33087.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:11:40,192 INFO [train.py:903] (2/4) Epoch 5, batch 5800, loss[loss=0.3176, simple_loss=0.3744, pruned_loss=0.1304, over 17448.00 frames. ], tot_loss[loss=0.2826, simple_loss=0.3435, pruned_loss=0.1109, over 3819065.22 frames. ], batch size: 101, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:12:08,910 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.601e+02 7.070e+02 8.520e+02 1.129e+03 2.712e+03, threshold=1.704e+03, percent-clipped=8.0
+2023-04-01 06:12:29,055 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9485, 4.9696, 5.6738, 5.5931, 1.6287, 5.1518, 4.7354, 5.1720],
+       device='cuda:2'), covar=tensor([0.0802, 0.0528, 0.0399, 0.0328, 0.4398, 0.0327, 0.0373, 0.0818],
+       device='cuda:2'), in_proj_covar=tensor([0.0517, 0.0448, 0.0606, 0.0504, 0.0578, 0.0370, 0.0389, 0.0568],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 06:12:40,686 INFO [train.py:903] (2/4) Epoch 5, batch 5850, loss[loss=0.3133, simple_loss=0.3659, pruned_loss=0.1303, over 19475.00 frames. ], tot_loss[loss=0.2837, simple_loss=0.344, pruned_loss=0.1117, over 3809561.62 frames. ], batch size: 64, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:12:53,515 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33173.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:13:14,079 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9187, 4.2909, 4.5654, 4.5346, 1.5124, 4.2296, 3.7975, 4.2126],
+       device='cuda:2'), covar=tensor([0.0861, 0.0569, 0.0440, 0.0389, 0.3943, 0.0321, 0.0417, 0.0918],
+       device='cuda:2'), in_proj_covar=tensor([0.0505, 0.0442, 0.0591, 0.0491, 0.0564, 0.0362, 0.0380, 0.0558],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 06:13:40,938 INFO [train.py:903] (2/4) Epoch 5, batch 5900, loss[loss=0.2942, simple_loss=0.3451, pruned_loss=0.1216, over 19368.00 frames. ], tot_loss[loss=0.2833, simple_loss=0.3437, pruned_loss=0.1114, over 3805188.83 frames. ], batch size: 47, lr: 1.57e-02, grad_scale: 8.0
+2023-04-01 06:13:43,344 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 06:14:04,504 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 06:14:11,994 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.345e+02 7.066e+02 8.762e+02 1.130e+03 2.300e+03, threshold=1.752e+03, percent-clipped=6.0
+2023-04-01 06:14:41,683 INFO [train.py:903] (2/4) Epoch 5, batch 5950, loss[loss=0.3546, simple_loss=0.3938, pruned_loss=0.1577, over 12528.00 frames. ], tot_loss[loss=0.2829, simple_loss=0.344, pruned_loss=0.1109, over 3810158.26 frames. ], batch size: 135, lr: 1.56e-02, grad_scale: 8.0
+2023-04-01 06:15:43,948 INFO [train.py:903] (2/4) Epoch 5, batch 6000, loss[loss=0.328, simple_loss=0.3767, pruned_loss=0.1396, over 19743.00 frames. ], tot_loss[loss=0.2817, simple_loss=0.343, pruned_loss=0.1103, over 3821607.77 frames. ], batch size: 63, lr: 1.56e-02, grad_scale: 8.0
+2023-04-01 06:15:43,948 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 06:15:56,881 INFO [train.py:937] (2/4) Epoch 5, validation: loss=0.203, simple_loss=0.3017, pruned_loss=0.05213, over 944034.00 frames. 
+2023-04-01 06:15:56,882 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18488MB
+2023-04-01 06:16:18,148 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=33328.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:16:28,852 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.050e+02 6.893e+02 8.503e+02 1.056e+03 1.945e+03, threshold=1.701e+03, percent-clipped=4.0
+2023-04-01 06:16:59,409 INFO [train.py:903] (2/4) Epoch 5, batch 6050, loss[loss=0.2818, simple_loss=0.3463, pruned_loss=0.1087, over 19314.00 frames. ], tot_loss[loss=0.2815, simple_loss=0.3423, pruned_loss=0.1104, over 3822159.20 frames. ], batch size: 70, lr: 1.56e-02, grad_scale: 16.0
+2023-04-01 06:17:49,775 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7187, 4.2348, 2.4916, 3.8536, 1.1402, 3.9466, 3.9589, 4.1662],
+       device='cuda:2'), covar=tensor([0.0568, 0.1177, 0.1990, 0.0702, 0.3696, 0.0784, 0.0699, 0.0782],
+       device='cuda:2'), in_proj_covar=tensor([0.0348, 0.0312, 0.0365, 0.0285, 0.0352, 0.0306, 0.0288, 0.0317],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:18:00,557 INFO [train.py:903] (2/4) Epoch 5, batch 6100, loss[loss=0.3111, simple_loss=0.3691, pruned_loss=0.1265, over 19324.00 frames. ], tot_loss[loss=0.2818, simple_loss=0.3427, pruned_loss=0.1104, over 3826771.68 frames. ], batch size: 66, lr: 1.56e-02, grad_scale: 8.0
+2023-04-01 06:18:23,047 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=33431.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:18:32,606 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.702e+02 6.262e+02 7.464e+02 9.853e+02 2.581e+03, threshold=1.493e+03, percent-clipped=2.0
+2023-04-01 06:18:39,244 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=33443.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:19:00,962 INFO [train.py:903] (2/4) Epoch 5, batch 6150, loss[loss=0.324, simple_loss=0.3775, pruned_loss=0.1352, over 17550.00 frames. ], tot_loss[loss=0.283, simple_loss=0.3437, pruned_loss=0.1112, over 3816612.84 frames. ], batch size: 101, lr: 1.56e-02, grad_scale: 8.0
+2023-04-01 06:19:29,652 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 06:19:35,815 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33490.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:20:01,183 INFO [train.py:903] (2/4) Epoch 5, batch 6200, loss[loss=0.2822, simple_loss=0.3472, pruned_loss=0.1086, over 19455.00 frames. ], tot_loss[loss=0.2839, simple_loss=0.3444, pruned_loss=0.1117, over 3821604.17 frames. ], batch size: 64, lr: 1.56e-02, grad_scale: 8.0
+2023-04-01 06:20:08,938 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=33517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:20:18,630 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3658, 1.1488, 1.3101, 1.4410, 2.7731, 0.9605, 2.1165, 2.9450],
+       device='cuda:2'), covar=tensor([0.0593, 0.3196, 0.2951, 0.1832, 0.0926, 0.2822, 0.1291, 0.0583],
+       device='cuda:2'), in_proj_covar=tensor([0.0285, 0.0309, 0.0307, 0.0289, 0.0308, 0.0316, 0.0282, 0.0299],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:20:34,185 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.213e+02 6.728e+02 8.677e+02 1.165e+03 2.777e+03, threshold=1.735e+03, percent-clipped=13.0
+2023-04-01 06:20:43,516 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=33546.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:21:03,404 INFO [train.py:903] (2/4) Epoch 5, batch 6250, loss[loss=0.2826, simple_loss=0.3307, pruned_loss=0.1173, over 17816.00 frames. ], tot_loss[loss=0.283, simple_loss=0.3434, pruned_loss=0.1113, over 3815595.39 frames. ], batch size: 39, lr: 1.56e-02, grad_scale: 8.0
+2023-04-01 06:21:31,254 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 06:21:47,419 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8157, 1.3951, 1.4843, 1.6324, 3.2934, 1.1309, 1.8855, 3.4858],
+       device='cuda:2'), covar=tensor([0.0331, 0.2239, 0.2202, 0.1444, 0.0541, 0.2196, 0.1316, 0.0302],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0307, 0.0306, 0.0288, 0.0306, 0.0312, 0.0284, 0.0296],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:22:03,934 INFO [train.py:903] (2/4) Epoch 5, batch 6300, loss[loss=0.3235, simple_loss=0.3751, pruned_loss=0.136, over 19682.00 frames. ], tot_loss[loss=0.2836, simple_loss=0.3443, pruned_loss=0.1114, over 3818941.65 frames. ], batch size: 59, lr: 1.56e-02, grad_scale: 8.0
+2023-04-01 06:22:28,391 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=33632.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:22:35,552 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.303e+02 6.435e+02 8.030e+02 9.840e+02 2.632e+03, threshold=1.606e+03, percent-clipped=3.0
+2023-04-01 06:23:01,036 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2557, 2.1205, 1.6248, 1.3378, 2.0166, 0.9505, 1.0092, 1.5714],
+       device='cuda:2'), covar=tensor([0.0764, 0.0531, 0.0850, 0.0560, 0.0388, 0.1112, 0.0668, 0.0394],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0266, 0.0311, 0.0238, 0.0223, 0.0304, 0.0283, 0.0248],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:23:04,056 INFO [train.py:903] (2/4) Epoch 5, batch 6350, loss[loss=0.2937, simple_loss=0.3571, pruned_loss=0.1151, over 19763.00 frames. ], tot_loss[loss=0.2846, simple_loss=0.3451, pruned_loss=0.112, over 3807127.62 frames. ], batch size: 56, lr: 1.56e-02, grad_scale: 8.0
+2023-04-01 06:23:05,722 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3573, 1.4122, 2.0485, 1.5767, 3.1514, 2.7809, 3.3329, 1.3726],
+       device='cuda:2'), covar=tensor([0.1870, 0.3005, 0.1677, 0.1395, 0.1215, 0.1343, 0.1302, 0.2785],
+       device='cuda:2'), in_proj_covar=tensor([0.0443, 0.0501, 0.0484, 0.0407, 0.0549, 0.0448, 0.0624, 0.0438],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:23:19,768 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-01 06:23:45,916 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33695.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:23:50,580 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=33699.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:24:05,037 INFO [train.py:903] (2/4) Epoch 5, batch 6400, loss[loss=0.3053, simple_loss=0.3692, pruned_loss=0.1207, over 19520.00 frames. ], tot_loss[loss=0.2834, simple_loss=0.344, pruned_loss=0.1114, over 3816403.40 frames. ], batch size: 54, lr: 1.55e-02, grad_scale: 8.0
+2023-04-01 06:24:20,319 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=33724.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:24:25,422 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2603, 2.9683, 2.0059, 2.8282, 0.9146, 2.7497, 2.7765, 2.8384],
+       device='cuda:2'), covar=tensor([0.1038, 0.1323, 0.2044, 0.0861, 0.3796, 0.1139, 0.0937, 0.1201],
+       device='cuda:2'), in_proj_covar=tensor([0.0349, 0.0312, 0.0364, 0.0284, 0.0354, 0.0302, 0.0286, 0.0317],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:24:37,366 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.704e+02 6.874e+02 8.420e+02 1.031e+03 3.616e+03, threshold=1.684e+03, percent-clipped=3.0
+2023-04-01 06:25:00,399 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8777, 2.0312, 1.9618, 2.6818, 1.7879, 2.5908, 2.5117, 1.8088],
+       device='cuda:2'), covar=tensor([0.2328, 0.1746, 0.0985, 0.1062, 0.2104, 0.0740, 0.1900, 0.1777],
+       device='cuda:2'), in_proj_covar=tensor([0.0641, 0.0632, 0.0557, 0.0787, 0.0669, 0.0544, 0.0690, 0.0593],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:25:05,853 INFO [train.py:903] (2/4) Epoch 5, batch 6450, loss[loss=0.2892, simple_loss=0.3428, pruned_loss=0.1178, over 19783.00 frames. ], tot_loss[loss=0.2819, simple_loss=0.3431, pruned_loss=0.1104, over 3830152.54 frames. ], batch size: 56, lr: 1.55e-02, grad_scale: 8.0
+2023-04-01 06:25:47,747 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.56 vs. limit=2.0
+2023-04-01 06:25:48,200 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 06:25:54,873 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=33802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:26:06,350 INFO [train.py:903] (2/4) Epoch 5, batch 6500, loss[loss=0.2485, simple_loss=0.3181, pruned_loss=0.08942, over 19777.00 frames. ], tot_loss[loss=0.2799, simple_loss=0.341, pruned_loss=0.1094, over 3827450.50 frames. ], batch size: 54, lr: 1.55e-02, grad_scale: 8.0
+2023-04-01 06:26:12,185 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 06:26:24,741 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=33827.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:26:32,486 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=33834.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:26:36,708 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.072e+02 6.680e+02 8.171e+02 1.132e+03 2.519e+03, threshold=1.634e+03, percent-clipped=6.0
+2023-04-01 06:26:43,786 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.82 vs. limit=5.0
+2023-04-01 06:27:07,201 INFO [train.py:903] (2/4) Epoch 5, batch 6550, loss[loss=0.2831, simple_loss=0.3529, pruned_loss=0.1066, over 19686.00 frames. ], tot_loss[loss=0.2804, simple_loss=0.3413, pruned_loss=0.1097, over 3817383.61 frames. ], batch size: 60, lr: 1.55e-02, grad_scale: 8.0
+2023-04-01 06:27:38,488 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=33888.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:28:06,994 INFO [train.py:903] (2/4) Epoch 5, batch 6600, loss[loss=0.2296, simple_loss=0.2941, pruned_loss=0.0826, over 19401.00 frames. ], tot_loss[loss=0.2811, simple_loss=0.3421, pruned_loss=0.11, over 3821979.35 frames. ], batch size: 48, lr: 1.55e-02, grad_scale: 4.0
+2023-04-01 06:28:08,498 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=33913.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:28:17,264 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8250, 1.3077, 0.9866, 0.9555, 1.2091, 0.8421, 0.7096, 1.2360],
+       device='cuda:2'), covar=tensor([0.0488, 0.0589, 0.0888, 0.0490, 0.0394, 0.0975, 0.0507, 0.0328],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0271, 0.0314, 0.0239, 0.0224, 0.0305, 0.0286, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:28:35,137 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
+2023-04-01 06:28:40,231 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.407e+02 7.502e+02 9.137e+02 1.060e+03 2.817e+03, threshold=1.827e+03, percent-clipped=6.0
+2023-04-01 06:28:52,816 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=33949.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:29:01,875 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=33957.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:29:09,039 INFO [train.py:903] (2/4) Epoch 5, batch 6650, loss[loss=0.2788, simple_loss=0.3473, pruned_loss=0.1051, over 19480.00 frames. ], tot_loss[loss=0.2816, simple_loss=0.3424, pruned_loss=0.1104, over 3820486.76 frames. ], batch size: 64, lr: 1.55e-02, grad_scale: 4.0
+2023-04-01 06:29:35,978 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.91 vs. limit=5.0
+2023-04-01 06:30:10,063 INFO [train.py:903] (2/4) Epoch 5, batch 6700, loss[loss=0.2985, simple_loss=0.357, pruned_loss=0.12, over 18710.00 frames. ], tot_loss[loss=0.2803, simple_loss=0.3411, pruned_loss=0.1097, over 3833015.74 frames. ], batch size: 74, lr: 1.55e-02, grad_scale: 4.0
+2023-04-01 06:30:18,351 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4460, 2.2174, 1.5277, 1.4949, 2.1006, 1.1294, 1.1236, 1.8033],
+       device='cuda:2'), covar=tensor([0.0663, 0.0494, 0.0820, 0.0472, 0.0360, 0.0872, 0.0607, 0.0349],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0274, 0.0317, 0.0241, 0.0225, 0.0307, 0.0290, 0.0250],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:30:40,326 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.004e+02 7.257e+02 9.131e+02 1.100e+03 2.314e+03, threshold=1.826e+03, percent-clipped=7.0
+2023-04-01 06:30:40,466 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34039.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:31:06,275 INFO [train.py:903] (2/4) Epoch 5, batch 6750, loss[loss=0.3051, simple_loss=0.3624, pruned_loss=0.1239, over 19091.00 frames. ], tot_loss[loss=0.281, simple_loss=0.3415, pruned_loss=0.1102, over 3841423.34 frames. ], batch size: 69, lr: 1.55e-02, grad_scale: 4.0
+2023-04-01 06:31:06,517 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:32:02,678 INFO [train.py:903] (2/4) Epoch 5, batch 6800, loss[loss=0.301, simple_loss=0.3409, pruned_loss=0.1305, over 19728.00 frames. ], tot_loss[loss=0.2796, simple_loss=0.34, pruned_loss=0.1096, over 3829426.17 frames. ], batch size: 51, lr: 1.55e-02, grad_scale: 8.0
+2023-04-01 06:32:27,365 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0658, 0.8849, 0.8070, 0.9599, 0.8624, 0.9174, 0.8451, 0.9164],
+       device='cuda:2'), covar=tensor([0.0632, 0.0899, 0.0903, 0.0568, 0.0689, 0.0402, 0.0717, 0.0512],
+       device='cuda:2'), in_proj_covar=tensor([0.0244, 0.0361, 0.0280, 0.0234, 0.0298, 0.0243, 0.0265, 0.0229],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:32:30,648 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.271e+02 6.317e+02 7.808e+02 9.230e+02 1.582e+03, threshold=1.562e+03, percent-clipped=0.0
+2023-04-01 06:32:47,671 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 06:32:48,117 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 06:32:50,740 INFO [train.py:903] (2/4) Epoch 6, batch 0, loss[loss=0.3062, simple_loss=0.3414, pruned_loss=0.1355, over 19481.00 frames. ], tot_loss[loss=0.3062, simple_loss=0.3414, pruned_loss=0.1355, over 19481.00 frames. ], batch size: 49, lr: 1.44e-02, grad_scale: 8.0
+2023-04-01 06:32:50,740 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 06:33:02,102 INFO [train.py:937] (2/4) Epoch 6, validation: loss=0.2022, simple_loss=0.3015, pruned_loss=0.05149, over 944034.00 frames. 
+2023-04-01 06:33:02,103 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18488MB
+2023-04-01 06:33:15,304 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 06:33:20,330 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34154.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:33:30,285 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34163.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:33:36,218 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3259, 1.2672, 1.6926, 1.4524, 2.3200, 1.9091, 2.3215, 1.2245],
+       device='cuda:2'), covar=tensor([0.1418, 0.2509, 0.1431, 0.1225, 0.0857, 0.1277, 0.0995, 0.2322],
+       device='cuda:2'), in_proj_covar=tensor([0.0445, 0.0502, 0.0485, 0.0406, 0.0547, 0.0447, 0.0623, 0.0442],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:34:03,533 INFO [train.py:903] (2/4) Epoch 6, batch 50, loss[loss=0.2929, simple_loss=0.3552, pruned_loss=0.1153, over 19300.00 frames. ], tot_loss[loss=0.2856, simple_loss=0.344, pruned_loss=0.1136, over 849640.00 frames. ], batch size: 70, lr: 1.44e-02, grad_scale: 8.0
+2023-04-01 06:34:15,335 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-01 06:34:22,187 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34205.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:34:29,752 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-01 06:34:40,720 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 06:34:54,285 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34230.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:35:05,224 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.721e+02 5.756e+02 7.149e+02 1.025e+03 3.166e+03, threshold=1.430e+03, percent-clipped=7.0
+2023-04-01 06:35:06,297 INFO [train.py:903] (2/4) Epoch 6, batch 100, loss[loss=0.2625, simple_loss=0.3376, pruned_loss=0.09372, over 19780.00 frames. ], tot_loss[loss=0.2782, simple_loss=0.3404, pruned_loss=0.108, over 1511547.46 frames. ], batch size: 54, lr: 1.44e-02, grad_scale: 8.0
+2023-04-01 06:35:18,590 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 06:35:20,122 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9739, 1.2328, 1.1896, 1.5265, 2.5662, 1.0657, 1.9647, 2.6502],
+       device='cuda:2'), covar=tensor([0.0448, 0.2413, 0.2578, 0.1454, 0.0689, 0.2235, 0.1055, 0.0462],
+       device='cuda:2'), in_proj_covar=tensor([0.0286, 0.0311, 0.0313, 0.0286, 0.0307, 0.0316, 0.0284, 0.0301],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:36:06,449 INFO [train.py:903] (2/4) Epoch 6, batch 150, loss[loss=0.2635, simple_loss=0.3216, pruned_loss=0.1027, over 19389.00 frames. ], tot_loss[loss=0.2791, simple_loss=0.3404, pruned_loss=0.1089, over 2022619.84 frames. ], batch size: 47, lr: 1.44e-02, grad_scale: 4.0
+2023-04-01 06:36:19,468 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:37:08,892 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.164e+02 6.478e+02 8.283e+02 9.993e+02 1.951e+03, threshold=1.657e+03, percent-clipped=7.0
+2023-04-01 06:37:08,910 INFO [train.py:903] (2/4) Epoch 6, batch 200, loss[loss=0.285, simple_loss=0.3535, pruned_loss=0.1083, over 19516.00 frames. ], tot_loss[loss=0.2793, simple_loss=0.3413, pruned_loss=0.1087, over 2414483.04 frames. ], batch size: 54, lr: 1.44e-02, grad_scale: 4.0
+2023-04-01 06:37:08,922 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 06:38:12,101 INFO [train.py:903] (2/4) Epoch 6, batch 250, loss[loss=0.2645, simple_loss=0.3338, pruned_loss=0.09757, over 19458.00 frames. ], tot_loss[loss=0.2783, simple_loss=0.3401, pruned_loss=0.1083, over 2719549.04 frames. ], batch size: 64, lr: 1.44e-02, grad_scale: 4.0
+2023-04-01 06:38:28,627 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2521, 1.1930, 1.7772, 1.3881, 3.2476, 2.5329, 3.3585, 1.4251],
+       device='cuda:2'), covar=tensor([0.1959, 0.3024, 0.1773, 0.1619, 0.1002, 0.1356, 0.1233, 0.2689],
+       device='cuda:2'), in_proj_covar=tensor([0.0446, 0.0497, 0.0483, 0.0407, 0.0548, 0.0442, 0.0620, 0.0440],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:38:33,066 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:38:38,019 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34410.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:38:44,976 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34416.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:38:46,309 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3314, 2.2404, 1.6210, 1.3581, 2.0791, 1.1661, 1.1562, 1.7003],
+       device='cuda:2'), covar=tensor([0.0691, 0.0409, 0.0757, 0.0533, 0.0306, 0.0865, 0.0567, 0.0335],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0266, 0.0306, 0.0235, 0.0222, 0.0298, 0.0280, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:39:08,901 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34435.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:39:14,123 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.775e+02 6.949e+02 8.663e+02 1.115e+03 2.860e+03, threshold=1.733e+03, percent-clipped=3.0
+2023-04-01 06:39:14,147 INFO [train.py:903] (2/4) Epoch 6, batch 300, loss[loss=0.2894, simple_loss=0.3562, pruned_loss=0.1113, over 19627.00 frames. ], tot_loss[loss=0.2794, simple_loss=0.3406, pruned_loss=0.1091, over 2955899.00 frames. ], batch size: 61, lr: 1.44e-02, grad_scale: 4.0
+2023-04-01 06:40:17,205 INFO [train.py:903] (2/4) Epoch 6, batch 350, loss[loss=0.289, simple_loss=0.3571, pruned_loss=0.1104, over 19602.00 frames. ], tot_loss[loss=0.2778, simple_loss=0.3394, pruned_loss=0.1081, over 3157751.33 frames. ], batch size: 61, lr: 1.43e-02, grad_scale: 4.0
+2023-04-01 06:40:22,959 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 06:40:37,844 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34507.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:40:45,483 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-01 06:40:55,542 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34521.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:41:02,912 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-01 06:41:18,581 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.691e+02 6.755e+02 8.258e+02 9.979e+02 1.871e+03, threshold=1.652e+03, percent-clipped=1.0
+2023-04-01 06:41:18,611 INFO [train.py:903] (2/4) Epoch 6, batch 400, loss[loss=0.239, simple_loss=0.3107, pruned_loss=0.08366, over 19852.00 frames. ], tot_loss[loss=0.2786, simple_loss=0.3399, pruned_loss=0.1086, over 3298839.89 frames. ], batch size: 52, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:41:51,724 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0501, 0.9037, 0.8041, 0.9988, 0.9066, 0.9329, 0.8476, 0.9225],
+       device='cuda:2'), covar=tensor([0.0613, 0.0827, 0.0942, 0.0502, 0.0653, 0.0372, 0.0752, 0.0511],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0362, 0.0287, 0.0235, 0.0301, 0.0245, 0.0272, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:42:20,648 INFO [train.py:903] (2/4) Epoch 6, batch 450, loss[loss=0.2642, simple_loss=0.326, pruned_loss=0.1012, over 19598.00 frames. ], tot_loss[loss=0.2782, simple_loss=0.3397, pruned_loss=0.1084, over 3417860.55 frames. ], batch size: 52, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:42:49,008 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34611.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:42:54,494 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 06:42:55,448 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 06:43:01,491 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=34622.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:43:23,825 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.432e+02 6.970e+02 8.269e+02 1.071e+03 2.551e+03, threshold=1.654e+03, percent-clipped=6.0
+2023-04-01 06:43:23,843 INFO [train.py:903] (2/4) Epoch 6, batch 500, loss[loss=0.3011, simple_loss=0.3615, pruned_loss=0.1203, over 19676.00 frames. ], tot_loss[loss=0.2761, simple_loss=0.3378, pruned_loss=0.1072, over 3526592.76 frames. ], batch size: 53, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:43:25,152 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34640.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:43:29,882 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34644.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:43:30,008 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1245, 1.8487, 1.4558, 1.2030, 1.7163, 0.9678, 1.0948, 1.5621],
+       device='cuda:2'), covar=tensor([0.0516, 0.0460, 0.0757, 0.0464, 0.0298, 0.0899, 0.0462, 0.0296],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0271, 0.0314, 0.0238, 0.0227, 0.0305, 0.0286, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:43:35,800 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7459, 3.1462, 3.2135, 3.1911, 1.2500, 2.9624, 2.6801, 2.9000],
+       device='cuda:2'), covar=tensor([0.1122, 0.0769, 0.0674, 0.0669, 0.3921, 0.0588, 0.0643, 0.1224],
+       device='cuda:2'), in_proj_covar=tensor([0.0532, 0.0464, 0.0610, 0.0510, 0.0598, 0.0381, 0.0390, 0.0576],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 06:44:03,460 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34672.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:44:27,130 INFO [train.py:903] (2/4) Epoch 6, batch 550, loss[loss=0.2883, simple_loss=0.3564, pruned_loss=0.1101, over 19668.00 frames. ], tot_loss[loss=0.277, simple_loss=0.3387, pruned_loss=0.1077, over 3601250.75 frames. ], batch size: 58, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:44:37,142 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34697.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:44:42,301 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-01 06:45:17,136 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=34728.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 06:45:31,828 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.620e+02 6.191e+02 8.093e+02 9.820e+02 1.880e+03, threshold=1.619e+03, percent-clipped=2.0
+2023-04-01 06:45:31,861 INFO [train.py:903] (2/4) Epoch 6, batch 600, loss[loss=0.2777, simple_loss=0.341, pruned_loss=0.1072, over 19529.00 frames. ], tot_loss[loss=0.2769, simple_loss=0.3389, pruned_loss=0.1074, over 3651062.23 frames. ], batch size: 54, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:46:13,325 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 06:46:20,232 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34777.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:46:35,484 INFO [train.py:903] (2/4) Epoch 6, batch 650, loss[loss=0.2578, simple_loss=0.31, pruned_loss=0.1028, over 19734.00 frames. ], tot_loss[loss=0.2767, simple_loss=0.3384, pruned_loss=0.1075, over 3684646.32 frames. ], batch size: 47, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:46:51,901 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:47:38,641 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.675e+02 6.280e+02 8.587e+02 1.153e+03 3.497e+03, threshold=1.717e+03, percent-clipped=9.0
+2023-04-01 06:47:38,667 INFO [train.py:903] (2/4) Epoch 6, batch 700, loss[loss=0.2524, simple_loss=0.3365, pruned_loss=0.08413, over 19607.00 frames. ], tot_loss[loss=0.2766, simple_loss=0.3381, pruned_loss=0.1076, over 3722608.46 frames. ], batch size: 57, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:47:51,733 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.9805, 5.2158, 2.5428, 4.5940, 1.3818, 5.1011, 5.1481, 5.4983],
+       device='cuda:2'), covar=tensor([0.0446, 0.0952, 0.2178, 0.0566, 0.3716, 0.0569, 0.0601, 0.0593],
+       device='cuda:2'), in_proj_covar=tensor([0.0357, 0.0315, 0.0376, 0.0290, 0.0360, 0.0310, 0.0289, 0.0322],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:47:54,279 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2236, 1.3592, 1.1719, 1.0217, 1.0789, 1.1472, 0.0419, 0.4025],
+       device='cuda:2'), covar=tensor([0.0240, 0.0241, 0.0156, 0.0187, 0.0473, 0.0192, 0.0439, 0.0401],
+       device='cuda:2'), in_proj_covar=tensor([0.0284, 0.0288, 0.0292, 0.0306, 0.0374, 0.0295, 0.0286, 0.0296],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:48:27,771 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=34878.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:48:43,535 INFO [train.py:903] (2/4) Epoch 6, batch 750, loss[loss=0.2203, simple_loss=0.2888, pruned_loss=0.07592, over 19747.00 frames. ], tot_loss[loss=0.2766, simple_loss=0.3383, pruned_loss=0.1075, over 3754573.11 frames. ], batch size: 46, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:48:47,835 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9561, 1.9997, 1.9370, 2.9004, 2.0761, 2.8197, 2.5490, 1.8175],
+       device='cuda:2'), covar=tensor([0.2085, 0.1591, 0.0839, 0.0931, 0.1796, 0.0626, 0.1586, 0.1505],
+       device='cuda:2'), in_proj_covar=tensor([0.0652, 0.0638, 0.0570, 0.0800, 0.0681, 0.0557, 0.0701, 0.0605],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:49:00,068 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=34903.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:49:45,081 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.784e+02 6.254e+02 7.861e+02 1.094e+03 2.828e+03, threshold=1.572e+03, percent-clipped=5.0
+2023-04-01 06:49:45,101 INFO [train.py:903] (2/4) Epoch 6, batch 800, loss[loss=0.304, simple_loss=0.3703, pruned_loss=0.1188, over 18608.00 frames. ], tot_loss[loss=0.2775, simple_loss=0.339, pruned_loss=0.108, over 3770407.37 frames. ], batch size: 74, lr: 1.43e-02, grad_scale: 8.0
+2023-04-01 06:50:02,473 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 06:50:03,751 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34955.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:50:37,472 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6455, 1.4485, 1.4182, 1.7073, 3.1475, 1.1037, 2.1621, 3.4193],
+       device='cuda:2'), covar=tensor([0.0359, 0.2358, 0.2282, 0.1394, 0.0586, 0.2185, 0.1101, 0.0329],
+       device='cuda:2'), in_proj_covar=tensor([0.0294, 0.0317, 0.0317, 0.0287, 0.0313, 0.0315, 0.0289, 0.0307],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:50:41,628 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34984.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:50:46,219 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=34988.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:50:48,466 INFO [train.py:903] (2/4) Epoch 6, batch 850, loss[loss=0.2897, simple_loss=0.3564, pruned_loss=0.1115, over 19663.00 frames. ], tot_loss[loss=0.2772, simple_loss=0.3392, pruned_loss=0.1076, over 3782789.43 frames. ], batch size: 55, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:50:57,233 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-01 06:51:32,787 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6878, 1.7457, 1.7667, 2.4425, 1.6217, 2.2625, 2.3150, 1.7426],
+       device='cuda:2'), covar=tensor([0.2277, 0.1809, 0.0963, 0.0949, 0.1973, 0.0776, 0.1847, 0.1648],
+       device='cuda:2'), in_proj_covar=tensor([0.0661, 0.0650, 0.0580, 0.0808, 0.0686, 0.0564, 0.0705, 0.0612],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:51:42,522 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 06:51:49,534 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.027e+02 6.223e+02 7.935e+02 9.772e+02 2.166e+03, threshold=1.587e+03, percent-clipped=2.0
+2023-04-01 06:51:49,552 INFO [train.py:903] (2/4) Epoch 6, batch 900, loss[loss=0.2965, simple_loss=0.3534, pruned_loss=0.1198, over 19541.00 frames. ], tot_loss[loss=0.2774, simple_loss=0.3395, pruned_loss=0.1076, over 3796799.65 frames. ], batch size: 64, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:52:08,666 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0260, 1.3355, 1.3923, 1.3489, 2.5950, 0.9382, 1.8465, 2.6942],
+       device='cuda:2'), covar=tensor([0.0427, 0.2373, 0.2242, 0.1526, 0.0636, 0.2234, 0.1081, 0.0457],
+       device='cuda:2'), in_proj_covar=tensor([0.0291, 0.0313, 0.0313, 0.0284, 0.0310, 0.0316, 0.0290, 0.0306],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:52:28,189 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35070.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:52:30,301 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35072.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 06:52:51,731 INFO [train.py:903] (2/4) Epoch 6, batch 950, loss[loss=0.3678, simple_loss=0.4106, pruned_loss=0.1625, over 18161.00 frames. ], tot_loss[loss=0.278, simple_loss=0.3399, pruned_loss=0.1081, over 3788242.22 frames. ], batch size: 83, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:52:56,792 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7249, 2.1983, 2.2412, 3.0897, 2.5947, 2.5009, 2.2964, 2.8986],
+       device='cuda:2'), covar=tensor([0.0648, 0.1406, 0.1148, 0.0663, 0.1074, 0.0408, 0.0846, 0.0450],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0366, 0.0289, 0.0236, 0.0308, 0.0244, 0.0272, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:52:58,475 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 06:53:04,380 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35099.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:53:09,177 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35103.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:53:18,108 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35110.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:53:35,179 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0585, 2.0323, 1.7751, 1.7264, 1.6843, 1.8731, 0.8971, 1.5464],
+       device='cuda:2'), covar=tensor([0.0186, 0.0273, 0.0187, 0.0273, 0.0361, 0.0278, 0.0471, 0.0380],
+       device='cuda:2'), in_proj_covar=tensor([0.0288, 0.0292, 0.0292, 0.0310, 0.0378, 0.0295, 0.0287, 0.0299],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:53:55,218 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.390e+02 7.194e+02 8.589e+02 1.083e+03 2.096e+03, threshold=1.718e+03, percent-clipped=5.0
+2023-04-01 06:53:55,236 INFO [train.py:903] (2/4) Epoch 6, batch 1000, loss[loss=0.3424, simple_loss=0.3803, pruned_loss=0.1523, over 19681.00 frames. ], tot_loss[loss=0.276, simple_loss=0.3382, pruned_loss=0.1069, over 3805242.57 frames. ], batch size: 60, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:54:03,642 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.52 vs. limit=5.0
+2023-04-01 06:54:13,560 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-01 06:54:48,373 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 06:54:52,229 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35187.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 06:54:55,175 INFO [train.py:903] (2/4) Epoch 6, batch 1050, loss[loss=0.2536, simple_loss=0.3231, pruned_loss=0.09207, over 19767.00 frames. ], tot_loss[loss=0.2765, simple_loss=0.3384, pruned_loss=0.1074, over 3814525.96 frames. ], batch size: 54, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:55:09,256 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.1369, 5.4881, 3.0284, 4.8358, 1.1763, 5.2770, 5.2493, 5.5841],
+       device='cuda:2'), covar=tensor([0.0357, 0.0897, 0.1730, 0.0596, 0.4134, 0.0584, 0.0657, 0.0604],
+       device='cuda:2'), in_proj_covar=tensor([0.0352, 0.0309, 0.0366, 0.0288, 0.0353, 0.0307, 0.0289, 0.0318],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 06:55:21,951 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1474, 1.4635, 1.5874, 1.6514, 2.8193, 1.0754, 2.1072, 2.9421],
+       device='cuda:2'), covar=tensor([0.0421, 0.2175, 0.2118, 0.1384, 0.0560, 0.2247, 0.1256, 0.0390],
+       device='cuda:2'), in_proj_covar=tensor([0.0291, 0.0316, 0.0316, 0.0287, 0.0311, 0.0317, 0.0288, 0.0309],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:55:30,967 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 06:55:36,185 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.13 vs. limit=5.0
+2023-04-01 06:55:57,165 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.102e+02 7.066e+02 8.619e+02 1.238e+03 3.302e+03, threshold=1.724e+03, percent-clipped=8.0
+2023-04-01 06:55:57,183 INFO [train.py:903] (2/4) Epoch 6, batch 1100, loss[loss=0.2287, simple_loss=0.2997, pruned_loss=0.07879, over 19630.00 frames. ], tot_loss[loss=0.2771, simple_loss=0.3389, pruned_loss=0.1076, over 3830668.21 frames. ], batch size: 50, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:55:57,672 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1318, 1.1029, 1.4264, 1.2488, 1.7730, 1.6847, 1.8959, 0.4154],
+       device='cuda:2'), covar=tensor([0.1777, 0.3057, 0.1627, 0.1469, 0.1083, 0.1621, 0.1032, 0.2873],
+       device='cuda:2'), in_proj_covar=tensor([0.0441, 0.0505, 0.0486, 0.0408, 0.0555, 0.0447, 0.0618, 0.0450],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 06:56:45,777 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.61 vs. limit=5.0
+2023-04-01 06:56:59,598 INFO [train.py:903] (2/4) Epoch 6, batch 1150, loss[loss=0.3257, simple_loss=0.3916, pruned_loss=0.1299, over 19510.00 frames. ], tot_loss[loss=0.279, simple_loss=0.3404, pruned_loss=0.1089, over 3830813.43 frames. ], batch size: 64, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:57:45,473 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35326.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:58:04,195 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.615e+02 6.124e+02 7.469e+02 9.050e+02 1.884e+03, threshold=1.494e+03, percent-clipped=1.0
+2023-04-01 06:58:04,213 INFO [train.py:903] (2/4) Epoch 6, batch 1200, loss[loss=0.3231, simple_loss=0.3646, pruned_loss=0.1408, over 19752.00 frames. ], tot_loss[loss=0.2774, simple_loss=0.339, pruned_loss=0.1079, over 3828917.50 frames. ], batch size: 45, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:58:17,351 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35351.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:58:23,086 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35355.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:58:27,691 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35359.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:58:32,195 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35363.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 06:58:36,614 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 06:58:55,047 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5479, 1.3813, 1.5282, 1.6193, 3.0667, 0.9611, 1.9862, 3.2734],
+       device='cuda:2'), covar=tensor([0.0309, 0.2320, 0.2262, 0.1394, 0.0571, 0.2256, 0.1168, 0.0316],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0315, 0.0317, 0.0287, 0.0311, 0.0315, 0.0288, 0.0306],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 06:58:55,130 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35380.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:58:59,609 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35384.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:59:05,735 INFO [train.py:903] (2/4) Epoch 6, batch 1250, loss[loss=0.285, simple_loss=0.3437, pruned_loss=0.1131, over 19782.00 frames. ], tot_loss[loss=0.2788, simple_loss=0.3401, pruned_loss=0.1087, over 3803258.98 frames. ], batch size: 56, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 06:59:09,401 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 06:59:31,156 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3789, 1.2373, 1.2253, 1.5916, 1.2431, 1.7447, 1.6482, 1.6011],
+       device='cuda:2'), covar=tensor([0.0871, 0.1044, 0.1098, 0.0836, 0.0949, 0.0702, 0.0850, 0.0661],
+       device='cuda:2'), in_proj_covar=tensor([0.0230, 0.0249, 0.0239, 0.0273, 0.0266, 0.0233, 0.0224, 0.0221],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 07:00:08,107 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.399e+02 6.685e+02 8.523e+02 1.077e+03 2.432e+03, threshold=1.705e+03, percent-clipped=5.0
+2023-04-01 07:00:08,126 INFO [train.py:903] (2/4) Epoch 6, batch 1300, loss[loss=0.264, simple_loss=0.3356, pruned_loss=0.09621, over 19472.00 frames. ], tot_loss[loss=0.278, simple_loss=0.3394, pruned_loss=0.1083, over 3802720.70 frames. ], batch size: 64, lr: 1.42e-02, grad_scale: 8.0
+2023-04-01 07:00:12,167 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35443.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:00:26,236 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35454.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:00:43,981 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35468.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:01:11,037 INFO [train.py:903] (2/4) Epoch 6, batch 1350, loss[loss=0.2756, simple_loss=0.3354, pruned_loss=0.1079, over 19730.00 frames. ], tot_loss[loss=0.2767, simple_loss=0.3386, pruned_loss=0.1073, over 3812541.24 frames. ], batch size: 51, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:01:19,177 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2594, 3.8068, 2.3576, 3.4488, 1.0153, 3.5223, 3.5206, 3.6866],
+       device='cuda:2'), covar=tensor([0.0715, 0.1188, 0.2195, 0.0769, 0.4110, 0.0946, 0.0721, 0.0901],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0310, 0.0369, 0.0288, 0.0349, 0.0309, 0.0288, 0.0320],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 07:01:31,071 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
+2023-04-01 07:02:13,022 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.489e+02 6.783e+02 8.495e+02 1.071e+03 2.340e+03, threshold=1.699e+03, percent-clipped=3.0
+2023-04-01 07:02:13,045 INFO [train.py:903] (2/4) Epoch 6, batch 1400, loss[loss=0.3499, simple_loss=0.3834, pruned_loss=0.1581, over 19541.00 frames. ], tot_loss[loss=0.2788, simple_loss=0.3407, pruned_loss=0.1085, over 3818355.63 frames. ], batch size: 54, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:02:22,772 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:02:47,202 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35569.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:03:13,362 INFO [train.py:903] (2/4) Epoch 6, batch 1450, loss[loss=0.2967, simple_loss=0.3688, pruned_loss=0.1123, over 19508.00 frames. ], tot_loss[loss=0.2793, simple_loss=0.3408, pruned_loss=0.109, over 3806973.46 frames. ], batch size: 64, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:03:13,404 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 07:03:52,439 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4033, 1.1104, 1.3146, 0.9222, 2.1988, 2.7650, 2.6639, 3.0350],
+       device='cuda:2'), covar=tensor([0.1441, 0.4073, 0.4021, 0.2293, 0.0611, 0.0275, 0.0368, 0.0205],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0281, 0.0310, 0.0246, 0.0200, 0.0121, 0.0201, 0.0145],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 07:04:15,923 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.374e+02 6.609e+02 8.520e+02 1.101e+03 2.891e+03, threshold=1.704e+03, percent-clipped=3.0
+2023-04-01 07:04:15,947 INFO [train.py:903] (2/4) Epoch 6, batch 1500, loss[loss=0.321, simple_loss=0.3708, pruned_loss=0.1356, over 19580.00 frames. ], tot_loss[loss=0.2791, simple_loss=0.3405, pruned_loss=0.1089, over 3806170.25 frames. ], batch size: 61, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:04:24,706 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7402, 1.6690, 2.1563, 2.8354, 2.2675, 2.6870, 2.3351, 3.1069],
+       device='cuda:2'), covar=tensor([0.0657, 0.1972, 0.1226, 0.0748, 0.1167, 0.0360, 0.0873, 0.0418],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0365, 0.0284, 0.0236, 0.0305, 0.0242, 0.0269, 0.0228],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:05:17,137 INFO [train.py:903] (2/4) Epoch 6, batch 1550, loss[loss=0.3186, simple_loss=0.3664, pruned_loss=0.1355, over 19344.00 frames. ], tot_loss[loss=0.2786, simple_loss=0.3399, pruned_loss=0.1086, over 3816702.83 frames. ], batch size: 66, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:05:39,894 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35707.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 07:06:16,832 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35736.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:06:22,433 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.104e+02 6.450e+02 9.026e+02 1.093e+03 2.835e+03, threshold=1.805e+03, percent-clipped=5.0
+2023-04-01 07:06:22,451 INFO [train.py:903] (2/4) Epoch 6, batch 1600, loss[loss=0.2868, simple_loss=0.3516, pruned_loss=0.111, over 19688.00 frames. ], tot_loss[loss=0.2767, simple_loss=0.3386, pruned_loss=0.1074, over 3815988.54 frames. ], batch size: 60, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:06:44,238 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 07:07:23,537 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35789.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:07:24,376 INFO [train.py:903] (2/4) Epoch 6, batch 1650, loss[loss=0.2094, simple_loss=0.2829, pruned_loss=0.06795, over 19392.00 frames. ], tot_loss[loss=0.2743, simple_loss=0.3368, pruned_loss=0.1059, over 3834991.38 frames. ], batch size: 47, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:08:05,737 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35822.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:08:09,326 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=35825.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:08:10,584 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8020, 1.8295, 1.8015, 2.7320, 1.7951, 2.3996, 2.4945, 1.8452],
+       device='cuda:2'), covar=tensor([0.2259, 0.1868, 0.0964, 0.1019, 0.2013, 0.0789, 0.1772, 0.1655],
+       device='cuda:2'), in_proj_covar=tensor([0.0660, 0.0649, 0.0575, 0.0807, 0.0689, 0.0568, 0.0697, 0.0611],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 07:08:13,935 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=35829.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:08:27,426 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.226e+02 6.593e+02 7.720e+02 9.793e+02 2.227e+03, threshold=1.544e+03, percent-clipped=1.0
+2023-04-01 07:08:27,448 INFO [train.py:903] (2/4) Epoch 6, batch 1700, loss[loss=0.3195, simple_loss=0.3676, pruned_loss=0.1357, over 17437.00 frames. ], tot_loss[loss=0.2746, simple_loss=0.3376, pruned_loss=0.1059, over 3833453.48 frames. ], batch size: 101, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:08:38,904 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=35850.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:08:40,045 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=35851.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:09:06,044 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 07:09:29,405 INFO [train.py:903] (2/4) Epoch 6, batch 1750, loss[loss=0.2767, simple_loss=0.3492, pruned_loss=0.102, over 19392.00 frames. ], tot_loss[loss=0.2749, simple_loss=0.3374, pruned_loss=0.1061, over 3828291.59 frames. ], batch size: 48, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:09:31,415 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.27 vs. limit=5.0
+2023-04-01 07:09:31,965 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=35892.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:10:33,848 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.141e+02 6.695e+02 8.372e+02 1.116e+03 2.634e+03, threshold=1.674e+03, percent-clipped=7.0
+2023-04-01 07:10:33,866 INFO [train.py:903] (2/4) Epoch 6, batch 1800, loss[loss=0.2798, simple_loss=0.3551, pruned_loss=0.1023, over 19582.00 frames. ], tot_loss[loss=0.2745, simple_loss=0.3371, pruned_loss=0.1059, over 3827404.36 frames. ], batch size: 61, lr: 1.41e-02, grad_scale: 8.0
+2023-04-01 07:11:31,911 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 07:11:36,736 INFO [train.py:903] (2/4) Epoch 6, batch 1850, loss[loss=0.2436, simple_loss=0.3062, pruned_loss=0.09053, over 19828.00 frames. ], tot_loss[loss=0.2752, simple_loss=0.3375, pruned_loss=0.1065, over 3832069.97 frames. ], batch size: 49, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:11:59,139 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36007.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:12:11,430 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 07:12:40,881 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.024e+02 7.330e+02 9.053e+02 1.086e+03 1.723e+03, threshold=1.811e+03, percent-clipped=2.0
+2023-04-01 07:12:40,904 INFO [train.py:903] (2/4) Epoch 6, batch 1900, loss[loss=0.2162, simple_loss=0.2843, pruned_loss=0.07403, over 19711.00 frames. ], tot_loss[loss=0.2754, simple_loss=0.3377, pruned_loss=0.1066, over 3813534.46 frames. ], batch size: 45, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:12:57,326 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 07:13:04,091 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 07:13:27,634 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 07:13:29,164 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36078.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:13:33,573 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9587, 3.6251, 2.8307, 3.1868, 1.7808, 3.0929, 3.2233, 3.5089],
+       device='cuda:2'), covar=tensor([0.0768, 0.0982, 0.1634, 0.0767, 0.2799, 0.1104, 0.0926, 0.1014],
+       device='cuda:2'), in_proj_covar=tensor([0.0360, 0.0314, 0.0373, 0.0289, 0.0357, 0.0311, 0.0293, 0.0323],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 07:13:42,460 INFO [train.py:903] (2/4) Epoch 6, batch 1950, loss[loss=0.2677, simple_loss=0.3415, pruned_loss=0.09692, over 19500.00 frames. ], tot_loss[loss=0.2772, simple_loss=0.3392, pruned_loss=0.1076, over 3801042.86 frames. ], batch size: 64, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:14:00,233 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36103.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 07:14:04,982 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36107.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:14:35,274 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:14:36,145 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36133.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:14:44,996 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.894e+02 6.352e+02 7.868e+02 9.806e+02 1.510e+03, threshold=1.574e+03, percent-clipped=0.0
+2023-04-01 07:14:45,014 INFO [train.py:903] (2/4) Epoch 6, batch 2000, loss[loss=0.2894, simple_loss=0.3594, pruned_loss=0.1097, over 19307.00 frames. ], tot_loss[loss=0.2747, simple_loss=0.3373, pruned_loss=0.106, over 3821770.99 frames. ], batch size: 66, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:15:04,557 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1321, 3.6307, 3.7620, 3.7402, 1.2890, 3.4875, 3.0326, 3.3728],
+       device='cuda:2'), covar=tensor([0.1056, 0.0741, 0.0594, 0.0500, 0.3967, 0.0486, 0.0629, 0.1090],
+       device='cuda:2'), in_proj_covar=tensor([0.0533, 0.0472, 0.0621, 0.0519, 0.0597, 0.0386, 0.0397, 0.0588],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 07:15:24,942 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36173.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:15:30,464 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4869, 1.0598, 1.2577, 1.2059, 2.1531, 0.8457, 1.9121, 2.0920],
+       device='cuda:2'), covar=tensor([0.0591, 0.2568, 0.2442, 0.1418, 0.0720, 0.2006, 0.0910, 0.0659],
+       device='cuda:2'), in_proj_covar=tensor([0.0297, 0.0315, 0.0319, 0.0292, 0.0312, 0.0318, 0.0291, 0.0310],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:15:42,594 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 07:15:44,430 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.64 vs. limit=2.0
+2023-04-01 07:15:46,070 INFO [train.py:903] (2/4) Epoch 6, batch 2050, loss[loss=0.221, simple_loss=0.2831, pruned_loss=0.07946, over 19747.00 frames. ], tot_loss[loss=0.2758, simple_loss=0.3383, pruned_loss=0.1067, over 3818911.01 frames. ], batch size: 46, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:15:57,097 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36199.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:16:00,515 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 07:16:03,108 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 07:16:22,964 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 07:16:47,772 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.109e+02 6.690e+02 8.798e+02 1.173e+03 2.442e+03, threshold=1.760e+03, percent-clipped=12.0
+2023-04-01 07:16:47,790 INFO [train.py:903] (2/4) Epoch 6, batch 2100, loss[loss=0.2411, simple_loss=0.3018, pruned_loss=0.0902, over 19763.00 frames. ], tot_loss[loss=0.2736, simple_loss=0.3363, pruned_loss=0.1055, over 3826906.11 frames. ], batch size: 46, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:16:57,901 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36248.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:17:06,277 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2668, 2.3104, 2.2895, 3.4588, 2.2700, 3.5836, 3.3197, 1.9721],
+       device='cuda:2'), covar=tensor([0.2452, 0.1828, 0.0897, 0.1139, 0.2344, 0.0643, 0.1586, 0.1829],
+       device='cuda:2'), in_proj_covar=tensor([0.0659, 0.0648, 0.0575, 0.0807, 0.0684, 0.0567, 0.0698, 0.0606],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 07:17:17,845 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36263.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:17:18,600 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 07:17:39,988 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 07:17:49,923 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36288.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:17:49,968 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36288.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:17:51,847 INFO [train.py:903] (2/4) Epoch 6, batch 2150, loss[loss=0.2793, simple_loss=0.3395, pruned_loss=0.1096, over 19600.00 frames. ], tot_loss[loss=0.2719, simple_loss=0.3349, pruned_loss=0.1045, over 3840904.22 frames. ], batch size: 50, lr: 1.40e-02, grad_scale: 16.0
+2023-04-01 07:18:53,905 INFO [train.py:903] (2/4) Epoch 6, batch 2200, loss[loss=0.2531, simple_loss=0.3273, pruned_loss=0.08942, over 19339.00 frames. ], tot_loss[loss=0.2738, simple_loss=0.3364, pruned_loss=0.1056, over 3847593.90 frames. ], batch size: 70, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:18:55,064 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.621e+02 6.300e+02 8.031e+02 1.073e+03 2.013e+03, threshold=1.606e+03, percent-clipped=1.0
+2023-04-01 07:19:15,908 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0713, 1.4853, 1.5282, 1.7928, 1.6755, 1.6655, 1.4650, 1.8293],
+       device='cuda:2'), covar=tensor([0.0746, 0.1437, 0.1296, 0.0835, 0.1079, 0.0473, 0.1076, 0.0566],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0362, 0.0283, 0.0236, 0.0303, 0.0244, 0.0268, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:19:29,077 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.03 vs. limit=5.0
+2023-04-01 07:19:35,546 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4556, 2.3781, 1.6616, 1.6608, 2.2569, 1.2889, 1.2367, 1.7154],
+       device='cuda:2'), covar=tensor([0.0674, 0.0438, 0.0754, 0.0423, 0.0307, 0.0884, 0.0585, 0.0429],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0274, 0.0314, 0.0240, 0.0225, 0.0311, 0.0286, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:19:57,016 INFO [train.py:903] (2/4) Epoch 6, batch 2250, loss[loss=0.265, simple_loss=0.3218, pruned_loss=0.1041, over 19783.00 frames. ], tot_loss[loss=0.2726, simple_loss=0.3353, pruned_loss=0.1049, over 3860384.85 frames. ], batch size: 47, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:20:58,367 INFO [train.py:903] (2/4) Epoch 6, batch 2300, loss[loss=0.2612, simple_loss=0.3168, pruned_loss=0.1028, over 19746.00 frames. ], tot_loss[loss=0.272, simple_loss=0.3349, pruned_loss=0.1046, over 3847388.18 frames. ], batch size: 46, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:20:59,554 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.730e+02 6.689e+02 7.482e+02 9.822e+02 1.768e+03, threshold=1.496e+03, percent-clipped=2.0
+2023-04-01 07:21:04,980 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
+2023-04-01 07:21:14,323 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 07:22:00,467 INFO [train.py:903] (2/4) Epoch 6, batch 2350, loss[loss=0.3262, simple_loss=0.3726, pruned_loss=0.1399, over 13727.00 frames. ], tot_loss[loss=0.2712, simple_loss=0.3348, pruned_loss=0.1038, over 3833002.54 frames. ], batch size: 136, lr: 1.40e-02, grad_scale: 8.0
+2023-04-01 07:22:19,345 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:22:43,440 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 07:22:49,465 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36529.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:23:00,583 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 07:23:02,880 INFO [train.py:903] (2/4) Epoch 6, batch 2400, loss[loss=0.2597, simple_loss=0.3213, pruned_loss=0.09901, over 19608.00 frames. ], tot_loss[loss=0.2706, simple_loss=0.3343, pruned_loss=0.1034, over 3826455.93 frames. ], batch size: 50, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:23:04,008 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.742e+02 5.696e+02 7.249e+02 9.157e+02 1.479e+03, threshold=1.450e+03, percent-clipped=0.0
+2023-04-01 07:23:07,412 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36543.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:23:08,774 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36544.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:23:39,082 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36569.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:24:06,971 INFO [train.py:903] (2/4) Epoch 6, batch 2450, loss[loss=0.2737, simple_loss=0.3432, pruned_loss=0.1021, over 19395.00 frames. ], tot_loss[loss=0.2697, simple_loss=0.3334, pruned_loss=0.103, over 3825156.32 frames. ], batch size: 70, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:24:27,655 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.45 vs. limit=2.0
+2023-04-01 07:24:46,754 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36623.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:24:51,101 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36626.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:24:56,969 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:25:07,693 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.70 vs. limit=5.0
+2023-04-01 07:25:07,901 INFO [train.py:903] (2/4) Epoch 6, batch 2500, loss[loss=0.2466, simple_loss=0.3073, pruned_loss=0.09297, over 19481.00 frames. ], tot_loss[loss=0.2701, simple_loss=0.3337, pruned_loss=0.1032, over 3817218.09 frames. ], batch size: 49, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:25:09,071 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.995e+02 6.265e+02 8.006e+02 9.274e+02 1.564e+03, threshold=1.601e+03, percent-clipped=1.0
+2023-04-01 07:25:30,302 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=36658.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:25:39,454 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5792, 1.3424, 1.3937, 1.9678, 1.7990, 1.8832, 2.0558, 1.8418],
+       device='cuda:2'), covar=tensor([0.0867, 0.1064, 0.1118, 0.0910, 0.0872, 0.0849, 0.1014, 0.0668],
+       device='cuda:2'), in_proj_covar=tensor([0.0227, 0.0244, 0.0235, 0.0268, 0.0259, 0.0226, 0.0227, 0.0215],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004],
+       device='cuda:2')
+2023-04-01 07:26:09,578 INFO [train.py:903] (2/4) Epoch 6, batch 2550, loss[loss=0.276, simple_loss=0.3456, pruned_loss=0.1032, over 19601.00 frames. ], tot_loss[loss=0.2697, simple_loss=0.3337, pruned_loss=0.1029, over 3831857.80 frames. ], batch size: 57, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:26:44,776 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36718.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 07:26:46,997 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9584, 1.0698, 1.4725, 0.8393, 2.3621, 2.9553, 2.7285, 3.1644],
+       device='cuda:2'), covar=tensor([0.1563, 0.3257, 0.3031, 0.2189, 0.0444, 0.0179, 0.0263, 0.0146],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0282, 0.0312, 0.0247, 0.0200, 0.0122, 0.0200, 0.0148],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 07:26:53,884 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0850, 5.4950, 3.0017, 4.8701, 1.3559, 5.1989, 5.3737, 5.5140],
+       device='cuda:2'), covar=tensor([0.0364, 0.0872, 0.1846, 0.0485, 0.3911, 0.0595, 0.0546, 0.0756],
+       device='cuda:2'), in_proj_covar=tensor([0.0364, 0.0314, 0.0372, 0.0291, 0.0353, 0.0313, 0.0294, 0.0327],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 07:27:05,095 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 07:27:10,925 INFO [train.py:903] (2/4) Epoch 6, batch 2600, loss[loss=0.2716, simple_loss=0.341, pruned_loss=0.1011, over 19354.00 frames. ], tot_loss[loss=0.2725, simple_loss=0.3357, pruned_loss=0.1046, over 3834746.80 frames. ], batch size: 66, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:27:12,685 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.869e+02 6.492e+02 8.253e+02 1.085e+03 2.742e+03, threshold=1.651e+03, percent-clipped=10.0
+2023-04-01 07:28:14,517 INFO [train.py:903] (2/4) Epoch 6, batch 2650, loss[loss=0.246, simple_loss=0.3103, pruned_loss=0.09091, over 19785.00 frames. ], tot_loss[loss=0.27, simple_loss=0.3341, pruned_loss=0.103, over 3844138.87 frames. ], batch size: 48, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:28:37,557 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 07:28:55,456 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36823.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 07:29:16,468 INFO [train.py:903] (2/4) Epoch 6, batch 2700, loss[loss=0.2871, simple_loss=0.3555, pruned_loss=0.1094, over 19521.00 frames. ], tot_loss[loss=0.2708, simple_loss=0.3344, pruned_loss=0.1036, over 3827164.30 frames. ], batch size: 54, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:29:17,596 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.977e+02 6.342e+02 7.427e+02 9.812e+02 2.890e+03, threshold=1.485e+03, percent-clipped=2.0
+2023-04-01 07:29:51,101 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8558, 3.6074, 1.9216, 2.1407, 3.1040, 1.4038, 1.1046, 1.7739],
+       device='cuda:2'), covar=tensor([0.1041, 0.0307, 0.0851, 0.0564, 0.0448, 0.1044, 0.0909, 0.0645],
+       device='cuda:2'), in_proj_covar=tensor([0.0283, 0.0279, 0.0312, 0.0240, 0.0228, 0.0312, 0.0284, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:30:18,804 INFO [train.py:903] (2/4) Epoch 6, batch 2750, loss[loss=0.2838, simple_loss=0.3474, pruned_loss=0.1101, over 19681.00 frames. ], tot_loss[loss=0.2706, simple_loss=0.334, pruned_loss=0.1036, over 3818382.13 frames. ], batch size: 58, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:30:51,763 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=36914.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:31:09,578 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36929.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:31:22,180 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=36939.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:31:23,042 INFO [train.py:903] (2/4) Epoch 6, batch 2800, loss[loss=0.2665, simple_loss=0.3265, pruned_loss=0.1032, over 19673.00 frames. ], tot_loss[loss=0.2693, simple_loss=0.3328, pruned_loss=0.1029, over 3818752.70 frames. ], batch size: 53, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:31:24,210 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.898e+02 7.168e+02 8.701e+02 1.243e+03 3.330e+03, threshold=1.740e+03, percent-clipped=17.0
+2023-04-01 07:31:56,919 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36967.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:32:00,393 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36970.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:32:06,250 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=36974.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:32:08,502 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=36976.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:32:26,412 INFO [train.py:903] (2/4) Epoch 6, batch 2850, loss[loss=0.2424, simple_loss=0.3223, pruned_loss=0.08126, over 19530.00 frames. ], tot_loss[loss=0.2696, simple_loss=0.3331, pruned_loss=0.1031, over 3809736.13 frames. ], batch size: 54, lr: 1.39e-02, grad_scale: 8.0
+2023-04-01 07:32:34,859 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4298, 2.3240, 2.3917, 3.7603, 2.2066, 3.6425, 3.3154, 2.1176],
+       device='cuda:2'), covar=tensor([0.2469, 0.1987, 0.0841, 0.1145, 0.2482, 0.0656, 0.1639, 0.1712],
+       device='cuda:2'), in_proj_covar=tensor([0.0661, 0.0653, 0.0573, 0.0804, 0.0685, 0.0567, 0.0701, 0.0604],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 07:32:48,210 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2290, 3.6900, 3.7929, 3.8038, 1.4184, 3.5575, 3.1360, 3.4504],
+       device='cuda:2'), covar=tensor([0.1042, 0.0625, 0.0574, 0.0505, 0.3959, 0.0454, 0.0599, 0.1067],
+       device='cuda:2'), in_proj_covar=tensor([0.0546, 0.0471, 0.0641, 0.0527, 0.0601, 0.0395, 0.0410, 0.0601],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 07:32:52,105 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
+2023-04-01 07:33:05,610 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37022.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:33:05,645 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3084, 1.4455, 1.4668, 1.6323, 2.8821, 1.1101, 2.1384, 3.0443],
+       device='cuda:2'), covar=tensor([0.0369, 0.2218, 0.2222, 0.1382, 0.0564, 0.2113, 0.1057, 0.0367],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0315, 0.0315, 0.0290, 0.0307, 0.0314, 0.0289, 0.0305],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:33:28,656 INFO [train.py:903] (2/4) Epoch 6, batch 2900, loss[loss=0.2496, simple_loss=0.312, pruned_loss=0.09364, over 19421.00 frames. ], tot_loss[loss=0.2688, simple_loss=0.3322, pruned_loss=0.1027, over 3812907.83 frames. ], batch size: 48, lr: 1.38e-02, grad_scale: 8.0
+2023-04-01 07:33:28,667 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 07:33:28,976 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9144, 4.3018, 4.6970, 4.6016, 1.5375, 4.2254, 3.7263, 4.2591],
+       device='cuda:2'), covar=tensor([0.0980, 0.0602, 0.0477, 0.0429, 0.4345, 0.0430, 0.0579, 0.0982],
+       device='cuda:2'), in_proj_covar=tensor([0.0546, 0.0470, 0.0639, 0.0526, 0.0598, 0.0394, 0.0407, 0.0598],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 07:33:29,874 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.185e+02 6.105e+02 7.947e+02 1.025e+03 2.308e+03, threshold=1.589e+03, percent-clipped=2.0
+2023-04-01 07:33:55,114 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37062.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:33:59,454 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7797, 2.0983, 1.9833, 2.7780, 2.6176, 2.4131, 2.0444, 2.7664],
+       device='cuda:2'), covar=tensor([0.0641, 0.1408, 0.1223, 0.0778, 0.0996, 0.0375, 0.0934, 0.0459],
+       device='cuda:2'), in_proj_covar=tensor([0.0248, 0.0355, 0.0279, 0.0235, 0.0299, 0.0238, 0.0263, 0.0222],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:34:20,470 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:34:24,029 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37085.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:34:28,763 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37089.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:34:29,567 INFO [train.py:903] (2/4) Epoch 6, batch 2950, loss[loss=0.2939, simple_loss=0.3533, pruned_loss=0.1172, over 19533.00 frames. ], tot_loss[loss=0.2706, simple_loss=0.3339, pruned_loss=0.1036, over 3825796.19 frames. ], batch size: 54, lr: 1.38e-02, grad_scale: 8.0
+2023-04-01 07:34:58,780 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9336, 4.2662, 4.5436, 4.5162, 1.6187, 4.2257, 3.7407, 4.1587],
+       device='cuda:2'), covar=tensor([0.0944, 0.0613, 0.0469, 0.0404, 0.4050, 0.0346, 0.0482, 0.0984],
+       device='cuda:2'), in_proj_covar=tensor([0.0558, 0.0482, 0.0651, 0.0532, 0.0607, 0.0398, 0.0414, 0.0610],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 07:35:02,119 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1134, 1.0591, 1.7131, 1.2243, 2.4553, 1.8377, 2.5191, 1.1084],
+       device='cuda:2'), covar=tensor([0.1973, 0.3283, 0.1673, 0.1659, 0.1242, 0.1798, 0.1465, 0.2790],
+       device='cuda:2'), in_proj_covar=tensor([0.0451, 0.0516, 0.0496, 0.0412, 0.0568, 0.0454, 0.0634, 0.0452],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 07:35:31,147 INFO [train.py:903] (2/4) Epoch 6, batch 3000, loss[loss=0.2866, simple_loss=0.3513, pruned_loss=0.111, over 19703.00 frames. ], tot_loss[loss=0.2702, simple_loss=0.3334, pruned_loss=0.1035, over 3821453.48 frames. ], batch size: 59, lr: 1.38e-02, grad_scale: 8.0
+2023-04-01 07:35:31,148 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 07:35:43,653 INFO [train.py:937] (2/4) Epoch 6, validation: loss=0.1968, simple_loss=0.2962, pruned_loss=0.04867, over 944034.00 frames. 
+2023-04-01 07:35:43,654 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18488MB
+2023-04-01 07:35:44,848 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.497e+02 6.001e+02 7.289e+02 9.626e+02 1.809e+03, threshold=1.458e+03, percent-clipped=5.0
+2023-04-01 07:35:48,611 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 07:36:18,750 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37167.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 07:36:30,249 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37177.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 07:36:45,861 INFO [train.py:903] (2/4) Epoch 6, batch 3050, loss[loss=0.2171, simple_loss=0.2948, pruned_loss=0.0697, over 19628.00 frames. ], tot_loss[loss=0.2703, simple_loss=0.3336, pruned_loss=0.1035, over 3811348.81 frames. ], batch size: 50, lr: 1.38e-02, grad_scale: 8.0
+2023-04-01 07:37:48,510 INFO [train.py:903] (2/4) Epoch 6, batch 3100, loss[loss=0.2613, simple_loss=0.3304, pruned_loss=0.09604, over 19735.00 frames. ], tot_loss[loss=0.2714, simple_loss=0.3346, pruned_loss=0.1041, over 3792501.26 frames. ], batch size: 63, lr: 1.38e-02, grad_scale: 8.0
+2023-04-01 07:37:49,790 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.764e+02 6.699e+02 8.375e+02 1.038e+03 2.239e+03, threshold=1.675e+03, percent-clipped=7.0
+2023-04-01 07:38:28,939 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37273.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:38:42,280 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37282.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:38:46,578 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37286.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:38:50,727 INFO [train.py:903] (2/4) Epoch 6, batch 3150, loss[loss=0.2584, simple_loss=0.3309, pruned_loss=0.09293, over 19664.00 frames. ], tot_loss[loss=0.2707, simple_loss=0.334, pruned_loss=0.1037, over 3802105.04 frames. ], batch size: 58, lr: 1.38e-02, grad_scale: 8.0
+2023-04-01 07:39:13,512 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 07:39:27,510 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37320.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:39:49,102 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:39:51,049 INFO [train.py:903] (2/4) Epoch 6, batch 3200, loss[loss=0.2538, simple_loss=0.315, pruned_loss=0.09633, over 19366.00 frames. ], tot_loss[loss=0.2712, simple_loss=0.3345, pruned_loss=0.1039, over 3802553.80 frames. ], batch size: 48, lr: 1.38e-02, grad_scale: 8.0
+2023-04-01 07:39:52,141 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.326e+02 6.253e+02 8.171e+02 9.916e+02 1.975e+03, threshold=1.634e+03, percent-clipped=4.0
+2023-04-01 07:39:52,624 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37341.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:39:58,099 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8072, 1.2572, 1.3369, 1.6268, 1.5107, 1.5271, 1.2599, 1.6417],
+       device='cuda:2'), covar=tensor([0.0663, 0.1257, 0.1155, 0.0755, 0.0972, 0.0428, 0.0964, 0.0513],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0356, 0.0279, 0.0234, 0.0301, 0.0241, 0.0262, 0.0224],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:39:58,125 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37345.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:40:20,453 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37363.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:40:24,439 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37366.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:40:24,672 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37366.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:40:29,178 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37370.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:40:42,562 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37382.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:40:50,641 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37388.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:40:52,622 INFO [train.py:903] (2/4) Epoch 6, batch 3250, loss[loss=0.3111, simple_loss=0.3657, pruned_loss=0.1282, over 18098.00 frames. ], tot_loss[loss=0.2721, simple_loss=0.3354, pruned_loss=0.1044, over 3814228.34 frames. ], batch size: 83, lr: 1.38e-02, grad_scale: 4.0
+2023-04-01 07:41:30,760 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9240, 1.3462, 0.9892, 0.9448, 1.2109, 0.8651, 0.8170, 1.2761],
+       device='cuda:2'), covar=tensor([0.0407, 0.0493, 0.0878, 0.0419, 0.0386, 0.0925, 0.0452, 0.0299],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0276, 0.0309, 0.0241, 0.0221, 0.0310, 0.0280, 0.0242],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:41:45,922 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37433.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:41:48,067 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37435.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:41:53,529 INFO [train.py:903] (2/4) Epoch 6, batch 3300, loss[loss=0.2576, simple_loss=0.3311, pruned_loss=0.09203, over 19789.00 frames. ], tot_loss[loss=0.2704, simple_loss=0.3342, pruned_loss=0.1032, over 3830887.75 frames. ], batch size: 56, lr: 1.38e-02, grad_scale: 4.0
+2023-04-01 07:41:57,413 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.613e+02 6.108e+02 8.102e+02 1.002e+03 3.053e+03, threshold=1.620e+03, percent-clipped=3.0
+2023-04-01 07:42:01,113 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 07:42:17,183 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37458.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 07:42:44,819 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37481.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:42:56,297 INFO [train.py:903] (2/4) Epoch 6, batch 3350, loss[loss=0.2806, simple_loss=0.3527, pruned_loss=0.1043, over 19663.00 frames. ], tot_loss[loss=0.2715, simple_loss=0.3349, pruned_loss=0.104, over 3827158.37 frames. ], batch size: 58, lr: 1.38e-02, grad_scale: 4.0
+2023-04-01 07:43:56,123 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37538.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:43:57,995 INFO [train.py:903] (2/4) Epoch 6, batch 3400, loss[loss=0.2081, simple_loss=0.2799, pruned_loss=0.06817, over 19754.00 frames. ], tot_loss[loss=0.2711, simple_loss=0.3342, pruned_loss=0.104, over 3826522.99 frames. ], batch size: 47, lr: 1.38e-02, grad_scale: 4.0
+2023-04-01 07:44:00,251 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.822e+02 6.377e+02 8.364e+02 1.096e+03 2.128e+03, threshold=1.673e+03, percent-clipped=5.0
+2023-04-01 07:44:26,215 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37563.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 07:44:59,271 INFO [train.py:903] (2/4) Epoch 6, batch 3450, loss[loss=0.2558, simple_loss=0.321, pruned_loss=0.09526, over 19733.00 frames. ], tot_loss[loss=0.2712, simple_loss=0.3349, pruned_loss=0.1037, over 3832725.81 frames. ], batch size: 51, lr: 1.37e-02, grad_scale: 4.0
+2023-04-01 07:45:07,181 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 07:45:12,665 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
+2023-04-01 07:45:39,250 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8336, 3.4703, 2.2099, 3.2160, 1.0893, 3.1271, 3.1666, 3.3108],
+       device='cuda:2'), covar=tensor([0.0823, 0.1073, 0.2161, 0.0778, 0.3645, 0.1101, 0.0926, 0.1016],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0324, 0.0384, 0.0294, 0.0360, 0.0319, 0.0297, 0.0332],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 07:45:49,558 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:46:02,056 INFO [train.py:903] (2/4) Epoch 6, batch 3500, loss[loss=0.2858, simple_loss=0.3477, pruned_loss=0.1119, over 19460.00 frames. ], tot_loss[loss=0.271, simple_loss=0.3346, pruned_loss=0.1037, over 3830003.36 frames. ], batch size: 64, lr: 1.37e-02, grad_scale: 4.0
+2023-04-01 07:46:04,578 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.712e+02 6.340e+02 8.060e+02 1.060e+03 3.220e+03, threshold=1.612e+03, percent-clipped=3.0
+2023-04-01 07:46:07,422 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37644.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:46:23,231 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2126, 1.0295, 0.9965, 1.3329, 1.1648, 1.3426, 1.4130, 1.1876],
+       device='cuda:2'), covar=tensor([0.0637, 0.0796, 0.0844, 0.0652, 0.0730, 0.0630, 0.0683, 0.0576],
+       device='cuda:2'), in_proj_covar=tensor([0.0226, 0.0244, 0.0237, 0.0274, 0.0262, 0.0230, 0.0226, 0.0219],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004],
+       device='cuda:2')
+2023-04-01 07:46:38,316 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37669.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:46:54,389 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4813, 1.0324, 1.2199, 1.2579, 2.1415, 0.9321, 1.8891, 2.1474],
+       device='cuda:2'), covar=tensor([0.0591, 0.2676, 0.2349, 0.1379, 0.0743, 0.1955, 0.0899, 0.0594],
+       device='cuda:2'), in_proj_covar=tensor([0.0298, 0.0316, 0.0311, 0.0287, 0.0311, 0.0312, 0.0288, 0.0304],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:47:04,852 INFO [train.py:903] (2/4) Epoch 6, batch 3550, loss[loss=0.3183, simple_loss=0.3702, pruned_loss=0.1332, over 19585.00 frames. ], tot_loss[loss=0.2732, simple_loss=0.3361, pruned_loss=0.1051, over 3806137.80 frames. ], batch size: 52, lr: 1.37e-02, grad_scale: 4.0
+2023-04-01 07:47:07,092 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37691.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:47:12,773 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5594, 1.0296, 1.2176, 1.3002, 2.2140, 0.9926, 1.9467, 2.1721],
+       device='cuda:2'), covar=tensor([0.0509, 0.2428, 0.2331, 0.1301, 0.0702, 0.1762, 0.0827, 0.0540],
+       device='cuda:2'), in_proj_covar=tensor([0.0299, 0.0318, 0.0315, 0.0288, 0.0312, 0.0313, 0.0288, 0.0305],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:47:34,891 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37716.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:47:49,119 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=37726.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:48:03,063 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=37737.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:48:05,907 INFO [train.py:903] (2/4) Epoch 6, batch 3600, loss[loss=0.3666, simple_loss=0.4008, pruned_loss=0.1662, over 19693.00 frames. ], tot_loss[loss=0.2734, simple_loss=0.3361, pruned_loss=0.1054, over 3801398.05 frames. ], batch size: 59, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:48:06,565 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-01 07:48:08,230 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.206e+02 7.040e+02 8.572e+02 1.227e+03 4.209e+03, threshold=1.714e+03, percent-clipped=12.0
+2023-04-01 07:48:12,116 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37745.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:48:33,187 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=37762.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:49:08,248 INFO [train.py:903] (2/4) Epoch 6, batch 3650, loss[loss=0.2402, simple_loss=0.3136, pruned_loss=0.08342, over 19749.00 frames. ], tot_loss[loss=0.2713, simple_loss=0.3345, pruned_loss=0.104, over 3813118.27 frames. ], batch size: 54, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:50:10,248 INFO [train.py:903] (2/4) Epoch 6, batch 3700, loss[loss=0.2188, simple_loss=0.2977, pruned_loss=0.06999, over 19825.00 frames. ], tot_loss[loss=0.2716, simple_loss=0.3349, pruned_loss=0.1042, over 3829786.96 frames. ], batch size: 52, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:50:11,794 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=37841.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:50:12,528 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.880e+02 5.969e+02 7.272e+02 1.002e+03 1.787e+03, threshold=1.454e+03, percent-clipped=1.0
+2023-04-01 07:50:25,582 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
+2023-04-01 07:51:13,482 INFO [train.py:903] (2/4) Epoch 6, batch 3750, loss[loss=0.2756, simple_loss=0.3508, pruned_loss=0.1002, over 19341.00 frames. ], tot_loss[loss=0.2719, simple_loss=0.3353, pruned_loss=0.1043, over 3832593.61 frames. ], batch size: 66, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:51:26,359 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4849, 1.2316, 1.4148, 1.5216, 3.0020, 1.0134, 1.9779, 3.0780],
+       device='cuda:2'), covar=tensor([0.0355, 0.2327, 0.2222, 0.1377, 0.0568, 0.2186, 0.1153, 0.0399],
+       device='cuda:2'), in_proj_covar=tensor([0.0300, 0.0315, 0.0315, 0.0291, 0.0314, 0.0313, 0.0289, 0.0307],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:51:28,771 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5322, 1.8986, 2.0450, 2.8732, 2.6947, 2.3504, 2.2805, 2.6011],
+       device='cuda:2'), covar=tensor([0.0725, 0.1728, 0.1233, 0.0759, 0.0961, 0.0392, 0.0823, 0.0515],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0360, 0.0282, 0.0237, 0.0303, 0.0240, 0.0265, 0.0224],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:52:14,129 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6262, 1.5789, 1.4805, 1.6808, 1.6187, 1.4738, 1.4919, 1.6225],
+       device='cuda:2'), covar=tensor([0.0664, 0.1013, 0.0886, 0.0658, 0.0834, 0.0399, 0.0702, 0.0426],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0365, 0.0285, 0.0240, 0.0307, 0.0243, 0.0267, 0.0227],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:52:16,170 INFO [train.py:903] (2/4) Epoch 6, batch 3800, loss[loss=0.2534, simple_loss=0.324, pruned_loss=0.09143, over 19677.00 frames. ], tot_loss[loss=0.2715, simple_loss=0.3348, pruned_loss=0.1041, over 3836600.90 frames. ], batch size: 55, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:52:18,412 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.239e+02 5.762e+02 7.572e+02 9.178e+02 2.007e+03, threshold=1.514e+03, percent-clipped=4.0
+2023-04-01 07:52:47,792 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 07:52:56,803 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3129, 1.4263, 1.3737, 1.6056, 2.8764, 1.1307, 2.0589, 3.0058],
+       device='cuda:2'), covar=tensor([0.0363, 0.2287, 0.2390, 0.1310, 0.0576, 0.2170, 0.1112, 0.0394],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0319, 0.0317, 0.0296, 0.0318, 0.0315, 0.0292, 0.0309],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 07:53:17,773 INFO [train.py:903] (2/4) Epoch 6, batch 3850, loss[loss=0.3281, simple_loss=0.3627, pruned_loss=0.1468, over 12801.00 frames. ], tot_loss[loss=0.271, simple_loss=0.3346, pruned_loss=0.1037, over 3814997.85 frames. ], batch size: 136, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:53:25,802 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=37997.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:53:32,693 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=38001.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:54:03,055 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=38026.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:54:20,061 INFO [train.py:903] (2/4) Epoch 6, batch 3900, loss[loss=0.266, simple_loss=0.339, pruned_loss=0.09654, over 19100.00 frames. ], tot_loss[loss=0.274, simple_loss=0.3368, pruned_loss=0.1056, over 3794945.82 frames. ], batch size: 69, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:54:22,366 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.032e+02 6.773e+02 7.927e+02 9.711e+02 2.220e+03, threshold=1.585e+03, percent-clipped=5.0
+2023-04-01 07:54:39,725 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-01 07:55:13,658 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8349, 4.3809, 2.3377, 3.8889, 1.0110, 4.0671, 4.1135, 4.3442],
+       device='cuda:2'), covar=tensor([0.0561, 0.0962, 0.2240, 0.0730, 0.3842, 0.0722, 0.0664, 0.0763],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0328, 0.0388, 0.0297, 0.0363, 0.0321, 0.0302, 0.0336],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 07:55:15,177 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-01 07:55:24,001 INFO [train.py:903] (2/4) Epoch 6, batch 3950, loss[loss=0.2536, simple_loss=0.3168, pruned_loss=0.09515, over 19745.00 frames. ], tot_loss[loss=0.2729, simple_loss=0.3363, pruned_loss=0.1047, over 3795336.13 frames. ], batch size: 51, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:55:27,731 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 07:55:33,086 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=38097.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:56:03,039 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=38122.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 07:56:25,971 INFO [train.py:903] (2/4) Epoch 6, batch 4000, loss[loss=0.2806, simple_loss=0.3458, pruned_loss=0.1077, over 19614.00 frames. ], tot_loss[loss=0.2746, simple_loss=0.3378, pruned_loss=0.1057, over 3784175.77 frames. ], batch size: 57, lr: 1.37e-02, grad_scale: 8.0
+2023-04-01 07:56:28,273 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.559e+02 6.005e+02 7.523e+02 9.814e+02 1.567e+03, threshold=1.505e+03, percent-clipped=0.0
+2023-04-01 07:57:10,230 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 07:57:17,243 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7536, 1.4283, 1.3207, 2.0213, 1.6035, 2.1099, 1.9968, 1.9596],
+       device='cuda:2'), covar=tensor([0.0810, 0.1027, 0.1134, 0.1071, 0.1005, 0.0712, 0.1031, 0.0660],
+       device='cuda:2'), in_proj_covar=tensor([0.0227, 0.0240, 0.0238, 0.0271, 0.0260, 0.0225, 0.0225, 0.0217],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005, 0.0004],
+       device='cuda:2')
+2023-04-01 07:57:25,998 INFO [train.py:903] (2/4) Epoch 6, batch 4050, loss[loss=0.2799, simple_loss=0.3472, pruned_loss=0.1063, over 19669.00 frames. ], tot_loss[loss=0.2741, simple_loss=0.3374, pruned_loss=0.1054, over 3800518.49 frames. ], batch size: 58, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 07:58:27,537 INFO [train.py:903] (2/4) Epoch 6, batch 4100, loss[loss=0.2385, simple_loss=0.3008, pruned_loss=0.08811, over 19105.00 frames. ], tot_loss[loss=0.2728, simple_loss=0.3363, pruned_loss=0.1046, over 3807872.56 frames. ], batch size: 42, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 07:58:30,600 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.078e+02 6.486e+02 7.817e+02 9.790e+02 2.532e+03, threshold=1.563e+03, percent-clipped=8.0
+2023-04-01 07:59:04,834 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 07:59:30,605 INFO [train.py:903] (2/4) Epoch 6, batch 4150, loss[loss=0.2203, simple_loss=0.2904, pruned_loss=0.07512, over 19393.00 frames. ], tot_loss[loss=0.2738, simple_loss=0.3371, pruned_loss=0.1053, over 3807138.88 frames. ], batch size: 48, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 07:59:59,062 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1002, 1.6659, 1.6288, 2.4271, 2.1363, 1.8211, 1.6902, 2.0881],
+       device='cuda:2'), covar=tensor([0.0982, 0.1898, 0.1669, 0.1041, 0.1433, 0.0885, 0.1385, 0.0797],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0362, 0.0284, 0.0238, 0.0306, 0.0244, 0.0270, 0.0229],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:00:34,879 INFO [train.py:903] (2/4) Epoch 6, batch 4200, loss[loss=0.3104, simple_loss=0.3664, pruned_loss=0.1272, over 19673.00 frames. ], tot_loss[loss=0.2729, simple_loss=0.3361, pruned_loss=0.1048, over 3813702.73 frames. ], batch size: 60, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 08:00:36,323 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=38341.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:00:37,309 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.522e+02 6.104e+02 7.462e+02 9.650e+02 2.123e+03, threshold=1.492e+03, percent-clipped=5.0
+2023-04-01 08:00:39,346 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 08:01:21,340 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=38378.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:01:25,182 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.44 vs. limit=5.0
+2023-04-01 08:01:34,728 INFO [train.py:903] (2/4) Epoch 6, batch 4250, loss[loss=0.2901, simple_loss=0.3521, pruned_loss=0.1141, over 19355.00 frames. ], tot_loss[loss=0.2726, simple_loss=0.3358, pruned_loss=0.1047, over 3825802.79 frames. ], batch size: 66, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 08:01:48,239 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 08:02:01,556 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 08:02:19,783 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
+2023-04-01 08:02:34,856 INFO [train.py:903] (2/4) Epoch 6, batch 4300, loss[loss=0.2969, simple_loss=0.3527, pruned_loss=0.1205, over 13349.00 frames. ], tot_loss[loss=0.2727, simple_loss=0.3362, pruned_loss=0.1046, over 3806215.08 frames. ], batch size: 136, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 08:02:37,124 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.280e+02 6.582e+02 8.580e+02 1.078e+03 2.349e+03, threshold=1.716e+03, percent-clipped=8.0
+2023-04-01 08:02:55,996 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=38456.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:03:27,673 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 08:03:35,913 INFO [train.py:903] (2/4) Epoch 6, batch 4350, loss[loss=0.265, simple_loss=0.3363, pruned_loss=0.09683, over 19681.00 frames. ], tot_loss[loss=0.2718, simple_loss=0.3353, pruned_loss=0.1041, over 3824276.07 frames. ], batch size: 55, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 08:04:40,411 INFO [train.py:903] (2/4) Epoch 6, batch 4400, loss[loss=0.2643, simple_loss=0.3365, pruned_loss=0.09602, over 19762.00 frames. ], tot_loss[loss=0.2716, simple_loss=0.335, pruned_loss=0.1041, over 3833278.68 frames. ], batch size: 54, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 08:04:42,537 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.411e+02 6.588e+02 8.122e+02 1.160e+03 2.348e+03, threshold=1.624e+03, percent-clipped=4.0
+2023-04-01 08:05:00,788 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3794, 1.3820, 2.2367, 1.6220, 3.5004, 2.5934, 3.5218, 1.6951],
+       device='cuda:2'), covar=tensor([0.1866, 0.3276, 0.1737, 0.1485, 0.1101, 0.1512, 0.1403, 0.2700],
+       device='cuda:2'), in_proj_covar=tensor([0.0447, 0.0514, 0.0496, 0.0406, 0.0555, 0.0451, 0.0629, 0.0450],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 08:05:05,903 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 08:05:13,690 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 08:05:34,944 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2011, 1.6635, 1.7619, 2.1671, 1.9785, 1.8667, 1.6074, 1.9848],
+       device='cuda:2'), covar=tensor([0.0679, 0.1405, 0.1114, 0.0805, 0.1003, 0.0414, 0.1001, 0.0552],
+       device='cuda:2'), in_proj_covar=tensor([0.0245, 0.0349, 0.0275, 0.0230, 0.0294, 0.0237, 0.0263, 0.0222],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:05:40,416 INFO [train.py:903] (2/4) Epoch 6, batch 4450, loss[loss=0.2593, simple_loss=0.3356, pruned_loss=0.09147, over 19627.00 frames. ], tot_loss[loss=0.271, simple_loss=0.3343, pruned_loss=0.1038, over 3823953.37 frames. ], batch size: 57, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 08:06:41,523 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8596, 1.9132, 1.9948, 2.8873, 1.9266, 2.5648, 2.5888, 2.0099],
+       device='cuda:2'), covar=tensor([0.2578, 0.2042, 0.1033, 0.1031, 0.2173, 0.0883, 0.1925, 0.1716],
+       device='cuda:2'), in_proj_covar=tensor([0.0676, 0.0674, 0.0585, 0.0818, 0.0700, 0.0586, 0.0715, 0.0623],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 08:06:42,159 INFO [train.py:903] (2/4) Epoch 6, batch 4500, loss[loss=0.2457, simple_loss=0.3171, pruned_loss=0.08714, over 19674.00 frames. ], tot_loss[loss=0.2705, simple_loss=0.334, pruned_loss=0.1035, over 3829922.28 frames. ], batch size: 53, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 08:06:44,525 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.035e+02 6.139e+02 7.598e+02 9.442e+02 2.713e+03, threshold=1.520e+03, percent-clipped=3.0
+2023-04-01 08:07:12,397 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.12 vs. limit=5.0
+2023-04-01 08:07:36,105 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8682, 1.9284, 1.9457, 2.9260, 1.9564, 2.9324, 2.6083, 1.8889],
+       device='cuda:2'), covar=tensor([0.2625, 0.2088, 0.1044, 0.1159, 0.2409, 0.0775, 0.2054, 0.1825],
+       device='cuda:2'), in_proj_covar=tensor([0.0673, 0.0672, 0.0585, 0.0819, 0.0698, 0.0586, 0.0716, 0.0620],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 08:07:42,587 INFO [train.py:903] (2/4) Epoch 6, batch 4550, loss[loss=0.2722, simple_loss=0.338, pruned_loss=0.1032, over 19543.00 frames. ], tot_loss[loss=0.2702, simple_loss=0.334, pruned_loss=0.1033, over 3827593.96 frames. ], batch size: 56, lr: 1.36e-02, grad_scale: 8.0
+2023-04-01 08:07:53,128 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 08:08:10,836 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=38712.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:08:17,330 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 08:08:22,008 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=38722.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:08:41,581 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=38737.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:08:45,376 INFO [train.py:903] (2/4) Epoch 6, batch 4600, loss[loss=0.2955, simple_loss=0.3574, pruned_loss=0.1168, over 19526.00 frames. ], tot_loss[loss=0.2707, simple_loss=0.3342, pruned_loss=0.1036, over 3826895.27 frames. ], batch size: 64, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:08:47,716 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.208e+02 6.588e+02 8.068e+02 1.040e+03 1.807e+03, threshold=1.614e+03, percent-clipped=3.0
+2023-04-01 08:09:34,459 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9274, 1.9111, 2.2075, 2.1120, 2.8034, 3.5412, 3.5840, 3.8403],
+       device='cuda:2'), covar=tensor([0.1381, 0.3121, 0.2904, 0.1800, 0.1176, 0.0286, 0.0244, 0.0179],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0287, 0.0318, 0.0250, 0.0202, 0.0129, 0.0204, 0.0156],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:09:45,875 INFO [train.py:903] (2/4) Epoch 6, batch 4650, loss[loss=0.2634, simple_loss=0.3287, pruned_loss=0.09906, over 19532.00 frames. ], tot_loss[loss=0.2699, simple_loss=0.3332, pruned_loss=0.1033, over 3822263.72 frames. ], batch size: 54, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:10:01,544 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 08:10:11,700 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 08:10:43,246 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=38837.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:10:46,234 INFO [train.py:903] (2/4) Epoch 6, batch 4700, loss[loss=0.3174, simple_loss=0.3807, pruned_loss=0.1271, over 19551.00 frames. ], tot_loss[loss=0.272, simple_loss=0.3347, pruned_loss=0.1046, over 3810527.93 frames. ], batch size: 61, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:10:47,762 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=38841.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:10:48,621 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.118e+02 6.701e+02 8.528e+02 1.085e+03 2.106e+03, threshold=1.706e+03, percent-clipped=3.0
+2023-04-01 08:11:07,245 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 08:11:46,437 INFO [train.py:903] (2/4) Epoch 6, batch 4750, loss[loss=0.2812, simple_loss=0.3463, pruned_loss=0.108, over 19497.00 frames. ], tot_loss[loss=0.2722, simple_loss=0.3351, pruned_loss=0.1047, over 3813627.08 frames. ], batch size: 64, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:12:47,940 INFO [train.py:903] (2/4) Epoch 6, batch 4800, loss[loss=0.3235, simple_loss=0.3794, pruned_loss=0.1338, over 19715.00 frames. ], tot_loss[loss=0.2721, simple_loss=0.3348, pruned_loss=0.1047, over 3813088.85 frames. ], batch size: 59, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:12:52,285 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.945e+02 6.641e+02 7.688e+02 1.063e+03 2.770e+03, threshold=1.538e+03, percent-clipped=4.0
+2023-04-01 08:13:49,882 INFO [train.py:903] (2/4) Epoch 6, batch 4850, loss[loss=0.2466, simple_loss=0.3122, pruned_loss=0.09055, over 19738.00 frames. ], tot_loss[loss=0.273, simple_loss=0.3355, pruned_loss=0.1052, over 3804662.80 frames. ], batch size: 51, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:14:14,750 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 08:14:36,520 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 08:14:42,291 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 08:14:42,335 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 08:14:51,529 INFO [train.py:903] (2/4) Epoch 6, batch 4900, loss[loss=0.3094, simple_loss=0.3645, pruned_loss=0.1272, over 17426.00 frames. ], tot_loss[loss=0.2704, simple_loss=0.3337, pruned_loss=0.1035, over 3804819.58 frames. ], batch size: 101, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:14:51,577 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 08:14:55,129 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.255e+02 6.820e+02 8.455e+02 1.082e+03 3.554e+03, threshold=1.691e+03, percent-clipped=3.0
+2023-04-01 08:15:12,449 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 08:15:23,885 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2609, 2.2644, 1.7386, 1.6173, 1.5975, 1.7832, 0.3823, 1.0894],
+       device='cuda:2'), covar=tensor([0.0255, 0.0256, 0.0189, 0.0281, 0.0517, 0.0310, 0.0527, 0.0423],
+       device='cuda:2'), in_proj_covar=tensor([0.0300, 0.0297, 0.0297, 0.0316, 0.0382, 0.0313, 0.0286, 0.0300],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:15:52,296 INFO [train.py:903] (2/4) Epoch 6, batch 4950, loss[loss=0.2537, simple_loss=0.3296, pruned_loss=0.08897, over 19670.00 frames. ], tot_loss[loss=0.2705, simple_loss=0.334, pruned_loss=0.1035, over 3812597.29 frames. ], batch size: 55, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:15:56,184 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:16:01,561 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8364, 1.4405, 1.5269, 1.6633, 2.5639, 1.1425, 2.0787, 2.6003],
+       device='cuda:2'), covar=tensor([0.0400, 0.1924, 0.1911, 0.1228, 0.0560, 0.1943, 0.1356, 0.0412],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0316, 0.0316, 0.0295, 0.0316, 0.0315, 0.0294, 0.0312],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:16:11,577 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 08:16:27,941 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39118.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:16:34,738 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 08:16:54,847 INFO [train.py:903] (2/4) Epoch 6, batch 5000, loss[loss=0.2033, simple_loss=0.2737, pruned_loss=0.06642, over 19785.00 frames. ], tot_loss[loss=0.2721, simple_loss=0.3354, pruned_loss=0.1044, over 3795045.82 frames. ], batch size: 47, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:16:58,462 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5444, 1.1695, 1.1467, 1.8881, 1.4799, 1.5668, 1.8638, 1.3805],
+       device='cuda:2'), covar=tensor([0.0920, 0.1288, 0.1246, 0.0869, 0.1013, 0.0934, 0.0901, 0.0921],
+       device='cuda:2'), in_proj_covar=tensor([0.0225, 0.0239, 0.0235, 0.0268, 0.0256, 0.0220, 0.0219, 0.0212],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 08:16:59,190 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.473e+02 6.699e+02 7.802e+02 1.019e+03 2.317e+03, threshold=1.560e+03, percent-clipped=4.0
+2023-04-01 08:17:05,620 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 08:17:14,780 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 08:17:31,041 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7250, 1.3758, 1.4809, 1.7679, 3.1155, 0.9952, 2.0847, 3.3911],
+       device='cuda:2'), covar=tensor([0.0320, 0.2254, 0.2259, 0.1368, 0.0606, 0.2356, 0.1200, 0.0341],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0317, 0.0320, 0.0298, 0.0321, 0.0317, 0.0296, 0.0315],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:17:51,517 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=39185.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:17:57,114 INFO [train.py:903] (2/4) Epoch 6, batch 5050, loss[loss=0.2734, simple_loss=0.3428, pruned_loss=0.102, over 19675.00 frames. ], tot_loss[loss=0.2722, simple_loss=0.3359, pruned_loss=0.1043, over 3809147.93 frames. ], batch size: 55, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:18:12,185 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39203.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:18:14,892 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-01 08:18:30,704 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 08:18:57,176 INFO [train.py:903] (2/4) Epoch 6, batch 5100, loss[loss=0.3564, simple_loss=0.3818, pruned_loss=0.1655, over 13430.00 frames. ], tot_loss[loss=0.2725, simple_loss=0.3362, pruned_loss=0.1044, over 3808608.59 frames. ], batch size: 136, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:19:00,429 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.152e+02 6.811e+02 8.395e+02 1.062e+03 1.934e+03, threshold=1.679e+03, percent-clipped=3.0
+2023-04-01 08:19:05,494 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 08:19:08,948 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 08:19:13,352 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 08:19:24,164 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7493, 1.4826, 1.3851, 1.9372, 1.8421, 1.7251, 1.6241, 1.8055],
+       device='cuda:2'), covar=tensor([0.0968, 0.1586, 0.1453, 0.0905, 0.1187, 0.0509, 0.0985, 0.0690],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0357, 0.0283, 0.0235, 0.0301, 0.0245, 0.0271, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:19:48,985 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7558, 1.3094, 1.4417, 1.6331, 3.1940, 1.0809, 1.9609, 3.4140],
+       device='cuda:2'), covar=tensor([0.0309, 0.2296, 0.2302, 0.1405, 0.0595, 0.2162, 0.1204, 0.0330],
+       device='cuda:2'), in_proj_covar=tensor([0.0306, 0.0319, 0.0321, 0.0297, 0.0321, 0.0316, 0.0297, 0.0317],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:19:57,733 INFO [train.py:903] (2/4) Epoch 6, batch 5150, loss[loss=0.2702, simple_loss=0.3319, pruned_loss=0.1042, over 19333.00 frames. ], tot_loss[loss=0.2699, simple_loss=0.3336, pruned_loss=0.103, over 3799597.85 frames. ], batch size: 66, lr: 1.35e-02, grad_scale: 8.0
+2023-04-01 08:20:08,434 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 08:20:11,742 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=39300.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:20:13,915 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:20:18,416 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2432, 2.0441, 1.5935, 1.3274, 1.8983, 1.1098, 1.0017, 1.6049],
+       device='cuda:2'), covar=tensor([0.0632, 0.0511, 0.0746, 0.0516, 0.0340, 0.0900, 0.0596, 0.0340],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0282, 0.0315, 0.0235, 0.0225, 0.0311, 0.0282, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:20:28,750 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1360, 2.0254, 1.5157, 1.2768, 1.8362, 0.9363, 1.0687, 1.5839],
+       device='cuda:2'), covar=tensor([0.0687, 0.0462, 0.0848, 0.0557, 0.0393, 0.1064, 0.0537, 0.0382],
+       device='cuda:2'), in_proj_covar=tensor([0.0284, 0.0284, 0.0318, 0.0237, 0.0227, 0.0313, 0.0285, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:20:43,356 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 08:21:00,821 INFO [train.py:903] (2/4) Epoch 6, batch 5200, loss[loss=0.2774, simple_loss=0.3405, pruned_loss=0.1072, over 19605.00 frames. ], tot_loss[loss=0.27, simple_loss=0.3338, pruned_loss=0.1031, over 3818161.93 frames. ], batch size: 57, lr: 1.34e-02, grad_scale: 8.0
+2023-04-01 08:21:04,236 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.495e+02 6.191e+02 7.598e+02 1.014e+03 2.218e+03, threshold=1.520e+03, percent-clipped=2.0
+2023-04-01 08:21:14,298 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 08:21:35,817 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0859, 1.3056, 1.5136, 1.1690, 2.8120, 3.4971, 3.3736, 3.8070],
+       device='cuda:2'), covar=tensor([0.1580, 0.2974, 0.2970, 0.1991, 0.0402, 0.0152, 0.0183, 0.0130],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0284, 0.0318, 0.0247, 0.0201, 0.0129, 0.0203, 0.0155],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:21:56,494 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 08:22:00,052 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1656, 1.8207, 1.3748, 1.2913, 1.6910, 1.0210, 1.0306, 1.6190],
+       device='cuda:2'), covar=tensor([0.0567, 0.0533, 0.0880, 0.0449, 0.0382, 0.0990, 0.0499, 0.0255],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0281, 0.0314, 0.0233, 0.0224, 0.0308, 0.0279, 0.0250],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:22:03,017 INFO [train.py:903] (2/4) Epoch 6, batch 5250, loss[loss=0.2841, simple_loss=0.3477, pruned_loss=0.1102, over 19677.00 frames. ], tot_loss[loss=0.2702, simple_loss=0.334, pruned_loss=0.1032, over 3823540.13 frames. ], batch size: 60, lr: 1.34e-02, grad_scale: 8.0
+2023-04-01 08:23:05,670 INFO [train.py:903] (2/4) Epoch 6, batch 5300, loss[loss=0.314, simple_loss=0.3712, pruned_loss=0.1284, over 19484.00 frames. ], tot_loss[loss=0.2704, simple_loss=0.3345, pruned_loss=0.1031, over 3826300.86 frames. ], batch size: 64, lr: 1.34e-02, grad_scale: 8.0
+2023-04-01 08:23:10,377 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.313e+02 6.384e+02 7.596e+02 9.799e+02 2.153e+03, threshold=1.519e+03, percent-clipped=7.0
+2023-04-01 08:23:16,765 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1379, 1.5631, 1.6882, 2.1839, 1.8989, 2.0002, 1.8105, 2.0909],
+       device='cuda:2'), covar=tensor([0.0789, 0.1600, 0.1301, 0.0884, 0.1240, 0.0408, 0.0987, 0.0574],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0358, 0.0284, 0.0236, 0.0301, 0.0244, 0.0271, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:23:22,421 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 08:23:56,538 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39481.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:24:06,729 INFO [train.py:903] (2/4) Epoch 6, batch 5350, loss[loss=0.2434, simple_loss=0.3044, pruned_loss=0.09116, over 19402.00 frames. ], tot_loss[loss=0.2684, simple_loss=0.3326, pruned_loss=0.1021, over 3835333.99 frames. ], batch size: 48, lr: 1.34e-02, grad_scale: 4.0
+2023-04-01 08:24:41,839 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 08:25:07,430 INFO [train.py:903] (2/4) Epoch 6, batch 5400, loss[loss=0.2917, simple_loss=0.367, pruned_loss=0.1082, over 18699.00 frames. ], tot_loss[loss=0.2692, simple_loss=0.3335, pruned_loss=0.1024, over 3830981.56 frames. ], batch size: 74, lr: 1.34e-02, grad_scale: 4.0
+2023-04-01 08:25:15,197 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.754e+02 6.102e+02 7.285e+02 1.015e+03 2.320e+03, threshold=1.457e+03, percent-clipped=6.0
+2023-04-01 08:25:19,793 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=39547.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:25:30,328 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39556.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:25:48,015 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.77 vs. limit=5.0
+2023-04-01 08:26:01,219 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39581.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:26:13,204 INFO [train.py:903] (2/4) Epoch 6, batch 5450, loss[loss=0.3009, simple_loss=0.3593, pruned_loss=0.1213, over 18228.00 frames. ], tot_loss[loss=0.2705, simple_loss=0.3345, pruned_loss=0.1033, over 3826244.02 frames. ], batch size: 84, lr: 1.34e-02, grad_scale: 4.0
+2023-04-01 08:27:13,643 INFO [train.py:903] (2/4) Epoch 6, batch 5500, loss[loss=0.2507, simple_loss=0.3152, pruned_loss=0.09311, over 19725.00 frames. ], tot_loss[loss=0.2722, simple_loss=0.3358, pruned_loss=0.1043, over 3829806.84 frames. ], batch size: 51, lr: 1.34e-02, grad_scale: 4.0
+2023-04-01 08:27:18,179 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.238e+02 6.796e+02 8.775e+02 1.086e+03 2.226e+03, threshold=1.755e+03, percent-clipped=13.0
+2023-04-01 08:27:20,742 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=39646.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:27:33,884 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39657.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 08:27:36,842 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 08:27:40,449 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=39662.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:28:00,341 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3836, 1.2210, 1.4843, 1.1755, 2.7669, 3.4816, 3.2331, 3.6837],
+       device='cuda:2'), covar=tensor([0.1355, 0.3043, 0.3002, 0.1804, 0.0377, 0.0140, 0.0218, 0.0138],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0284, 0.0316, 0.0246, 0.0198, 0.0128, 0.0201, 0.0152],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:28:14,675 INFO [train.py:903] (2/4) Epoch 6, batch 5550, loss[loss=0.2909, simple_loss=0.3493, pruned_loss=0.1163, over 19776.00 frames. ], tot_loss[loss=0.271, simple_loss=0.3347, pruned_loss=0.1037, over 3832631.82 frames. ], batch size: 56, lr: 1.34e-02, grad_scale: 4.0
+2023-04-01 08:28:21,837 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 08:29:11,950 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 08:29:15,361 INFO [train.py:903] (2/4) Epoch 6, batch 5600, loss[loss=0.2743, simple_loss=0.3446, pruned_loss=0.102, over 19775.00 frames. ], tot_loss[loss=0.2708, simple_loss=0.3345, pruned_loss=0.1036, over 3831900.29 frames. ], batch size: 56, lr: 1.34e-02, grad_scale: 8.0
+2023-04-01 08:29:20,719 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.863e+02 6.221e+02 7.656e+02 9.358e+02 1.388e+03, threshold=1.531e+03, percent-clipped=0.0
+2023-04-01 08:29:43,054 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=39761.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:30:12,423 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39785.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:30:19,682 INFO [train.py:903] (2/4) Epoch 6, batch 5650, loss[loss=0.2668, simple_loss=0.3252, pruned_loss=0.1042, over 19622.00 frames. ], tot_loss[loss=0.2708, simple_loss=0.3342, pruned_loss=0.1037, over 3836176.67 frames. ], batch size: 50, lr: 1.34e-02, grad_scale: 8.0
+2023-04-01 08:30:47,705 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2187, 1.4363, 1.8882, 1.5440, 3.4249, 2.5395, 3.5830, 1.2638],
+       device='cuda:2'), covar=tensor([0.1963, 0.3142, 0.1916, 0.1465, 0.1154, 0.1483, 0.1267, 0.3000],
+       device='cuda:2'), in_proj_covar=tensor([0.0444, 0.0519, 0.0506, 0.0409, 0.0565, 0.0449, 0.0630, 0.0454],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 08:31:02,188 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=39825.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:31:08,824 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 08:31:13,812 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=39833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:31:21,784 INFO [train.py:903] (2/4) Epoch 6, batch 5700, loss[loss=0.2331, simple_loss=0.301, pruned_loss=0.08263, over 19477.00 frames. ], tot_loss[loss=0.2675, simple_loss=0.3312, pruned_loss=0.1019, over 3838531.01 frames. ], batch size: 49, lr: 1.34e-02, grad_scale: 8.0
+2023-04-01 08:31:22,171 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1251, 1.1670, 1.5791, 0.9773, 2.5060, 2.8364, 2.7230, 3.2158],
+       device='cuda:2'), covar=tensor([0.1497, 0.3984, 0.3608, 0.2152, 0.0443, 0.0210, 0.0329, 0.0185],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0284, 0.0315, 0.0248, 0.0201, 0.0130, 0.0200, 0.0153],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:31:26,539 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.066e+02 6.807e+02 8.639e+02 1.032e+03 2.369e+03, threshold=1.728e+03, percent-clipped=2.0
+2023-04-01 08:31:57,164 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8703, 1.3453, 1.4644, 1.6993, 1.6797, 1.6106, 1.4836, 1.6862],
+       device='cuda:2'), covar=tensor([0.0862, 0.1473, 0.1384, 0.0989, 0.1108, 0.0536, 0.1086, 0.0715],
+       device='cuda:2'), in_proj_covar=tensor([0.0246, 0.0354, 0.0282, 0.0237, 0.0301, 0.0243, 0.0273, 0.0226],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:32:12,193 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.62 vs. limit=5.0
+2023-04-01 08:32:17,525 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2248, 3.9713, 2.1616, 2.5331, 3.4092, 1.8507, 1.4171, 1.9621],
+       device='cuda:2'), covar=tensor([0.0851, 0.0252, 0.0891, 0.0520, 0.0323, 0.0910, 0.0835, 0.0575],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0275, 0.0311, 0.0236, 0.0222, 0.0307, 0.0283, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:32:21,377 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.87 vs. limit=5.0
+2023-04-01 08:32:21,667 INFO [train.py:903] (2/4) Epoch 6, batch 5750, loss[loss=0.2759, simple_loss=0.3424, pruned_loss=0.1047, over 19345.00 frames. ], tot_loss[loss=0.269, simple_loss=0.3322, pruned_loss=0.103, over 3839178.36 frames. ], batch size: 66, lr: 1.34e-02, grad_scale: 8.0
+2023-04-01 08:32:23,990 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 08:32:30,905 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 08:32:35,621 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 08:32:52,585 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8412, 1.8526, 2.0953, 2.7534, 2.5264, 2.3195, 2.0568, 2.6648],
+       device='cuda:2'), covar=tensor([0.0696, 0.1729, 0.1247, 0.0918, 0.1274, 0.0425, 0.1032, 0.0563],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0355, 0.0283, 0.0238, 0.0303, 0.0243, 0.0273, 0.0229],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:32:58,465 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=39918.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:33:23,265 INFO [train.py:903] (2/4) Epoch 6, batch 5800, loss[loss=0.3458, simple_loss=0.3877, pruned_loss=0.1519, over 19678.00 frames. ], tot_loss[loss=0.2693, simple_loss=0.3325, pruned_loss=0.103, over 3830097.78 frames. ], batch size: 55, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:33:23,690 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=39940.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:33:28,288 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=39943.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:33:29,043 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.561e+02 6.519e+02 7.840e+02 9.394e+02 2.455e+03, threshold=1.568e+03, percent-clipped=4.0
+2023-04-01 08:34:01,395 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2117, 1.2124, 1.4760, 0.9678, 2.3813, 2.9954, 2.7036, 3.1822],
+       device='cuda:2'), covar=tensor([0.1417, 0.3046, 0.2948, 0.2089, 0.0443, 0.0210, 0.0235, 0.0154],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0284, 0.0314, 0.0248, 0.0201, 0.0130, 0.0200, 0.0153],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:34:26,991 INFO [train.py:903] (2/4) Epoch 6, batch 5850, loss[loss=0.2488, simple_loss=0.3105, pruned_loss=0.09359, over 19475.00 frames. ], tot_loss[loss=0.2712, simple_loss=0.3342, pruned_loss=0.1041, over 3795563.20 frames. ], batch size: 49, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:34:40,713 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40001.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 08:34:59,477 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40017.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:35:29,005 INFO [train.py:903] (2/4) Epoch 6, batch 5900, loss[loss=0.2762, simple_loss=0.3473, pruned_loss=0.1026, over 19791.00 frames. ], tot_loss[loss=0.2716, simple_loss=0.3347, pruned_loss=0.1042, over 3806197.41 frames. ], batch size: 56, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:35:31,456 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 08:35:31,778 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:35:33,716 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.177e+02 6.123e+02 7.695e+02 9.772e+02 2.844e+03, threshold=1.539e+03, percent-clipped=4.0
+2023-04-01 08:35:53,057 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 08:36:30,103 INFO [train.py:903] (2/4) Epoch 6, batch 5950, loss[loss=0.2905, simple_loss=0.3543, pruned_loss=0.1133, over 18253.00 frames. ], tot_loss[loss=0.2712, simple_loss=0.3347, pruned_loss=0.1038, over 3806034.50 frames. ], batch size: 83, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:37:03,223 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40116.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 08:37:18,131 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40129.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:37:30,836 INFO [train.py:903] (2/4) Epoch 6, batch 6000, loss[loss=0.2275, simple_loss=0.2938, pruned_loss=0.08063, over 19777.00 frames. ], tot_loss[loss=0.2723, simple_loss=0.3357, pruned_loss=0.1044, over 3794895.95 frames. ], batch size: 49, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:37:30,836 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 08:37:43,236 INFO [train.py:937] (2/4) Epoch 6, validation: loss=0.1955, simple_loss=0.2951, pruned_loss=0.04789, over 944034.00 frames. 
+2023-04-01 08:37:43,238 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18488MB
+2023-04-01 08:37:47,771 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.228e+02 6.298e+02 7.514e+02 9.544e+02 1.960e+03, threshold=1.503e+03, percent-clipped=1.0
+2023-04-01 08:38:29,642 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40177.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:38:44,846 INFO [train.py:903] (2/4) Epoch 6, batch 6050, loss[loss=0.3052, simple_loss=0.3577, pruned_loss=0.1264, over 19521.00 frames. ], tot_loss[loss=0.2702, simple_loss=0.3338, pruned_loss=0.1033, over 3805441.71 frames. ], batch size: 54, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:38:53,716 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40196.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:39:14,854 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40213.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:39:24,382 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40221.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:39:43,632 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40236.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:39:48,066 INFO [train.py:903] (2/4) Epoch 6, batch 6100, loss[loss=0.2933, simple_loss=0.36, pruned_loss=0.1133, over 19611.00 frames. ], tot_loss[loss=0.2695, simple_loss=0.3333, pruned_loss=0.1029, over 3815563.62 frames. ], batch size: 57, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:39:54,256 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.428e+02 6.367e+02 7.728e+02 1.144e+03 2.582e+03, threshold=1.546e+03, percent-clipped=10.0
+2023-04-01 08:39:54,676 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40244.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:40:51,267 INFO [train.py:903] (2/4) Epoch 6, batch 6150, loss[loss=0.2391, simple_loss=0.2987, pruned_loss=0.08973, over 14632.00 frames. ], tot_loss[loss=0.2694, simple_loss=0.333, pruned_loss=0.1029, over 3822668.46 frames. ], batch size: 32, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:40:51,609 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40290.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:40:54,024 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40292.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:41:19,456 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 08:41:52,311 INFO [train.py:903] (2/4) Epoch 6, batch 6200, loss[loss=0.324, simple_loss=0.368, pruned_loss=0.14, over 13468.00 frames. ], tot_loss[loss=0.2701, simple_loss=0.3335, pruned_loss=0.1033, over 3812214.30 frames. ], batch size: 136, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:41:57,219 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.101e+02 6.810e+02 8.218e+02 1.008e+03 2.334e+03, threshold=1.644e+03, percent-clipped=5.0
+2023-04-01 08:42:01,843 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40348.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:42:33,760 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40372.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 08:42:46,610 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3945, 1.3623, 1.9316, 1.5557, 3.0826, 2.4733, 3.1809, 1.6125],
+       device='cuda:2'), covar=tensor([0.1847, 0.3179, 0.1778, 0.1451, 0.1224, 0.1575, 0.1406, 0.2759],
+       device='cuda:2'), in_proj_covar=tensor([0.0449, 0.0522, 0.0506, 0.0410, 0.0566, 0.0454, 0.0632, 0.0458],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 08:42:54,274 INFO [train.py:903] (2/4) Epoch 6, batch 6250, loss[loss=0.244, simple_loss=0.3049, pruned_loss=0.09158, over 19607.00 frames. ], tot_loss[loss=0.2697, simple_loss=0.3335, pruned_loss=0.103, over 3809521.46 frames. ], batch size: 50, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:43:04,643 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40397.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 08:43:22,878 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4399, 2.4522, 1.8335, 1.9887, 1.8086, 2.1514, 1.0583, 1.9685],
+       device='cuda:2'), covar=tensor([0.0244, 0.0294, 0.0265, 0.0365, 0.0420, 0.0401, 0.0559, 0.0410],
+       device='cuda:2'), in_proj_covar=tensor([0.0294, 0.0299, 0.0295, 0.0312, 0.0384, 0.0309, 0.0283, 0.0297],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:43:27,279 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 08:43:58,139 INFO [train.py:903] (2/4) Epoch 6, batch 6300, loss[loss=0.2408, simple_loss=0.3056, pruned_loss=0.08799, over 19730.00 frames. ], tot_loss[loss=0.2686, simple_loss=0.3326, pruned_loss=0.1023, over 3820205.90 frames. ], batch size: 51, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:44:03,777 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.716e+02 6.389e+02 8.265e+02 1.061e+03 2.633e+03, threshold=1.653e+03, percent-clipped=7.0
+2023-04-01 08:44:16,518 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4448, 1.1831, 1.2039, 1.8192, 1.5503, 1.8082, 1.9200, 1.6296],
+       device='cuda:2'), covar=tensor([0.0896, 0.1066, 0.1204, 0.0843, 0.0923, 0.0725, 0.0881, 0.0696],
+       device='cuda:2'), in_proj_covar=tensor([0.0221, 0.0238, 0.0234, 0.0267, 0.0257, 0.0221, 0.0219, 0.0211],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 08:44:26,807 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4902, 1.4266, 1.9563, 1.5256, 2.8430, 4.5614, 4.5905, 4.9084],
+       device='cuda:2'), covar=tensor([0.1433, 0.3101, 0.2857, 0.1939, 0.0466, 0.0140, 0.0145, 0.0083],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0280, 0.0310, 0.0245, 0.0205, 0.0128, 0.0199, 0.0156],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:44:46,060 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-01 08:44:52,523 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-01 08:45:00,750 INFO [train.py:903] (2/4) Epoch 6, batch 6350, loss[loss=0.239, simple_loss=0.32, pruned_loss=0.07902, over 19533.00 frames. ], tot_loss[loss=0.2689, simple_loss=0.333, pruned_loss=0.1024, over 3812908.09 frames. ], batch size: 56, lr: 1.33e-02, grad_scale: 8.0
+2023-04-01 08:45:12,820 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40500.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:45:24,298 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40510.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:45:44,992 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40525.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:46:02,598 INFO [train.py:903] (2/4) Epoch 6, batch 6400, loss[loss=0.2755, simple_loss=0.3432, pruned_loss=0.1039, over 19557.00 frames. ], tot_loss[loss=0.2697, simple_loss=0.3336, pruned_loss=0.1029, over 3811676.87 frames. ], batch size: 61, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:46:07,241 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.716e+02 6.528e+02 8.039e+02 1.077e+03 1.980e+03, threshold=1.608e+03, percent-clipped=3.0
+2023-04-01 08:46:12,202 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:46:23,192 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40557.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:46:44,136 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-01 08:46:44,892 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40573.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:46:52,958 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40580.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:47:04,375 INFO [train.py:903] (2/4) Epoch 6, batch 6450, loss[loss=0.2645, simple_loss=0.332, pruned_loss=0.0985, over 19782.00 frames. ], tot_loss[loss=0.2683, simple_loss=0.3327, pruned_loss=0.102, over 3825806.73 frames. ], batch size: 56, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:47:20,596 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.03 vs. limit=2.0
+2023-04-01 08:47:46,823 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1168, 1.3053, 1.4141, 1.1647, 2.6107, 3.5945, 3.4483, 3.8373],
+       device='cuda:2'), covar=tensor([0.1531, 0.2947, 0.3062, 0.1989, 0.0461, 0.0149, 0.0188, 0.0124],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0282, 0.0312, 0.0246, 0.0204, 0.0129, 0.0200, 0.0155],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:47:50,031 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 08:47:59,688 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40634.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:48:07,625 INFO [train.py:903] (2/4) Epoch 6, batch 6500, loss[loss=0.2505, simple_loss=0.3185, pruned_loss=0.09127, over 19853.00 frames. ], tot_loss[loss=0.2689, simple_loss=0.3331, pruned_loss=0.1024, over 3815877.19 frames. ], batch size: 52, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:48:12,837 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
+2023-04-01 08:48:13,022 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.640e+02 6.039e+02 7.833e+02 1.001e+03 2.233e+03, threshold=1.567e+03, percent-clipped=5.0
+2023-04-01 08:48:15,443 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 08:48:44,353 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40669.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:48:47,963 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40672.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:49:12,727 INFO [train.py:903] (2/4) Epoch 6, batch 6550, loss[loss=0.2788, simple_loss=0.3452, pruned_loss=0.1062, over 17635.00 frames. ], tot_loss[loss=0.2685, simple_loss=0.3324, pruned_loss=0.1023, over 3807322.60 frames. ], batch size: 101, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:49:15,185 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40692.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:49:18,774 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40695.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:49:36,657 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-01 08:50:15,130 INFO [train.py:903] (2/4) Epoch 6, batch 6600, loss[loss=0.407, simple_loss=0.4276, pruned_loss=0.1931, over 19542.00 frames. ], tot_loss[loss=0.2694, simple_loss=0.3333, pruned_loss=0.1028, over 3805902.25 frames. ], batch size: 56, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:50:19,765 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.418e+02 6.030e+02 7.716e+02 9.913e+02 2.888e+03, threshold=1.543e+03, percent-clipped=3.0
+2023-04-01 08:50:26,098 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40749.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:50:26,203 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4032, 1.4515, 1.9441, 1.5495, 3.2662, 2.6692, 3.4139, 1.4369],
+       device='cuda:2'), covar=tensor([0.1824, 0.3019, 0.1747, 0.1471, 0.1141, 0.1439, 0.1439, 0.2912],
+       device='cuda:2'), in_proj_covar=tensor([0.0450, 0.0527, 0.0507, 0.0408, 0.0566, 0.0455, 0.0639, 0.0454],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 08:51:17,595 INFO [train.py:903] (2/4) Epoch 6, batch 6650, loss[loss=0.2892, simple_loss=0.3522, pruned_loss=0.113, over 19657.00 frames. ], tot_loss[loss=0.269, simple_loss=0.3332, pruned_loss=0.1024, over 3818500.23 frames. ], batch size: 60, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:51:40,497 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40807.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:52:19,361 INFO [train.py:903] (2/4) Epoch 6, batch 6700, loss[loss=0.2877, simple_loss=0.3528, pruned_loss=0.1113, over 19535.00 frames. ], tot_loss[loss=0.2699, simple_loss=0.3336, pruned_loss=0.103, over 3818360.94 frames. ], batch size: 56, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:52:24,133 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.981e+02 6.315e+02 8.385e+02 9.952e+02 2.559e+03, threshold=1.677e+03, percent-clipped=5.0
+2023-04-01 08:52:39,411 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=40854.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:53:13,370 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40883.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:53:21,366 INFO [train.py:903] (2/4) Epoch 6, batch 6750, loss[loss=0.2146, simple_loss=0.2788, pruned_loss=0.07515, over 19288.00 frames. ], tot_loss[loss=0.2684, simple_loss=0.3328, pruned_loss=0.1019, over 3826109.32 frames. ], batch size: 44, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:53:27,533 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3833, 2.1020, 1.6095, 1.5493, 2.0598, 1.1813, 1.1104, 1.6938],
+       device='cuda:2'), covar=tensor([0.0654, 0.0578, 0.0748, 0.0487, 0.0370, 0.0920, 0.0616, 0.0327],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0282, 0.0316, 0.0238, 0.0227, 0.0314, 0.0288, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:53:43,413 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2755, 2.1557, 1.7729, 1.7824, 1.5597, 1.7155, 0.3184, 1.1484],
+       device='cuda:2'), covar=tensor([0.0227, 0.0261, 0.0214, 0.0333, 0.0547, 0.0363, 0.0621, 0.0466],
+       device='cuda:2'), in_proj_covar=tensor([0.0297, 0.0304, 0.0300, 0.0322, 0.0394, 0.0318, 0.0292, 0.0308],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 08:53:53,182 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=40918.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:54:04,523 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40928.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:54:17,529 INFO [train.py:903] (2/4) Epoch 6, batch 6800, loss[loss=0.2628, simple_loss=0.3303, pruned_loss=0.09766, over 19681.00 frames. ], tot_loss[loss=0.2679, simple_loss=0.3328, pruned_loss=0.1015, over 3837322.96 frames. ], batch size: 60, lr: 1.32e-02, grad_scale: 8.0
+2023-04-01 08:54:23,021 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.567e+02 5.879e+02 7.609e+02 1.019e+03 2.150e+03, threshold=1.522e+03, percent-clipped=4.0
+2023-04-01 08:54:31,375 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=40951.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:54:33,675 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40953.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:55:04,918 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 08:55:06,579 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 08:55:08,785 INFO [train.py:903] (2/4) Epoch 7, batch 0, loss[loss=0.22, simple_loss=0.289, pruned_loss=0.07551, over 19764.00 frames. ], tot_loss[loss=0.22, simple_loss=0.289, pruned_loss=0.07551, over 19764.00 frames. ], batch size: 47, lr: 1.24e-02, grad_scale: 8.0
+2023-04-01 08:55:08,786 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 08:55:20,419 INFO [train.py:937] (2/4) Epoch 7, validation: loss=0.1957, simple_loss=0.2957, pruned_loss=0.04779, over 944034.00 frames. 
+2023-04-01 08:55:20,422 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18488MB
+2023-04-01 08:55:22,002 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=40969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:55:30,922 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=40976.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:55:32,938 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 08:55:40,133 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0434, 2.0332, 1.9257, 3.0111, 1.9818, 2.6795, 2.7045, 1.8510],
+       device='cuda:2'), covar=tensor([0.2334, 0.1884, 0.0968, 0.1070, 0.2269, 0.0831, 0.1794, 0.1714],
+       device='cuda:2'), in_proj_covar=tensor([0.0682, 0.0675, 0.0584, 0.0829, 0.0702, 0.0591, 0.0726, 0.0625],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 08:56:04,743 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41005.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:56:16,005 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41013.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:56:19,142 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41015.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:56:22,014 INFO [train.py:903] (2/4) Epoch 7, batch 50, loss[loss=0.3199, simple_loss=0.3742, pruned_loss=0.1328, over 19633.00 frames. ], tot_loss[loss=0.2726, simple_loss=0.336, pruned_loss=0.1046, over 863620.64 frames. ], batch size: 57, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 08:56:36,202 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41030.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:56:51,947 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.786e+02 6.089e+02 7.435e+02 1.027e+03 3.072e+03, threshold=1.487e+03, percent-clipped=7.0
+2023-04-01 08:56:56,507 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 08:57:18,018 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41063.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:57:18,172 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41063.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:57:23,458 INFO [train.py:903] (2/4) Epoch 7, batch 100, loss[loss=0.2304, simple_loss=0.2974, pruned_loss=0.08166, over 19745.00 frames. ], tot_loss[loss=0.2681, simple_loss=0.3323, pruned_loss=0.102, over 1522101.48 frames. ], batch size: 47, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 08:57:34,751 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 08:57:41,751 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.7421, 1.3089, 1.0238, 0.8270, 1.1652, 0.8482, 0.6574, 1.2728],
+       device='cuda:2'), covar=tensor([0.0494, 0.0503, 0.0794, 0.0449, 0.0373, 0.0877, 0.0514, 0.0278],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0279, 0.0313, 0.0237, 0.0226, 0.0308, 0.0282, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 08:57:46,218 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41088.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:58:24,488 INFO [train.py:903] (2/4) Epoch 7, batch 150, loss[loss=0.2416, simple_loss=0.3036, pruned_loss=0.08976, over 19030.00 frames. ], tot_loss[loss=0.2685, simple_loss=0.3327, pruned_loss=0.1022, over 2025208.11 frames. ], batch size: 42, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 08:58:26,870 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41120.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:58:36,387 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 08:58:56,747 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.181e+02 6.219e+02 8.190e+02 1.094e+03 2.901e+03, threshold=1.638e+03, percent-clipped=4.0
+2023-04-01 08:59:22,647 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 08:59:23,719 INFO [train.py:903] (2/4) Epoch 7, batch 200, loss[loss=0.2778, simple_loss=0.3464, pruned_loss=0.1046, over 19661.00 frames. ], tot_loss[loss=0.271, simple_loss=0.3344, pruned_loss=0.1038, over 2417100.99 frames. ], batch size: 60, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 08:59:44,606 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-01 09:00:18,742 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5330, 1.2196, 1.4864, 1.2291, 2.2216, 0.8700, 1.9274, 2.1653],
+       device='cuda:2'), covar=tensor([0.0562, 0.2320, 0.2216, 0.1372, 0.0785, 0.1866, 0.0841, 0.0563],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0317, 0.0321, 0.0297, 0.0321, 0.0314, 0.0294, 0.0312],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:00:27,761 INFO [train.py:903] (2/4) Epoch 7, batch 250, loss[loss=0.2563, simple_loss=0.329, pruned_loss=0.09184, over 19582.00 frames. ], tot_loss[loss=0.2704, simple_loss=0.334, pruned_loss=0.1034, over 2734683.94 frames. ], batch size: 61, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:00:37,996 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41225.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:00:40,029 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41227.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:00:59,441 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.194e+02 6.866e+02 8.894e+02 1.080e+03 3.290e+03, threshold=1.779e+03, percent-clipped=6.0
+2023-04-01 09:01:06,582 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:01:06,858 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.18 vs. limit=5.0
+2023-04-01 09:01:23,879 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41262.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:01:30,755 INFO [train.py:903] (2/4) Epoch 7, batch 300, loss[loss=0.206, simple_loss=0.2889, pruned_loss=0.06155, over 19752.00 frames. ], tot_loss[loss=0.2684, simple_loss=0.3329, pruned_loss=0.102, over 2971787.40 frames. ], batch size: 51, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:02:31,489 INFO [train.py:903] (2/4) Epoch 7, batch 350, loss[loss=0.2303, simple_loss=0.2957, pruned_loss=0.08251, over 19806.00 frames. ], tot_loss[loss=0.2669, simple_loss=0.3312, pruned_loss=0.1013, over 3167463.32 frames. ], batch size: 48, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:02:34,002 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 09:03:02,008 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41342.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:03:04,942 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.733e+02 5.797e+02 7.460e+02 9.435e+02 2.818e+03, threshold=1.492e+03, percent-clipped=3.0
+2023-04-01 09:03:22,770 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41359.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:03:32,954 INFO [train.py:903] (2/4) Epoch 7, batch 400, loss[loss=0.3295, simple_loss=0.3823, pruned_loss=0.1384, over 13498.00 frames. ], tot_loss[loss=0.2644, simple_loss=0.329, pruned_loss=0.09984, over 3288786.53 frames. ], batch size: 136, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:03:44,417 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41377.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:03:54,264 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41384.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:04:20,756 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41407.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:04:23,223 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41409.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:04:29,234 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3355, 1.5060, 2.0914, 1.6406, 3.2863, 2.7205, 3.4712, 1.4809],
+       device='cuda:2'), covar=tensor([0.1844, 0.3133, 0.1797, 0.1391, 0.1165, 0.1396, 0.1409, 0.2779],
+       device='cuda:2'), in_proj_covar=tensor([0.0452, 0.0523, 0.0510, 0.0409, 0.0561, 0.0455, 0.0631, 0.0456],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 09:04:34,728 INFO [train.py:903] (2/4) Epoch 7, batch 450, loss[loss=0.2554, simple_loss=0.3341, pruned_loss=0.08833, over 19790.00 frames. ], tot_loss[loss=0.2641, simple_loss=0.3294, pruned_loss=0.09946, over 3411636.59 frames. ], batch size: 56, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:05:02,696 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 09:05:03,841 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 09:05:06,101 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.663e+02 5.824e+02 7.719e+02 9.807e+02 3.448e+03, threshold=1.544e+03, percent-clipped=7.0
+2023-04-01 09:05:31,578 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=41464.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:05:37,396 INFO [train.py:903] (2/4) Epoch 7, batch 500, loss[loss=0.2288, simple_loss=0.296, pruned_loss=0.08073, over 19765.00 frames. ], tot_loss[loss=0.2634, simple_loss=0.3285, pruned_loss=0.09918, over 3513435.12 frames. ], batch size: 45, lr: 1.23e-02, grad_scale: 16.0
+2023-04-01 09:05:44,936 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41474.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:06:38,626 INFO [train.py:903] (2/4) Epoch 7, batch 550, loss[loss=0.2427, simple_loss=0.3283, pruned_loss=0.07852, over 19730.00 frames. ], tot_loss[loss=0.2637, simple_loss=0.329, pruned_loss=0.09919, over 3581634.47 frames. ], batch size: 63, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:06:43,743 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41522.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:07:09,841 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.859e+02 6.032e+02 7.411e+02 9.275e+02 1.625e+03, threshold=1.482e+03, percent-clipped=1.0
+2023-04-01 09:07:37,925 INFO [train.py:903] (2/4) Epoch 7, batch 600, loss[loss=0.2137, simple_loss=0.2873, pruned_loss=0.07004, over 19390.00 frames. ], tot_loss[loss=0.2645, simple_loss=0.3297, pruned_loss=0.09965, over 3631990.77 frames. ], batch size: 48, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:07:50,879 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=41579.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:08:13,414 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 09:08:16,203 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41598.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:08:39,323 INFO [train.py:903] (2/4) Epoch 7, batch 650, loss[loss=0.2388, simple_loss=0.3112, pruned_loss=0.08318, over 19761.00 frames. ], tot_loss[loss=0.2642, simple_loss=0.3291, pruned_loss=0.09968, over 3669279.63 frames. ], batch size: 54, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:08:45,340 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41623.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:09:00,397 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41633.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:09:13,512 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.335e+02 5.719e+02 7.418e+02 1.065e+03 4.334e+03, threshold=1.484e+03, percent-clipped=7.0
+2023-04-01 09:09:28,637 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41658.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:09:40,772 INFO [train.py:903] (2/4) Epoch 7, batch 700, loss[loss=0.2348, simple_loss=0.3116, pruned_loss=0.07895, over 19590.00 frames. ], tot_loss[loss=0.2638, simple_loss=0.3288, pruned_loss=0.09938, over 3701121.10 frames. ], batch size: 61, lr: 1.23e-02, grad_scale: 8.0
+2023-04-01 09:09:48,592 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41672.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:10:30,223 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-01 09:10:45,014 INFO [train.py:903] (2/4) Epoch 7, batch 750, loss[loss=0.2136, simple_loss=0.2887, pruned_loss=0.06927, over 19722.00 frames. ], tot_loss[loss=0.2646, simple_loss=0.33, pruned_loss=0.09967, over 3720560.26 frames. ], batch size: 51, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:10:47,635 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2611, 2.9724, 1.8653, 2.7752, 1.0027, 2.8546, 2.7061, 2.8089],
+       device='cuda:2'), covar=tensor([0.1087, 0.1356, 0.2293, 0.0926, 0.3584, 0.0983, 0.0950, 0.1129],
+       device='cuda:2'), in_proj_covar=tensor([0.0378, 0.0334, 0.0378, 0.0300, 0.0356, 0.0312, 0.0304, 0.0338],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 09:10:59,397 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41730.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:11:15,967 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.723e+02 5.751e+02 6.886e+02 8.721e+02 1.519e+03, threshold=1.377e+03, percent-clipped=2.0
+2023-04-01 09:11:31,828 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41755.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:11:46,758 INFO [train.py:903] (2/4) Epoch 7, batch 800, loss[loss=0.2459, simple_loss=0.3212, pruned_loss=0.08529, over 19539.00 frames. ], tot_loss[loss=0.2648, simple_loss=0.3301, pruned_loss=0.09974, over 3748428.63 frames. ], batch size: 54, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:11:56,193 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 09:11:58,734 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41778.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:12:09,723 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
+2023-04-01 09:12:31,079 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41803.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:12:48,123 INFO [train.py:903] (2/4) Epoch 7, batch 850, loss[loss=0.2502, simple_loss=0.3295, pruned_loss=0.08543, over 19773.00 frames. ], tot_loss[loss=0.264, simple_loss=0.3299, pruned_loss=0.09908, over 3777282.05 frames. ], batch size: 56, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:13:10,276 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=41835.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:13:23,188 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.000e+02 6.514e+02 8.083e+02 9.646e+02 1.896e+03, threshold=1.617e+03, percent-clipped=5.0
+2023-04-01 09:13:38,278 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 09:13:40,955 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=41860.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:13:50,190 INFO [train.py:903] (2/4) Epoch 7, batch 900, loss[loss=0.2427, simple_loss=0.3162, pruned_loss=0.08465, over 19579.00 frames. ], tot_loss[loss=0.2629, simple_loss=0.3288, pruned_loss=0.09848, over 3789960.84 frames. ], batch size: 57, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:14:50,887 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2891, 3.8522, 2.4636, 3.4413, 1.3246, 3.4925, 3.5839, 3.6957],
+       device='cuda:2'), covar=tensor([0.0648, 0.1080, 0.1829, 0.0775, 0.3387, 0.0794, 0.0768, 0.0906],
+       device='cuda:2'), in_proj_covar=tensor([0.0374, 0.0328, 0.0378, 0.0297, 0.0351, 0.0309, 0.0301, 0.0334],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 09:14:51,585 INFO [train.py:903] (2/4) Epoch 7, batch 950, loss[loss=0.2801, simple_loss=0.3463, pruned_loss=0.1069, over 19605.00 frames. ], tot_loss[loss=0.2627, simple_loss=0.3288, pruned_loss=0.09824, over 3802855.18 frames. ], batch size: 57, lr: 1.22e-02, grad_scale: 4.0
+2023-04-01 09:14:55,104 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 09:15:01,483 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41924.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:15:02,871 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4286, 2.3334, 1.6260, 1.5468, 2.2254, 1.0708, 1.2451, 1.8561],
+       device='cuda:2'), covar=tensor([0.0677, 0.0492, 0.0827, 0.0512, 0.0339, 0.1011, 0.0604, 0.0335],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0280, 0.0310, 0.0237, 0.0223, 0.0305, 0.0287, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:15:26,245 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.318e+02 6.505e+02 7.519e+02 9.487e+02 1.757e+03, threshold=1.504e+03, percent-clipped=1.0
+2023-04-01 09:15:53,989 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=41966.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 09:15:55,890 INFO [train.py:903] (2/4) Epoch 7, batch 1000, loss[loss=0.2596, simple_loss=0.3337, pruned_loss=0.09274, over 19283.00 frames. ], tot_loss[loss=0.2607, simple_loss=0.3269, pruned_loss=0.09722, over 3810964.69 frames. ], batch size: 66, lr: 1.22e-02, grad_scale: 4.0
+2023-04-01 09:16:22,295 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.51 vs. limit=2.0
+2023-04-01 09:16:37,831 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.62 vs. limit=5.0
+2023-04-01 09:16:46,614 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3536, 1.2345, 1.6677, 1.2402, 2.7959, 3.5638, 3.4301, 3.9271],
+       device='cuda:2'), covar=tensor([0.1437, 0.3063, 0.2822, 0.1954, 0.0414, 0.0164, 0.0185, 0.0118],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0278, 0.0307, 0.0244, 0.0200, 0.0132, 0.0199, 0.0155],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 09:16:48,570 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 09:16:56,967 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=42016.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:16:59,086 INFO [train.py:903] (2/4) Epoch 7, batch 1050, loss[loss=0.2341, simple_loss=0.2967, pruned_loss=0.08578, over 19730.00 frames. ], tot_loss[loss=0.2611, simple_loss=0.3272, pruned_loss=0.09747, over 3809268.47 frames. ], batch size: 46, lr: 1.22e-02, grad_scale: 4.0
+2023-04-01 09:17:18,807 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.11 vs. limit=2.0
+2023-04-01 09:17:29,387 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 09:17:33,748 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.193e+02 5.894e+02 7.129e+02 9.584e+02 2.561e+03, threshold=1.426e+03, percent-clipped=5.0
+2023-04-01 09:18:00,566 INFO [train.py:903] (2/4) Epoch 7, batch 1100, loss[loss=0.2997, simple_loss=0.3613, pruned_loss=0.1191, over 19550.00 frames. ], tot_loss[loss=0.2614, simple_loss=0.3275, pruned_loss=0.09769, over 3822311.93 frames. ], batch size: 56, lr: 1.22e-02, grad_scale: 4.0
+2023-04-01 09:19:03,370 INFO [train.py:903] (2/4) Epoch 7, batch 1150, loss[loss=0.281, simple_loss=0.3485, pruned_loss=0.1068, over 19648.00 frames. ], tot_loss[loss=0.2611, simple_loss=0.3271, pruned_loss=0.09757, over 3818146.42 frames. ], batch size: 58, lr: 1.22e-02, grad_scale: 4.0
+2023-04-01 09:19:21,142 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=42131.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:19:33,556 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2869, 2.2551, 1.6777, 1.4552, 2.1734, 1.2836, 1.1983, 1.7956],
+       device='cuda:2'), covar=tensor([0.0710, 0.0533, 0.0805, 0.0593, 0.0322, 0.0932, 0.0651, 0.0338],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0281, 0.0313, 0.0237, 0.0226, 0.0308, 0.0289, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:19:37,737 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.517e+02 5.892e+02 7.369e+02 1.011e+03 1.805e+03, threshold=1.474e+03, percent-clipped=4.0
+2023-04-01 09:19:51,780 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2811, 2.2310, 1.6057, 1.5356, 2.0931, 1.2031, 1.3288, 1.6818],
+       device='cuda:2'), covar=tensor([0.0691, 0.0481, 0.0707, 0.0480, 0.0357, 0.0874, 0.0534, 0.0341],
+       device='cuda:2'), in_proj_covar=tensor([0.0280, 0.0280, 0.0313, 0.0237, 0.0225, 0.0308, 0.0287, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:20:05,771 INFO [train.py:903] (2/4) Epoch 7, batch 1200, loss[loss=0.2714, simple_loss=0.3384, pruned_loss=0.1021, over 17975.00 frames. ], tot_loss[loss=0.2615, simple_loss=0.3273, pruned_loss=0.09789, over 3821490.11 frames. ], batch size: 83, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:20:29,764 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2972, 2.3984, 1.7305, 1.5380, 2.2676, 1.2437, 1.2799, 1.7284],
+       device='cuda:2'), covar=tensor([0.0758, 0.0475, 0.0840, 0.0580, 0.0382, 0.0943, 0.0642, 0.0413],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0280, 0.0314, 0.0238, 0.0226, 0.0309, 0.0288, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:20:30,627 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 09:21:08,029 INFO [train.py:903] (2/4) Epoch 7, batch 1250, loss[loss=0.2537, simple_loss=0.3147, pruned_loss=0.09638, over 19775.00 frames. ], tot_loss[loss=0.2619, simple_loss=0.3274, pruned_loss=0.0982, over 3817896.68 frames. ], batch size: 47, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:21:43,463 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.288e+02 6.237e+02 7.824e+02 1.034e+03 2.254e+03, threshold=1.565e+03, percent-clipped=6.0
+2023-04-01 09:22:09,630 INFO [train.py:903] (2/4) Epoch 7, batch 1300, loss[loss=0.3144, simple_loss=0.3632, pruned_loss=0.1328, over 13316.00 frames. ], tot_loss[loss=0.2609, simple_loss=0.3266, pruned_loss=0.09757, over 3810730.36 frames. ], batch size: 136, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:22:09,797 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=42268.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:23:02,528 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=42310.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 09:23:12,311 INFO [train.py:903] (2/4) Epoch 7, batch 1350, loss[loss=0.3392, simple_loss=0.3775, pruned_loss=0.1504, over 12782.00 frames. ], tot_loss[loss=0.2631, simple_loss=0.3284, pruned_loss=0.09886, over 3791397.13 frames. ], batch size: 136, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:23:20,418 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9356, 2.4775, 1.8321, 1.9469, 2.2680, 1.6425, 1.5250, 1.7907],
+       device='cuda:2'), covar=tensor([0.0683, 0.0570, 0.0586, 0.0443, 0.0396, 0.0662, 0.0628, 0.0464],
+       device='cuda:2'), in_proj_covar=tensor([0.0280, 0.0282, 0.0314, 0.0241, 0.0228, 0.0309, 0.0290, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:23:47,360 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.606e+02 6.578e+02 7.819e+02 1.024e+03 2.032e+03, threshold=1.564e+03, percent-clipped=3.0
+2023-04-01 09:24:15,696 INFO [train.py:903] (2/4) Epoch 7, batch 1400, loss[loss=0.2276, simple_loss=0.2889, pruned_loss=0.08311, over 19766.00 frames. ], tot_loss[loss=0.2625, simple_loss=0.3286, pruned_loss=0.09826, over 3804676.32 frames. ], batch size: 45, lr: 1.22e-02, grad_scale: 8.0
+2023-04-01 09:24:34,411 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=42383.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:24:39,185 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42387.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:24:50,702 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42397.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:25:10,391 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=42412.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:25:12,409 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 09:25:17,932 INFO [train.py:903] (2/4) Epoch 7, batch 1450, loss[loss=0.2878, simple_loss=0.3561, pruned_loss=0.1098, over 19732.00 frames. ], tot_loss[loss=0.2612, simple_loss=0.3277, pruned_loss=0.0973, over 3813495.55 frames. ], batch size: 63, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:25:26,464 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=42425.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 09:25:53,249 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.957e+02 5.854e+02 7.466e+02 9.791e+02 2.115e+03, threshold=1.493e+03, percent-clipped=4.0
+2023-04-01 09:25:56,891 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9708, 4.3881, 4.6328, 4.6643, 1.4712, 4.2893, 3.7944, 4.2818],
+       device='cuda:2'), covar=tensor([0.1192, 0.0629, 0.0563, 0.0442, 0.5050, 0.0463, 0.0629, 0.1080],
+       device='cuda:2'), in_proj_covar=tensor([0.0584, 0.0505, 0.0685, 0.0569, 0.0644, 0.0434, 0.0438, 0.0635],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 09:26:19,588 INFO [train.py:903] (2/4) Epoch 7, batch 1500, loss[loss=0.217, simple_loss=0.2894, pruned_loss=0.07233, over 19716.00 frames. ], tot_loss[loss=0.262, simple_loss=0.3283, pruned_loss=0.0978, over 3796168.25 frames. ], batch size: 51, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:27:20,486 INFO [train.py:903] (2/4) Epoch 7, batch 1550, loss[loss=0.3072, simple_loss=0.3667, pruned_loss=0.1238, over 18880.00 frames. ], tot_loss[loss=0.2642, simple_loss=0.3297, pruned_loss=0.09932, over 3802346.83 frames. ], batch size: 74, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:27:29,147 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42524.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:27:55,723 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.300e+02 6.427e+02 8.071e+02 9.919e+02 2.182e+03, threshold=1.614e+03, percent-clipped=7.0
+2023-04-01 09:28:00,622 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1412, 1.2253, 1.0706, 0.9542, 0.9169, 1.0437, 0.0382, 0.2959],
+       device='cuda:2'), covar=tensor([0.0468, 0.0460, 0.0277, 0.0326, 0.0913, 0.0376, 0.0763, 0.0732],
+       device='cuda:2'), in_proj_covar=tensor([0.0299, 0.0302, 0.0297, 0.0324, 0.0389, 0.0316, 0.0287, 0.0300],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 09:28:23,012 INFO [train.py:903] (2/4) Epoch 7, batch 1600, loss[loss=0.2636, simple_loss=0.3197, pruned_loss=0.1038, over 19456.00 frames. ], tot_loss[loss=0.2641, simple_loss=0.3297, pruned_loss=0.09927, over 3808329.38 frames. ], batch size: 49, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:28:41,292 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 09:29:24,660 INFO [train.py:903] (2/4) Epoch 7, batch 1650, loss[loss=0.2346, simple_loss=0.3096, pruned_loss=0.07976, over 19764.00 frames. ], tot_loss[loss=0.2644, simple_loss=0.3299, pruned_loss=0.09941, over 3821146.49 frames. ], batch size: 54, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:29:50,189 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42639.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:29:59,743 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.059e+02 6.175e+02 7.945e+02 9.824e+02 2.630e+03, threshold=1.589e+03, percent-clipped=4.0
+2023-04-01 09:30:13,940 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0049, 1.9182, 1.4137, 1.3828, 1.3747, 1.5053, 0.1837, 0.8557],
+       device='cuda:2'), covar=tensor([0.0277, 0.0313, 0.0257, 0.0344, 0.0622, 0.0381, 0.0629, 0.0529],
+       device='cuda:2'), in_proj_covar=tensor([0.0300, 0.0308, 0.0302, 0.0328, 0.0396, 0.0324, 0.0290, 0.0305],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 09:30:23,135 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=42664.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:30:26,368 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42667.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:30:27,193 INFO [train.py:903] (2/4) Epoch 7, batch 1700, loss[loss=0.2443, simple_loss=0.3296, pruned_loss=0.07952, over 19620.00 frames. ], tot_loss[loss=0.2652, simple_loss=0.3306, pruned_loss=0.09992, over 3803023.23 frames. ], batch size: 57, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:30:43,956 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=42681.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 09:30:47,446 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9873, 1.8860, 1.6240, 1.5852, 1.5344, 1.7083, 0.8434, 1.4476],
+       device='cuda:2'), covar=tensor([0.0227, 0.0328, 0.0218, 0.0299, 0.0468, 0.0374, 0.0550, 0.0396],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0309, 0.0304, 0.0329, 0.0398, 0.0324, 0.0291, 0.0307],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 09:31:02,725 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 09:31:15,474 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=42706.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 09:31:29,082 INFO [train.py:903] (2/4) Epoch 7, batch 1750, loss[loss=0.2189, simple_loss=0.2809, pruned_loss=0.07841, over 19749.00 frames. ], tot_loss[loss=0.2645, simple_loss=0.3301, pruned_loss=0.09944, over 3811170.39 frames. ], batch size: 46, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:31:50,159 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-01 09:31:59,543 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=42741.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:32:05,277 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.512e+02 5.682e+02 7.177e+02 9.179e+02 1.731e+03, threshold=1.435e+03, percent-clipped=1.0
+2023-04-01 09:32:14,018 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2595, 1.3370, 2.0094, 1.5649, 2.9819, 2.6444, 3.2724, 1.5809],
+       device='cuda:2'), covar=tensor([0.2139, 0.3562, 0.2070, 0.1597, 0.1496, 0.1603, 0.1620, 0.3049],
+       device='cuda:2'), in_proj_covar=tensor([0.0455, 0.0520, 0.0517, 0.0412, 0.0568, 0.0459, 0.0632, 0.0458],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 09:32:32,517 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2244, 1.3658, 1.4312, 1.4479, 2.6650, 1.0027, 1.9339, 2.9111],
+       device='cuda:2'), covar=tensor([0.0520, 0.2525, 0.2378, 0.1658, 0.0879, 0.2470, 0.1235, 0.0463],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0315, 0.0323, 0.0292, 0.0321, 0.0316, 0.0295, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:32:33,267 INFO [train.py:903] (2/4) Epoch 7, batch 1800, loss[loss=0.2608, simple_loss=0.3145, pruned_loss=0.1035, over 19749.00 frames. ], tot_loss[loss=0.264, simple_loss=0.3298, pruned_loss=0.09915, over 3808013.42 frames. ], batch size: 48, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:33:24,464 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8215, 0.7350, 0.7863, 1.0071, 0.7923, 0.8758, 0.9365, 0.8318],
+       device='cuda:2'), covar=tensor([0.0612, 0.0752, 0.0799, 0.0535, 0.0675, 0.0599, 0.0678, 0.0568],
+       device='cuda:2'), in_proj_covar=tensor([0.0224, 0.0239, 0.0237, 0.0269, 0.0257, 0.0222, 0.0218, 0.0215],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 09:33:27,625 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 09:33:35,068 INFO [train.py:903] (2/4) Epoch 7, batch 1850, loss[loss=0.3074, simple_loss=0.3452, pruned_loss=0.1348, over 19732.00 frames. ], tot_loss[loss=0.2644, simple_loss=0.3299, pruned_loss=0.09943, over 3817580.71 frames. ], batch size: 46, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:34:04,806 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 09:34:09,006 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.550e+02 6.596e+02 7.909e+02 1.066e+03 2.536e+03, threshold=1.582e+03, percent-clipped=10.0
+2023-04-01 09:34:22,466 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=42856.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:34:25,535 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
+2023-04-01 09:34:37,132 INFO [train.py:903] (2/4) Epoch 7, batch 1900, loss[loss=0.2551, simple_loss=0.3093, pruned_loss=0.1005, over 19748.00 frames. ], tot_loss[loss=0.264, simple_loss=0.3298, pruned_loss=0.09917, over 3828697.75 frames. ], batch size: 47, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:34:37,304 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=42868.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:34:44,633 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2906, 2.8945, 1.7990, 2.1034, 1.8311, 2.4340, 0.5260, 2.1159],
+       device='cuda:2'), covar=tensor([0.0295, 0.0330, 0.0455, 0.0542, 0.0687, 0.0488, 0.0819, 0.0628],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0309, 0.0306, 0.0328, 0.0399, 0.0322, 0.0292, 0.0307],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 09:34:48,059 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42877.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:34:51,109 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 09:34:52,507 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9840, 4.3334, 4.6529, 4.6606, 1.6161, 4.3392, 3.7639, 4.2181],
+       device='cuda:2'), covar=tensor([0.1179, 0.0654, 0.0559, 0.0476, 0.4710, 0.0411, 0.0575, 0.1128],
+       device='cuda:2'), in_proj_covar=tensor([0.0577, 0.0499, 0.0684, 0.0560, 0.0638, 0.0429, 0.0434, 0.0639],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 09:34:55,765 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 09:35:14,081 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=42897.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:35:21,945 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 09:35:38,564 INFO [train.py:903] (2/4) Epoch 7, batch 1950, loss[loss=0.22, simple_loss=0.2953, pruned_loss=0.07234, over 19497.00 frames. ], tot_loss[loss=0.2637, simple_loss=0.3298, pruned_loss=0.09883, over 3834721.54 frames. ], batch size: 49, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:35:44,714 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5967, 2.6160, 1.7049, 1.7012, 2.2416, 1.2266, 1.3544, 1.6700],
+       device='cuda:2'), covar=tensor([0.0729, 0.0385, 0.0862, 0.0537, 0.0398, 0.0983, 0.0589, 0.0415],
+       device='cuda:2'), in_proj_covar=tensor([0.0283, 0.0282, 0.0320, 0.0243, 0.0227, 0.0316, 0.0289, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:35:49,491 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-01 09:36:15,249 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.499e+02 6.682e+02 8.244e+02 9.665e+02 2.689e+03, threshold=1.649e+03, percent-clipped=3.0
+2023-04-01 09:36:41,128 INFO [train.py:903] (2/4) Epoch 7, batch 2000, loss[loss=0.2499, simple_loss=0.3304, pruned_loss=0.08471, over 19709.00 frames. ], tot_loss[loss=0.2644, simple_loss=0.3306, pruned_loss=0.09914, over 3838620.25 frames. ], batch size: 59, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:37:00,298 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=42983.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:37:35,131 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43011.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:37:36,094 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 09:37:37,949 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.96 vs. limit=2.0
+2023-04-01 09:37:43,657 INFO [train.py:903] (2/4) Epoch 7, batch 2050, loss[loss=0.255, simple_loss=0.3252, pruned_loss=0.09241, over 19529.00 frames. ], tot_loss[loss=0.2645, simple_loss=0.3303, pruned_loss=0.09934, over 3833099.60 frames. ], batch size: 54, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:37:56,206 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 09:37:57,397 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 09:38:05,042 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1791, 2.0245, 1.4799, 1.2475, 1.8356, 1.0468, 1.0321, 1.5808],
+       device='cuda:2'), covar=tensor([0.0668, 0.0513, 0.0851, 0.0580, 0.0420, 0.0967, 0.0605, 0.0361],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0279, 0.0313, 0.0239, 0.0223, 0.0310, 0.0282, 0.0250],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:38:17,409 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.956e+02 6.149e+02 7.669e+02 9.586e+02 2.177e+03, threshold=1.534e+03, percent-clipped=1.0
+2023-04-01 09:38:18,633 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 09:38:46,703 INFO [train.py:903] (2/4) Epoch 7, batch 2100, loss[loss=0.2546, simple_loss=0.3222, pruned_loss=0.09351, over 19735.00 frames. ], tot_loss[loss=0.2639, simple_loss=0.3299, pruned_loss=0.0989, over 3836475.69 frames. ], batch size: 51, lr: 1.21e-02, grad_scale: 8.0
+2023-04-01 09:39:13,047 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 09:39:35,494 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 09:39:41,485 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=43112.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:39:46,457 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.57 vs. limit=5.0
+2023-04-01 09:39:48,070 INFO [train.py:903] (2/4) Epoch 7, batch 2150, loss[loss=0.2843, simple_loss=0.35, pruned_loss=0.1093, over 19318.00 frames. ], tot_loss[loss=0.2636, simple_loss=0.3294, pruned_loss=0.09889, over 3840750.54 frames. ], batch size: 66, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:39:57,665 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43126.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:40:12,353 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43137.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:40:23,160 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.978e+02 6.527e+02 7.673e+02 9.951e+02 2.226e+03, threshold=1.535e+03, percent-clipped=3.0
+2023-04-01 09:40:49,522 INFO [train.py:903] (2/4) Epoch 7, batch 2200, loss[loss=0.2901, simple_loss=0.3648, pruned_loss=0.1077, over 19672.00 frames. ], tot_loss[loss=0.2642, simple_loss=0.3302, pruned_loss=0.09916, over 3830712.40 frames. ], batch size: 59, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:40:59,680 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
+2023-04-01 09:41:37,677 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7539, 4.2266, 4.4139, 4.3695, 1.4594, 4.0842, 3.6589, 4.0773],
+       device='cuda:2'), covar=tensor([0.1051, 0.0568, 0.0470, 0.0479, 0.4286, 0.0440, 0.0539, 0.0955],
+       device='cuda:2'), in_proj_covar=tensor([0.0568, 0.0496, 0.0667, 0.0552, 0.0631, 0.0423, 0.0428, 0.0626],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 09:41:53,423 INFO [train.py:903] (2/4) Epoch 7, batch 2250, loss[loss=0.3648, simple_loss=0.3945, pruned_loss=0.1676, over 13152.00 frames. ], tot_loss[loss=0.2633, simple_loss=0.3293, pruned_loss=0.09862, over 3832243.87 frames. ], batch size: 136, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:41:57,903 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43221.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:42:19,768 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=43239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:42:21,856 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43241.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:42:27,689 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.233e+02 6.206e+02 7.577e+02 9.251e+02 2.641e+03, threshold=1.515e+03, percent-clipped=5.0
+2023-04-01 09:42:31,612 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.8698, 5.2405, 2.7089, 4.6372, 1.1854, 4.9155, 5.0310, 5.2488],
+       device='cuda:2'), covar=tensor([0.0430, 0.0844, 0.2040, 0.0573, 0.3755, 0.0587, 0.0592, 0.0775],
+       device='cuda:2'), in_proj_covar=tensor([0.0373, 0.0329, 0.0382, 0.0292, 0.0356, 0.0315, 0.0297, 0.0334],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 09:42:52,556 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43264.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:42:56,683 INFO [train.py:903] (2/4) Epoch 7, batch 2300, loss[loss=0.2231, simple_loss=0.2937, pruned_loss=0.07622, over 19795.00 frames. ], tot_loss[loss=0.2628, simple_loss=0.329, pruned_loss=0.09828, over 3840203.93 frames. ], batch size: 47, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:43:10,468 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 09:43:59,263 INFO [train.py:903] (2/4) Epoch 7, batch 2350, loss[loss=0.2472, simple_loss=0.3221, pruned_loss=0.08616, over 19675.00 frames. ], tot_loss[loss=0.2622, simple_loss=0.3286, pruned_loss=0.09784, over 3838239.17 frames. ], batch size: 55, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:44:22,123 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:44:34,242 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.645e+02 6.151e+02 7.487e+02 9.533e+02 1.563e+03, threshold=1.497e+03, percent-clipped=2.0
+2023-04-01 09:44:43,141 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 09:44:46,830 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43356.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:44:59,580 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 09:45:00,609 INFO [train.py:903] (2/4) Epoch 7, batch 2400, loss[loss=0.3148, simple_loss=0.3649, pruned_loss=0.1324, over 19339.00 frames. ], tot_loss[loss=0.262, simple_loss=0.3282, pruned_loss=0.09793, over 3840754.36 frames. ], batch size: 70, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:45:20,064 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=43382.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:45:49,731 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43407.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:46:04,430 INFO [train.py:903] (2/4) Epoch 7, batch 2450, loss[loss=0.2075, simple_loss=0.2788, pruned_loss=0.06812, over 19792.00 frames. ], tot_loss[loss=0.262, simple_loss=0.3283, pruned_loss=0.0978, over 3833852.07 frames. ], batch size: 48, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:46:38,157 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.412e+02 5.802e+02 7.669e+02 8.855e+02 2.284e+03, threshold=1.534e+03, percent-clipped=5.0
+2023-04-01 09:47:06,554 INFO [train.py:903] (2/4) Epoch 7, batch 2500, loss[loss=0.2925, simple_loss=0.3551, pruned_loss=0.1149, over 19590.00 frames. ], tot_loss[loss=0.2619, simple_loss=0.328, pruned_loss=0.09788, over 3830329.75 frames. ], batch size: 61, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:48:09,515 INFO [train.py:903] (2/4) Epoch 7, batch 2550, loss[loss=0.2645, simple_loss=0.3183, pruned_loss=0.1054, over 19387.00 frames. ], tot_loss[loss=0.2598, simple_loss=0.3261, pruned_loss=0.09672, over 3837444.14 frames. ], batch size: 48, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:48:25,880 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=43532.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:48:44,537 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.143e+02 6.070e+02 7.288e+02 8.830e+02 1.707e+03, threshold=1.458e+03, percent-clipped=2.0
+2023-04-01 09:49:05,672 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 09:49:10,248 INFO [train.py:903] (2/4) Epoch 7, batch 2600, loss[loss=0.2536, simple_loss=0.3195, pruned_loss=0.09386, over 19459.00 frames. ], tot_loss[loss=0.2598, simple_loss=0.3266, pruned_loss=0.09653, over 3840338.00 frames. ], batch size: 64, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:49:41,284 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=43592.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:50:06,467 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=43612.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:50:12,269 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43617.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:50:13,002 INFO [train.py:903] (2/4) Epoch 7, batch 2650, loss[loss=0.2439, simple_loss=0.3288, pruned_loss=0.07953, over 19618.00 frames. ], tot_loss[loss=0.2597, simple_loss=0.3265, pruned_loss=0.09644, over 3839251.93 frames. ], batch size: 57, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:50:30,426 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3170, 2.2085, 1.5441, 1.4768, 2.0359, 1.1122, 1.1647, 1.7858],
+       device='cuda:2'), covar=tensor([0.0724, 0.0539, 0.0826, 0.0602, 0.0363, 0.0969, 0.0676, 0.0340],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0278, 0.0316, 0.0239, 0.0221, 0.0308, 0.0281, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:50:30,486 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2670, 1.3441, 1.7136, 1.4512, 2.6064, 2.1909, 2.6290, 1.1645],
+       device='cuda:2'), covar=tensor([0.1933, 0.3277, 0.1847, 0.1565, 0.1151, 0.1547, 0.1365, 0.2931],
+       device='cuda:2'), in_proj_covar=tensor([0.0461, 0.0522, 0.0526, 0.0413, 0.0571, 0.0462, 0.0638, 0.0462],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 09:50:35,415 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 09:50:38,365 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=43637.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:50:49,496 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.166e+02 6.243e+02 7.316e+02 9.618e+02 1.411e+03, threshold=1.463e+03, percent-clipped=0.0
+2023-04-01 09:51:16,499 INFO [train.py:903] (2/4) Epoch 7, batch 2700, loss[loss=0.2853, simple_loss=0.3403, pruned_loss=0.1151, over 13451.00 frames. ], tot_loss[loss=0.2604, simple_loss=0.3268, pruned_loss=0.09704, over 3830026.88 frames. ], batch size: 136, lr: 1.20e-02, grad_scale: 4.0
+2023-04-01 09:52:19,241 INFO [train.py:903] (2/4) Epoch 7, batch 2750, loss[loss=0.2408, simple_loss=0.3121, pruned_loss=0.08478, over 19352.00 frames. ], tot_loss[loss=0.2616, simple_loss=0.3277, pruned_loss=0.09781, over 3821563.31 frames. ], batch size: 70, lr: 1.20e-02, grad_scale: 4.0
+2023-04-01 09:52:43,751 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3371, 2.0306, 1.4952, 1.4654, 1.9078, 1.0947, 1.1878, 1.5940],
+       device='cuda:2'), covar=tensor([0.0594, 0.0541, 0.0887, 0.0467, 0.0325, 0.0890, 0.0585, 0.0354],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0282, 0.0321, 0.0240, 0.0225, 0.0311, 0.0284, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:52:55,474 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.581e+02 6.869e+02 8.299e+02 1.091e+03 2.331e+03, threshold=1.660e+03, percent-clipped=8.0
+2023-04-01 09:53:20,569 INFO [train.py:903] (2/4) Epoch 7, batch 2800, loss[loss=0.274, simple_loss=0.3251, pruned_loss=0.1115, over 19071.00 frames. ], tot_loss[loss=0.2623, simple_loss=0.3285, pruned_loss=0.09809, over 3814692.02 frames. ], batch size: 42, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:54:07,589 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=43805.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:54:22,955 INFO [train.py:903] (2/4) Epoch 7, batch 2850, loss[loss=0.2312, simple_loss=0.2999, pruned_loss=0.08124, over 17780.00 frames. ], tot_loss[loss=0.2634, simple_loss=0.3296, pruned_loss=0.09854, over 3806132.78 frames. ], batch size: 39, lr: 1.20e-02, grad_scale: 8.0
+2023-04-01 09:54:59,105 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.801e+02 6.316e+02 8.520e+02 1.005e+03 1.613e+03, threshold=1.704e+03, percent-clipped=0.0
+2023-04-01 09:55:25,669 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 09:55:26,754 INFO [train.py:903] (2/4) Epoch 7, batch 2900, loss[loss=0.2657, simple_loss=0.3348, pruned_loss=0.09835, over 19644.00 frames. ], tot_loss[loss=0.2618, simple_loss=0.3282, pruned_loss=0.09772, over 3814180.65 frames. ], batch size: 60, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 09:55:36,425 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=43876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:55:43,245 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7731, 3.1781, 3.2490, 3.2836, 1.2974, 3.0830, 2.7321, 2.9750],
+       device='cuda:2'), covar=tensor([0.1270, 0.0731, 0.0711, 0.0646, 0.3827, 0.0570, 0.0665, 0.1217],
+       device='cuda:2'), in_proj_covar=tensor([0.0570, 0.0496, 0.0671, 0.0547, 0.0630, 0.0419, 0.0423, 0.0622],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 09:56:09,703 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-01 09:56:23,781 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3204, 3.0083, 2.1735, 2.8318, 0.8219, 2.8277, 2.7675, 2.9271],
+       device='cuda:2'), covar=tensor([0.0959, 0.1323, 0.1857, 0.0826, 0.3607, 0.1024, 0.0891, 0.1175],
+       device='cuda:2'), in_proj_covar=tensor([0.0385, 0.0336, 0.0390, 0.0300, 0.0363, 0.0321, 0.0303, 0.0346],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 09:56:28,082 INFO [train.py:903] (2/4) Epoch 7, batch 2950, loss[loss=0.3104, simple_loss=0.3658, pruned_loss=0.1275, over 19645.00 frames. ], tot_loss[loss=0.2615, simple_loss=0.3279, pruned_loss=0.09754, over 3806425.92 frames. ], batch size: 55, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 09:56:39,827 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=43927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:57:04,994 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.608e+02 5.923e+02 7.218e+02 9.278e+02 2.092e+03, threshold=1.444e+03, percent-clipped=1.0
+2023-04-01 09:57:30,518 INFO [train.py:903] (2/4) Epoch 7, batch 3000, loss[loss=0.3754, simple_loss=0.4055, pruned_loss=0.1726, over 13006.00 frames. ], tot_loss[loss=0.2631, simple_loss=0.329, pruned_loss=0.09854, over 3805482.41 frames. ], batch size: 135, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 09:57:30,519 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 09:57:43,113 INFO [train.py:937] (2/4) Epoch 7, validation: loss=0.1917, simple_loss=0.2919, pruned_loss=0.04574, over 944034.00 frames. 
+2023-04-01 09:57:43,114 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18546MB
+2023-04-01 09:57:46,874 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3240, 2.0690, 2.1327, 2.4958, 2.3296, 2.0885, 2.0138, 2.3950],
+       device='cuda:2'), covar=tensor([0.0590, 0.1311, 0.0885, 0.0566, 0.0831, 0.0382, 0.0833, 0.0422],
+       device='cuda:2'), in_proj_covar=tensor([0.0245, 0.0359, 0.0287, 0.0237, 0.0299, 0.0247, 0.0269, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 09:57:49,871 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 09:57:55,012 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=43977.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:58:09,103 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9718, 5.0054, 5.7773, 5.7384, 1.8834, 5.4623, 4.7175, 5.3098],
+       device='cuda:2'), covar=tensor([0.1020, 0.0652, 0.0461, 0.0389, 0.4199, 0.0275, 0.0493, 0.0960],
+       device='cuda:2'), in_proj_covar=tensor([0.0562, 0.0491, 0.0666, 0.0541, 0.0622, 0.0416, 0.0419, 0.0618],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 09:58:13,892 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=43991.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 09:58:47,338 INFO [train.py:903] (2/4) Epoch 7, batch 3050, loss[loss=0.2979, simple_loss=0.3536, pruned_loss=0.1211, over 13138.00 frames. ], tot_loss[loss=0.2619, simple_loss=0.3277, pruned_loss=0.09808, over 3777354.39 frames. ], batch size: 135, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 09:59:24,087 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.748e+02 5.923e+02 7.306e+02 8.819e+02 1.422e+03, threshold=1.461e+03, percent-clipped=0.0
+2023-04-01 09:59:50,238 INFO [train.py:903] (2/4) Epoch 7, batch 3100, loss[loss=0.2719, simple_loss=0.3207, pruned_loss=0.1115, over 19400.00 frames. ], tot_loss[loss=0.2612, simple_loss=0.327, pruned_loss=0.09766, over 3791040.56 frames. ], batch size: 48, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:00:50,928 INFO [train.py:903] (2/4) Epoch 7, batch 3150, loss[loss=0.2196, simple_loss=0.2952, pruned_loss=0.07196, over 19738.00 frames. ], tot_loss[loss=0.2612, simple_loss=0.3269, pruned_loss=0.09772, over 3785716.76 frames. ], batch size: 51, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:01:18,572 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 10:01:26,086 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.269e+02 6.470e+02 8.010e+02 1.018e+03 2.357e+03, threshold=1.602e+03, percent-clipped=4.0
+2023-04-01 10:01:29,403 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44149.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:01:51,332 INFO [train.py:903] (2/4) Epoch 7, batch 3200, loss[loss=0.3011, simple_loss=0.3621, pruned_loss=0.1201, over 18895.00 frames. ], tot_loss[loss=0.2619, simple_loss=0.3275, pruned_loss=0.09813, over 3771999.06 frames. ], batch size: 74, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:02:51,381 INFO [train.py:903] (2/4) Epoch 7, batch 3250, loss[loss=0.2731, simple_loss=0.3411, pruned_loss=0.1025, over 18029.00 frames. ], tot_loss[loss=0.262, simple_loss=0.3279, pruned_loss=0.09805, over 3787894.56 frames. ], batch size: 83, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:03:27,995 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.707e+02 6.408e+02 8.261e+02 1.024e+03 1.757e+03, threshold=1.652e+03, percent-clipped=4.0
+2023-04-01 10:03:28,446 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=44247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:03:49,220 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=44264.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:03:53,349 INFO [train.py:903] (2/4) Epoch 7, batch 3300, loss[loss=0.2986, simple_loss=0.3531, pruned_loss=0.122, over 19592.00 frames. ], tot_loss[loss=0.2629, simple_loss=0.3286, pruned_loss=0.09861, over 3787166.99 frames. ], batch size: 57, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:03:59,190 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44271.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:04:00,249 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 10:04:00,619 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=44272.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:04:57,192 INFO [train.py:903] (2/4) Epoch 7, batch 3350, loss[loss=0.2313, simple_loss=0.2925, pruned_loss=0.08504, over 18586.00 frames. ], tot_loss[loss=0.2642, simple_loss=0.3299, pruned_loss=0.09924, over 3791969.77 frames. ], batch size: 41, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:05:00,868 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44321.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:05:32,249 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.423e+02 6.124e+02 7.865e+02 1.014e+03 2.362e+03, threshold=1.573e+03, percent-clipped=3.0
+2023-04-01 10:05:58,469 INFO [train.py:903] (2/4) Epoch 7, batch 3400, loss[loss=0.2615, simple_loss=0.336, pruned_loss=0.09348, over 18772.00 frames. ], tot_loss[loss=0.2636, simple_loss=0.3296, pruned_loss=0.09879, over 3791316.57 frames. ], batch size: 74, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:06:05,646 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6673, 1.8390, 2.2597, 2.8501, 2.1260, 2.5542, 2.9696, 2.3524],
+       device='cuda:2'), covar=tensor([0.0660, 0.0978, 0.0890, 0.0873, 0.0883, 0.0719, 0.0750, 0.0632],
+       device='cuda:2'), in_proj_covar=tensor([0.0221, 0.0235, 0.0231, 0.0264, 0.0249, 0.0216, 0.0214, 0.0210],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 10:06:20,876 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=44386.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:06:48,158 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3892, 1.2768, 1.1676, 1.3983, 1.3655, 1.2343, 1.1257, 1.3391],
+       device='cuda:2'), covar=tensor([0.0690, 0.1120, 0.1018, 0.0635, 0.0787, 0.0450, 0.0915, 0.0509],
+       device='cuda:2'), in_proj_covar=tensor([0.0245, 0.0353, 0.0285, 0.0231, 0.0296, 0.0243, 0.0265, 0.0229],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 10:07:01,367 INFO [train.py:903] (2/4) Epoch 7, batch 3450, loss[loss=0.2729, simple_loss=0.3414, pruned_loss=0.1022, over 19568.00 frames. ], tot_loss[loss=0.2641, simple_loss=0.3301, pruned_loss=0.09899, over 3785417.32 frames. ], batch size: 61, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:07:05,301 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-01 10:07:06,927 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 10:07:25,052 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=44436.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:07:39,987 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.210e+02 5.624e+02 7.209e+02 9.228e+02 1.461e+03, threshold=1.442e+03, percent-clipped=0.0
+2023-04-01 10:08:03,667 INFO [train.py:903] (2/4) Epoch 7, batch 3500, loss[loss=0.2606, simple_loss=0.3292, pruned_loss=0.096, over 18275.00 frames. ], tot_loss[loss=0.2638, simple_loss=0.3296, pruned_loss=0.099, over 3783427.12 frames. ], batch size: 83, lr: 1.19e-02, grad_scale: 4.0
+2023-04-01 10:09:07,866 INFO [train.py:903] (2/4) Epoch 7, batch 3550, loss[loss=0.2715, simple_loss=0.3434, pruned_loss=0.09977, over 19538.00 frames. ], tot_loss[loss=0.2631, simple_loss=0.3291, pruned_loss=0.09857, over 3791944.59 frames. ], batch size: 56, lr: 1.19e-02, grad_scale: 4.0
+2023-04-01 10:09:10,474 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=44520.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:09:40,627 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=44545.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:09:40,741 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=44545.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:09:43,712 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.445e+02 5.736e+02 7.487e+02 9.426e+02 2.431e+03, threshold=1.497e+03, percent-clipped=5.0
+2023-04-01 10:10:10,027 INFO [train.py:903] (2/4) Epoch 7, batch 3600, loss[loss=0.2422, simple_loss=0.314, pruned_loss=0.08517, over 19774.00 frames. ], tot_loss[loss=0.2615, simple_loss=0.3275, pruned_loss=0.09777, over 3810035.74 frames. ], batch size: 54, lr: 1.19e-02, grad_scale: 8.0
+2023-04-01 10:10:10,259 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=44568.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:11:12,086 INFO [train.py:903] (2/4) Epoch 7, batch 3650, loss[loss=0.2397, simple_loss=0.3176, pruned_loss=0.08091, over 19530.00 frames. ], tot_loss[loss=0.2605, simple_loss=0.3269, pruned_loss=0.09704, over 3820631.04 frames. ], batch size: 54, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:11:42,345 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=44642.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:11:49,790 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.538e+02 6.222e+02 7.769e+02 9.647e+02 2.431e+03, threshold=1.554e+03, percent-clipped=4.0
+2023-04-01 10:12:12,887 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=44667.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:12:13,721 INFO [train.py:903] (2/4) Epoch 7, batch 3700, loss[loss=0.2689, simple_loss=0.3365, pruned_loss=0.1006, over 17297.00 frames. ], tot_loss[loss=0.2603, simple_loss=0.3266, pruned_loss=0.09699, over 3825501.83 frames. ], batch size: 101, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:12:45,622 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=44692.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:13:16,188 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=44717.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:13:16,967 INFO [train.py:903] (2/4) Epoch 7, batch 3750, loss[loss=0.262, simple_loss=0.3403, pruned_loss=0.09182, over 19540.00 frames. ], tot_loss[loss=0.2607, simple_loss=0.3269, pruned_loss=0.09721, over 3819033.30 frames. ], batch size: 54, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:13:53,501 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.417e+02 6.149e+02 7.382e+02 9.468e+02 1.650e+03, threshold=1.476e+03, percent-clipped=2.0
+2023-04-01 10:14:18,150 INFO [train.py:903] (2/4) Epoch 7, batch 3800, loss[loss=0.2326, simple_loss=0.2989, pruned_loss=0.08318, over 19377.00 frames. ], tot_loss[loss=0.2622, simple_loss=0.3281, pruned_loss=0.0982, over 3827412.95 frames. ], batch size: 47, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:14:50,723 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 10:15:19,315 INFO [train.py:903] (2/4) Epoch 7, batch 3850, loss[loss=0.2585, simple_loss=0.3249, pruned_loss=0.09605, over 19573.00 frames. ], tot_loss[loss=0.2635, simple_loss=0.329, pruned_loss=0.09899, over 3822221.10 frames. ], batch size: 52, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:15:57,069 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.826e+02 6.658e+02 8.285e+02 1.095e+03 3.075e+03, threshold=1.657e+03, percent-clipped=10.0
+2023-04-01 10:16:20,986 INFO [train.py:903] (2/4) Epoch 7, batch 3900, loss[loss=0.2786, simple_loss=0.3308, pruned_loss=0.1132, over 19477.00 frames. ], tot_loss[loss=0.2638, simple_loss=0.3293, pruned_loss=0.09918, over 3810816.00 frames. ], batch size: 49, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:16:48,353 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44889.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:17:15,640 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=44912.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:17:24,381 INFO [train.py:903] (2/4) Epoch 7, batch 3950, loss[loss=0.2865, simple_loss=0.3541, pruned_loss=0.1094, over 19661.00 frames. ], tot_loss[loss=0.2636, simple_loss=0.3294, pruned_loss=0.0989, over 3819251.29 frames. ], batch size: 55, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:17:29,149 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 10:18:00,735 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.332e+02 5.655e+02 7.377e+02 9.527e+02 2.304e+03, threshold=1.475e+03, percent-clipped=3.0
+2023-04-01 10:18:17,426 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0869, 2.0789, 1.7600, 1.6351, 1.5285, 1.6921, 0.4066, 1.0639],
+       device='cuda:2'), covar=tensor([0.0301, 0.0275, 0.0212, 0.0305, 0.0594, 0.0361, 0.0551, 0.0487],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0302, 0.0296, 0.0323, 0.0399, 0.0314, 0.0284, 0.0299],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 10:18:19,641 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7377, 1.3764, 1.5021, 2.1631, 1.6626, 2.0352, 2.1254, 1.9585],
+       device='cuda:2'), covar=tensor([0.0917, 0.1108, 0.1107, 0.0878, 0.0996, 0.0748, 0.0902, 0.0659],
+       device='cuda:2'), in_proj_covar=tensor([0.0223, 0.0237, 0.0233, 0.0266, 0.0252, 0.0218, 0.0218, 0.0212],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 10:18:26,676 INFO [train.py:903] (2/4) Epoch 7, batch 4000, loss[loss=0.264, simple_loss=0.3377, pruned_loss=0.09516, over 19512.00 frames. ], tot_loss[loss=0.2612, simple_loss=0.3277, pruned_loss=0.09733, over 3829625.53 frames. ], batch size: 56, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:19:11,993 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45004.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:19:15,230 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 10:19:27,789 INFO [train.py:903] (2/4) Epoch 7, batch 4050, loss[loss=0.2771, simple_loss=0.3395, pruned_loss=0.1073, over 17602.00 frames. ], tot_loss[loss=0.2605, simple_loss=0.3273, pruned_loss=0.09689, over 3833040.22 frames. ], batch size: 101, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:19:39,433 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45027.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:20:05,077 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.186e+02 6.019e+02 6.941e+02 8.524e+02 1.564e+03, threshold=1.388e+03, percent-clipped=1.0
+2023-04-01 10:20:28,973 INFO [train.py:903] (2/4) Epoch 7, batch 4100, loss[loss=0.2498, simple_loss=0.3271, pruned_loss=0.08621, over 19783.00 frames. ], tot_loss[loss=0.2613, simple_loss=0.3281, pruned_loss=0.09728, over 3842183.76 frames. ], batch size: 56, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:20:36,312 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45074.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:21:05,597 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 10:21:07,130 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45099.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:21:15,578 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.10 vs. limit=2.0
+2023-04-01 10:21:30,597 INFO [train.py:903] (2/4) Epoch 7, batch 4150, loss[loss=0.2307, simple_loss=0.3151, pruned_loss=0.07313, over 19739.00 frames. ], tot_loss[loss=0.2611, simple_loss=0.3279, pruned_loss=0.09715, over 3844631.13 frames. ], batch size: 63, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:22:07,163 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.699e+02 6.430e+02 8.235e+02 1.004e+03 2.607e+03, threshold=1.647e+03, percent-clipped=6.0
+2023-04-01 10:22:32,968 INFO [train.py:903] (2/4) Epoch 7, batch 4200, loss[loss=0.2585, simple_loss=0.3125, pruned_loss=0.1022, over 19737.00 frames. ], tot_loss[loss=0.2593, simple_loss=0.3262, pruned_loss=0.09615, over 3840438.96 frames. ], batch size: 45, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:22:38,323 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 10:23:33,354 INFO [train.py:903] (2/4) Epoch 7, batch 4250, loss[loss=0.2709, simple_loss=0.3455, pruned_loss=0.0981, over 19663.00 frames. ], tot_loss[loss=0.261, simple_loss=0.3275, pruned_loss=0.09722, over 3835474.47 frames. ], batch size: 60, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:23:49,632 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 10:24:01,353 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 10:24:12,483 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.934e+02 6.110e+02 8.094e+02 1.072e+03 2.309e+03, threshold=1.619e+03, percent-clipped=5.0
+2023-04-01 10:24:27,338 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45260.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:24:37,359 INFO [train.py:903] (2/4) Epoch 7, batch 4300, loss[loss=0.2715, simple_loss=0.3359, pruned_loss=0.1035, over 19297.00 frames. ], tot_loss[loss=0.2596, simple_loss=0.3263, pruned_loss=0.09646, over 3821971.46 frames. ], batch size: 66, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:24:57,139 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45283.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:24:59,395 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45285.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:25:27,041 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45308.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:25:32,128 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 10:25:39,640 INFO [train.py:903] (2/4) Epoch 7, batch 4350, loss[loss=0.2453, simple_loss=0.298, pruned_loss=0.09634, over 19038.00 frames. ], tot_loss[loss=0.2597, simple_loss=0.3262, pruned_loss=0.09657, over 3837012.51 frames. ], batch size: 42, lr: 1.18e-02, grad_scale: 8.0
+2023-04-01 10:26:16,054 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.214e+02 6.479e+02 7.493e+02 1.002e+03 2.532e+03, threshold=1.499e+03, percent-clipped=5.0
+2023-04-01 10:26:39,980 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45366.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 10:26:42,861 INFO [train.py:903] (2/4) Epoch 7, batch 4400, loss[loss=0.2089, simple_loss=0.2832, pruned_loss=0.06732, over 19797.00 frames. ], tot_loss[loss=0.2604, simple_loss=0.3263, pruned_loss=0.09725, over 3826242.17 frames. ], batch size: 48, lr: 1.17e-02, grad_scale: 8.0
+2023-04-01 10:27:06,062 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 10:27:14,919 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 10:27:34,989 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-01 10:27:44,673 INFO [train.py:903] (2/4) Epoch 7, batch 4450, loss[loss=0.2835, simple_loss=0.3499, pruned_loss=0.1085, over 19754.00 frames. ], tot_loss[loss=0.263, simple_loss=0.3284, pruned_loss=0.09883, over 3818267.65 frames. ], batch size: 63, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:27:44,839 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=45418.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:28:16,090 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=45443.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:28:22,924 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.630e+02 6.151e+02 7.769e+02 9.586e+02 4.695e+03, threshold=1.554e+03, percent-clipped=4.0
+2023-04-01 10:28:46,114 INFO [train.py:903] (2/4) Epoch 7, batch 4500, loss[loss=0.2459, simple_loss=0.3133, pruned_loss=0.08925, over 19710.00 frames. ], tot_loss[loss=0.2632, simple_loss=0.3286, pruned_loss=0.09887, over 3811132.91 frames. ], batch size: 53, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:29:20,352 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-01 10:29:29,043 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4011, 1.4587, 1.8353, 1.3784, 2.8527, 3.3613, 3.2833, 3.5682],
+       device='cuda:2'), covar=tensor([0.1432, 0.2785, 0.2579, 0.1935, 0.0533, 0.0314, 0.0200, 0.0176],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0283, 0.0311, 0.0245, 0.0202, 0.0133, 0.0201, 0.0163],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0001, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 10:29:48,550 INFO [train.py:903] (2/4) Epoch 7, batch 4550, loss[loss=0.2527, simple_loss=0.3333, pruned_loss=0.08605, over 19675.00 frames. ], tot_loss[loss=0.2636, simple_loss=0.329, pruned_loss=0.09908, over 3809955.25 frames. ], batch size: 55, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:30:00,896 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 10:30:09,089 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45533.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:30:23,712 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 10:30:27,042 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.783e+02 6.251e+02 7.662e+02 9.726e+02 2.453e+03, threshold=1.532e+03, percent-clipped=6.0
+2023-04-01 10:30:38,146 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45558.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:30:51,055 INFO [train.py:903] (2/4) Epoch 7, batch 4600, loss[loss=0.2036, simple_loss=0.2803, pruned_loss=0.06341, over 19610.00 frames. ], tot_loss[loss=0.2638, simple_loss=0.3292, pruned_loss=0.09922, over 3810798.80 frames. ], batch size: 50, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:31:22,579 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.2932, 5.5205, 3.1148, 4.8272, 1.1645, 5.5353, 5.5760, 5.8178],
+       device='cuda:2'), covar=tensor([0.0409, 0.0946, 0.1730, 0.0578, 0.3879, 0.0570, 0.0450, 0.0641],
+       device='cuda:2'), in_proj_covar=tensor([0.0380, 0.0332, 0.0391, 0.0296, 0.0357, 0.0321, 0.0307, 0.0339],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 10:31:54,304 INFO [train.py:903] (2/4) Epoch 7, batch 4650, loss[loss=0.2113, simple_loss=0.2767, pruned_loss=0.07293, over 19736.00 frames. ], tot_loss[loss=0.261, simple_loss=0.327, pruned_loss=0.09751, over 3815513.47 frames. ], batch size: 46, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:32:11,895 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 10:32:24,511 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 10:32:33,275 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.198e+02 5.859e+02 7.403e+02 8.847e+02 2.429e+03, threshold=1.481e+03, percent-clipped=2.0
+2023-04-01 10:32:55,967 INFO [train.py:903] (2/4) Epoch 7, batch 4700, loss[loss=0.2481, simple_loss=0.3198, pruned_loss=0.08818, over 19692.00 frames. ], tot_loss[loss=0.2624, simple_loss=0.3285, pruned_loss=0.09821, over 3808212.35 frames. ], batch size: 59, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:32:59,882 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0188, 2.0172, 1.5556, 1.5330, 1.4229, 1.5246, 0.2519, 0.7765],
+       device='cuda:2'), covar=tensor([0.0322, 0.0326, 0.0251, 0.0341, 0.0702, 0.0431, 0.0593, 0.0566],
+       device='cuda:2'), in_proj_covar=tensor([0.0311, 0.0315, 0.0309, 0.0333, 0.0406, 0.0326, 0.0289, 0.0317],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 10:33:18,881 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 10:33:34,168 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2207, 1.3317, 1.7187, 1.4164, 2.5795, 2.1694, 2.5668, 1.1068],
+       device='cuda:2'), covar=tensor([0.1967, 0.3388, 0.1932, 0.1599, 0.1299, 0.1669, 0.1488, 0.3057],
+       device='cuda:2'), in_proj_covar=tensor([0.0460, 0.0537, 0.0526, 0.0419, 0.0574, 0.0466, 0.0636, 0.0460],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 10:33:47,812 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=45710.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 10:33:58,616 INFO [train.py:903] (2/4) Epoch 7, batch 4750, loss[loss=0.3352, simple_loss=0.3793, pruned_loss=0.1456, over 13325.00 frames. ], tot_loss[loss=0.2623, simple_loss=0.3286, pruned_loss=0.09804, over 3803125.96 frames. ], batch size: 135, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:34:01,243 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45720.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:34:08,831 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.51 vs. limit=2.0
+2023-04-01 10:34:36,016 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.623e+02 6.576e+02 8.008e+02 9.322e+02 2.457e+03, threshold=1.602e+03, percent-clipped=6.0
+2023-04-01 10:35:01,472 INFO [train.py:903] (2/4) Epoch 7, batch 4800, loss[loss=0.2532, simple_loss=0.32, pruned_loss=0.09317, over 19740.00 frames. ], tot_loss[loss=0.2609, simple_loss=0.3272, pruned_loss=0.09724, over 3809442.30 frames. ], batch size: 51, lr: 1.17e-02, grad_scale: 8.0
+2023-04-01 10:35:26,515 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45789.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:35:29,657 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45792.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:35:58,102 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45814.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:35:58,132 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=45814.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:36:02,113 INFO [train.py:903] (2/4) Epoch 7, batch 4850, loss[loss=0.2553, simple_loss=0.3233, pruned_loss=0.09367, over 19594.00 frames. ], tot_loss[loss=0.2614, simple_loss=0.3274, pruned_loss=0.0977, over 3815205.65 frames. ], batch size: 52, lr: 1.17e-02, grad_scale: 8.0
+2023-04-01 10:36:10,648 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=45825.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 10:36:25,121 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 10:36:25,449 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3865, 1.4799, 1.4130, 1.6615, 2.9581, 1.0371, 2.0883, 3.1730],
+       device='cuda:2'), covar=tensor([0.0369, 0.2182, 0.2304, 0.1367, 0.0612, 0.2226, 0.1058, 0.0327],
+       device='cuda:2'), in_proj_covar=tensor([0.0316, 0.0322, 0.0333, 0.0302, 0.0329, 0.0322, 0.0304, 0.0320],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 10:36:27,427 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=45839.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:36:40,692 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.989e+02 6.823e+02 8.718e+02 1.115e+03 2.265e+03, threshold=1.744e+03, percent-clipped=6.0
+2023-04-01 10:36:48,793 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 10:36:54,242 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 10:36:54,265 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 10:37:00,547 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7516, 1.8139, 1.5118, 1.3259, 1.3055, 1.5003, 0.1599, 0.5951],
+       device='cuda:2'), covar=tensor([0.0325, 0.0285, 0.0196, 0.0307, 0.0712, 0.0288, 0.0539, 0.0550],
+       device='cuda:2'), in_proj_covar=tensor([0.0311, 0.0310, 0.0304, 0.0332, 0.0405, 0.0321, 0.0284, 0.0312],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 10:37:03,560 INFO [train.py:903] (2/4) Epoch 7, batch 4900, loss[loss=0.24, simple_loss=0.3186, pruned_loss=0.08072, over 19531.00 frames. ], tot_loss[loss=0.2614, simple_loss=0.3274, pruned_loss=0.0977, over 3828652.29 frames. ], batch size: 56, lr: 1.17e-02, grad_scale: 8.0
+2023-04-01 10:37:04,813 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 10:37:07,477 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9981, 1.1600, 1.3480, 1.5422, 2.4754, 1.0190, 1.8247, 2.6571],
+       device='cuda:2'), covar=tensor([0.0594, 0.2705, 0.2594, 0.1474, 0.0870, 0.2312, 0.1287, 0.0507],
+       device='cuda:2'), in_proj_covar=tensor([0.0312, 0.0318, 0.0329, 0.0297, 0.0326, 0.0318, 0.0300, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 10:37:09,936 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5211, 2.3395, 1.6648, 1.5199, 2.0394, 1.0888, 1.1921, 1.6299],
+       device='cuda:2'), covar=tensor([0.0756, 0.0472, 0.0783, 0.0528, 0.0356, 0.0976, 0.0685, 0.0401],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0278, 0.0306, 0.0235, 0.0223, 0.0306, 0.0280, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 10:37:14,473 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=45877.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:37:26,158 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 10:38:05,106 INFO [train.py:903] (2/4) Epoch 7, batch 4950, loss[loss=0.236, simple_loss=0.3027, pruned_loss=0.08468, over 19382.00 frames. ], tot_loss[loss=0.2629, simple_loss=0.3287, pruned_loss=0.09852, over 3817764.92 frames. ], batch size: 47, lr: 1.17e-02, grad_scale: 8.0
+2023-04-01 10:38:24,782 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 10:38:44,273 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.370e+02 6.277e+02 7.738e+02 9.356e+02 2.304e+03, threshold=1.548e+03, percent-clipped=1.0
+2023-04-01 10:38:47,748 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 10:38:50,851 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.44 vs. limit=2.0
+2023-04-01 10:39:09,692 INFO [train.py:903] (2/4) Epoch 7, batch 5000, loss[loss=0.248, simple_loss=0.3124, pruned_loss=0.0918, over 19759.00 frames. ], tot_loss[loss=0.2621, simple_loss=0.3281, pruned_loss=0.09801, over 3828641.89 frames. ], batch size: 51, lr: 1.17e-02, grad_scale: 8.0
+2023-04-01 10:39:20,566 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 10:39:30,934 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 10:40:12,335 INFO [train.py:903] (2/4) Epoch 7, batch 5050, loss[loss=0.2493, simple_loss=0.3227, pruned_loss=0.08796, over 19786.00 frames. ], tot_loss[loss=0.2609, simple_loss=0.327, pruned_loss=0.09738, over 3833452.76 frames. ], batch size: 54, lr: 1.17e-02, grad_scale: 8.0
+2023-04-01 10:40:16,061 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6831, 2.0145, 2.0152, 3.0346, 2.7861, 2.3968, 2.2673, 2.6484],
+       device='cuda:2'), covar=tensor([0.0713, 0.1553, 0.1238, 0.0742, 0.0961, 0.0410, 0.0861, 0.0515],
+       device='cuda:2'), in_proj_covar=tensor([0.0242, 0.0350, 0.0282, 0.0237, 0.0297, 0.0241, 0.0267, 0.0227],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 10:40:36,812 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3359, 1.3104, 1.3948, 1.5575, 2.9187, 1.0689, 2.0804, 3.1250],
+       device='cuda:2'), covar=tensor([0.0393, 0.2550, 0.2436, 0.1542, 0.0629, 0.2389, 0.1101, 0.0337],
+       device='cuda:2'), in_proj_covar=tensor([0.0308, 0.0314, 0.0325, 0.0295, 0.0324, 0.0316, 0.0295, 0.0313],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 10:40:49,619 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 10:40:51,923 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.897e+02 6.208e+02 7.894e+02 9.516e+02 2.052e+03, threshold=1.579e+03, percent-clipped=3.0
+2023-04-01 10:41:08,570 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46064.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:41:13,137 INFO [train.py:903] (2/4) Epoch 7, batch 5100, loss[loss=0.2288, simple_loss=0.3053, pruned_loss=0.07616, over 19658.00 frames. ], tot_loss[loss=0.2615, simple_loss=0.3272, pruned_loss=0.09788, over 3826154.19 frames. ], batch size: 55, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:41:13,947 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.64 vs. limit=2.0
+2023-04-01 10:41:24,932 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 10:41:28,141 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 10:41:28,560 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=46081.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 10:41:32,529 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 10:42:00,064 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=46106.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 10:42:08,084 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1171, 1.3091, 1.6361, 0.9611, 2.5642, 2.9862, 2.6941, 3.1444],
+       device='cuda:2'), covar=tensor([0.1434, 0.2881, 0.2640, 0.1941, 0.0446, 0.0230, 0.0242, 0.0163],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0284, 0.0317, 0.0244, 0.0204, 0.0133, 0.0203, 0.0164],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 10:42:13,344 INFO [train.py:903] (2/4) Epoch 7, batch 5150, loss[loss=0.3222, simple_loss=0.3677, pruned_loss=0.1383, over 19545.00 frames. ], tot_loss[loss=0.262, simple_loss=0.328, pruned_loss=0.09795, over 3815433.50 frames. ], batch size: 56, lr: 1.17e-02, grad_scale: 4.0
+2023-04-01 10:42:26,347 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 10:42:37,819 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46136.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:42:53,639 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.315e+02 6.102e+02 7.228e+02 8.853e+02 1.806e+03, threshold=1.446e+03, percent-clipped=2.0
+2023-04-01 10:43:00,628 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 10:43:15,671 INFO [train.py:903] (2/4) Epoch 7, batch 5200, loss[loss=0.2455, simple_loss=0.3262, pruned_loss=0.08238, over 19518.00 frames. ], tot_loss[loss=0.2623, simple_loss=0.3284, pruned_loss=0.09812, over 3807652.36 frames. ], batch size: 56, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:43:30,897 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46179.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:43:31,706 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 10:44:18,567 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 10:44:19,699 INFO [train.py:903] (2/4) Epoch 7, batch 5250, loss[loss=0.2686, simple_loss=0.3367, pruned_loss=0.1002, over 19675.00 frames. ], tot_loss[loss=0.262, simple_loss=0.3283, pruned_loss=0.0979, over 3815682.06 frames. ], batch size: 59, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:44:23,443 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46221.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:44:52,983 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6570, 1.3626, 1.3099, 1.6483, 1.6287, 1.4537, 1.4801, 1.5374],
+       device='cuda:2'), covar=tensor([0.0885, 0.1378, 0.1282, 0.0868, 0.0957, 0.0513, 0.0916, 0.0647],
+       device='cuda:2'), in_proj_covar=tensor([0.0244, 0.0356, 0.0285, 0.0240, 0.0299, 0.0242, 0.0272, 0.0228],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 10:44:58,427 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.945e+02 5.998e+02 7.245e+02 8.826e+02 1.462e+03, threshold=1.449e+03, percent-clipped=1.0
+2023-04-01 10:45:00,959 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46251.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:45:21,291 INFO [train.py:903] (2/4) Epoch 7, batch 5300, loss[loss=0.2776, simple_loss=0.3404, pruned_loss=0.1074, over 19540.00 frames. ], tot_loss[loss=0.2612, simple_loss=0.3276, pruned_loss=0.09743, over 3821788.17 frames. ], batch size: 56, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:45:34,728 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-01 10:45:40,719 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 10:45:42,203 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7918, 1.4231, 1.3898, 1.8925, 1.5859, 2.0549, 2.1294, 1.7952],
+       device='cuda:2'), covar=tensor([0.0807, 0.1065, 0.1193, 0.1039, 0.1046, 0.0701, 0.0895, 0.0711],
+       device='cuda:2'), in_proj_covar=tensor([0.0218, 0.0234, 0.0234, 0.0263, 0.0253, 0.0219, 0.0216, 0.0212],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 10:45:53,502 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46294.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:46:22,065 INFO [train.py:903] (2/4) Epoch 7, batch 5350, loss[loss=0.2718, simple_loss=0.3421, pruned_loss=0.1008, over 19389.00 frames. ], tot_loss[loss=0.2603, simple_loss=0.3269, pruned_loss=0.09688, over 3824824.36 frames. ], batch size: 70, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:46:46,821 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:47:00,332 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 10:47:03,772 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.963e+02 5.681e+02 7.157e+02 9.578e+02 3.754e+03, threshold=1.431e+03, percent-clipped=4.0
+2023-04-01 10:47:12,095 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2179, 1.2982, 1.1112, 0.9862, 1.0242, 1.1202, 0.0397, 0.3325],
+       device='cuda:2'), covar=tensor([0.0343, 0.0341, 0.0224, 0.0289, 0.0709, 0.0270, 0.0626, 0.0596],
+       device='cuda:2'), in_proj_covar=tensor([0.0308, 0.0307, 0.0304, 0.0328, 0.0397, 0.0317, 0.0287, 0.0310],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 10:47:26,524 INFO [train.py:903] (2/4) Epoch 7, batch 5400, loss[loss=0.2375, simple_loss=0.3199, pruned_loss=0.07758, over 18901.00 frames. ], tot_loss[loss=0.2615, simple_loss=0.3278, pruned_loss=0.09761, over 3789294.66 frames. ], batch size: 74, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:47:31,426 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7202, 1.2624, 1.3184, 1.9612, 1.6973, 1.9335, 2.2367, 1.6930],
+       device='cuda:2'), covar=tensor([0.0800, 0.1091, 0.1112, 0.0916, 0.0898, 0.0757, 0.0891, 0.0786],
+       device='cuda:2'), in_proj_covar=tensor([0.0217, 0.0235, 0.0231, 0.0260, 0.0251, 0.0216, 0.0214, 0.0211],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 10:48:29,990 INFO [train.py:903] (2/4) Epoch 7, batch 5450, loss[loss=0.2366, simple_loss=0.3022, pruned_loss=0.08554, over 19485.00 frames. ], tot_loss[loss=0.2609, simple_loss=0.3271, pruned_loss=0.09729, over 3805188.03 frames. ], batch size: 49, lr: 1.16e-02, grad_scale: 4.0
+2023-04-01 10:48:35,355 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.03 vs. limit=5.0
+2023-04-01 10:48:49,881 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=46435.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:49:10,733 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.600e+02 7.102e+02 8.361e+02 1.036e+03 2.875e+03, threshold=1.672e+03, percent-clipped=7.0
+2023-04-01 10:49:23,124 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=46460.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:49:31,708 INFO [train.py:903] (2/4) Epoch 7, batch 5500, loss[loss=0.3256, simple_loss=0.3696, pruned_loss=0.1408, over 13765.00 frames. ], tot_loss[loss=0.2616, simple_loss=0.3278, pruned_loss=0.09771, over 3804863.05 frames. ], batch size: 136, lr: 1.16e-02, grad_scale: 4.0
+2023-04-01 10:49:58,196 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 10:50:20,915 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=46507.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:50:27,217 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
+2023-04-01 10:50:33,174 INFO [train.py:903] (2/4) Epoch 7, batch 5550, loss[loss=0.2806, simple_loss=0.3318, pruned_loss=0.1147, over 19710.00 frames. ], tot_loss[loss=0.2614, simple_loss=0.3275, pruned_loss=0.09765, over 3794743.12 frames. ], batch size: 51, lr: 1.16e-02, grad_scale: 4.0
+2023-04-01 10:50:43,596 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 10:50:51,407 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=46532.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:51:15,056 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.541e+02 5.815e+02 7.044e+02 9.146e+02 3.032e+03, threshold=1.409e+03, percent-clipped=3.0
+2023-04-01 10:51:23,840 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.97 vs. limit=5.0
+2023-04-01 10:51:32,400 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 10:51:35,754 INFO [train.py:903] (2/4) Epoch 7, batch 5600, loss[loss=0.3168, simple_loss=0.3664, pruned_loss=0.1336, over 19541.00 frames. ], tot_loss[loss=0.2609, simple_loss=0.3267, pruned_loss=0.09756, over 3778196.98 frames. ], batch size: 61, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:52:06,759 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=46592.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:52:32,988 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46613.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:52:38,698 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=46617.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:52:40,328 INFO [train.py:903] (2/4) Epoch 7, batch 5650, loss[loss=0.2228, simple_loss=0.2882, pruned_loss=0.07868, over 19780.00 frames. ], tot_loss[loss=0.261, simple_loss=0.3265, pruned_loss=0.09774, over 3786063.61 frames. ], batch size: 47, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:52:42,926 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46620.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:53:03,561 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46638.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:53:20,358 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.719e+02 5.976e+02 7.674e+02 9.559e+02 1.706e+03, threshold=1.535e+03, percent-clipped=4.0
+2023-04-01 10:53:28,324 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 10:53:42,089 INFO [train.py:903] (2/4) Epoch 7, batch 5700, loss[loss=0.2909, simple_loss=0.3633, pruned_loss=0.1092, over 19543.00 frames. ], tot_loss[loss=0.2609, simple_loss=0.3266, pruned_loss=0.09759, over 3778341.58 frames. ], batch size: 56, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:54:00,757 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1288, 1.1601, 1.3569, 1.2606, 1.6410, 1.6572, 1.8801, 0.5381],
+       device='cuda:2'), covar=tensor([0.1898, 0.3277, 0.1906, 0.1624, 0.1359, 0.1848, 0.1190, 0.3106],
+       device='cuda:2'), in_proj_covar=tensor([0.0460, 0.0539, 0.0533, 0.0421, 0.0585, 0.0468, 0.0645, 0.0464],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 10:54:43,287 INFO [train.py:903] (2/4) Epoch 7, batch 5750, loss[loss=0.2606, simple_loss=0.3364, pruned_loss=0.09241, over 19366.00 frames. ], tot_loss[loss=0.2611, simple_loss=0.3272, pruned_loss=0.09746, over 3779506.27 frames. ], batch size: 66, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:54:45,658 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 10:54:55,192 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 10:54:59,348 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-01 10:54:59,809 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 10:55:25,496 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.168e+02 6.148e+02 7.021e+02 8.191e+02 1.564e+03, threshold=1.404e+03, percent-clipped=1.0
+2023-04-01 10:55:28,128 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=46753.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:55:45,395 INFO [train.py:903] (2/4) Epoch 7, batch 5800, loss[loss=0.2897, simple_loss=0.3499, pruned_loss=0.1148, over 19661.00 frames. ], tot_loss[loss=0.2598, simple_loss=0.3262, pruned_loss=0.09666, over 3799322.36 frames. ], batch size: 58, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:56:46,142 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2560, 2.1500, 1.7102, 1.6219, 1.4038, 1.7209, 0.2628, 1.0479],
+       device='cuda:2'), covar=tensor([0.0300, 0.0300, 0.0265, 0.0383, 0.0702, 0.0403, 0.0676, 0.0568],
+       device='cuda:2'), in_proj_covar=tensor([0.0310, 0.0308, 0.0306, 0.0328, 0.0402, 0.0322, 0.0290, 0.0312],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 10:56:47,247 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4710, 1.2539, 1.1177, 1.3333, 1.1476, 1.3313, 1.0837, 1.2925],
+       device='cuda:2'), covar=tensor([0.0935, 0.1150, 0.1430, 0.0959, 0.1068, 0.0534, 0.1170, 0.0742],
+       device='cuda:2'), in_proj_covar=tensor([0.0242, 0.0353, 0.0283, 0.0240, 0.0296, 0.0239, 0.0270, 0.0229],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 10:56:49,193 INFO [train.py:903] (2/4) Epoch 7, batch 5850, loss[loss=0.2476, simple_loss=0.3202, pruned_loss=0.08752, over 19615.00 frames. ], tot_loss[loss=0.2599, simple_loss=0.3266, pruned_loss=0.09659, over 3799630.89 frames. ], batch size: 57, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:57:02,129 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=46828.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:57:29,391 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.050e+02 5.967e+02 7.374e+02 9.303e+02 2.879e+03, threshold=1.475e+03, percent-clipped=6.0
+2023-04-01 10:57:51,528 INFO [train.py:903] (2/4) Epoch 7, batch 5900, loss[loss=0.2988, simple_loss=0.3613, pruned_loss=0.1181, over 19299.00 frames. ], tot_loss[loss=0.2593, simple_loss=0.326, pruned_loss=0.09627, over 3824814.25 frames. ], batch size: 66, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:57:57,272 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 10:58:16,959 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 10:58:52,930 INFO [train.py:903] (2/4) Epoch 7, batch 5950, loss[loss=0.2848, simple_loss=0.3422, pruned_loss=0.1137, over 19595.00 frames. ], tot_loss[loss=0.2598, simple_loss=0.3263, pruned_loss=0.09665, over 3823317.00 frames. ], batch size: 61, lr: 1.16e-02, grad_scale: 8.0
+2023-04-01 10:59:34,057 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.877e+02 6.644e+02 7.805e+02 9.690e+02 1.794e+03, threshold=1.561e+03, percent-clipped=4.0
+2023-04-01 10:59:40,930 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46957.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:59:48,577 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=46964.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 10:59:52,256 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.38 vs. limit=5.0
+2023-04-01 10:59:52,806 INFO [train.py:903] (2/4) Epoch 7, batch 6000, loss[loss=0.2911, simple_loss=0.3471, pruned_loss=0.1176, over 19686.00 frames. ], tot_loss[loss=0.2615, simple_loss=0.3276, pruned_loss=0.09772, over 3830140.52 frames. ], batch size: 53, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 10:59:52,806 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 11:00:05,305 INFO [train.py:937] (2/4) Epoch 7, validation: loss=0.1903, simple_loss=0.2902, pruned_loss=0.04516, over 944034.00 frames. 
+2023-04-01 11:00:05,306 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18546MB
+2023-04-01 11:00:20,557 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9111, 1.1154, 1.3955, 0.5239, 2.2631, 2.4477, 2.1521, 2.5572],
+       device='cuda:2'), covar=tensor([0.1491, 0.3286, 0.3044, 0.2196, 0.0421, 0.0214, 0.0332, 0.0241],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0283, 0.0314, 0.0246, 0.0204, 0.0134, 0.0203, 0.0168],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 11:00:57,538 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47009.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:01:09,018 INFO [train.py:903] (2/4) Epoch 7, batch 6050, loss[loss=0.2478, simple_loss=0.3218, pruned_loss=0.08686, over 19855.00 frames. ], tot_loss[loss=0.2612, simple_loss=0.3276, pruned_loss=0.09739, over 3843627.62 frames. ], batch size: 52, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:01:30,893 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47034.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:01:49,944 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.317e+02 6.018e+02 7.577e+02 1.005e+03 2.434e+03, threshold=1.515e+03, percent-clipped=7.0
+2023-04-01 11:02:04,186 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.73 vs. limit=2.0
+2023-04-01 11:02:13,574 INFO [train.py:903] (2/4) Epoch 7, batch 6100, loss[loss=0.2333, simple_loss=0.3034, pruned_loss=0.08164, over 19574.00 frames. ], tot_loss[loss=0.2607, simple_loss=0.3275, pruned_loss=0.09695, over 3825076.80 frames. ], batch size: 52, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:02:18,695 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47072.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:02:19,975 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3526, 2.2758, 1.6918, 1.4903, 1.4357, 1.7440, 0.3087, 1.1164],
+       device='cuda:2'), covar=tensor([0.0294, 0.0307, 0.0286, 0.0453, 0.0768, 0.0444, 0.0674, 0.0594],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0310, 0.0309, 0.0328, 0.0403, 0.0322, 0.0291, 0.0313],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 11:02:26,684 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47079.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:03:15,748 INFO [train.py:903] (2/4) Epoch 7, batch 6150, loss[loss=0.2261, simple_loss=0.2952, pruned_loss=0.07845, over 16939.00 frames. ], tot_loss[loss=0.2602, simple_loss=0.327, pruned_loss=0.09665, over 3818921.22 frames. ], batch size: 37, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:03:41,641 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 11:03:56,557 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.178e+02 5.986e+02 7.602e+02 9.492e+02 2.168e+03, threshold=1.520e+03, percent-clipped=5.0
+2023-04-01 11:04:15,666 INFO [train.py:903] (2/4) Epoch 7, batch 6200, loss[loss=0.2668, simple_loss=0.3264, pruned_loss=0.1036, over 19872.00 frames. ], tot_loss[loss=0.2602, simple_loss=0.3267, pruned_loss=0.09682, over 3802122.55 frames. ], batch size: 52, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:04:20,356 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=47172.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:04:59,842 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2272, 3.6777, 3.7742, 3.7926, 1.4692, 3.5253, 3.0494, 3.4195],
+       device='cuda:2'), covar=tensor([0.1069, 0.0802, 0.0621, 0.0544, 0.4264, 0.0528, 0.0686, 0.1163],
+       device='cuda:2'), in_proj_covar=tensor([0.0591, 0.0519, 0.0709, 0.0585, 0.0653, 0.0451, 0.0447, 0.0663],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 11:05:17,526 INFO [train.py:903] (2/4) Epoch 7, batch 6250, loss[loss=0.2453, simple_loss=0.3098, pruned_loss=0.09036, over 19581.00 frames. ], tot_loss[loss=0.2595, simple_loss=0.3262, pruned_loss=0.09636, over 3796870.49 frames. ], batch size: 52, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:05:47,057 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 11:05:57,378 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.252e+02 6.379e+02 7.672e+02 9.726e+02 2.182e+03, threshold=1.534e+03, percent-clipped=2.0
+2023-04-01 11:06:08,355 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=47259.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:06:19,229 INFO [train.py:903] (2/4) Epoch 7, batch 6300, loss[loss=0.2174, simple_loss=0.2799, pruned_loss=0.07742, over 19727.00 frames. ], tot_loss[loss=0.2597, simple_loss=0.326, pruned_loss=0.09667, over 3789564.21 frames. ], batch size: 46, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:06:43,141 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47287.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:07:21,234 INFO [train.py:903] (2/4) Epoch 7, batch 6350, loss[loss=0.3278, simple_loss=0.3714, pruned_loss=0.1421, over 13622.00 frames. ], tot_loss[loss=0.2603, simple_loss=0.3268, pruned_loss=0.09689, over 3795819.37 frames. ], batch size: 138, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:07:33,246 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47328.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:07:42,340 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47335.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:08:02,956 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.061e+02 5.885e+02 7.911e+02 1.072e+03 3.322e+03, threshold=1.582e+03, percent-clipped=7.0
+2023-04-01 11:08:05,641 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47353.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:08:13,863 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47360.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:08:22,754 INFO [train.py:903] (2/4) Epoch 7, batch 6400, loss[loss=0.2305, simple_loss=0.2891, pruned_loss=0.08597, over 19730.00 frames. ], tot_loss[loss=0.2588, simple_loss=0.3253, pruned_loss=0.0961, over 3811889.00 frames. ], batch size: 45, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:08:40,147 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2829, 3.8883, 2.6467, 3.4806, 1.0505, 3.5633, 3.6088, 3.7777],
+       device='cuda:2'), covar=tensor([0.0658, 0.1031, 0.1799, 0.0712, 0.3611, 0.0816, 0.0690, 0.0932],
+       device='cuda:2'), in_proj_covar=tensor([0.0387, 0.0340, 0.0399, 0.0294, 0.0365, 0.0322, 0.0318, 0.0349],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 11:09:00,257 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=47397.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:09:25,580 INFO [train.py:903] (2/4) Epoch 7, batch 6450, loss[loss=0.2504, simple_loss=0.3261, pruned_loss=0.08737, over 19531.00 frames. ], tot_loss[loss=0.2584, simple_loss=0.3252, pruned_loss=0.09576, over 3802485.12 frames. ], batch size: 54, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:10:05,689 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.425e+02 6.283e+02 7.588e+02 1.008e+03 1.535e+03, threshold=1.518e+03, percent-clipped=0.0
+2023-04-01 11:10:08,024 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 11:10:26,645 INFO [train.py:903] (2/4) Epoch 7, batch 6500, loss[loss=0.2631, simple_loss=0.3413, pruned_loss=0.09238, over 19685.00 frames. ], tot_loss[loss=0.2582, simple_loss=0.3251, pruned_loss=0.09563, over 3802725.77 frames. ], batch size: 59, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:10:29,905 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 11:11:15,975 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9285, 1.3606, 1.0692, 0.9841, 1.0942, 0.9257, 0.8490, 1.2073],
+       device='cuda:2'), covar=tensor([0.0448, 0.0585, 0.0866, 0.0471, 0.0400, 0.0953, 0.0496, 0.0343],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0279, 0.0310, 0.0237, 0.0223, 0.0306, 0.0280, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 11:11:19,620 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-01 11:11:27,830 INFO [train.py:903] (2/4) Epoch 7, batch 6550, loss[loss=0.2639, simple_loss=0.3328, pruned_loss=0.09747, over 19731.00 frames. ], tot_loss[loss=0.2583, simple_loss=0.3251, pruned_loss=0.09577, over 3806847.59 frames. ], batch size: 63, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:11:58,316 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47543.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:12:10,170 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.342e+02 6.347e+02 8.071e+02 1.082e+03 2.174e+03, threshold=1.614e+03, percent-clipped=4.0
+2023-04-01 11:12:29,850 INFO [train.py:903] (2/4) Epoch 7, batch 6600, loss[loss=0.2223, simple_loss=0.2981, pruned_loss=0.07326, over 19690.00 frames. ], tot_loss[loss=0.2594, simple_loss=0.3263, pruned_loss=0.09623, over 3817167.32 frames. ], batch size: 53, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:12:30,288 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47568.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:13:13,411 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=47603.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:13:31,698 INFO [train.py:903] (2/4) Epoch 7, batch 6650, loss[loss=0.1977, simple_loss=0.2678, pruned_loss=0.0638, over 15123.00 frames. ], tot_loss[loss=0.2614, simple_loss=0.3284, pruned_loss=0.0972, over 3809932.15 frames. ], batch size: 33, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:14:11,832 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.526e+02 6.649e+02 7.986e+02 1.008e+03 1.623e+03, threshold=1.597e+03, percent-clipped=0.0
+2023-04-01 11:14:32,263 INFO [train.py:903] (2/4) Epoch 7, batch 6700, loss[loss=0.3116, simple_loss=0.3717, pruned_loss=0.1257, over 19687.00 frames. ], tot_loss[loss=0.2606, simple_loss=0.3276, pruned_loss=0.09683, over 3812261.23 frames. ], batch size: 59, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:15:28,525 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.81 vs. limit=2.0
+2023-04-01 11:15:30,803 INFO [train.py:903] (2/4) Epoch 7, batch 6750, loss[loss=0.3415, simple_loss=0.3808, pruned_loss=0.1511, over 19778.00 frames. ], tot_loss[loss=0.2592, simple_loss=0.3265, pruned_loss=0.09598, over 3822902.67 frames. ], batch size: 56, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:15:31,163 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47718.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:15:40,706 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-01 11:15:58,015 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=47741.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:16:09,116 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.932e+02 5.831e+02 7.200e+02 8.445e+02 1.747e+03, threshold=1.440e+03, percent-clipped=3.0
+2023-04-01 11:16:15,220 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=47756.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:16:19,790 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0701, 1.9827, 1.7933, 1.6902, 4.5276, 0.8263, 2.4772, 4.6592],
+       device='cuda:2'), covar=tensor([0.0256, 0.2118, 0.2302, 0.1647, 0.0547, 0.2683, 0.1168, 0.0235],
+       device='cuda:2'), in_proj_covar=tensor([0.0308, 0.0316, 0.0323, 0.0296, 0.0324, 0.0319, 0.0296, 0.0318],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 11:16:28,689 INFO [train.py:903] (2/4) Epoch 7, batch 6800, loss[loss=0.2385, simple_loss=0.3059, pruned_loss=0.0856, over 19358.00 frames. ], tot_loss[loss=0.2575, simple_loss=0.3249, pruned_loss=0.09507, over 3831983.31 frames. ], batch size: 47, lr: 1.15e-02, grad_scale: 8.0
+2023-04-01 11:17:14,592 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 11:17:15,032 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 11:17:18,393 INFO [train.py:903] (2/4) Epoch 8, batch 0, loss[loss=0.2752, simple_loss=0.3451, pruned_loss=0.1026, over 19602.00 frames. ], tot_loss[loss=0.2752, simple_loss=0.3451, pruned_loss=0.1026, over 19602.00 frames. ], batch size: 57, lr: 1.08e-02, grad_scale: 8.0
+2023-04-01 11:17:18,393 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 11:17:30,982 INFO [train.py:937] (2/4) Epoch 8, validation: loss=0.1916, simple_loss=0.2915, pruned_loss=0.0458, over 944034.00 frames. 
+2023-04-01 11:17:30,984 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18546MB
+2023-04-01 11:17:41,950 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 11:17:43,302 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=47806.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:18:07,530 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=47827.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 11:18:32,758 INFO [train.py:903] (2/4) Epoch 8, batch 50, loss[loss=0.2338, simple_loss=0.3149, pruned_loss=0.07636, over 19666.00 frames. ], tot_loss[loss=0.2639, simple_loss=0.3307, pruned_loss=0.09857, over 863066.83 frames. ], batch size: 58, lr: 1.08e-02, grad_scale: 8.0
+2023-04-01 11:18:38,608 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.560e+02 5.925e+02 7.453e+02 9.478e+02 2.348e+03, threshold=1.491e+03, percent-clipped=8.0
+2023-04-01 11:18:44,812 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=47856.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:18:52,187 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.85 vs. limit=5.0
+2023-04-01 11:19:06,097 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 11:19:32,495 INFO [train.py:903] (2/4) Epoch 8, batch 100, loss[loss=0.3337, simple_loss=0.3749, pruned_loss=0.1462, over 13095.00 frames. ], tot_loss[loss=0.2623, simple_loss=0.329, pruned_loss=0.0978, over 1515047.64 frames. ], batch size: 137, lr: 1.08e-02, grad_scale: 8.0
+2023-04-01 11:19:42,621 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 11:20:32,672 INFO [train.py:903] (2/4) Epoch 8, batch 150, loss[loss=0.1885, simple_loss=0.2614, pruned_loss=0.05784, over 19765.00 frames. ], tot_loss[loss=0.2601, simple_loss=0.3269, pruned_loss=0.09667, over 2027804.57 frames. ], batch size: 47, lr: 1.08e-02, grad_scale: 8.0
+2023-04-01 11:20:38,423 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.629e+02 6.208e+02 7.626e+02 9.440e+02 2.273e+03, threshold=1.525e+03, percent-clipped=3.0
+2023-04-01 11:21:07,748 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=47974.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:21:29,250 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 11:21:32,700 INFO [train.py:903] (2/4) Epoch 8, batch 200, loss[loss=0.2286, simple_loss=0.2999, pruned_loss=0.07868, over 19606.00 frames. ], tot_loss[loss=0.2596, simple_loss=0.3264, pruned_loss=0.09638, over 2417101.67 frames. ], batch size: 50, lr: 1.08e-02, grad_scale: 8.0
+2023-04-01 11:21:36,534 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=47999.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:22:15,579 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8731, 1.2326, 1.5253, 0.5602, 2.0517, 2.4553, 2.0558, 2.5761],
+       device='cuda:2'), covar=tensor([0.1480, 0.3101, 0.2938, 0.2317, 0.0494, 0.0211, 0.0385, 0.0236],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0284, 0.0317, 0.0247, 0.0208, 0.0136, 0.0204, 0.0172],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 11:22:35,824 INFO [train.py:903] (2/4) Epoch 8, batch 250, loss[loss=0.242, simple_loss=0.3246, pruned_loss=0.07963, over 19713.00 frames. ], tot_loss[loss=0.2587, simple_loss=0.3258, pruned_loss=0.0958, over 2727439.76 frames. ], batch size: 59, lr: 1.08e-02, grad_scale: 8.0
+2023-04-01 11:22:42,346 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.557e+02 6.073e+02 7.344e+02 8.973e+02 2.163e+03, threshold=1.469e+03, percent-clipped=4.0
+2023-04-01 11:23:30,354 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48090.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:23:36,836 INFO [train.py:903] (2/4) Epoch 8, batch 300, loss[loss=0.2232, simple_loss=0.3025, pruned_loss=0.07196, over 19667.00 frames. ], tot_loss[loss=0.2584, simple_loss=0.3254, pruned_loss=0.09563, over 2964737.00 frames. ], batch size: 58, lr: 1.08e-02, grad_scale: 8.0
+2023-04-01 11:23:37,265 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9038, 1.3528, 1.0554, 0.9277, 1.1837, 0.8739, 0.8170, 1.3007],
+       device='cuda:2'), covar=tensor([0.0451, 0.0557, 0.0972, 0.0590, 0.0406, 0.1035, 0.0557, 0.0348],
+       device='cuda:2'), in_proj_covar=tensor([0.0285, 0.0285, 0.0320, 0.0243, 0.0231, 0.0314, 0.0288, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 11:23:41,630 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48100.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:23:55,968 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48112.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:23:59,613 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1928, 1.4095, 1.9904, 1.4902, 2.9388, 2.6361, 3.2255, 1.2921],
+       device='cuda:2'), covar=tensor([0.2090, 0.3509, 0.2002, 0.1624, 0.1520, 0.1664, 0.1736, 0.3287],
+       device='cuda:2'), in_proj_covar=tensor([0.0458, 0.0536, 0.0532, 0.0418, 0.0575, 0.0468, 0.0629, 0.0461],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 11:24:14,434 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0354, 2.0729, 2.0578, 2.9261, 1.9493, 2.6797, 2.5628, 1.9724],
+       device='cuda:2'), covar=tensor([0.2882, 0.2311, 0.1126, 0.1307, 0.2631, 0.1003, 0.2382, 0.2004],
+       device='cuda:2'), in_proj_covar=tensor([0.0721, 0.0723, 0.0607, 0.0852, 0.0734, 0.0632, 0.0748, 0.0657],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 11:24:27,816 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48137.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:24:37,682 INFO [train.py:903] (2/4) Epoch 8, batch 350, loss[loss=0.2461, simple_loss=0.3205, pruned_loss=0.08589, over 19663.00 frames. ], tot_loss[loss=0.2563, simple_loss=0.3236, pruned_loss=0.09453, over 3141373.01 frames. ], batch size: 60, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:24:39,964 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 11:24:42,119 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48150.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:24:43,059 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.994e+02 6.192e+02 7.149e+02 9.949e+02 1.629e+03, threshold=1.430e+03, percent-clipped=6.0
+2023-04-01 11:25:08,559 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48171.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 11:25:22,147 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2021, 1.5823, 1.7258, 2.4558, 1.9125, 1.9175, 2.3542, 1.9287],
+       device='cuda:2'), covar=tensor([0.0785, 0.1211, 0.1140, 0.1013, 0.0945, 0.0902, 0.0979, 0.0805],
+       device='cuda:2'), in_proj_covar=tensor([0.0217, 0.0235, 0.0232, 0.0262, 0.0246, 0.0217, 0.0211, 0.0209],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 11:25:33,655 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0467, 1.2724, 1.6594, 0.8650, 2.5300, 3.0021, 2.7286, 3.1522],
+       device='cuda:2'), covar=tensor([0.1501, 0.3169, 0.2779, 0.2206, 0.0441, 0.0166, 0.0263, 0.0195],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0284, 0.0313, 0.0244, 0.0207, 0.0136, 0.0202, 0.0171],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 11:25:37,710 INFO [train.py:903] (2/4) Epoch 8, batch 400, loss[loss=0.3697, simple_loss=0.4118, pruned_loss=0.1638, over 19793.00 frames. ], tot_loss[loss=0.2575, simple_loss=0.3248, pruned_loss=0.09508, over 3300571.20 frames. ], batch size: 56, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:26:03,478 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48215.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:26:05,315 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.45 vs. limit=2.0
+2023-04-01 11:26:21,232 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48230.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 11:26:33,642 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4136, 1.2175, 1.1869, 1.7291, 1.4929, 1.5777, 1.6502, 1.4029],
+       device='cuda:2'), covar=tensor([0.0659, 0.0882, 0.0933, 0.0670, 0.0652, 0.0670, 0.0755, 0.0616],
+       device='cuda:2'), in_proj_covar=tensor([0.0219, 0.0235, 0.0234, 0.0263, 0.0248, 0.0219, 0.0212, 0.0210],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 11:26:38,947 INFO [train.py:903] (2/4) Epoch 8, batch 450, loss[loss=0.3005, simple_loss=0.3581, pruned_loss=0.1215, over 19661.00 frames. ], tot_loss[loss=0.2562, simple_loss=0.3239, pruned_loss=0.09422, over 3425492.44 frames. ], batch size: 60, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:26:45,637 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.339e+02 5.626e+02 7.034e+02 8.568e+02 1.629e+03, threshold=1.407e+03, percent-clipped=1.0
+2023-04-01 11:27:03,639 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48265.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:27:11,128 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 11:27:12,253 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 11:27:27,260 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48286.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 11:27:41,082 INFO [train.py:903] (2/4) Epoch 8, batch 500, loss[loss=0.2192, simple_loss=0.2819, pruned_loss=0.07824, over 19747.00 frames. ], tot_loss[loss=0.2559, simple_loss=0.3234, pruned_loss=0.0942, over 3514498.07 frames. ], batch size: 46, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:28:37,115 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48342.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:28:41,343 INFO [train.py:903] (2/4) Epoch 8, batch 550, loss[loss=0.2671, simple_loss=0.3312, pruned_loss=0.1016, over 19849.00 frames. ], tot_loss[loss=0.2557, simple_loss=0.3236, pruned_loss=0.09388, over 3571311.13 frames. ], batch size: 52, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:28:47,053 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.262e+02 6.228e+02 7.563e+02 9.337e+02 1.593e+03, threshold=1.513e+03, percent-clipped=3.0
+2023-04-01 11:28:47,323 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3664, 3.9426, 2.5042, 3.5020, 0.8554, 3.6412, 3.6452, 3.6992],
+       device='cuda:2'), covar=tensor([0.0604, 0.1059, 0.1852, 0.0786, 0.3872, 0.0758, 0.0770, 0.0902],
+       device='cuda:2'), in_proj_covar=tensor([0.0393, 0.0344, 0.0398, 0.0302, 0.0366, 0.0325, 0.0318, 0.0352],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 11:29:23,918 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2935, 2.9159, 2.3525, 2.1833, 2.0565, 2.3167, 0.7539, 2.0118],
+       device='cuda:2'), covar=tensor([0.0367, 0.0351, 0.0349, 0.0665, 0.0694, 0.0683, 0.0789, 0.0714],
+       device='cuda:2'), in_proj_covar=tensor([0.0308, 0.0313, 0.0309, 0.0328, 0.0401, 0.0321, 0.0289, 0.0312],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 11:29:42,878 INFO [train.py:903] (2/4) Epoch 8, batch 600, loss[loss=0.2719, simple_loss=0.3475, pruned_loss=0.09819, over 19732.00 frames. ], tot_loss[loss=0.2552, simple_loss=0.323, pruned_loss=0.09371, over 3631987.11 frames. ], batch size: 63, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:30:05,058 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48415.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:30:26,097 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 11:30:31,036 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48434.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:30:39,389 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48441.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:30:44,674 INFO [train.py:903] (2/4) Epoch 8, batch 650, loss[loss=0.2125, simple_loss=0.2828, pruned_loss=0.07109, over 19754.00 frames. ], tot_loss[loss=0.2557, simple_loss=0.323, pruned_loss=0.09418, over 3676355.23 frames. ], batch size: 46, lr: 1.07e-02, grad_scale: 16.0
+2023-04-01 11:30:50,368 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.061e+02 6.183e+02 7.491e+02 9.829e+02 2.830e+03, threshold=1.498e+03, percent-clipped=3.0
+2023-04-01 11:31:17,374 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48471.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:31:45,456 INFO [train.py:903] (2/4) Epoch 8, batch 700, loss[loss=0.2467, simple_loss=0.3111, pruned_loss=0.09121, over 19393.00 frames. ], tot_loss[loss=0.255, simple_loss=0.3228, pruned_loss=0.09358, over 3709060.25 frames. ], batch size: 47, lr: 1.07e-02, grad_scale: 16.0
+2023-04-01 11:31:45,800 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48496.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:32:17,631 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48521.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:32:44,079 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48542.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 11:32:48,888 INFO [train.py:903] (2/4) Epoch 8, batch 750, loss[loss=0.3394, simple_loss=0.3797, pruned_loss=0.1496, over 19580.00 frames. ], tot_loss[loss=0.256, simple_loss=0.3235, pruned_loss=0.09419, over 3728167.16 frames. ], batch size: 61, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:32:49,362 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48546.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:32:52,580 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48549.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:32:55,670 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.581e+02 6.054e+02 7.636e+02 9.380e+02 1.990e+03, threshold=1.527e+03, percent-clipped=3.0
+2023-04-01 11:33:13,742 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48567.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 11:33:21,444 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48574.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 11:33:36,198 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2360, 1.2020, 1.5053, 1.2027, 2.6638, 3.4931, 3.2649, 3.7882],
+       device='cuda:2'), covar=tensor([0.1505, 0.3297, 0.3007, 0.2045, 0.0479, 0.0164, 0.0216, 0.0144],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0285, 0.0316, 0.0246, 0.0209, 0.0135, 0.0202, 0.0172],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 11:33:38,455 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9975, 1.6174, 1.6113, 2.1026, 1.8394, 1.7508, 1.5669, 1.8881],
+       device='cuda:2'), covar=tensor([0.0836, 0.1602, 0.1264, 0.0804, 0.1199, 0.0499, 0.1114, 0.0618],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0358, 0.0285, 0.0238, 0.0303, 0.0243, 0.0273, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 11:33:49,557 INFO [train.py:903] (2/4) Epoch 8, batch 800, loss[loss=0.2913, simple_loss=0.3546, pruned_loss=0.114, over 19666.00 frames. ], tot_loss[loss=0.2543, simple_loss=0.3221, pruned_loss=0.09328, over 3742567.68 frames. ], batch size: 55, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:34:02,676 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 11:34:34,478 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9900, 3.6299, 2.3070, 3.3157, 1.0223, 3.3149, 3.2961, 3.4001],
+       device='cuda:2'), covar=tensor([0.0841, 0.1378, 0.2053, 0.0803, 0.3662, 0.0930, 0.0843, 0.1012],
+       device='cuda:2'), in_proj_covar=tensor([0.0394, 0.0344, 0.0401, 0.0302, 0.0366, 0.0328, 0.0318, 0.0355],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 11:34:51,085 INFO [train.py:903] (2/4) Epoch 8, batch 850, loss[loss=0.2437, simple_loss=0.3137, pruned_loss=0.0868, over 19676.00 frames. ], tot_loss[loss=0.253, simple_loss=0.321, pruned_loss=0.09251, over 3764710.14 frames. ], batch size: 53, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:34:57,942 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.799e+02 5.922e+02 7.936e+02 9.993e+02 1.897e+03, threshold=1.587e+03, percent-clipped=5.0
+2023-04-01 11:35:39,776 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 11:35:39,898 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48686.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:35:43,333 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48689.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 11:35:50,881 INFO [train.py:903] (2/4) Epoch 8, batch 900, loss[loss=0.2411, simple_loss=0.3149, pruned_loss=0.0836, over 19612.00 frames. ], tot_loss[loss=0.2524, simple_loss=0.3203, pruned_loss=0.0922, over 3780070.54 frames. ], batch size: 50, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:36:35,877 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0532, 2.0321, 1.6601, 1.4254, 1.5173, 1.5337, 0.2541, 0.8531],
+       device='cuda:2'), covar=tensor([0.0293, 0.0305, 0.0227, 0.0350, 0.0658, 0.0407, 0.0599, 0.0552],
+       device='cuda:2'), in_proj_covar=tensor([0.0312, 0.0313, 0.0311, 0.0329, 0.0402, 0.0324, 0.0291, 0.0311],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 11:36:54,667 INFO [train.py:903] (2/4) Epoch 8, batch 950, loss[loss=0.2553, simple_loss=0.3302, pruned_loss=0.09021, over 19674.00 frames. ], tot_loss[loss=0.2519, simple_loss=0.3198, pruned_loss=0.09194, over 3795137.68 frames. ], batch size: 60, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:36:56,556 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 11:37:03,058 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.996e+02 5.931e+02 7.048e+02 8.289e+02 1.665e+03, threshold=1.410e+03, percent-clipped=1.0
+2023-04-01 11:37:11,362 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48759.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:37:13,852 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8124, 4.2663, 4.4486, 4.4119, 1.4842, 4.1093, 3.5713, 4.1472],
+       device='cuda:2'), covar=tensor([0.1105, 0.0556, 0.0480, 0.0477, 0.4680, 0.0420, 0.0537, 0.0889],
+       device='cuda:2'), in_proj_covar=tensor([0.0587, 0.0519, 0.0699, 0.0588, 0.0647, 0.0441, 0.0444, 0.0648],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 11:37:42,411 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=48785.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:37:57,228 INFO [train.py:903] (2/4) Epoch 8, batch 1000, loss[loss=0.2495, simple_loss=0.3192, pruned_loss=0.0899, over 19302.00 frames. ], tot_loss[loss=0.2501, simple_loss=0.3186, pruned_loss=0.0908, over 3820259.00 frames. ], batch size: 66, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:38:03,541 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48801.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:38:08,242 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48805.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:38:40,041 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48830.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:38:50,191 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 11:38:51,484 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48839.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:38:59,282 INFO [train.py:903] (2/4) Epoch 8, batch 1050, loss[loss=0.225, simple_loss=0.3051, pruned_loss=0.0724, over 19570.00 frames. ], tot_loss[loss=0.2511, simple_loss=0.3199, pruned_loss=0.09117, over 3813656.71 frames. ], batch size: 52, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:39:06,227 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.557e+02 5.500e+02 6.561e+02 8.180e+02 1.521e+03, threshold=1.312e+03, percent-clipped=1.0
+2023-04-01 11:39:11,137 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=48856.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:39:30,883 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 11:39:34,254 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48874.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:39:58,992 INFO [train.py:903] (2/4) Epoch 8, batch 1100, loss[loss=0.3264, simple_loss=0.3715, pruned_loss=0.1406, over 13490.00 frames. ], tot_loss[loss=0.2533, simple_loss=0.3217, pruned_loss=0.09242, over 3797650.57 frames. ], batch size: 137, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:40:03,993 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=48900.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:41:00,192 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=48945.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 11:41:00,839 INFO [train.py:903] (2/4) Epoch 8, batch 1150, loss[loss=0.2419, simple_loss=0.3063, pruned_loss=0.08878, over 19376.00 frames. ], tot_loss[loss=0.2534, simple_loss=0.3217, pruned_loss=0.09253, over 3799195.46 frames. ], batch size: 47, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:41:09,122 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.525e+02 5.943e+02 6.952e+02 8.882e+02 1.618e+03, threshold=1.390e+03, percent-clipped=5.0
+2023-04-01 11:41:30,938 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=48970.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 11:42:04,109 INFO [train.py:903] (2/4) Epoch 8, batch 1200, loss[loss=0.2907, simple_loss=0.351, pruned_loss=0.1152, over 19673.00 frames. ], tot_loss[loss=0.2522, simple_loss=0.3208, pruned_loss=0.09182, over 3816368.06 frames. ], batch size: 53, lr: 1.07e-02, grad_scale: 8.0
+2023-04-01 11:42:32,686 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 11:43:05,004 INFO [train.py:903] (2/4) Epoch 8, batch 1250, loss[loss=0.2161, simple_loss=0.2879, pruned_loss=0.0721, over 19478.00 frames. ], tot_loss[loss=0.2539, simple_loss=0.3221, pruned_loss=0.09282, over 3823461.78 frames. ], batch size: 49, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:43:11,746 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.529e+02 6.811e+02 8.521e+02 1.008e+03 2.064e+03, threshold=1.704e+03, percent-clipped=4.0
+2023-04-01 11:43:18,073 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49057.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:43:50,342 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:43:51,358 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9441, 4.2526, 4.6097, 4.5670, 1.6715, 4.2551, 3.7671, 4.1862],
+       device='cuda:2'), covar=tensor([0.1118, 0.0791, 0.0526, 0.0466, 0.4957, 0.0546, 0.0523, 0.1076],
+       device='cuda:2'), in_proj_covar=tensor([0.0592, 0.0521, 0.0706, 0.0595, 0.0658, 0.0451, 0.0447, 0.0655],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0001, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 11:44:05,529 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-01 11:44:06,037 INFO [train.py:903] (2/4) Epoch 8, batch 1300, loss[loss=0.2356, simple_loss=0.3188, pruned_loss=0.07619, over 19474.00 frames. ], tot_loss[loss=0.2532, simple_loss=0.3214, pruned_loss=0.09245, over 3833186.60 frames. ], batch size: 64, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:44:49,027 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49130.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:45:07,332 INFO [train.py:903] (2/4) Epoch 8, batch 1350, loss[loss=0.2656, simple_loss=0.3329, pruned_loss=0.09915, over 13710.00 frames. ], tot_loss[loss=0.254, simple_loss=0.3218, pruned_loss=0.09309, over 3824727.04 frames. ], batch size: 135, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:45:08,146 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
+2023-04-01 11:45:16,539 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.771e+02 5.835e+02 7.092e+02 8.908e+02 2.388e+03, threshold=1.418e+03, percent-clipped=3.0
+2023-04-01 11:45:20,488 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49155.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:45:22,506 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49156.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:45:41,553 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8683, 3.3620, 1.7814, 2.2155, 2.8166, 1.7833, 1.2476, 1.8043],
+       device='cuda:2'), covar=tensor([0.1053, 0.0355, 0.0882, 0.0526, 0.0436, 0.0847, 0.0855, 0.0606],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0290, 0.0315, 0.0243, 0.0232, 0.0309, 0.0284, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 11:45:42,716 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6676, 1.2057, 1.5667, 1.3767, 3.2484, 0.9112, 2.0879, 3.4810],
+       device='cuda:2'), covar=tensor([0.0387, 0.2551, 0.2401, 0.1669, 0.0607, 0.2472, 0.1278, 0.0304],
+       device='cuda:2'), in_proj_covar=tensor([0.0313, 0.0317, 0.0325, 0.0298, 0.0325, 0.0319, 0.0297, 0.0321],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 11:45:52,089 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49181.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:45:54,148 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49183.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:46:10,833 INFO [train.py:903] (2/4) Epoch 8, batch 1400, loss[loss=0.2654, simple_loss=0.3348, pruned_loss=0.09803, over 19761.00 frames. ], tot_loss[loss=0.2545, simple_loss=0.3226, pruned_loss=0.09323, over 3833306.12 frames. ], batch size: 63, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:46:17,513 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49200.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:47:12,329 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 11:47:13,437 INFO [train.py:903] (2/4) Epoch 8, batch 1450, loss[loss=0.2454, simple_loss=0.3249, pruned_loss=0.08293, over 19682.00 frames. ], tot_loss[loss=0.2554, simple_loss=0.3231, pruned_loss=0.09391, over 3807562.16 frames. ], batch size: 58, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:47:19,910 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.194e+02 6.215e+02 8.146e+02 9.729e+02 2.293e+03, threshold=1.629e+03, percent-clipped=2.0
+2023-04-01 11:47:22,611 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49254.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:48:14,511 INFO [train.py:903] (2/4) Epoch 8, batch 1500, loss[loss=0.2124, simple_loss=0.2786, pruned_loss=0.07307, over 19775.00 frames. ], tot_loss[loss=0.2558, simple_loss=0.323, pruned_loss=0.09431, over 3801896.56 frames. ], batch size: 49, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:48:16,766 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49298.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:48:38,634 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49315.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:49:05,472 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8674, 1.5746, 1.4202, 1.8494, 1.7025, 1.5498, 1.4004, 1.6969],
+       device='cuda:2'), covar=tensor([0.0922, 0.1358, 0.1415, 0.0976, 0.1122, 0.0608, 0.1174, 0.0703],
+       device='cuda:2'), in_proj_covar=tensor([0.0241, 0.0346, 0.0278, 0.0232, 0.0290, 0.0238, 0.0266, 0.0225],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 11:49:14,519 INFO [train.py:903] (2/4) Epoch 8, batch 1550, loss[loss=0.2612, simple_loss=0.3324, pruned_loss=0.09499, over 19122.00 frames. ], tot_loss[loss=0.2555, simple_loss=0.3224, pruned_loss=0.09428, over 3807640.96 frames. ], batch size: 69, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:49:23,151 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.230e+02 6.392e+02 7.844e+02 9.464e+02 1.840e+03, threshold=1.569e+03, percent-clipped=1.0
+2023-04-01 11:49:42,560 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.1536, 5.5431, 2.9922, 4.7694, 0.9868, 5.3861, 5.4686, 5.6646],
+       device='cuda:2'), covar=tensor([0.0407, 0.0927, 0.1903, 0.0613, 0.4226, 0.0507, 0.0556, 0.0615],
+       device='cuda:2'), in_proj_covar=tensor([0.0393, 0.0341, 0.0399, 0.0298, 0.0368, 0.0326, 0.0318, 0.0355],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 11:50:17,464 INFO [train.py:903] (2/4) Epoch 8, batch 1600, loss[loss=0.243, simple_loss=0.3232, pruned_loss=0.08139, over 19611.00 frames. ], tot_loss[loss=0.255, simple_loss=0.3225, pruned_loss=0.09377, over 3819911.67 frames. ], batch size: 57, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:50:25,482 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5327, 3.7891, 4.1687, 4.0938, 2.3630, 3.8361, 3.4520, 3.8523],
+       device='cuda:2'), covar=tensor([0.1058, 0.2125, 0.0529, 0.0523, 0.3635, 0.0677, 0.0567, 0.0930],
+       device='cuda:2'), in_proj_covar=tensor([0.0600, 0.0533, 0.0717, 0.0598, 0.0667, 0.0458, 0.0454, 0.0663],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 11:50:32,384 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2230, 1.2605, 1.6648, 1.3683, 2.4568, 2.0295, 2.5469, 0.8873],
+       device='cuda:2'), covar=tensor([0.1891, 0.3230, 0.1843, 0.1591, 0.1179, 0.1640, 0.1200, 0.3126],
+       device='cuda:2'), in_proj_covar=tensor([0.0459, 0.0536, 0.0532, 0.0416, 0.0576, 0.0464, 0.0627, 0.0465],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 11:50:38,474 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 11:51:12,148 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49440.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:51:20,003 INFO [train.py:903] (2/4) Epoch 8, batch 1650, loss[loss=0.2154, simple_loss=0.2823, pruned_loss=0.07426, over 19732.00 frames. ], tot_loss[loss=0.2555, simple_loss=0.3228, pruned_loss=0.09411, over 3811491.02 frames. ], batch size: 45, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:51:24,786 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49450.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 11:51:26,747 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.384e+02 6.230e+02 7.478e+02 9.229e+02 3.510e+03, threshold=1.496e+03, percent-clipped=3.0
+2023-04-01 11:52:21,802 INFO [train.py:903] (2/4) Epoch 8, batch 1700, loss[loss=0.211, simple_loss=0.2761, pruned_loss=0.07298, over 19758.00 frames. ], tot_loss[loss=0.2563, simple_loss=0.3239, pruned_loss=0.09435, over 3801390.15 frames. ], batch size: 48, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:53:02,532 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 11:53:23,404 INFO [train.py:903] (2/4) Epoch 8, batch 1750, loss[loss=0.2806, simple_loss=0.3511, pruned_loss=0.1051, over 19672.00 frames. ], tot_loss[loss=0.2563, simple_loss=0.3238, pruned_loss=0.09441, over 3809511.75 frames. ], batch size: 58, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:53:31,457 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.581e+02 6.147e+02 7.390e+02 1.012e+03 1.809e+03, threshold=1.478e+03, percent-clipped=6.0
+2023-04-01 11:53:35,097 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49554.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:53:56,585 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49571.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:53:58,159 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
+2023-04-01 11:54:06,091 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49579.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:54:09,496 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8547, 4.4361, 2.5404, 3.8628, 1.0951, 4.0129, 4.0749, 4.2256],
+       device='cuda:2'), covar=tensor([0.0558, 0.0906, 0.2044, 0.0741, 0.3959, 0.0778, 0.0774, 0.0934],
+       device='cuda:2'), in_proj_covar=tensor([0.0396, 0.0343, 0.0401, 0.0299, 0.0366, 0.0325, 0.0316, 0.0356],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 11:54:27,944 INFO [train.py:903] (2/4) Epoch 8, batch 1800, loss[loss=0.2477, simple_loss=0.3104, pruned_loss=0.09244, over 19549.00 frames. ], tot_loss[loss=0.2557, simple_loss=0.3235, pruned_loss=0.09402, over 3819458.53 frames. ], batch size: 56, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:54:28,353 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49596.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:54:31,433 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49598.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:54:51,865 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5224, 3.9785, 4.1872, 4.1671, 1.4450, 3.8345, 3.3570, 3.8145],
+       device='cuda:2'), covar=tensor([0.1122, 0.0774, 0.0550, 0.0494, 0.4809, 0.0577, 0.0623, 0.1044],
+       device='cuda:2'), in_proj_covar=tensor([0.0606, 0.0533, 0.0718, 0.0602, 0.0669, 0.0461, 0.0454, 0.0665],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 11:55:25,403 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 11:55:26,231 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.53 vs. limit=5.0
+2023-04-01 11:55:30,994 INFO [train.py:903] (2/4) Epoch 8, batch 1850, loss[loss=0.2793, simple_loss=0.346, pruned_loss=0.1063, over 19688.00 frames. ], tot_loss[loss=0.2559, simple_loss=0.3238, pruned_loss=0.09399, over 3829941.01 frames. ], batch size: 60, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:55:38,001 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.438e+02 5.845e+02 7.519e+02 8.649e+02 2.522e+03, threshold=1.504e+03, percent-clipped=4.0
+2023-04-01 11:56:02,469 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 11:56:31,215 INFO [train.py:903] (2/4) Epoch 8, batch 1900, loss[loss=0.284, simple_loss=0.3493, pruned_loss=0.1093, over 17253.00 frames. ], tot_loss[loss=0.2564, simple_loss=0.3239, pruned_loss=0.09444, over 3832174.76 frames. ], batch size: 101, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:56:48,651 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 11:56:52,389 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49713.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:56:54,437 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 11:57:19,022 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 11:57:33,009 INFO [train.py:903] (2/4) Epoch 8, batch 1950, loss[loss=0.2621, simple_loss=0.3348, pruned_loss=0.09473, over 19659.00 frames. ], tot_loss[loss=0.2543, simple_loss=0.3223, pruned_loss=0.09315, over 3840221.52 frames. ], batch size: 55, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:57:40,107 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.492e+02 5.402e+02 6.624e+02 8.916e+02 2.925e+03, threshold=1.325e+03, percent-clipped=4.0
+2023-04-01 11:58:20,350 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49784.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:58:20,496 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=49784.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 11:58:32,993 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=49794.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 11:58:35,926 INFO [train.py:903] (2/4) Epoch 8, batch 2000, loss[loss=0.2468, simple_loss=0.3205, pruned_loss=0.08655, over 16989.00 frames. ], tot_loss[loss=0.2532, simple_loss=0.3213, pruned_loss=0.09257, over 3835243.47 frames. ], batch size: 101, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:59:34,104 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.99 vs. limit=5.0
+2023-04-01 11:59:35,612 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 11:59:38,072 INFO [train.py:903] (2/4) Epoch 8, batch 2050, loss[loss=0.225, simple_loss=0.2971, pruned_loss=0.07648, over 19377.00 frames. ], tot_loss[loss=0.2535, simple_loss=0.3218, pruned_loss=0.09262, over 3832561.12 frames. ], batch size: 48, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 11:59:45,939 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.480e+02 5.411e+02 7.156e+02 9.098e+02 3.444e+03, threshold=1.431e+03, percent-clipped=9.0
+2023-04-01 11:59:53,828 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 11:59:55,113 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 12:00:17,461 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 12:00:39,981 INFO [train.py:903] (2/4) Epoch 8, batch 2100, loss[loss=0.2767, simple_loss=0.3429, pruned_loss=0.1052, over 19615.00 frames. ], tot_loss[loss=0.2543, simple_loss=0.3225, pruned_loss=0.09303, over 3820899.03 frames. ], batch size: 61, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 12:00:43,786 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49899.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:00:55,243 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=49909.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:01:09,458 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 12:01:32,558 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 12:01:40,095 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9155, 2.0141, 2.0374, 2.9131, 1.9139, 2.6267, 2.5836, 1.9158],
+       device='cuda:2'), covar=tensor([0.2827, 0.2363, 0.1188, 0.1289, 0.2630, 0.1033, 0.2464, 0.2169],
+       device='cuda:2'), in_proj_covar=tensor([0.0724, 0.0734, 0.0612, 0.0859, 0.0731, 0.0636, 0.0760, 0.0658],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 12:01:41,840 INFO [train.py:903] (2/4) Epoch 8, batch 2150, loss[loss=0.2775, simple_loss=0.3468, pruned_loss=0.1041, over 19667.00 frames. ], tot_loss[loss=0.2547, simple_loss=0.3227, pruned_loss=0.09338, over 3827727.56 frames. ], batch size: 58, lr: 1.06e-02, grad_scale: 8.0
+2023-04-01 12:01:48,290 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.004e+02 5.997e+02 7.086e+02 8.659e+02 2.224e+03, threshold=1.417e+03, percent-clipped=8.0
+2023-04-01 12:01:49,683 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3630, 2.1877, 1.6938, 1.6262, 1.4699, 1.7946, 0.4507, 1.2320],
+       device='cuda:2'), covar=tensor([0.0269, 0.0310, 0.0300, 0.0464, 0.0665, 0.0421, 0.0639, 0.0533],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0307, 0.0308, 0.0327, 0.0397, 0.0319, 0.0288, 0.0306],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 12:02:06,537 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3261, 1.4724, 1.9957, 1.5328, 3.3584, 2.7804, 3.5405, 1.5463],
+       device='cuda:2'), covar=tensor([0.1907, 0.3168, 0.1874, 0.1485, 0.1132, 0.1427, 0.1361, 0.2814],
+       device='cuda:2'), in_proj_covar=tensor([0.0454, 0.0530, 0.0526, 0.0411, 0.0567, 0.0461, 0.0628, 0.0459],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 12:02:12,039 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=49969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:02:41,650 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=49994.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:02:43,586 INFO [train.py:903] (2/4) Epoch 8, batch 2200, loss[loss=0.2251, simple_loss=0.2932, pruned_loss=0.07848, over 19805.00 frames. ], tot_loss[loss=0.2544, simple_loss=0.3226, pruned_loss=0.09307, over 3840282.84 frames. ], batch size: 49, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:03:48,609 INFO [train.py:903] (2/4) Epoch 8, batch 2250, loss[loss=0.231, simple_loss=0.3045, pruned_loss=0.07871, over 18140.00 frames. ], tot_loss[loss=0.2543, simple_loss=0.3227, pruned_loss=0.09291, over 3843265.84 frames. ], batch size: 83, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:03:51,231 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3520, 3.9677, 2.3519, 3.6172, 0.9969, 3.6033, 3.6565, 3.7345],
+       device='cuda:2'), covar=tensor([0.0611, 0.0988, 0.2046, 0.0729, 0.3742, 0.0879, 0.0816, 0.1108],
+       device='cuda:2'), in_proj_covar=tensor([0.0390, 0.0338, 0.0398, 0.0294, 0.0360, 0.0323, 0.0312, 0.0353],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 12:03:55,474 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.410e+02 6.238e+02 7.806e+02 1.014e+03 2.092e+03, threshold=1.561e+03, percent-clipped=8.0
+2023-04-01 12:03:58,811 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.2626, 5.6161, 3.2388, 4.9838, 1.4178, 5.4439, 5.5575, 5.6943],
+       device='cuda:2'), covar=tensor([0.0414, 0.0858, 0.1591, 0.0544, 0.3779, 0.0520, 0.0520, 0.0614],
+       device='cuda:2'), in_proj_covar=tensor([0.0390, 0.0339, 0.0398, 0.0294, 0.0360, 0.0323, 0.0313, 0.0353],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 12:04:40,213 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.74 vs. limit=5.0
+2023-04-01 12:04:51,001 INFO [train.py:903] (2/4) Epoch 8, batch 2300, loss[loss=0.2695, simple_loss=0.3433, pruned_loss=0.0979, over 19573.00 frames. ], tot_loss[loss=0.2538, simple_loss=0.3222, pruned_loss=0.09264, over 3833301.23 frames. ], batch size: 61, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:05:04,983 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 12:05:31,278 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:05:52,942 INFO [train.py:903] (2/4) Epoch 8, batch 2350, loss[loss=0.2566, simple_loss=0.3207, pruned_loss=0.09622, over 19841.00 frames. ], tot_loss[loss=0.2533, simple_loss=0.322, pruned_loss=0.09228, over 3837523.51 frames. ], batch size: 52, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:05:53,214 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50146.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:05:59,868 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.785e+02 5.938e+02 7.771e+02 9.106e+02 1.869e+03, threshold=1.554e+03, percent-clipped=2.0
+2023-04-01 12:06:03,833 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50155.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:06:18,129 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50165.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:06:36,731 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50180.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:06:38,685 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 12:06:47,964 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50190.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:06:54,685 INFO [train.py:903] (2/4) Epoch 8, batch 2400, loss[loss=0.2346, simple_loss=0.3145, pruned_loss=0.07733, over 19342.00 frames. ], tot_loss[loss=0.2526, simple_loss=0.3214, pruned_loss=0.09193, over 3831804.28 frames. ], batch size: 66, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:06:54,693 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 12:07:20,918 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50215.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:07:54,630 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=50243.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:07:58,090 INFO [train.py:903] (2/4) Epoch 8, batch 2450, loss[loss=0.2299, simple_loss=0.3087, pruned_loss=0.07556, over 19834.00 frames. ], tot_loss[loss=0.2545, simple_loss=0.3232, pruned_loss=0.09291, over 3817131.35 frames. ], batch size: 52, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:08:05,250 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.846e+02 6.354e+02 7.339e+02 9.160e+02 2.255e+03, threshold=1.468e+03, percent-clipped=3.0
+2023-04-01 12:08:07,822 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.76 vs. limit=5.0
+2023-04-01 12:08:39,820 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-01 12:09:00,867 INFO [train.py:903] (2/4) Epoch 8, batch 2500, loss[loss=0.271, simple_loss=0.3322, pruned_loss=0.105, over 19668.00 frames. ], tot_loss[loss=0.2538, simple_loss=0.322, pruned_loss=0.09282, over 3829359.23 frames. ], batch size: 55, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:09:56,380 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9811, 1.5967, 1.5230, 2.0721, 1.8853, 1.7114, 1.4422, 1.8930],
+       device='cuda:2'), covar=tensor([0.0820, 0.1427, 0.1326, 0.0912, 0.1009, 0.0467, 0.1122, 0.0633],
+       device='cuda:2'), in_proj_covar=tensor([0.0245, 0.0354, 0.0284, 0.0236, 0.0293, 0.0237, 0.0267, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 12:10:03,029 INFO [train.py:903] (2/4) Epoch 8, batch 2550, loss[loss=0.2253, simple_loss=0.2936, pruned_loss=0.07846, over 19764.00 frames. ], tot_loss[loss=0.2544, simple_loss=0.3224, pruned_loss=0.09327, over 3816978.69 frames. ], batch size: 48, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:10:09,527 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.329e+02 5.479e+02 6.803e+02 8.076e+02 1.672e+03, threshold=1.361e+03, percent-clipped=2.0
+2023-04-01 12:10:59,287 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 12:11:05,095 INFO [train.py:903] (2/4) Epoch 8, batch 2600, loss[loss=0.2569, simple_loss=0.3309, pruned_loss=0.09141, over 19661.00 frames. ], tot_loss[loss=0.2537, simple_loss=0.3215, pruned_loss=0.09295, over 3821736.23 frames. ], batch size: 58, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:12:09,320 INFO [train.py:903] (2/4) Epoch 8, batch 2650, loss[loss=0.2559, simple_loss=0.3165, pruned_loss=0.09765, over 19787.00 frames. ], tot_loss[loss=0.2546, simple_loss=0.3223, pruned_loss=0.0935, over 3811124.04 frames. ], batch size: 49, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:12:15,979 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.098e+02 6.836e+02 8.198e+02 1.046e+03 1.620e+03, threshold=1.640e+03, percent-clipped=8.0
+2023-04-01 12:12:27,571 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 12:12:35,151 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.93 vs. limit=5.0
+2023-04-01 12:13:04,665 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50490.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:13:11,319 INFO [train.py:903] (2/4) Epoch 8, batch 2700, loss[loss=0.2248, simple_loss=0.2832, pruned_loss=0.08321, over 19751.00 frames. ], tot_loss[loss=0.2536, simple_loss=0.3214, pruned_loss=0.09292, over 3821709.31 frames. ], batch size: 47, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:13:16,522 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50499.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:13:17,738 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3744, 1.3904, 1.8843, 1.5495, 3.1561, 2.7668, 3.4299, 1.6611],
+       device='cuda:2'), covar=tensor([0.2098, 0.3553, 0.2054, 0.1713, 0.1482, 0.1537, 0.1417, 0.3037],
+       device='cuda:2'), in_proj_covar=tensor([0.0462, 0.0535, 0.0538, 0.0416, 0.0577, 0.0469, 0.0632, 0.0466],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 12:13:46,638 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50524.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:14:15,285 INFO [train.py:903] (2/4) Epoch 8, batch 2750, loss[loss=0.2505, simple_loss=0.3215, pruned_loss=0.08981, over 19673.00 frames. ], tot_loss[loss=0.2538, simple_loss=0.3216, pruned_loss=0.09301, over 3830936.01 frames. ], batch size: 53, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:14:23,785 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.883e+02 5.912e+02 7.181e+02 9.047e+02 1.864e+03, threshold=1.436e+03, percent-clipped=1.0
+2023-04-01 12:14:30,895 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50559.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:14:37,816 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50564.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:14:45,514 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3298, 1.2718, 1.5387, 1.8071, 2.9150, 1.0219, 2.1321, 3.1350],
+       device='cuda:2'), covar=tensor([0.0468, 0.2584, 0.2367, 0.1338, 0.0669, 0.2234, 0.1104, 0.0365],
+       device='cuda:2'), in_proj_covar=tensor([0.0317, 0.0323, 0.0332, 0.0296, 0.0327, 0.0316, 0.0302, 0.0325],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 12:15:16,202 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1889, 2.0893, 1.7287, 1.5464, 1.5199, 1.6577, 0.3098, 0.9447],
+       device='cuda:2'), covar=tensor([0.0326, 0.0340, 0.0277, 0.0453, 0.0737, 0.0458, 0.0724, 0.0628],
+       device='cuda:2'), in_proj_covar=tensor([0.0318, 0.0315, 0.0319, 0.0334, 0.0409, 0.0331, 0.0298, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 12:15:18,013 INFO [train.py:903] (2/4) Epoch 8, batch 2800, loss[loss=0.2475, simple_loss=0.3189, pruned_loss=0.08798, over 19670.00 frames. ], tot_loss[loss=0.2543, simple_loss=0.3216, pruned_loss=0.09352, over 3825096.62 frames. ], batch size: 55, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:15:29,744 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=50605.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:16:06,385 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9129, 3.5304, 2.2755, 3.1848, 0.7692, 3.3055, 3.3149, 3.4075],
+       device='cuda:2'), covar=tensor([0.0814, 0.1229, 0.2141, 0.0844, 0.4074, 0.0916, 0.0784, 0.1157],
+       device='cuda:2'), in_proj_covar=tensor([0.0394, 0.0341, 0.0406, 0.0297, 0.0363, 0.0325, 0.0315, 0.0354],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 12:16:21,990 INFO [train.py:903] (2/4) Epoch 8, batch 2850, loss[loss=0.2905, simple_loss=0.3478, pruned_loss=0.1167, over 19381.00 frames. ], tot_loss[loss=0.2547, simple_loss=0.3223, pruned_loss=0.09359, over 3822688.70 frames. ], batch size: 70, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:16:31,182 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.810e+02 5.617e+02 7.073e+02 8.787e+02 1.544e+03, threshold=1.415e+03, percent-clipped=2.0
+2023-04-01 12:16:57,640 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=50674.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:17:03,981 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
+2023-04-01 12:17:19,586 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8211, 1.8360, 1.9665, 2.6655, 1.8479, 2.5253, 2.3344, 1.8227],
+       device='cuda:2'), covar=tensor([0.2835, 0.2191, 0.1177, 0.1272, 0.2504, 0.1003, 0.2573, 0.2163],
+       device='cuda:2'), in_proj_covar=tensor([0.0724, 0.0731, 0.0612, 0.0848, 0.0731, 0.0633, 0.0755, 0.0652],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 12:17:26,001 INFO [train.py:903] (2/4) Epoch 8, batch 2900, loss[loss=0.2508, simple_loss=0.31, pruned_loss=0.09579, over 19625.00 frames. ], tot_loss[loss=0.2543, simple_loss=0.322, pruned_loss=0.0933, over 3824383.30 frames. ], batch size: 50, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:17:26,048 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 12:17:39,504 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5915, 1.5305, 1.3447, 2.0029, 1.6254, 1.9763, 2.0979, 1.7775],
+       device='cuda:2'), covar=tensor([0.0938, 0.1053, 0.1203, 0.0980, 0.0988, 0.0824, 0.0862, 0.0794],
+       device='cuda:2'), in_proj_covar=tensor([0.0218, 0.0233, 0.0233, 0.0262, 0.0247, 0.0218, 0.0210, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 12:18:29,364 INFO [train.py:903] (2/4) Epoch 8, batch 2950, loss[loss=0.269, simple_loss=0.3393, pruned_loss=0.09928, over 19293.00 frames. ], tot_loss[loss=0.2549, simple_loss=0.3228, pruned_loss=0.09354, over 3808035.80 frames. ], batch size: 66, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:18:37,517 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.796e+02 6.074e+02 7.951e+02 1.027e+03 2.467e+03, threshold=1.590e+03, percent-clipped=7.0
+2023-04-01 12:19:31,429 INFO [train.py:903] (2/4) Epoch 8, batch 3000, loss[loss=0.2856, simple_loss=0.3475, pruned_loss=0.1118, over 19771.00 frames. ], tot_loss[loss=0.2554, simple_loss=0.3229, pruned_loss=0.09389, over 3827464.40 frames. ], batch size: 56, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:19:31,429 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 12:19:44,076 INFO [train.py:937] (2/4) Epoch 8, validation: loss=0.1875, simple_loss=0.2879, pruned_loss=0.04358, over 944034.00 frames. 
+2023-04-01 12:19:44,077 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18546MB
+2023-04-01 12:19:46,424 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 12:19:48,013 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9444, 1.8274, 1.4773, 1.9628, 1.8557, 1.6280, 1.4094, 1.8279],
+       device='cuda:2'), covar=tensor([0.0981, 0.1565, 0.1505, 0.1065, 0.1281, 0.0629, 0.1349, 0.0685],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0355, 0.0286, 0.0241, 0.0297, 0.0239, 0.0272, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 12:19:49,176 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50800.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:20:21,760 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50826.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:20:45,723 INFO [train.py:903] (2/4) Epoch 8, batch 3050, loss[loss=0.2285, simple_loss=0.2968, pruned_loss=0.08009, over 19427.00 frames. ], tot_loss[loss=0.2545, simple_loss=0.3222, pruned_loss=0.09336, over 3827480.14 frames. ], batch size: 48, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:20:55,179 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.189e+02 5.734e+02 7.199e+02 9.163e+02 1.650e+03, threshold=1.440e+03, percent-clipped=2.0
+2023-04-01 12:21:05,877 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8398, 1.9183, 1.5528, 3.3507, 2.1240, 2.9853, 2.3316, 1.3896],
+       device='cuda:2'), covar=tensor([0.3578, 0.2833, 0.1848, 0.1895, 0.3210, 0.1312, 0.3300, 0.3250],
+       device='cuda:2'), in_proj_covar=tensor([0.0734, 0.0743, 0.0618, 0.0864, 0.0741, 0.0645, 0.0765, 0.0663],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 12:21:06,922 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50861.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:21:36,803 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50886.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:21:49,973 INFO [train.py:903] (2/4) Epoch 8, batch 3100, loss[loss=0.2213, simple_loss=0.2876, pruned_loss=0.07751, over 18996.00 frames. ], tot_loss[loss=0.2554, simple_loss=0.3233, pruned_loss=0.09371, over 3821278.60 frames. ], batch size: 42, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:22:01,845 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-01 12:22:04,756 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=50908.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:22:32,055 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=50930.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:22:52,354 INFO [train.py:903] (2/4) Epoch 8, batch 3150, loss[loss=0.2971, simple_loss=0.3614, pruned_loss=0.1165, over 18178.00 frames. ], tot_loss[loss=0.2533, simple_loss=0.3213, pruned_loss=0.09265, over 3834836.00 frames. ], batch size: 83, lr: 1.05e-02, grad_scale: 8.0
+2023-04-01 12:23:00,492 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.154e+02 5.915e+02 7.023e+02 8.955e+02 1.571e+03, threshold=1.405e+03, percent-clipped=4.0
+2023-04-01 12:23:03,146 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=50955.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:23:14,707 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=50964.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:23:20,378 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 12:23:54,305 INFO [train.py:903] (2/4) Epoch 8, batch 3200, loss[loss=0.2361, simple_loss=0.314, pruned_loss=0.0791, over 19533.00 frames. ], tot_loss[loss=0.2537, simple_loss=0.3217, pruned_loss=0.09285, over 3830770.11 frames. ], batch size: 54, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:24:30,138 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51023.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:24:57,558 INFO [train.py:903] (2/4) Epoch 8, batch 3250, loss[loss=0.2218, simple_loss=0.2882, pruned_loss=0.07765, over 19775.00 frames. ], tot_loss[loss=0.2537, simple_loss=0.3216, pruned_loss=0.0929, over 3844889.03 frames. ], batch size: 48, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:25:05,788 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.083e+02 6.087e+02 7.883e+02 9.942e+02 3.174e+03, threshold=1.577e+03, percent-clipped=7.0
+2023-04-01 12:25:40,468 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51080.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:26:00,808 INFO [train.py:903] (2/4) Epoch 8, batch 3300, loss[loss=0.2331, simple_loss=0.3109, pruned_loss=0.07766, over 19067.00 frames. ], tot_loss[loss=0.2526, simple_loss=0.3205, pruned_loss=0.09238, over 3832827.08 frames. ], batch size: 69, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:26:08,882 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 12:27:02,462 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51144.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:27:04,795 INFO [train.py:903] (2/4) Epoch 8, batch 3350, loss[loss=0.2821, simple_loss=0.3442, pruned_loss=0.11, over 19774.00 frames. ], tot_loss[loss=0.2535, simple_loss=0.321, pruned_loss=0.09298, over 3826079.64 frames. ], batch size: 54, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:27:12,718 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.478e+02 5.942e+02 7.377e+02 9.279e+02 2.136e+03, threshold=1.475e+03, percent-clipped=2.0
+2023-04-01 12:27:34,020 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51170.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:27:47,838 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1976, 1.2989, 1.2215, 0.9700, 1.0582, 1.0361, 0.1060, 0.3713],
+       device='cuda:2'), covar=tensor([0.0366, 0.0393, 0.0231, 0.0318, 0.0785, 0.0327, 0.0647, 0.0608],
+       device='cuda:2'), in_proj_covar=tensor([0.0321, 0.0318, 0.0315, 0.0331, 0.0408, 0.0333, 0.0294, 0.0314],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 12:28:00,628 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51190.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:28:07,188 INFO [train.py:903] (2/4) Epoch 8, batch 3400, loss[loss=0.2614, simple_loss=0.3321, pruned_loss=0.09538, over 18168.00 frames. ], tot_loss[loss=0.2537, simple_loss=0.3215, pruned_loss=0.09294, over 3844741.42 frames. ], batch size: 83, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:29:05,386 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-01 12:29:10,671 INFO [train.py:903] (2/4) Epoch 8, batch 3450, loss[loss=0.2557, simple_loss=0.3288, pruned_loss=0.09136, over 19629.00 frames. ], tot_loss[loss=0.2553, simple_loss=0.3232, pruned_loss=0.09373, over 3840067.69 frames. ], batch size: 61, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:29:12,342 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.74 vs. limit=2.0
+2023-04-01 12:29:16,201 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 12:29:18,575 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.243e+02 6.280e+02 7.477e+02 9.686e+02 1.820e+03, threshold=1.495e+03, percent-clipped=3.0
+2023-04-01 12:29:27,078 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51259.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:29:52,018 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51279.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:30:00,132 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51285.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:30:12,377 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
+2023-04-01 12:30:12,709 INFO [train.py:903] (2/4) Epoch 8, batch 3500, loss[loss=0.2902, simple_loss=0.3522, pruned_loss=0.1142, over 18725.00 frames. ], tot_loss[loss=0.254, simple_loss=0.3217, pruned_loss=0.09313, over 3837339.18 frames. ], batch size: 74, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:30:25,521 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51304.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:30:30,177 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51308.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:30:31,844 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.97 vs. limit=2.0
+2023-04-01 12:31:19,053 INFO [train.py:903] (2/4) Epoch 8, batch 3550, loss[loss=0.2293, simple_loss=0.3051, pruned_loss=0.07672, over 19536.00 frames. ], tot_loss[loss=0.2522, simple_loss=0.3208, pruned_loss=0.09181, over 3838563.83 frames. ], batch size: 54, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:31:27,383 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.001e+02 5.209e+02 6.396e+02 8.561e+02 1.899e+03, threshold=1.279e+03, percent-clipped=3.0
+2023-04-01 12:32:21,069 INFO [train.py:903] (2/4) Epoch 8, batch 3600, loss[loss=0.2474, simple_loss=0.3263, pruned_loss=0.08421, over 19654.00 frames. ], tot_loss[loss=0.2532, simple_loss=0.3213, pruned_loss=0.0925, over 3842756.80 frames. ], batch size: 55, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:32:26,123 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51400.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:32:38,772 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51410.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:32:55,858 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51423.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:32:56,821 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51424.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:33:22,341 INFO [train.py:903] (2/4) Epoch 8, batch 3650, loss[loss=0.3279, simple_loss=0.3726, pruned_loss=0.1416, over 13366.00 frames. ], tot_loss[loss=0.2534, simple_loss=0.3214, pruned_loss=0.09271, over 3831757.48 frames. ], batch size: 136, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:33:31,507 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.306e+02 6.415e+02 7.779e+02 9.918e+02 2.619e+03, threshold=1.556e+03, percent-clipped=14.0
+2023-04-01 12:34:24,447 INFO [train.py:903] (2/4) Epoch 8, batch 3700, loss[loss=0.2348, simple_loss=0.2934, pruned_loss=0.08809, over 19763.00 frames. ], tot_loss[loss=0.2551, simple_loss=0.3225, pruned_loss=0.09391, over 3827200.82 frames. ], batch size: 47, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:34:46,879 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51513.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:34:49,325 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51515.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:35:12,259 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51534.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:35:18,892 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51539.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:35:20,142 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51540.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:35:22,204 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51541.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:35:28,599 INFO [train.py:903] (2/4) Epoch 8, batch 3750, loss[loss=0.2351, simple_loss=0.3096, pruned_loss=0.08026, over 19670.00 frames. ], tot_loss[loss=0.2562, simple_loss=0.3236, pruned_loss=0.09439, over 3820159.55 frames. ], batch size: 58, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:35:36,645 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.985e+02 5.907e+02 7.282e+02 9.270e+02 2.268e+03, threshold=1.456e+03, percent-clipped=4.0
+2023-04-01 12:35:52,347 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51566.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:36:30,195 INFO [train.py:903] (2/4) Epoch 8, batch 3800, loss[loss=0.2488, simple_loss=0.3263, pruned_loss=0.08564, over 19321.00 frames. ], tot_loss[loss=0.2557, simple_loss=0.3231, pruned_loss=0.09411, over 3818985.66 frames. ], batch size: 66, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:37:02,504 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 12:37:31,373 INFO [train.py:903] (2/4) Epoch 8, batch 3850, loss[loss=0.2684, simple_loss=0.3421, pruned_loss=0.09732, over 19751.00 frames. ], tot_loss[loss=0.2554, simple_loss=0.3229, pruned_loss=0.09397, over 3814433.96 frames. ], batch size: 63, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:37:35,084 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51649.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:37:40,053 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.568e+02 6.155e+02 7.716e+02 1.023e+03 2.199e+03, threshold=1.543e+03, percent-clipped=8.0
+2023-04-01 12:38:13,442 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51679.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:38:33,778 INFO [train.py:903] (2/4) Epoch 8, batch 3900, loss[loss=0.2401, simple_loss=0.3184, pruned_loss=0.08089, over 19782.00 frames. ], tot_loss[loss=0.2544, simple_loss=0.3224, pruned_loss=0.09319, over 3818398.54 frames. ], batch size: 56, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:38:45,000 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51704.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:39:33,700 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51744.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:39:37,152 INFO [train.py:903] (2/4) Epoch 8, batch 3950, loss[loss=0.234, simple_loss=0.2999, pruned_loss=0.08405, over 19609.00 frames. ], tot_loss[loss=0.2552, simple_loss=0.323, pruned_loss=0.09376, over 3814180.31 frames. ], batch size: 50, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:39:41,701 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 12:39:45,222 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.212e+02 5.815e+02 7.280e+02 9.203e+02 2.422e+03, threshold=1.456e+03, percent-clipped=4.0
+2023-04-01 12:39:46,652 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51754.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:39:59,576 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=51765.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:40:37,963 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51795.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:40:38,734 INFO [train.py:903] (2/4) Epoch 8, batch 4000, loss[loss=0.2083, simple_loss=0.2879, pruned_loss=0.06439, over 19780.00 frames. ], tot_loss[loss=0.255, simple_loss=0.3228, pruned_loss=0.09361, over 3823563.43 frames. ], batch size: 54, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:41:09,873 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51820.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:41:27,811 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 12:41:41,698 INFO [train.py:903] (2/4) Epoch 8, batch 4050, loss[loss=0.3271, simple_loss=0.3695, pruned_loss=0.1423, over 13302.00 frames. ], tot_loss[loss=0.2551, simple_loss=0.3226, pruned_loss=0.09378, over 3813063.35 frames. ], batch size: 135, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:41:50,761 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.576e+02 5.742e+02 7.614e+02 9.901e+02 2.045e+03, threshold=1.523e+03, percent-clipped=5.0
+2023-04-01 12:41:56,453 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=51857.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:41:59,721 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51859.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:42:11,952 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51869.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:42:43,860 INFO [train.py:903] (2/4) Epoch 8, batch 4100, loss[loss=0.2598, simple_loss=0.3161, pruned_loss=0.1017, over 19399.00 frames. ], tot_loss[loss=0.2548, simple_loss=0.3225, pruned_loss=0.09357, over 3802565.77 frames. ], batch size: 48, lr: 1.04e-02, grad_scale: 8.0
+2023-04-01 12:42:56,253 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=51905.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 12:43:21,458 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 12:43:26,477 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=51930.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:43:39,198 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.73 vs. limit=2.0
+2023-04-01 12:43:47,764 INFO [train.py:903] (2/4) Epoch 8, batch 4150, loss[loss=0.2269, simple_loss=0.2958, pruned_loss=0.07899, over 19661.00 frames. ], tot_loss[loss=0.2542, simple_loss=0.3218, pruned_loss=0.09329, over 3803913.71 frames. ], batch size: 55, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:43:56,793 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.129e+02 6.343e+02 7.798e+02 9.790e+02 2.215e+03, threshold=1.560e+03, percent-clipped=4.0
+2023-04-01 12:44:19,763 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=51972.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:44:50,690 INFO [train.py:903] (2/4) Epoch 8, batch 4200, loss[loss=0.2255, simple_loss=0.3048, pruned_loss=0.0731, over 19790.00 frames. ], tot_loss[loss=0.2536, simple_loss=0.3221, pruned_loss=0.09258, over 3813907.97 frames. ], batch size: 56, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:44:57,642 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 12:45:04,789 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2309, 4.2461, 4.7642, 4.7390, 2.6630, 4.4059, 4.0486, 4.4417],
+       device='cuda:2'), covar=tensor([0.0957, 0.2147, 0.0439, 0.0463, 0.3535, 0.0535, 0.0466, 0.0873],
+       device='cuda:2'), in_proj_covar=tensor([0.0600, 0.0526, 0.0712, 0.0601, 0.0666, 0.0461, 0.0450, 0.0661],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 12:45:53,324 INFO [train.py:903] (2/4) Epoch 8, batch 4250, loss[loss=0.2064, simple_loss=0.2818, pruned_loss=0.06557, over 19372.00 frames. ], tot_loss[loss=0.253, simple_loss=0.3218, pruned_loss=0.09216, over 3822595.01 frames. ], batch size: 47, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:45:57,237 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1274, 3.5243, 2.0516, 2.0995, 3.0917, 1.6912, 1.4157, 2.1048],
+       device='cuda:2'), covar=tensor([0.1009, 0.0410, 0.0814, 0.0644, 0.0412, 0.0888, 0.0761, 0.0579],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0290, 0.0314, 0.0241, 0.0226, 0.0308, 0.0284, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 12:46:01,321 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.676e+02 5.455e+02 6.472e+02 8.916e+02 2.597e+03, threshold=1.294e+03, percent-clipped=4.0
+2023-04-01 12:46:08,481 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52058.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:46:11,540 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 12:46:18,995 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
+2023-04-01 12:46:21,918 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 12:46:55,487 INFO [train.py:903] (2/4) Epoch 8, batch 4300, loss[loss=0.249, simple_loss=0.317, pruned_loss=0.09046, over 19850.00 frames. ], tot_loss[loss=0.2517, simple_loss=0.3207, pruned_loss=0.09134, over 3819427.43 frames. ], batch size: 52, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:47:14,072 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52109.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:47:22,372 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52115.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:47:31,704 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7894, 2.1417, 2.3058, 2.6105, 2.5584, 2.3296, 2.1466, 2.6270],
+       device='cuda:2'), covar=tensor([0.0720, 0.1596, 0.1135, 0.0902, 0.1053, 0.0418, 0.0946, 0.0546],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0350, 0.0282, 0.0234, 0.0295, 0.0238, 0.0267, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 12:47:34,077 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52125.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:47:51,785 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 12:47:53,342 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52140.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:48:00,442 INFO [train.py:903] (2/4) Epoch 8, batch 4350, loss[loss=0.2624, simple_loss=0.3329, pruned_loss=0.09597, over 18848.00 frames. ], tot_loss[loss=0.2505, simple_loss=0.3199, pruned_loss=0.09054, over 3834591.79 frames. ], batch size: 74, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:48:06,453 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52150.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:48:09,401 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.508e+02 5.672e+02 7.291e+02 9.101e+02 1.997e+03, threshold=1.458e+03, percent-clipped=8.0
+2023-04-01 12:48:48,790 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
+2023-04-01 12:49:03,054 INFO [train.py:903] (2/4) Epoch 8, batch 4400, loss[loss=0.2198, simple_loss=0.2887, pruned_loss=0.07544, over 19385.00 frames. ], tot_loss[loss=0.2508, simple_loss=0.3202, pruned_loss=0.0907, over 3841588.77 frames. ], batch size: 47, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:49:21,169 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52211.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:49:26,795 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 12:49:38,195 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 12:49:38,576 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52224.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:49:43,342 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52228.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:50:01,072 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.58 vs. limit=2.0
+2023-04-01 12:50:05,240 INFO [train.py:903] (2/4) Epoch 8, batch 4450, loss[loss=0.2194, simple_loss=0.2828, pruned_loss=0.07799, over 19738.00 frames. ], tot_loss[loss=0.2506, simple_loss=0.3194, pruned_loss=0.0909, over 3834719.54 frames. ], batch size: 47, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:50:13,313 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.227e+02 5.880e+02 7.086e+02 8.839e+02 1.936e+03, threshold=1.417e+03, percent-clipped=3.0
+2023-04-01 12:50:13,764 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52253.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:50:23,898 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2602, 2.9484, 1.9936, 2.1812, 2.0287, 2.4210, 0.7719, 2.0764],
+       device='cuda:2'), covar=tensor([0.0447, 0.0367, 0.0497, 0.0652, 0.0660, 0.0668, 0.0884, 0.0663],
+       device='cuda:2'), in_proj_covar=tensor([0.0319, 0.0318, 0.0316, 0.0333, 0.0412, 0.0333, 0.0299, 0.0317],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 12:51:06,387 INFO [train.py:903] (2/4) Epoch 8, batch 4500, loss[loss=0.2518, simple_loss=0.3056, pruned_loss=0.099, over 17362.00 frames. ], tot_loss[loss=0.2518, simple_loss=0.3202, pruned_loss=0.09171, over 3826777.76 frames. ], batch size: 38, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:51:26,573 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
+2023-04-01 12:51:50,123 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52330.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:52:10,336 INFO [train.py:903] (2/4) Epoch 8, batch 4550, loss[loss=0.2408, simple_loss=0.3141, pruned_loss=0.08379, over 18677.00 frames. ], tot_loss[loss=0.2521, simple_loss=0.3208, pruned_loss=0.09171, over 3830627.19 frames. ], batch size: 74, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:52:18,695 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.675e+02 5.922e+02 7.010e+02 8.869e+02 1.679e+03, threshold=1.402e+03, percent-clipped=2.0
+2023-04-01 12:52:18,729 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 12:52:41,944 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 12:52:46,052 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.81 vs. limit=2.0
+2023-04-01 12:53:11,436 INFO [train.py:903] (2/4) Epoch 8, batch 4600, loss[loss=0.205, simple_loss=0.2753, pruned_loss=0.06737, over 19386.00 frames. ], tot_loss[loss=0.2514, simple_loss=0.3205, pruned_loss=0.09116, over 3836415.68 frames. ], batch size: 47, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:53:18,532 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52402.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:53:49,129 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1768, 1.2873, 1.8312, 1.4192, 2.7097, 2.0553, 2.7983, 0.9919],
+       device='cuda:2'), covar=tensor([0.2248, 0.3660, 0.2066, 0.1788, 0.1325, 0.1914, 0.1480, 0.3570],
+       device='cuda:2'), in_proj_covar=tensor([0.0469, 0.0546, 0.0544, 0.0422, 0.0581, 0.0474, 0.0643, 0.0470],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 12:54:12,887 INFO [train.py:903] (2/4) Epoch 8, batch 4650, loss[loss=0.2883, simple_loss=0.3494, pruned_loss=0.1136, over 19104.00 frames. ], tot_loss[loss=0.2523, simple_loss=0.3217, pruned_loss=0.09145, over 3826134.05 frames. ], batch size: 69, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:54:21,260 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.655e+02 5.664e+02 6.903e+02 8.285e+02 1.576e+03, threshold=1.381e+03, percent-clipped=2.0
+2023-04-01 12:54:30,499 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 12:54:42,705 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 12:54:56,975 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52480.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:55:15,234 INFO [train.py:903] (2/4) Epoch 8, batch 4700, loss[loss=0.2335, simple_loss=0.3089, pruned_loss=0.07902, over 19581.00 frames. ], tot_loss[loss=0.2509, simple_loss=0.3203, pruned_loss=0.09079, over 3819566.14 frames. ], batch size: 52, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:55:27,917 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52505.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:55:39,745 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 12:55:43,532 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:56:18,366 INFO [train.py:903] (2/4) Epoch 8, batch 4750, loss[loss=0.2584, simple_loss=0.328, pruned_loss=0.09439, over 19683.00 frames. ], tot_loss[loss=0.2509, simple_loss=0.3201, pruned_loss=0.0909, over 3811246.97 frames. ], batch size: 60, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:56:29,694 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.555e+02 6.316e+02 7.348e+02 9.529e+02 1.491e+03, threshold=1.470e+03, percent-clipped=3.0
+2023-04-01 12:56:31,060 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52555.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:56:41,236 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
+2023-04-01 12:56:52,323 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52573.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 12:57:22,246 INFO [train.py:903] (2/4) Epoch 8, batch 4800, loss[loss=0.2469, simple_loss=0.3139, pruned_loss=0.08995, over 19670.00 frames. ], tot_loss[loss=0.2506, simple_loss=0.3196, pruned_loss=0.0908, over 3814401.03 frames. ], batch size: 55, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:57:26,438 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-01 12:58:22,762 INFO [train.py:903] (2/4) Epoch 8, batch 4850, loss[loss=0.2744, simple_loss=0.3431, pruned_loss=0.1029, over 19666.00 frames. ], tot_loss[loss=0.2503, simple_loss=0.3191, pruned_loss=0.09071, over 3828702.24 frames. ], batch size: 59, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:58:32,082 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.583e+02 6.021e+02 7.604e+02 9.872e+02 2.114e+03, threshold=1.521e+03, percent-clipped=8.0
+2023-04-01 12:58:46,010 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 12:58:52,968 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52670.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:58:58,364 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52674.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 12:59:08,341 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 12:59:14,114 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 12:59:14,152 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 12:59:23,225 INFO [train.py:903] (2/4) Epoch 8, batch 4900, loss[loss=0.311, simple_loss=0.3622, pruned_loss=0.1299, over 19650.00 frames. ], tot_loss[loss=0.2498, simple_loss=0.3183, pruned_loss=0.0906, over 3835245.24 frames. ], batch size: 58, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 12:59:24,414 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 12:59:44,293 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 13:00:22,663 INFO [train.py:903] (2/4) Epoch 8, batch 4950, loss[loss=0.2484, simple_loss=0.3171, pruned_loss=0.08992, over 18183.00 frames. ], tot_loss[loss=0.2517, simple_loss=0.3202, pruned_loss=0.09158, over 3829611.74 frames. ], batch size: 83, lr: 1.03e-02, grad_scale: 8.0
+2023-04-01 13:00:35,712 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.348e+02 6.374e+02 8.178e+02 1.048e+03 2.702e+03, threshold=1.636e+03, percent-clipped=11.0
+2023-04-01 13:00:40,338 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 13:00:42,035 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9741, 3.4449, 1.9304, 1.9285, 2.9846, 1.8038, 1.2609, 2.0011],
+       device='cuda:2'), covar=tensor([0.1087, 0.0473, 0.0936, 0.0746, 0.0448, 0.0889, 0.0947, 0.0599],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0291, 0.0313, 0.0242, 0.0229, 0.0311, 0.0287, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:00:53,282 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=52770.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:00:56,960 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52773.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:01:04,914 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 13:01:17,629 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=52789.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:01:26,607 INFO [train.py:903] (2/4) Epoch 8, batch 5000, loss[loss=0.2833, simple_loss=0.353, pruned_loss=0.1068, over 18790.00 frames. ], tot_loss[loss=0.2508, simple_loss=0.3194, pruned_loss=0.09106, over 3834390.11 frames. ], batch size: 74, lr: 1.03e-02, grad_scale: 4.0
+2023-04-01 13:01:29,351 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52798.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:01:35,990 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 13:01:41,333 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-01 13:01:47,278 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 13:02:28,522 INFO [train.py:903] (2/4) Epoch 8, batch 5050, loss[loss=0.2137, simple_loss=0.2735, pruned_loss=0.07697, over 19720.00 frames. ], tot_loss[loss=0.2499, simple_loss=0.3187, pruned_loss=0.09052, over 3829896.19 frames. ], batch size: 46, lr: 1.03e-02, grad_scale: 4.0
+2023-04-01 13:02:39,041 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.635e+02 5.648e+02 7.062e+02 8.811e+02 1.795e+03, threshold=1.412e+03, percent-clipped=2.0
+2023-04-01 13:03:04,998 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 13:03:30,504 INFO [train.py:903] (2/4) Epoch 8, batch 5100, loss[loss=0.2676, simple_loss=0.3316, pruned_loss=0.1018, over 19682.00 frames. ], tot_loss[loss=0.2501, simple_loss=0.3187, pruned_loss=0.09077, over 3822922.14 frames. ], batch size: 60, lr: 1.03e-02, grad_scale: 4.0
+2023-04-01 13:03:40,996 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 13:03:46,406 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 13:03:50,844 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 13:03:59,149 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=52917.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 13:04:09,650 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=52926.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:04:32,214 INFO [train.py:903] (2/4) Epoch 8, batch 5150, loss[loss=0.2869, simple_loss=0.348, pruned_loss=0.1129, over 19602.00 frames. ], tot_loss[loss=0.2496, simple_loss=0.3183, pruned_loss=0.09044, over 3831101.95 frames. ], batch size: 61, lr: 1.03e-02, grad_scale: 4.0
+2023-04-01 13:04:41,014 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=52951.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:04:45,911 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.391e+02 6.060e+02 7.983e+02 1.041e+03 2.368e+03, threshold=1.597e+03, percent-clipped=6.0
+2023-04-01 13:04:47,191 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 13:05:11,099 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-01 13:05:19,609 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 13:05:37,037 INFO [train.py:903] (2/4) Epoch 8, batch 5200, loss[loss=0.2473, simple_loss=0.3206, pruned_loss=0.087, over 19676.00 frames. ], tot_loss[loss=0.2514, simple_loss=0.32, pruned_loss=0.09142, over 3817960.07 frames. ], batch size: 60, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:05:42,297 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1814, 1.8020, 1.3396, 1.1290, 1.6211, 0.9965, 1.1039, 1.5983],
+       device='cuda:2'), covar=tensor([0.0614, 0.0638, 0.0877, 0.0604, 0.0409, 0.1091, 0.0571, 0.0317],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0293, 0.0315, 0.0242, 0.0228, 0.0315, 0.0288, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:05:51,343 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 13:06:21,601 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53032.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 13:06:36,724 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 13:06:38,318 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:06:39,063 INFO [train.py:903] (2/4) Epoch 8, batch 5250, loss[loss=0.2588, simple_loss=0.3198, pruned_loss=0.09892, over 19849.00 frames. ], tot_loss[loss=0.2516, simple_loss=0.3202, pruned_loss=0.09149, over 3826499.63 frames. ], batch size: 52, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:06:49,006 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.283e+02 5.973e+02 7.081e+02 8.822e+02 3.028e+03, threshold=1.416e+03, percent-clipped=2.0
+2023-04-01 13:07:07,188 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3216, 2.1247, 1.8002, 1.7379, 1.4651, 1.6847, 0.4491, 1.0260],
+       device='cuda:2'), covar=tensor([0.0324, 0.0380, 0.0302, 0.0476, 0.0765, 0.0508, 0.0718, 0.0656],
+       device='cuda:2'), in_proj_covar=tensor([0.0321, 0.0322, 0.0318, 0.0337, 0.0414, 0.0332, 0.0298, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:07:08,274 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53070.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:07:13,808 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53074.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:07:39,288 INFO [train.py:903] (2/4) Epoch 8, batch 5300, loss[loss=0.2504, simple_loss=0.3153, pruned_loss=0.09278, over 19666.00 frames. ], tot_loss[loss=0.2528, simple_loss=0.3212, pruned_loss=0.09213, over 3819618.45 frames. ], batch size: 53, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:07:57,434 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 13:08:03,076 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53114.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:08:41,250 INFO [train.py:903] (2/4) Epoch 8, batch 5350, loss[loss=0.2474, simple_loss=0.3209, pruned_loss=0.08698, over 19443.00 frames. ], tot_loss[loss=0.2514, simple_loss=0.3204, pruned_loss=0.09126, over 3825164.62 frames. ], batch size: 64, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:08:52,776 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.210e+02 6.176e+02 7.478e+02 9.376e+02 1.338e+03, threshold=1.496e+03, percent-clipped=0.0
+2023-04-01 13:09:18,550 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 13:09:44,005 INFO [train.py:903] (2/4) Epoch 8, batch 5400, loss[loss=0.2195, simple_loss=0.2966, pruned_loss=0.07122, over 19731.00 frames. ], tot_loss[loss=0.2506, simple_loss=0.3197, pruned_loss=0.09077, over 3841800.75 frames. ], batch size: 51, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:10:24,900 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53229.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:10:31,356 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0238, 1.6013, 1.7104, 1.8956, 1.6988, 1.8021, 1.6579, 1.9111],
+       device='cuda:2'), covar=tensor([0.0797, 0.1357, 0.1133, 0.0899, 0.1111, 0.0456, 0.0971, 0.0558],
+       device='cuda:2'), in_proj_covar=tensor([0.0245, 0.0348, 0.0282, 0.0236, 0.0294, 0.0238, 0.0268, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:10:37,060 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4129, 3.1662, 2.3661, 2.4828, 2.0153, 2.4801, 0.9800, 2.0241],
+       device='cuda:2'), covar=tensor([0.0352, 0.0304, 0.0414, 0.0536, 0.0712, 0.0553, 0.0753, 0.0693],
+       device='cuda:2'), in_proj_covar=tensor([0.0317, 0.0316, 0.0315, 0.0330, 0.0408, 0.0329, 0.0293, 0.0311],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:10:47,201 INFO [train.py:903] (2/4) Epoch 8, batch 5450, loss[loss=0.203, simple_loss=0.2734, pruned_loss=0.06627, over 19788.00 frames. ], tot_loss[loss=0.2504, simple_loss=0.3196, pruned_loss=0.09065, over 3831323.92 frames. ], batch size: 47, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:10:57,345 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.737e+02 5.768e+02 7.150e+02 9.218e+02 2.127e+03, threshold=1.430e+03, percent-clipped=3.0
+2023-04-01 13:11:02,310 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53259.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:11:09,974 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
+2023-04-01 13:11:40,427 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53288.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 13:11:48,913 INFO [train.py:903] (2/4) Epoch 8, batch 5500, loss[loss=0.245, simple_loss=0.3074, pruned_loss=0.09127, over 19800.00 frames. ], tot_loss[loss=0.2488, simple_loss=0.318, pruned_loss=0.08977, over 3832919.33 frames. ], batch size: 48, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:12:11,196 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53313.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 13:12:16,565 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 13:12:23,262 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:12:34,513 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7618, 1.3941, 1.3490, 1.6326, 1.5129, 1.6049, 1.4251, 1.6545],
+       device='cuda:2'), covar=tensor([0.0849, 0.1263, 0.1299, 0.0931, 0.1034, 0.0481, 0.1019, 0.0643],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0351, 0.0286, 0.0239, 0.0296, 0.0240, 0.0269, 0.0233],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:12:35,590 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53333.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:12:50,185 INFO [train.py:903] (2/4) Epoch 8, batch 5550, loss[loss=0.2404, simple_loss=0.3025, pruned_loss=0.08915, over 19427.00 frames. ], tot_loss[loss=0.2486, simple_loss=0.3179, pruned_loss=0.08965, over 3846803.93 frames. ], batch size: 48, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:12:58,965 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.6395, 0.8772, 0.6883, 0.6470, 0.8140, 0.6229, 0.6162, 0.7759],
+       device='cuda:2'), covar=tensor([0.0339, 0.0444, 0.0569, 0.0329, 0.0285, 0.0722, 0.0365, 0.0302],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0294, 0.0315, 0.0243, 0.0227, 0.0316, 0.0288, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:12:59,707 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 13:13:03,078 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.436e+02 6.394e+02 7.821e+02 9.803e+02 2.197e+03, threshold=1.564e+03, percent-clipped=2.0
+2023-04-01 13:13:15,684 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0416, 5.3854, 3.2134, 4.7794, 1.3498, 5.1720, 5.3052, 5.5168],
+       device='cuda:2'), covar=tensor([0.0444, 0.1015, 0.1652, 0.0543, 0.3729, 0.0708, 0.0691, 0.0869],
+       device='cuda:2'), in_proj_covar=tensor([0.0406, 0.0349, 0.0412, 0.0303, 0.0369, 0.0338, 0.0328, 0.0365],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 13:13:40,392 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=53385.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:13:50,347 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 13:13:53,924 INFO [train.py:903] (2/4) Epoch 8, batch 5600, loss[loss=0.2083, simple_loss=0.2907, pruned_loss=0.06297, over 19492.00 frames. ], tot_loss[loss=0.2498, simple_loss=0.3188, pruned_loss=0.09044, over 3832924.03 frames. ], batch size: 49, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:14:21,360 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53418.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:14:57,499 INFO [train.py:903] (2/4) Epoch 8, batch 5650, loss[loss=0.317, simple_loss=0.3666, pruned_loss=0.1337, over 13018.00 frames. ], tot_loss[loss=0.2501, simple_loss=0.3186, pruned_loss=0.09082, over 3828885.41 frames. ], batch size: 136, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:15:07,827 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.837e+02 5.961e+02 7.306e+02 9.270e+02 2.985e+03, threshold=1.461e+03, percent-clipped=1.0
+2023-04-01 13:15:08,348 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6067, 1.6796, 1.7329, 2.2229, 1.4027, 1.8149, 2.0344, 1.7418],
+       device='cuda:2'), covar=tensor([0.2712, 0.2126, 0.1183, 0.1180, 0.2462, 0.1120, 0.2749, 0.2050],
+       device='cuda:2'), in_proj_covar=tensor([0.0729, 0.0739, 0.0611, 0.0862, 0.0735, 0.0644, 0.0764, 0.0662],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 13:15:45,797 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 13:15:46,223 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53485.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:15:54,383 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2855, 1.3649, 1.7116, 1.1520, 2.5312, 3.1285, 2.9066, 3.2295],
+       device='cuda:2'), covar=tensor([0.1458, 0.2968, 0.2796, 0.2143, 0.0604, 0.0300, 0.0220, 0.0211],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0286, 0.0316, 0.0246, 0.0206, 0.0140, 0.0204, 0.0174],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:15:58,761 INFO [train.py:903] (2/4) Epoch 8, batch 5700, loss[loss=0.295, simple_loss=0.354, pruned_loss=0.1181, over 18846.00 frames. ], tot_loss[loss=0.2513, simple_loss=0.3196, pruned_loss=0.09156, over 3826255.98 frames. ], batch size: 74, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:16:15,384 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53510.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:16:44,978 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53533.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:16:59,703 INFO [train.py:903] (2/4) Epoch 8, batch 5750, loss[loss=0.2781, simple_loss=0.3464, pruned_loss=0.1049, over 19117.00 frames. ], tot_loss[loss=0.2496, simple_loss=0.3183, pruned_loss=0.09042, over 3823567.18 frames. ], batch size: 69, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:17:00,963 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 13:17:10,466 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 13:17:11,665 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.475e+02 5.699e+02 6.647e+02 8.184e+02 1.829e+03, threshold=1.329e+03, percent-clipped=1.0
+2023-04-01 13:17:15,844 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 13:17:22,038 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-01 13:18:02,105 INFO [train.py:903] (2/4) Epoch 8, batch 5800, loss[loss=0.2167, simple_loss=0.2969, pruned_loss=0.06831, over 19596.00 frames. ], tot_loss[loss=0.2503, simple_loss=0.3194, pruned_loss=0.09063, over 3833726.20 frames. ], batch size: 52, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:18:12,764 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53603.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:18:19,788 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0247, 1.3207, 0.9898, 0.8983, 1.1821, 0.8583, 1.0538, 1.2613],
+       device='cuda:2'), covar=tensor([0.0439, 0.0654, 0.0948, 0.0527, 0.0440, 0.1095, 0.0433, 0.0358],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0294, 0.0318, 0.0245, 0.0229, 0.0319, 0.0289, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:19:04,522 INFO [train.py:903] (2/4) Epoch 8, batch 5850, loss[loss=0.2267, simple_loss=0.2968, pruned_loss=0.0783, over 19624.00 frames. ], tot_loss[loss=0.2504, simple_loss=0.3196, pruned_loss=0.09064, over 3833769.60 frames. ], batch size: 50, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:19:15,050 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.702e+02 6.371e+02 7.746e+02 9.220e+02 2.993e+03, threshold=1.549e+03, percent-clipped=10.0
+2023-04-01 13:19:27,627 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53666.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:19:42,002 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53677.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:20:05,079 INFO [train.py:903] (2/4) Epoch 8, batch 5900, loss[loss=0.2014, simple_loss=0.2799, pruned_loss=0.06143, over 19496.00 frames. ], tot_loss[loss=0.251, simple_loss=0.3201, pruned_loss=0.09092, over 3820492.51 frames. ], batch size: 49, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:20:09,581 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 13:20:30,243 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 13:20:32,934 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53718.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:20:47,003 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=53729.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:21:06,834 INFO [train.py:903] (2/4) Epoch 8, batch 5950, loss[loss=0.2656, simple_loss=0.3337, pruned_loss=0.09881, over 19711.00 frames. ], tot_loss[loss=0.2513, simple_loss=0.3201, pruned_loss=0.0913, over 3814051.00 frames. ], batch size: 59, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:21:19,050 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.652e+02 5.886e+02 7.195e+02 1.025e+03 2.007e+03, threshold=1.439e+03, percent-clipped=3.0
+2023-04-01 13:21:50,821 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53781.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:22:00,060 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53789.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:22:04,791 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53792.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:22:09,983 INFO [train.py:903] (2/4) Epoch 8, batch 6000, loss[loss=0.2308, simple_loss=0.3056, pruned_loss=0.07799, over 19845.00 frames. ], tot_loss[loss=0.2507, simple_loss=0.3196, pruned_loss=0.09093, over 3810842.13 frames. ], batch size: 52, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:22:09,983 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 13:22:22,643 INFO [train.py:937] (2/4) Epoch 8, validation: loss=0.1864, simple_loss=0.2865, pruned_loss=0.04314, over 944034.00 frames. 
+2023-04-01 13:22:22,644 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 13:22:30,387 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1632, 1.2765, 1.9461, 1.6316, 3.0023, 4.7816, 4.6401, 4.9667],
+       device='cuda:2'), covar=tensor([0.1580, 0.3265, 0.2840, 0.1787, 0.0460, 0.0124, 0.0142, 0.0111],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0288, 0.0317, 0.0246, 0.0208, 0.0140, 0.0205, 0.0175],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:22:48,378 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53814.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:23:24,788 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=53844.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:23:26,609 INFO [train.py:903] (2/4) Epoch 8, batch 6050, loss[loss=0.2847, simple_loss=0.3483, pruned_loss=0.1105, over 19703.00 frames. ], tot_loss[loss=0.2507, simple_loss=0.3195, pruned_loss=0.0909, over 3805380.82 frames. ], batch size: 59, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:23:39,145 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.317e+02 5.583e+02 7.013e+02 9.917e+02 2.418e+03, threshold=1.403e+03, percent-clipped=8.0
+2023-04-01 13:23:47,831 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8313, 1.8085, 1.8699, 2.4789, 1.6284, 2.1366, 2.2257, 1.8830],
+       device='cuda:2'), covar=tensor([0.2773, 0.2468, 0.1237, 0.1333, 0.2714, 0.1219, 0.2708, 0.2126],
+       device='cuda:2'), in_proj_covar=tensor([0.0730, 0.0741, 0.0613, 0.0865, 0.0742, 0.0648, 0.0765, 0.0664],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 13:24:30,156 INFO [train.py:903] (2/4) Epoch 8, batch 6100, loss[loss=0.2486, simple_loss=0.3094, pruned_loss=0.0939, over 19424.00 frames. ], tot_loss[loss=0.2499, simple_loss=0.3187, pruned_loss=0.09049, over 3808710.27 frames. ], batch size: 48, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:24:50,453 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.73 vs. limit=5.0
+2023-04-01 13:25:31,569 INFO [train.py:903] (2/4) Epoch 8, batch 6150, loss[loss=0.3265, simple_loss=0.3653, pruned_loss=0.1439, over 13263.00 frames. ], tot_loss[loss=0.2499, simple_loss=0.3186, pruned_loss=0.09062, over 3809904.05 frames. ], batch size: 136, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:25:36,481 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9127, 1.5272, 1.5354, 2.2148, 1.6824, 2.2189, 2.1325, 1.9769],
+       device='cuda:2'), covar=tensor([0.0712, 0.0947, 0.0999, 0.0911, 0.0916, 0.0654, 0.0915, 0.0611],
+       device='cuda:2'), in_proj_covar=tensor([0.0215, 0.0230, 0.0229, 0.0257, 0.0245, 0.0213, 0.0209, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 13:25:42,181 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.923e+02 5.703e+02 7.303e+02 8.849e+02 1.874e+03, threshold=1.461e+03, percent-clipped=4.0
+2023-04-01 13:25:56,500 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 13:25:57,091 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.49 vs. limit=5.0
+2023-04-01 13:26:07,946 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=53974.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:26:33,362 INFO [train.py:903] (2/4) Epoch 8, batch 6200, loss[loss=0.2508, simple_loss=0.3131, pruned_loss=0.0943, over 19619.00 frames. ], tot_loss[loss=0.2519, simple_loss=0.32, pruned_loss=0.09189, over 3797876.73 frames. ], batch size: 50, lr: 1.02e-02, grad_scale: 8.0
+2023-04-01 13:26:38,498 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=53999.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:26:38,757 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-01 13:27:22,539 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.45 vs. limit=5.0
+2023-04-01 13:27:25,506 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=54037.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:27:37,622 INFO [train.py:903] (2/4) Epoch 8, batch 6250, loss[loss=0.2319, simple_loss=0.2918, pruned_loss=0.08596, over 19388.00 frames. ], tot_loss[loss=0.2527, simple_loss=0.3206, pruned_loss=0.09236, over 3794740.43 frames. ], batch size: 48, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:27:40,323 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=54048.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:27:49,337 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.888e+02 5.723e+02 7.068e+02 9.572e+02 2.133e+03, threshold=1.414e+03, percent-clipped=6.0
+2023-04-01 13:27:53,692 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-01 13:27:58,063 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=54062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:28:04,592 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 13:28:10,776 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=54073.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:28:12,248 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
+2023-04-01 13:28:40,883 INFO [train.py:903] (2/4) Epoch 8, batch 6300, loss[loss=0.2543, simple_loss=0.3272, pruned_loss=0.09067, over 17261.00 frames. ], tot_loss[loss=0.2519, simple_loss=0.3204, pruned_loss=0.09165, over 3795665.50 frames. ], batch size: 101, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:28:45,608 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=54100.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:29:16,163 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=54125.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:29:41,754 INFO [train.py:903] (2/4) Epoch 8, batch 6350, loss[loss=0.2983, simple_loss=0.3638, pruned_loss=0.1164, over 19353.00 frames. ], tot_loss[loss=0.2511, simple_loss=0.3193, pruned_loss=0.09145, over 3787379.51 frames. ], batch size: 70, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:29:52,040 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.072e+02 6.055e+02 7.520e+02 8.667e+02 2.456e+03, threshold=1.504e+03, percent-clipped=3.0
+2023-04-01 13:29:54,716 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7569, 1.4463, 1.4737, 1.9340, 1.5667, 2.0999, 2.0161, 1.9070],
+       device='cuda:2'), covar=tensor([0.0779, 0.0925, 0.0991, 0.0902, 0.0916, 0.0587, 0.0789, 0.0572],
+       device='cuda:2'), in_proj_covar=tensor([0.0215, 0.0231, 0.0227, 0.0254, 0.0244, 0.0213, 0.0205, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 13:30:36,810 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1223, 1.6794, 1.7862, 2.1295, 1.9854, 1.9656, 1.8227, 2.0141],
+       device='cuda:2'), covar=tensor([0.0849, 0.1642, 0.1232, 0.0939, 0.1104, 0.0443, 0.0975, 0.0635],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0361, 0.0288, 0.0240, 0.0298, 0.0243, 0.0273, 0.0236],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:30:43,419 INFO [train.py:903] (2/4) Epoch 8, batch 6400, loss[loss=0.2367, simple_loss=0.2916, pruned_loss=0.09091, over 19760.00 frames. ], tot_loss[loss=0.2506, simple_loss=0.3189, pruned_loss=0.09119, over 3809690.06 frames. ], batch size: 45, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:31:45,991 INFO [train.py:903] (2/4) Epoch 8, batch 6450, loss[loss=0.2106, simple_loss=0.2725, pruned_loss=0.07441, over 19046.00 frames. ], tot_loss[loss=0.2487, simple_loss=0.3174, pruned_loss=0.08998, over 3813651.17 frames. ], batch size: 42, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:31:58,336 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.099e+02 5.571e+02 6.761e+02 8.500e+02 1.702e+03, threshold=1.352e+03, percent-clipped=3.0
+2023-04-01 13:32:23,619 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3060, 2.9818, 2.1613, 2.7448, 0.8611, 2.8103, 2.7678, 2.8861],
+       device='cuda:2'), covar=tensor([0.0991, 0.1308, 0.1997, 0.0939, 0.3738, 0.1065, 0.0910, 0.1235],
+       device='cuda:2'), in_proj_covar=tensor([0.0402, 0.0341, 0.0405, 0.0301, 0.0367, 0.0331, 0.0324, 0.0359],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 13:32:24,406 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.54 vs. limit=5.0
+2023-04-01 13:32:30,258 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 13:32:48,744 INFO [train.py:903] (2/4) Epoch 8, batch 6500, loss[loss=0.2318, simple_loss=0.3091, pruned_loss=0.07727, over 19779.00 frames. ], tot_loss[loss=0.2497, simple_loss=0.318, pruned_loss=0.09072, over 3816067.42 frames. ], batch size: 54, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:32:54,441 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 13:32:54,805 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2819, 1.3599, 1.7579, 1.4169, 2.5755, 2.1554, 2.6302, 0.9375],
+       device='cuda:2'), covar=tensor([0.1986, 0.3415, 0.1889, 0.1653, 0.1225, 0.1677, 0.1285, 0.3361],
+       device='cuda:2'), in_proj_covar=tensor([0.0471, 0.0549, 0.0555, 0.0423, 0.0581, 0.0477, 0.0645, 0.0477],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 13:33:50,183 INFO [train.py:903] (2/4) Epoch 8, batch 6550, loss[loss=0.2807, simple_loss=0.3409, pruned_loss=0.1103, over 17668.00 frames. ], tot_loss[loss=0.2511, simple_loss=0.3192, pruned_loss=0.09146, over 3820081.25 frames. ], batch size: 101, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:34:00,553 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.237e+02 6.329e+02 8.151e+02 1.084e+03 2.341e+03, threshold=1.630e+03, percent-clipped=12.0
+2023-04-01 13:34:51,138 INFO [train.py:903] (2/4) Epoch 8, batch 6600, loss[loss=0.2613, simple_loss=0.3316, pruned_loss=0.09554, over 19673.00 frames. ], tot_loss[loss=0.2511, simple_loss=0.3196, pruned_loss=0.09136, over 3809705.76 frames. ], batch size: 53, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:34:57,532 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4000, 1.3567, 1.7672, 1.3514, 2.7117, 3.3483, 3.1822, 3.5492],
+       device='cuda:2'), covar=tensor([0.1420, 0.3124, 0.2800, 0.2003, 0.0522, 0.0258, 0.0204, 0.0187],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0285, 0.0314, 0.0245, 0.0206, 0.0139, 0.0204, 0.0174],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:35:38,434 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8790, 2.1688, 2.3517, 2.7691, 2.2541, 2.5732, 2.2638, 2.8009],
+       device='cuda:2'), covar=tensor([0.0713, 0.1711, 0.1195, 0.0965, 0.1300, 0.0391, 0.1001, 0.0512],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0359, 0.0290, 0.0241, 0.0300, 0.0244, 0.0270, 0.0234],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:35:53,838 INFO [train.py:903] (2/4) Epoch 8, batch 6650, loss[loss=0.2478, simple_loss=0.3109, pruned_loss=0.09234, over 19418.00 frames. ], tot_loss[loss=0.2504, simple_loss=0.3186, pruned_loss=0.09114, over 3808799.41 frames. ], batch size: 48, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:36:04,277 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7772, 1.9716, 2.2015, 2.5728, 2.1041, 2.1942, 2.0412, 2.6827],
+       device='cuda:2'), covar=tensor([0.0608, 0.1590, 0.1124, 0.0779, 0.1154, 0.0481, 0.0960, 0.0504],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0358, 0.0290, 0.0241, 0.0298, 0.0243, 0.0270, 0.0234],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:36:04,916 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.746e+02 5.865e+02 7.808e+02 1.010e+03 1.907e+03, threshold=1.562e+03, percent-clipped=2.0
+2023-04-01 13:36:33,942 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7083, 1.7143, 1.4710, 1.3730, 1.2786, 1.4544, 0.1756, 0.5970],
+       device='cuda:2'), covar=tensor([0.0330, 0.0339, 0.0233, 0.0329, 0.0758, 0.0348, 0.0624, 0.0602],
+       device='cuda:2'), in_proj_covar=tensor([0.0325, 0.0321, 0.0319, 0.0333, 0.0414, 0.0339, 0.0297, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:36:55,566 INFO [train.py:903] (2/4) Epoch 8, batch 6700, loss[loss=0.2125, simple_loss=0.2925, pruned_loss=0.06619, over 19617.00 frames. ], tot_loss[loss=0.2508, simple_loss=0.3193, pruned_loss=0.09121, over 3806510.22 frames. ], batch size: 50, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:36:59,445 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1739, 1.2073, 1.4960, 1.2437, 2.4435, 2.0013, 2.5617, 0.9636],
+       device='cuda:2'), covar=tensor([0.1974, 0.3255, 0.1892, 0.1658, 0.1107, 0.1653, 0.1098, 0.3042],
+       device='cuda:2'), in_proj_covar=tensor([0.0469, 0.0545, 0.0550, 0.0420, 0.0574, 0.0474, 0.0640, 0.0474],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 13:37:52,318 INFO [train.py:903] (2/4) Epoch 8, batch 6750, loss[loss=0.2523, simple_loss=0.3256, pruned_loss=0.08948, over 19694.00 frames. ], tot_loss[loss=0.251, simple_loss=0.3194, pruned_loss=0.09132, over 3811656.18 frames. ], batch size: 59, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:38:03,630 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.992e+02 6.380e+02 7.224e+02 9.353e+02 2.017e+03, threshold=1.445e+03, percent-clipped=3.0
+2023-04-01 13:38:27,105 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
+2023-04-01 13:38:50,507 INFO [train.py:903] (2/4) Epoch 8, batch 6800, loss[loss=0.2285, simple_loss=0.3058, pruned_loss=0.07561, over 19619.00 frames. ], tot_loss[loss=0.2497, simple_loss=0.3185, pruned_loss=0.09045, over 3807902.19 frames. ], batch size: 50, lr: 1.01e-02, grad_scale: 8.0
+2023-04-01 13:39:34,212 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 13:39:34,671 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 13:39:38,456 INFO [train.py:903] (2/4) Epoch 9, batch 0, loss[loss=0.27, simple_loss=0.3383, pruned_loss=0.1009, over 19635.00 frames. ], tot_loss[loss=0.27, simple_loss=0.3383, pruned_loss=0.1009, over 19635.00 frames. ], batch size: 57, lr: 9.56e-03, grad_scale: 8.0
+2023-04-01 13:39:38,457 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 13:39:49,513 INFO [train.py:937] (2/4) Epoch 9, validation: loss=0.1866, simple_loss=0.2872, pruned_loss=0.04294, over 944034.00 frames. 
+2023-04-01 13:39:49,514 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 13:40:03,815 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 13:40:28,250 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.879e+02 5.500e+02 7.208e+02 8.930e+02 1.459e+03, threshold=1.442e+03, percent-clipped=1.0
+2023-04-01 13:40:51,456 INFO [train.py:903] (2/4) Epoch 9, batch 50, loss[loss=0.1979, simple_loss=0.2697, pruned_loss=0.06305, over 19740.00 frames. ], tot_loss[loss=0.2527, simple_loss=0.3239, pruned_loss=0.09078, over 865081.83 frames. ], batch size: 47, lr: 9.55e-03, grad_scale: 8.0
+2023-04-01 13:41:02,936 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=54682.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 13:41:26,443 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 13:41:53,038 INFO [train.py:903] (2/4) Epoch 9, batch 100, loss[loss=0.2461, simple_loss=0.3252, pruned_loss=0.08351, over 19342.00 frames. ], tot_loss[loss=0.2491, simple_loss=0.3195, pruned_loss=0.08929, over 1538796.71 frames. ], batch size: 70, lr: 9.55e-03, grad_scale: 8.0
+2023-04-01 13:42:05,379 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 13:42:18,536 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2561, 1.3234, 1.7030, 1.5454, 2.6690, 2.1552, 2.7295, 1.1907],
+       device='cuda:2'), covar=tensor([0.2122, 0.3656, 0.2195, 0.1641, 0.1363, 0.1811, 0.1460, 0.3314],
+       device='cuda:2'), in_proj_covar=tensor([0.0472, 0.0550, 0.0556, 0.0423, 0.0580, 0.0475, 0.0643, 0.0476],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 13:42:31,158 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.400e+02 5.564e+02 7.190e+02 9.001e+02 2.877e+03, threshold=1.438e+03, percent-clipped=2.0
+2023-04-01 13:42:53,294 INFO [train.py:903] (2/4) Epoch 9, batch 150, loss[loss=0.2496, simple_loss=0.3094, pruned_loss=0.09485, over 18698.00 frames. ], tot_loss[loss=0.247, simple_loss=0.3172, pruned_loss=0.0884, over 2058376.17 frames. ], batch size: 41, lr: 9.54e-03, grad_scale: 16.0
+2023-04-01 13:43:05,243 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3781, 1.4684, 1.8295, 1.6739, 2.9179, 2.4358, 3.0351, 1.2517],
+       device='cuda:2'), covar=tensor([0.1988, 0.3488, 0.2146, 0.1553, 0.1215, 0.1614, 0.1244, 0.3293],
+       device='cuda:2'), in_proj_covar=tensor([0.0474, 0.0549, 0.0556, 0.0424, 0.0583, 0.0477, 0.0642, 0.0479],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 13:43:43,812 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0372, 1.9106, 2.0990, 1.5975, 4.5092, 0.9497, 2.3363, 4.8694],
+       device='cuda:2'), covar=tensor([0.0305, 0.2361, 0.2253, 0.1776, 0.0611, 0.2552, 0.1316, 0.0198],
+       device='cuda:2'), in_proj_covar=tensor([0.0330, 0.0329, 0.0339, 0.0307, 0.0337, 0.0321, 0.0311, 0.0334],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:43:53,897 INFO [train.py:903] (2/4) Epoch 9, batch 200, loss[loss=0.2742, simple_loss=0.3392, pruned_loss=0.1046, over 19611.00 frames. ], tot_loss[loss=0.2499, simple_loss=0.3189, pruned_loss=0.09045, over 2450567.54 frames. ], batch size: 61, lr: 9.54e-03, grad_scale: 8.0
+2023-04-01 13:43:56,306 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 13:43:56,659 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7024, 1.7160, 1.3879, 1.2571, 1.2426, 1.2887, 0.2803, 0.5389],
+       device='cuda:2'), covar=tensor([0.0386, 0.0408, 0.0290, 0.0405, 0.0780, 0.0433, 0.0658, 0.0709],
+       device='cuda:2'), in_proj_covar=tensor([0.0320, 0.0316, 0.0316, 0.0332, 0.0411, 0.0335, 0.0297, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:44:36,452 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.193e+02 5.883e+02 7.738e+02 9.204e+02 1.688e+03, threshold=1.548e+03, percent-clipped=2.0
+2023-04-01 13:44:40,658 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.11 vs. limit=2.0
+2023-04-01 13:44:57,169 INFO [train.py:903] (2/4) Epoch 9, batch 250, loss[loss=0.2318, simple_loss=0.302, pruned_loss=0.08076, over 19388.00 frames. ], tot_loss[loss=0.2475, simple_loss=0.3169, pruned_loss=0.08903, over 2765282.05 frames. ], batch size: 48, lr: 9.54e-03, grad_scale: 8.0
+2023-04-01 13:45:06,569 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=54880.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:45:39,287 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7340, 1.7583, 1.5341, 1.4945, 1.3633, 1.4805, 0.8133, 1.0880],
+       device='cuda:2'), covar=tensor([0.0341, 0.0392, 0.0265, 0.0370, 0.0574, 0.0465, 0.0617, 0.0521],
+       device='cuda:2'), in_proj_covar=tensor([0.0323, 0.0319, 0.0320, 0.0336, 0.0414, 0.0339, 0.0299, 0.0320],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:45:57,838 INFO [train.py:903] (2/4) Epoch 9, batch 300, loss[loss=0.2911, simple_loss=0.3434, pruned_loss=0.1194, over 13291.00 frames. ], tot_loss[loss=0.2484, simple_loss=0.3178, pruned_loss=0.08953, over 2983639.50 frames. ], batch size: 137, lr: 9.53e-03, grad_scale: 8.0
+2023-04-01 13:46:39,710 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.328e+02 5.660e+02 7.032e+02 9.457e+02 2.087e+03, threshold=1.406e+03, percent-clipped=3.0
+2023-04-01 13:47:01,338 INFO [train.py:903] (2/4) Epoch 9, batch 350, loss[loss=0.2248, simple_loss=0.2877, pruned_loss=0.08093, over 19805.00 frames. ], tot_loss[loss=0.2486, simple_loss=0.318, pruned_loss=0.08965, over 3165894.04 frames. ], batch size: 48, lr: 9.53e-03, grad_scale: 8.0
+2023-04-01 13:47:07,248 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 13:48:03,058 INFO [train.py:903] (2/4) Epoch 9, batch 400, loss[loss=0.2569, simple_loss=0.3248, pruned_loss=0.09453, over 18260.00 frames. ], tot_loss[loss=0.2505, simple_loss=0.3199, pruned_loss=0.0906, over 3307035.28 frames. ], batch size: 84, lr: 9.52e-03, grad_scale: 8.0
+2023-04-01 13:48:06,563 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=55026.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 13:48:38,451 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.00 vs. limit=2.0
+2023-04-01 13:48:44,520 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.195e+02 5.719e+02 7.898e+02 1.018e+03 2.327e+03, threshold=1.580e+03, percent-clipped=4.0
+2023-04-01 13:49:04,313 INFO [train.py:903] (2/4) Epoch 9, batch 450, loss[loss=0.3022, simple_loss=0.3652, pruned_loss=0.1196, over 18195.00 frames. ], tot_loss[loss=0.2497, simple_loss=0.3195, pruned_loss=0.09001, over 3426378.23 frames. ], batch size: 83, lr: 9.52e-03, grad_scale: 8.0
+2023-04-01 13:49:42,331 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 13:49:43,527 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 13:50:07,767 INFO [train.py:903] (2/4) Epoch 9, batch 500, loss[loss=0.2354, simple_loss=0.3092, pruned_loss=0.08081, over 19673.00 frames. ], tot_loss[loss=0.2483, simple_loss=0.3177, pruned_loss=0.0894, over 3513597.60 frames. ], batch size: 53, lr: 9.51e-03, grad_scale: 8.0
+2023-04-01 13:50:30,930 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=55141.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 13:50:47,944 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.663e+02 6.183e+02 7.261e+02 8.870e+02 1.589e+03, threshold=1.452e+03, percent-clipped=1.0
+2023-04-01 13:51:01,631 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=55166.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:51:10,560 INFO [train.py:903] (2/4) Epoch 9, batch 550, loss[loss=0.268, simple_loss=0.3351, pruned_loss=0.1004, over 19527.00 frames. ], tot_loss[loss=0.2462, simple_loss=0.3161, pruned_loss=0.08816, over 3600054.46 frames. ], batch size: 54, lr: 9.51e-03, grad_scale: 8.0
+2023-04-01 13:51:28,575 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9625, 1.2544, 1.6280, 0.5399, 2.1035, 2.4801, 2.1109, 2.5795],
+       device='cuda:2'), covar=tensor([0.1386, 0.2996, 0.2669, 0.2148, 0.0452, 0.0220, 0.0331, 0.0235],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0290, 0.0319, 0.0250, 0.0210, 0.0142, 0.0207, 0.0177],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 13:52:14,549 INFO [train.py:903] (2/4) Epoch 9, batch 600, loss[loss=0.2697, simple_loss=0.3371, pruned_loss=0.1012, over 19675.00 frames. ], tot_loss[loss=0.2459, simple_loss=0.3159, pruned_loss=0.08794, over 3643970.27 frames. ], batch size: 58, lr: 9.51e-03, grad_scale: 8.0
+2023-04-01 13:52:15,868 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=55224.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:52:21,692 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=55229.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:52:55,192 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.376e+02 5.838e+02 6.783e+02 8.586e+02 3.812e+03, threshold=1.357e+03, percent-clipped=5.0
+2023-04-01 13:52:58,749 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 13:52:59,133 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6130, 1.1824, 1.3430, 1.4631, 3.1412, 0.9789, 1.9839, 3.3782],
+       device='cuda:2'), covar=tensor([0.0405, 0.2535, 0.2683, 0.1586, 0.0661, 0.2331, 0.1299, 0.0290],
+       device='cuda:2'), in_proj_covar=tensor([0.0330, 0.0327, 0.0337, 0.0307, 0.0335, 0.0321, 0.0311, 0.0332],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 13:53:16,398 INFO [train.py:903] (2/4) Epoch 9, batch 650, loss[loss=0.2364, simple_loss=0.32, pruned_loss=0.07645, over 19676.00 frames. ], tot_loss[loss=0.2461, simple_loss=0.3158, pruned_loss=0.08818, over 3679496.59 frames. ], batch size: 59, lr: 9.50e-03, grad_scale: 4.0
+2023-04-01 13:54:19,286 INFO [train.py:903] (2/4) Epoch 9, batch 700, loss[loss=0.2719, simple_loss=0.3299, pruned_loss=0.1069, over 19651.00 frames. ], tot_loss[loss=0.2462, simple_loss=0.316, pruned_loss=0.08815, over 3700485.26 frames. ], batch size: 55, lr: 9.50e-03, grad_scale: 4.0
+2023-04-01 13:54:41,861 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=55339.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:55:02,465 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.468e+02 5.553e+02 6.808e+02 9.255e+02 2.546e+03, threshold=1.362e+03, percent-clipped=4.0
+2023-04-01 13:55:22,969 INFO [train.py:903] (2/4) Epoch 9, batch 750, loss[loss=0.2357, simple_loss=0.3052, pruned_loss=0.08308, over 19850.00 frames. ], tot_loss[loss=0.2467, simple_loss=0.3165, pruned_loss=0.0884, over 3748079.76 frames. ], batch size: 52, lr: 9.49e-03, grad_scale: 4.0
+2023-04-01 13:55:53,584 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=55397.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 13:56:25,960 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=55422.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 13:56:26,682 INFO [train.py:903] (2/4) Epoch 9, batch 800, loss[loss=0.2262, simple_loss=0.2952, pruned_loss=0.07854, over 19474.00 frames. ], tot_loss[loss=0.2476, simple_loss=0.3174, pruned_loss=0.08887, over 3777476.97 frames. ], batch size: 49, lr: 9.49e-03, grad_scale: 8.0
+2023-04-01 13:56:42,001 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 13:57:07,881 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.102e+02 5.631e+02 7.179e+02 9.586e+02 1.610e+03, threshold=1.436e+03, percent-clipped=4.0
+2023-04-01 13:57:13,012 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-01 13:57:28,777 INFO [train.py:903] (2/4) Epoch 9, batch 850, loss[loss=0.2173, simple_loss=0.2923, pruned_loss=0.07119, over 19460.00 frames. ], tot_loss[loss=0.2464, simple_loss=0.3164, pruned_loss=0.08822, over 3793029.30 frames. ], batch size: 49, lr: 9.48e-03, grad_scale: 8.0
+2023-04-01 13:58:01,106 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1898, 1.2367, 1.4201, 1.3307, 1.8004, 1.7007, 1.8643, 0.4537],
+       device='cuda:2'), covar=tensor([0.2055, 0.3484, 0.2074, 0.1648, 0.1274, 0.1937, 0.1155, 0.3530],
+       device='cuda:2'), in_proj_covar=tensor([0.0470, 0.0547, 0.0553, 0.0422, 0.0580, 0.0474, 0.0634, 0.0473],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 13:58:14,370 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=55510.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:58:22,705 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 13:58:29,597 INFO [train.py:903] (2/4) Epoch 9, batch 900, loss[loss=0.2691, simple_loss=0.3388, pruned_loss=0.09974, over 19367.00 frames. ], tot_loss[loss=0.2472, simple_loss=0.3172, pruned_loss=0.0886, over 3798754.49 frames. ], batch size: 66, lr: 9.48e-03, grad_scale: 8.0
+2023-04-01 13:58:39,329 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.94 vs. limit=2.0
+2023-04-01 13:59:12,476 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.962e+02 5.974e+02 7.143e+02 8.825e+02 2.413e+03, threshold=1.429e+03, percent-clipped=6.0
+2023-04-01 13:59:32,014 INFO [train.py:903] (2/4) Epoch 9, batch 950, loss[loss=0.2924, simple_loss=0.3502, pruned_loss=0.1173, over 19616.00 frames. ], tot_loss[loss=0.2474, simple_loss=0.3175, pruned_loss=0.08867, over 3801931.08 frames. ], batch size: 50, lr: 9.48e-03, grad_scale: 8.0
+2023-04-01 13:59:32,188 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=55573.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 13:59:37,625 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 14:00:01,022 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=55595.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:00:07,146 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.62 vs. limit=5.0
+2023-04-01 14:00:32,429 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=55620.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:00:35,416 INFO [train.py:903] (2/4) Epoch 9, batch 1000, loss[loss=0.2706, simple_loss=0.3396, pruned_loss=0.1008, over 18154.00 frames. ], tot_loss[loss=0.2483, simple_loss=0.3176, pruned_loss=0.08949, over 3788503.81 frames. ], batch size: 83, lr: 9.47e-03, grad_scale: 8.0
+2023-04-01 14:00:38,014 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=55625.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:00:44,434 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
+2023-04-01 14:01:18,080 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.465e+02 5.596e+02 6.834e+02 8.838e+02 1.578e+03, threshold=1.367e+03, percent-clipped=2.0
+2023-04-01 14:01:29,792 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 14:01:39,291 INFO [train.py:903] (2/4) Epoch 9, batch 1050, loss[loss=0.2489, simple_loss=0.3229, pruned_loss=0.0874, over 19733.00 frames. ], tot_loss[loss=0.2482, simple_loss=0.3179, pruned_loss=0.08925, over 3800684.47 frames. ], batch size: 63, lr: 9.47e-03, grad_scale: 8.0
+2023-04-01 14:01:57,381 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=55688.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:02:02,667 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.85 vs. limit=2.0
+2023-04-01 14:02:10,980 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 14:02:35,960 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9958, 5.0451, 5.8794, 5.7883, 1.9618, 5.4508, 4.7223, 5.3983],
+       device='cuda:2'), covar=tensor([0.1153, 0.0611, 0.0392, 0.0396, 0.4752, 0.0393, 0.0523, 0.0926],
+       device='cuda:2'), in_proj_covar=tensor([0.0617, 0.0544, 0.0733, 0.0616, 0.0674, 0.0481, 0.0465, 0.0674],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 14:02:42,620 INFO [train.py:903] (2/4) Epoch 9, batch 1100, loss[loss=0.2466, simple_loss=0.3266, pruned_loss=0.08327, over 19683.00 frames. ], tot_loss[loss=0.2486, simple_loss=0.3181, pruned_loss=0.08956, over 3811100.74 frames. ], batch size: 59, lr: 9.46e-03, grad_scale: 8.0
+2023-04-01 14:02:48,822 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5896, 1.6515, 1.8117, 2.1030, 1.3942, 1.8132, 2.0965, 1.7265],
+       device='cuda:2'), covar=tensor([0.3166, 0.2503, 0.1328, 0.1373, 0.2775, 0.1243, 0.3014, 0.2362],
+       device='cuda:2'), in_proj_covar=tensor([0.0747, 0.0755, 0.0626, 0.0875, 0.0750, 0.0658, 0.0772, 0.0677],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 14:03:25,907 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.690e+02 6.007e+02 7.412e+02 9.315e+02 2.515e+03, threshold=1.482e+03, percent-clipped=6.0
+2023-04-01 14:03:36,855 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=55766.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:03:45,614 INFO [train.py:903] (2/4) Epoch 9, batch 1150, loss[loss=0.222, simple_loss=0.2956, pruned_loss=0.07417, over 19744.00 frames. ], tot_loss[loss=0.2481, simple_loss=0.3178, pruned_loss=0.08914, over 3822526.72 frames. ], batch size: 51, lr: 9.46e-03, grad_scale: 8.0
+2023-04-01 14:04:50,171 INFO [train.py:903] (2/4) Epoch 9, batch 1200, loss[loss=0.2575, simple_loss=0.3316, pruned_loss=0.09172, over 17430.00 frames. ], tot_loss[loss=0.2472, simple_loss=0.3172, pruned_loss=0.08858, over 3818643.93 frames. ], batch size: 101, lr: 9.45e-03, grad_scale: 8.0
+2023-04-01 14:05:18,995 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 14:05:31,645 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.284e+02 5.926e+02 7.645e+02 1.010e+03 3.329e+03, threshold=1.529e+03, percent-clipped=6.0
+2023-04-01 14:05:44,736 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=55866.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:05:44,875 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2004, 2.0642, 1.7849, 1.6329, 1.5511, 1.7356, 0.4953, 0.9019],
+       device='cuda:2'), covar=tensor([0.0322, 0.0357, 0.0234, 0.0403, 0.0743, 0.0390, 0.0644, 0.0663],
+       device='cuda:2'), in_proj_covar=tensor([0.0314, 0.0315, 0.0311, 0.0327, 0.0403, 0.0330, 0.0290, 0.0311],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 14:05:53,920 INFO [train.py:903] (2/4) Epoch 9, batch 1250, loss[loss=0.2443, simple_loss=0.3251, pruned_loss=0.08176, over 19626.00 frames. ], tot_loss[loss=0.2466, simple_loss=0.3165, pruned_loss=0.08829, over 3825860.87 frames. ], batch size: 61, lr: 9.45e-03, grad_scale: 8.0
+2023-04-01 14:06:03,210 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=55881.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:06:09,678 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.46 vs. limit=2.0
+2023-04-01 14:06:35,411 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=55906.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:06:36,769 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.42 vs. limit=5.0
+2023-04-01 14:06:55,962 INFO [train.py:903] (2/4) Epoch 9, batch 1300, loss[loss=0.2628, simple_loss=0.3376, pruned_loss=0.09405, over 19289.00 frames. ], tot_loss[loss=0.2461, simple_loss=0.3163, pruned_loss=0.08793, over 3836291.62 frames. ], batch size: 66, lr: 9.45e-03, grad_scale: 8.0
+2023-04-01 14:07:24,020 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=55944.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:07:39,623 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.793e+02 5.793e+02 6.909e+02 8.321e+02 2.022e+03, threshold=1.382e+03, percent-clipped=2.0
+2023-04-01 14:07:54,310 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=55969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:07:58,595 INFO [train.py:903] (2/4) Epoch 9, batch 1350, loss[loss=0.2259, simple_loss=0.3075, pruned_loss=0.07219, over 19519.00 frames. ], tot_loss[loss=0.2452, simple_loss=0.3156, pruned_loss=0.08733, over 3852700.06 frames. ], batch size: 64, lr: 9.44e-03, grad_scale: 8.0
+2023-04-01 14:09:02,600 INFO [train.py:903] (2/4) Epoch 9, batch 1400, loss[loss=0.2487, simple_loss=0.3161, pruned_loss=0.09066, over 19590.00 frames. ], tot_loss[loss=0.2445, simple_loss=0.3149, pruned_loss=0.08709, over 3852306.87 frames. ], batch size: 52, lr: 9.44e-03, grad_scale: 8.0
+2023-04-01 14:09:47,083 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.547e+02 5.536e+02 7.314e+02 8.995e+02 2.483e+03, threshold=1.463e+03, percent-clipped=9.0
+2023-04-01 14:10:07,190 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 14:10:08,159 INFO [train.py:903] (2/4) Epoch 9, batch 1450, loss[loss=0.2294, simple_loss=0.3029, pruned_loss=0.07802, over 19451.00 frames. ], tot_loss[loss=0.2444, simple_loss=0.3145, pruned_loss=0.08717, over 3856720.04 frames. ], batch size: 49, lr: 9.43e-03, grad_scale: 8.0
+2023-04-01 14:10:55,228 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=56110.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:11:11,141 INFO [train.py:903] (2/4) Epoch 9, batch 1500, loss[loss=0.2852, simple_loss=0.3504, pruned_loss=0.11, over 18809.00 frames. ], tot_loss[loss=0.2454, simple_loss=0.3156, pruned_loss=0.0876, over 3852251.66 frames. ], batch size: 74, lr: 9.43e-03, grad_scale: 8.0
+2023-04-01 14:11:19,745 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.56 vs. limit=5.0
+2023-04-01 14:11:27,085 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4044, 1.1280, 1.5706, 1.2916, 2.9299, 3.7998, 3.5509, 4.0509],
+       device='cuda:2'), covar=tensor([0.1323, 0.3204, 0.2960, 0.1912, 0.0431, 0.0140, 0.0205, 0.0157],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0286, 0.0317, 0.0246, 0.0208, 0.0142, 0.0206, 0.0177],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 14:11:52,399 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.776e+02 6.008e+02 7.164e+02 9.066e+02 2.093e+03, threshold=1.433e+03, percent-clipped=3.0
+2023-04-01 14:12:01,108 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=56163.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:12:12,300 INFO [train.py:903] (2/4) Epoch 9, batch 1550, loss[loss=0.1875, simple_loss=0.262, pruned_loss=0.05648, over 19755.00 frames. ], tot_loss[loss=0.2477, simple_loss=0.317, pruned_loss=0.08922, over 3829068.72 frames. ], batch size: 47, lr: 9.43e-03, grad_scale: 8.0
+2023-04-01 14:12:17,164 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9237, 1.6832, 1.5830, 2.1098, 2.0124, 1.8519, 1.7276, 1.9974],
+       device='cuda:2'), covar=tensor([0.0887, 0.1589, 0.1365, 0.0876, 0.1026, 0.0484, 0.1039, 0.0605],
+       device='cuda:2'), in_proj_covar=tensor([0.0246, 0.0347, 0.0283, 0.0235, 0.0292, 0.0239, 0.0268, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:12:59,840 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=56210.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:13:15,311 INFO [train.py:903] (2/4) Epoch 9, batch 1600, loss[loss=0.2031, simple_loss=0.2716, pruned_loss=0.06733, over 19381.00 frames. ], tot_loss[loss=0.247, simple_loss=0.3167, pruned_loss=0.08872, over 3833333.18 frames. ], batch size: 47, lr: 9.42e-03, grad_scale: 8.0
+2023-04-01 14:13:18,988 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=56225.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:13:41,636 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 14:13:59,885 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.177e+02 5.781e+02 6.769e+02 8.617e+02 2.222e+03, threshold=1.354e+03, percent-clipped=2.0
+2023-04-01 14:14:16,059 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2245, 1.2781, 1.1927, 1.0238, 1.0837, 1.0814, 0.0642, 0.3341],
+       device='cuda:2'), covar=tensor([0.0400, 0.0397, 0.0248, 0.0327, 0.0777, 0.0311, 0.0669, 0.0642],
+       device='cuda:2'), in_proj_covar=tensor([0.0316, 0.0315, 0.0315, 0.0331, 0.0406, 0.0334, 0.0293, 0.0316],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 14:14:19,016 INFO [train.py:903] (2/4) Epoch 9, batch 1650, loss[loss=0.2331, simple_loss=0.3146, pruned_loss=0.07581, over 19535.00 frames. ], tot_loss[loss=0.247, simple_loss=0.3165, pruned_loss=0.08876, over 3834711.63 frames. ], batch size: 56, lr: 9.42e-03, grad_scale: 4.0
+2023-04-01 14:14:22,030 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1555, 2.2517, 2.2884, 3.4029, 2.1309, 3.2383, 2.9424, 2.1122],
+       device='cuda:2'), covar=tensor([0.3559, 0.2990, 0.1351, 0.1619, 0.3685, 0.1274, 0.2828, 0.2528],
+       device='cuda:2'), in_proj_covar=tensor([0.0743, 0.0751, 0.0624, 0.0864, 0.0747, 0.0661, 0.0764, 0.0673],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 14:15:21,808 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7180, 1.3680, 1.3578, 1.9950, 1.4781, 1.9640, 2.0016, 1.6759],
+       device='cuda:2'), covar=tensor([0.0795, 0.1052, 0.1064, 0.0823, 0.0962, 0.0699, 0.0854, 0.0696],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0231, 0.0226, 0.0254, 0.0241, 0.0214, 0.0204, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 14:15:22,543 INFO [train.py:903] (2/4) Epoch 9, batch 1700, loss[loss=0.2262, simple_loss=0.3062, pruned_loss=0.0731, over 19482.00 frames. ], tot_loss[loss=0.2469, simple_loss=0.3165, pruned_loss=0.08861, over 3838959.63 frames. ], batch size: 64, lr: 9.41e-03, grad_scale: 4.0
+2023-04-01 14:15:25,217 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=56325.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:16:02,363 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 14:16:05,919 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.642e+02 5.619e+02 6.768e+02 8.904e+02 2.101e+03, threshold=1.354e+03, percent-clipped=6.0
+2023-04-01 14:16:24,626 INFO [train.py:903] (2/4) Epoch 9, batch 1750, loss[loss=0.2431, simple_loss=0.3196, pruned_loss=0.08332, over 18232.00 frames. ], tot_loss[loss=0.2464, simple_loss=0.3161, pruned_loss=0.0883, over 3841693.48 frames. ], batch size: 83, lr: 9.41e-03, grad_scale: 4.0
+2023-04-01 14:16:26,184 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1612, 1.0478, 1.0719, 1.3978, 1.1524, 1.2197, 1.4287, 1.1155],
+       device='cuda:2'), covar=tensor([0.0873, 0.1054, 0.1099, 0.0629, 0.0821, 0.0839, 0.0737, 0.0808],
+       device='cuda:2'), in_proj_covar=tensor([0.0215, 0.0232, 0.0228, 0.0255, 0.0243, 0.0215, 0.0205, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 14:16:42,919 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5383, 1.1149, 1.2867, 1.1463, 2.1607, 0.8969, 2.0045, 2.2211],
+       device='cuda:2'), covar=tensor([0.0609, 0.2501, 0.2535, 0.1473, 0.0809, 0.2071, 0.0911, 0.0544],
+       device='cuda:2'), in_proj_covar=tensor([0.0323, 0.0322, 0.0336, 0.0299, 0.0329, 0.0319, 0.0309, 0.0327],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:17:26,706 INFO [train.py:903] (2/4) Epoch 9, batch 1800, loss[loss=0.2248, simple_loss=0.309, pruned_loss=0.07027, over 19696.00 frames. ], tot_loss[loss=0.2464, simple_loss=0.3164, pruned_loss=0.0882, over 3837486.25 frames. ], batch size: 59, lr: 9.40e-03, grad_scale: 4.0
+2023-04-01 14:18:09,955 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.374e+02 5.839e+02 7.002e+02 8.564e+02 1.629e+03, threshold=1.400e+03, percent-clipped=1.0
+2023-04-01 14:18:25,586 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 14:18:29,987 INFO [train.py:903] (2/4) Epoch 9, batch 1850, loss[loss=0.242, simple_loss=0.3086, pruned_loss=0.08773, over 16314.00 frames. ], tot_loss[loss=0.2455, simple_loss=0.3156, pruned_loss=0.08767, over 3831542.83 frames. ], batch size: 36, lr: 9.40e-03, grad_scale: 4.0
+2023-04-01 14:18:40,558 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=56481.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:19:02,320 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 14:19:11,132 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56506.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:19:12,035 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=56507.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:19:32,999 INFO [train.py:903] (2/4) Epoch 9, batch 1900, loss[loss=0.245, simple_loss=0.3298, pruned_loss=0.08009, over 19597.00 frames. ], tot_loss[loss=0.2447, simple_loss=0.3154, pruned_loss=0.08699, over 3835082.94 frames. ], batch size: 57, lr: 9.40e-03, grad_scale: 4.0
+2023-04-01 14:19:48,400 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 14:19:54,882 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 14:19:55,197 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=56541.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 14:20:16,626 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.412e+02 5.665e+02 6.760e+02 8.403e+02 1.758e+03, threshold=1.352e+03, percent-clipped=2.0
+2023-04-01 14:20:18,944 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 14:20:35,966 INFO [train.py:903] (2/4) Epoch 9, batch 1950, loss[loss=0.2556, simple_loss=0.3264, pruned_loss=0.09237, over 19518.00 frames. ], tot_loss[loss=0.2453, simple_loss=0.316, pruned_loss=0.08735, over 3822148.86 frames. ], batch size: 54, lr: 9.39e-03, grad_scale: 4.0
+2023-04-01 14:20:46,780 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=56581.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:21:18,990 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56606.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:21:38,533 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=56622.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:21:39,347 INFO [train.py:903] (2/4) Epoch 9, batch 2000, loss[loss=0.2535, simple_loss=0.323, pruned_loss=0.09201, over 18783.00 frames. ], tot_loss[loss=0.2448, simple_loss=0.3151, pruned_loss=0.08722, over 3811301.08 frames. ], batch size: 74, lr: 9.39e-03, grad_scale: 8.0
+2023-04-01 14:22:22,874 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.621e+02 5.506e+02 7.081e+02 9.090e+02 3.144e+03, threshold=1.416e+03, percent-clipped=7.0
+2023-04-01 14:22:36,098 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 14:22:42,523 INFO [train.py:903] (2/4) Epoch 9, batch 2050, loss[loss=0.2261, simple_loss=0.295, pruned_loss=0.07864, over 19488.00 frames. ], tot_loss[loss=0.2447, simple_loss=0.315, pruned_loss=0.08714, over 3819063.01 frames. ], batch size: 49, lr: 9.38e-03, grad_scale: 8.0
+2023-04-01 14:22:56,331 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 14:22:57,512 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 14:23:19,229 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 14:23:22,025 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2188, 2.8631, 1.8453, 1.9172, 1.9431, 2.3552, 0.9139, 1.9316],
+       device='cuda:2'), covar=tensor([0.0373, 0.0385, 0.0491, 0.0735, 0.0754, 0.0633, 0.0797, 0.0736],
+       device='cuda:2'), in_proj_covar=tensor([0.0323, 0.0320, 0.0316, 0.0337, 0.0415, 0.0336, 0.0295, 0.0318],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 14:23:33,099 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7482, 4.2746, 2.6815, 3.7717, 1.1751, 4.0007, 3.9715, 4.2028],
+       device='cuda:2'), covar=tensor([0.0587, 0.0970, 0.1813, 0.0683, 0.3491, 0.0703, 0.0710, 0.0847],
+       device='cuda:2'), in_proj_covar=tensor([0.0404, 0.0344, 0.0412, 0.0303, 0.0371, 0.0338, 0.0331, 0.0366],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 14:23:34,386 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2568, 1.8355, 1.7878, 2.9259, 2.1600, 2.6070, 2.6338, 2.3886],
+       device='cuda:2'), covar=tensor([0.0711, 0.0930, 0.1033, 0.0785, 0.0912, 0.0662, 0.0866, 0.0561],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0232, 0.0227, 0.0255, 0.0242, 0.0216, 0.0205, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 14:23:44,277 INFO [train.py:903] (2/4) Epoch 9, batch 2100, loss[loss=0.2913, simple_loss=0.3487, pruned_loss=0.117, over 19665.00 frames. ], tot_loss[loss=0.2461, simple_loss=0.3162, pruned_loss=0.08795, over 3813661.56 frames. ], batch size: 58, lr: 9.38e-03, grad_scale: 8.0
+2023-04-01 14:24:12,034 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 14:24:29,329 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.187e+02 5.573e+02 6.906e+02 8.990e+02 1.566e+03, threshold=1.381e+03, percent-clipped=3.0
+2023-04-01 14:24:35,335 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 14:24:48,320 INFO [train.py:903] (2/4) Epoch 9, batch 2150, loss[loss=0.1983, simple_loss=0.2747, pruned_loss=0.061, over 19380.00 frames. ], tot_loss[loss=0.2447, simple_loss=0.3149, pruned_loss=0.08724, over 3816115.78 frames. ], batch size: 48, lr: 9.38e-03, grad_scale: 8.0
+2023-04-01 14:25:18,651 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.75 vs. limit=5.0
+2023-04-01 14:25:48,776 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=56821.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:25:50,904 INFO [train.py:903] (2/4) Epoch 9, batch 2200, loss[loss=0.2097, simple_loss=0.2883, pruned_loss=0.06555, over 19555.00 frames. ], tot_loss[loss=0.2458, simple_loss=0.3162, pruned_loss=0.08776, over 3821486.58 frames. ], batch size: 56, lr: 9.37e-03, grad_scale: 8.0
+2023-04-01 14:26:23,359 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1565, 1.2244, 1.4865, 0.9409, 2.3213, 3.0201, 2.7825, 3.1691],
+       device='cuda:2'), covar=tensor([0.1536, 0.3405, 0.3035, 0.2189, 0.0521, 0.0180, 0.0280, 0.0216],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0290, 0.0321, 0.0249, 0.0209, 0.0143, 0.0205, 0.0179],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 14:26:36,147 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.021e+02 5.854e+02 7.300e+02 9.690e+02 2.298e+03, threshold=1.460e+03, percent-clipped=5.0
+2023-04-01 14:26:57,251 INFO [train.py:903] (2/4) Epoch 9, batch 2250, loss[loss=0.2205, simple_loss=0.2901, pruned_loss=0.07544, over 19458.00 frames. ], tot_loss[loss=0.2466, simple_loss=0.3168, pruned_loss=0.08816, over 3812691.03 frames. ], batch size: 49, lr: 9.37e-03, grad_scale: 8.0
+2023-04-01 14:27:03,730 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=56878.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:27:11,761 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=56885.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 14:27:34,039 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=56903.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:28:00,651 INFO [train.py:903] (2/4) Epoch 9, batch 2300, loss[loss=0.2773, simple_loss=0.3469, pruned_loss=0.1039, over 19455.00 frames. ], tot_loss[loss=0.2469, simple_loss=0.317, pruned_loss=0.08843, over 3802893.09 frames. ], batch size: 70, lr: 9.36e-03, grad_scale: 8.0
+2023-04-01 14:28:05,843 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=56926.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:28:13,792 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 14:28:46,770 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.182e+02 5.809e+02 7.207e+02 9.233e+02 1.673e+03, threshold=1.441e+03, percent-clipped=4.0
+2023-04-01 14:28:51,921 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4226, 1.6889, 1.7807, 1.8222, 3.8979, 1.1438, 2.5053, 4.1231],
+       device='cuda:2'), covar=tensor([0.0402, 0.2401, 0.2640, 0.1710, 0.0695, 0.2836, 0.1452, 0.0248],
+       device='cuda:2'), in_proj_covar=tensor([0.0330, 0.0325, 0.0339, 0.0303, 0.0332, 0.0321, 0.0310, 0.0332],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:29:05,083 INFO [train.py:903] (2/4) Epoch 9, batch 2350, loss[loss=0.2548, simple_loss=0.33, pruned_loss=0.08979, over 19769.00 frames. ], tot_loss[loss=0.2481, simple_loss=0.3181, pruned_loss=0.08902, over 3792312.21 frames. ], batch size: 54, lr: 9.36e-03, grad_scale: 8.0
+2023-04-01 14:29:20,753 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
+2023-04-01 14:29:40,023 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57000.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 14:29:46,441 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 14:29:53,648 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57011.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:29:55,789 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57013.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:30:01,370 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 14:30:07,033 INFO [train.py:903] (2/4) Epoch 9, batch 2400, loss[loss=0.2669, simple_loss=0.3391, pruned_loss=0.09735, over 18669.00 frames. ], tot_loss[loss=0.2481, simple_loss=0.3181, pruned_loss=0.08899, over 3797705.40 frames. ], batch size: 74, lr: 9.36e-03, grad_scale: 8.0
+2023-04-01 14:30:31,591 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
+2023-04-01 14:30:51,620 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.434e+02 5.803e+02 7.402e+02 8.988e+02 1.700e+03, threshold=1.480e+03, percent-clipped=2.0
+2023-04-01 14:31:11,536 INFO [train.py:903] (2/4) Epoch 9, batch 2450, loss[loss=0.2611, simple_loss=0.3313, pruned_loss=0.09545, over 19583.00 frames. ], tot_loss[loss=0.2483, simple_loss=0.3182, pruned_loss=0.08923, over 3802004.71 frames. ], batch size: 61, lr: 9.35e-03, grad_scale: 8.0
+2023-04-01 14:32:15,753 INFO [train.py:903] (2/4) Epoch 9, batch 2500, loss[loss=0.1836, simple_loss=0.2635, pruned_loss=0.05182, over 19362.00 frames. ], tot_loss[loss=0.2473, simple_loss=0.3172, pruned_loss=0.08876, over 3809629.06 frames. ], batch size: 47, lr: 9.35e-03, grad_scale: 8.0
+2023-04-01 14:33:00,759 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
+2023-04-01 14:33:00,916 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.384e+02 5.325e+02 6.954e+02 9.918e+02 1.981e+03, threshold=1.391e+03, percent-clipped=3.0
+2023-04-01 14:33:09,588 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:33:19,757 INFO [train.py:903] (2/4) Epoch 9, batch 2550, loss[loss=0.241, simple_loss=0.3175, pruned_loss=0.08224, over 19763.00 frames. ], tot_loss[loss=0.2474, simple_loss=0.3171, pruned_loss=0.08884, over 3812129.46 frames. ], batch size: 54, lr: 9.34e-03, grad_scale: 8.0
+2023-04-01 14:33:51,256 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0942, 1.8121, 1.8926, 2.4602, 2.0550, 2.4204, 2.2794, 2.2210],
+       device='cuda:2'), covar=tensor([0.0703, 0.0843, 0.0920, 0.0839, 0.0862, 0.0588, 0.0925, 0.0573],
+       device='cuda:2'), in_proj_covar=tensor([0.0215, 0.0231, 0.0229, 0.0256, 0.0243, 0.0215, 0.0205, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 14:33:51,280 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4108, 1.8463, 2.2516, 2.4926, 2.2409, 2.1979, 2.1852, 2.6131],
+       device='cuda:2'), covar=tensor([0.0689, 0.1589, 0.1090, 0.0729, 0.1116, 0.0418, 0.0894, 0.0444],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0351, 0.0290, 0.0240, 0.0298, 0.0244, 0.0271, 0.0233],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:33:59,379 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57204.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:34:11,384 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8570, 1.6751, 1.9856, 1.8900, 4.2804, 0.9311, 2.2308, 4.5894],
+       device='cuda:2'), covar=tensor([0.0326, 0.2442, 0.2260, 0.1502, 0.0623, 0.2705, 0.1345, 0.0196],
+       device='cuda:2'), in_proj_covar=tensor([0.0332, 0.0324, 0.0338, 0.0303, 0.0333, 0.0320, 0.0309, 0.0330],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:34:13,770 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57215.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:34:15,593 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 14:34:22,488 INFO [train.py:903] (2/4) Epoch 9, batch 2600, loss[loss=0.2655, simple_loss=0.3381, pruned_loss=0.09645, over 18760.00 frames. ], tot_loss[loss=0.2481, simple_loss=0.3178, pruned_loss=0.08926, over 3797338.54 frames. ], batch size: 74, lr: 9.34e-03, grad_scale: 8.0
+2023-04-01 14:35:05,311 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57256.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 14:35:07,156 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.285e+02 5.816e+02 6.932e+02 7.774e+02 1.592e+03, threshold=1.386e+03, percent-clipped=3.0
+2023-04-01 14:35:12,178 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57262.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:35:22,398 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57270.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:35:25,692 INFO [train.py:903] (2/4) Epoch 9, batch 2650, loss[loss=0.2463, simple_loss=0.3185, pruned_loss=0.08698, over 19742.00 frames. ], tot_loss[loss=0.2479, simple_loss=0.3175, pruned_loss=0.08915, over 3803459.17 frames. ], batch size: 51, lr: 9.34e-03, grad_scale: 8.0
+2023-04-01 14:35:36,490 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57280.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:35:37,642 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57281.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 14:35:45,907 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 14:36:08,551 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9327, 1.3520, 1.0573, 0.9692, 1.1984, 0.9242, 0.9067, 1.2462],
+       device='cuda:2'), covar=tensor([0.0441, 0.0595, 0.0943, 0.0539, 0.0445, 0.1032, 0.0483, 0.0368],
+       device='cuda:2'), in_proj_covar=tensor([0.0289, 0.0291, 0.0319, 0.0242, 0.0232, 0.0317, 0.0288, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:36:31,185 INFO [train.py:903] (2/4) Epoch 9, batch 2700, loss[loss=0.1968, simple_loss=0.2638, pruned_loss=0.06494, over 19748.00 frames. ], tot_loss[loss=0.2463, simple_loss=0.3159, pruned_loss=0.08833, over 3822115.73 frames. ], batch size: 46, lr: 9.33e-03, grad_scale: 8.0
+2023-04-01 14:36:57,758 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3352, 1.3774, 1.7504, 1.5249, 2.7750, 2.4199, 2.8553, 1.2561],
+       device='cuda:2'), covar=tensor([0.2080, 0.3607, 0.2135, 0.1590, 0.1250, 0.1596, 0.1319, 0.3249],
+       device='cuda:2'), in_proj_covar=tensor([0.0478, 0.0554, 0.0562, 0.0426, 0.0584, 0.0479, 0.0646, 0.0478],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 14:37:12,086 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57355.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:37:14,465 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57357.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:37:15,509 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.587e+02 5.592e+02 7.209e+02 8.892e+02 3.755e+03, threshold=1.442e+03, percent-clipped=7.0
+2023-04-01 14:37:33,711 INFO [train.py:903] (2/4) Epoch 9, batch 2750, loss[loss=0.2121, simple_loss=0.2825, pruned_loss=0.07082, over 19382.00 frames. ], tot_loss[loss=0.2451, simple_loss=0.3151, pruned_loss=0.08754, over 3834112.52 frames. ], batch size: 47, lr: 9.33e-03, grad_scale: 8.0
+2023-04-01 14:37:49,357 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57385.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:38:30,663 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57416.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:38:38,519 INFO [train.py:903] (2/4) Epoch 9, batch 2800, loss[loss=0.2417, simple_loss=0.3186, pruned_loss=0.0824, over 19514.00 frames. ], tot_loss[loss=0.2446, simple_loss=0.3147, pruned_loss=0.08721, over 3837214.82 frames. ], batch size: 64, lr: 9.32e-03, grad_scale: 8.0
+2023-04-01 14:39:23,167 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.000e+02 5.525e+02 6.599e+02 8.446e+02 1.316e+03, threshold=1.320e+03, percent-clipped=0.0
+2023-04-01 14:39:38,448 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57470.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:39:41,718 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57472.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:39:42,546 INFO [train.py:903] (2/4) Epoch 9, batch 2850, loss[loss=0.2545, simple_loss=0.333, pruned_loss=0.08801, over 17543.00 frames. ], tot_loss[loss=0.2439, simple_loss=0.3142, pruned_loss=0.08682, over 3827019.50 frames. ], batch size: 101, lr: 9.32e-03, grad_scale: 8.0
+2023-04-01 14:39:44,036 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7719, 1.6396, 1.4516, 1.9164, 1.8609, 1.3989, 1.4205, 1.7398],
+       device='cuda:2'), covar=tensor([0.1061, 0.1522, 0.1477, 0.0899, 0.1191, 0.0770, 0.1327, 0.0724],
+       device='cuda:2'), in_proj_covar=tensor([0.0248, 0.0352, 0.0287, 0.0237, 0.0296, 0.0242, 0.0270, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:39:51,259 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57480.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:40:33,720 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57513.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:40:41,928 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 14:40:46,558 INFO [train.py:903] (2/4) Epoch 9, batch 2900, loss[loss=0.225, simple_loss=0.3007, pruned_loss=0.07459, over 19547.00 frames. ], tot_loss[loss=0.2446, simple_loss=0.3148, pruned_loss=0.0872, over 3819400.70 frames. ], batch size: 56, lr: 9.32e-03, grad_scale: 8.0
+2023-04-01 14:41:03,531 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57536.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:41:16,956 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:41:30,790 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.787e+02 5.829e+02 7.475e+02 8.920e+02 2.516e+03, threshold=1.495e+03, percent-clipped=6.0
+2023-04-01 14:41:32,220 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57559.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:41:35,771 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57561.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:41:49,416 INFO [train.py:903] (2/4) Epoch 9, batch 2950, loss[loss=0.3364, simple_loss=0.3862, pruned_loss=0.1433, over 12989.00 frames. ], tot_loss[loss=0.245, simple_loss=0.315, pruned_loss=0.0875, over 3816833.85 frames. ], batch size: 136, lr: 9.31e-03, grad_scale: 8.0
+2023-04-01 14:42:09,727 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7619, 4.1846, 4.4363, 4.3875, 1.6344, 4.1438, 3.6330, 4.1298],
+       device='cuda:2'), covar=tensor([0.1161, 0.0723, 0.0525, 0.0489, 0.4628, 0.0482, 0.0600, 0.0938],
+       device='cuda:2'), in_proj_covar=tensor([0.0626, 0.0553, 0.0742, 0.0615, 0.0686, 0.0490, 0.0468, 0.0688],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 14:42:17,218 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3017, 1.4003, 1.4544, 1.5242, 2.9032, 0.9069, 2.0232, 3.1699],
+       device='cuda:2'), covar=tensor([0.0496, 0.2402, 0.2527, 0.1575, 0.0719, 0.2586, 0.1231, 0.0321],
+       device='cuda:2'), in_proj_covar=tensor([0.0334, 0.0327, 0.0339, 0.0306, 0.0334, 0.0324, 0.0313, 0.0334],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:42:32,121 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57606.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:42:53,534 INFO [train.py:903] (2/4) Epoch 9, batch 3000, loss[loss=0.2131, simple_loss=0.2871, pruned_loss=0.06954, over 19098.00 frames. ], tot_loss[loss=0.244, simple_loss=0.3138, pruned_loss=0.08711, over 3808616.44 frames. ], batch size: 42, lr: 9.31e-03, grad_scale: 8.0
+2023-04-01 14:42:53,535 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 14:43:06,210 INFO [train.py:937] (2/4) Epoch 9, validation: loss=0.1831, simple_loss=0.2838, pruned_loss=0.04122, over 944034.00 frames. 
+2023-04-01 14:43:06,211 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 14:43:08,509 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 14:43:28,434 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57641.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:43:50,437 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.712e+02 6.061e+02 7.914e+02 9.800e+02 2.087e+03, threshold=1.583e+03, percent-clipped=4.0
+2023-04-01 14:43:56,598 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57663.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:44:00,202 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57666.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:44:08,759 INFO [train.py:903] (2/4) Epoch 9, batch 3050, loss[loss=0.3462, simple_loss=0.3823, pruned_loss=0.1551, over 19654.00 frames. ], tot_loss[loss=0.2446, simple_loss=0.3142, pruned_loss=0.08751, over 3812437.73 frames. ], batch size: 60, lr: 9.30e-03, grad_scale: 8.0
+2023-04-01 14:44:10,187 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57674.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:45:09,154 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57721.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:45:11,161 INFO [train.py:903] (2/4) Epoch 9, batch 3100, loss[loss=0.2187, simple_loss=0.2881, pruned_loss=0.07467, over 19779.00 frames. ], tot_loss[loss=0.2449, simple_loss=0.3144, pruned_loss=0.08774, over 3809295.98 frames. ], batch size: 48, lr: 9.30e-03, grad_scale: 8.0
+2023-04-01 14:45:16,070 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57726.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:45:19,256 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57728.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:45:27,303 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2040, 1.2549, 1.7082, 1.3936, 2.6001, 1.9035, 2.5979, 1.0451],
+       device='cuda:2'), covar=tensor([0.2166, 0.3710, 0.2106, 0.1706, 0.1158, 0.1956, 0.1264, 0.3365],
+       device='cuda:2'), in_proj_covar=tensor([0.0467, 0.0542, 0.0552, 0.0419, 0.0575, 0.0469, 0.0633, 0.0471],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 14:45:40,950 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8113, 2.1894, 2.1792, 2.7797, 2.6843, 2.3215, 2.3140, 2.9011],
+       device='cuda:2'), covar=tensor([0.0763, 0.1695, 0.1298, 0.0919, 0.1171, 0.0457, 0.0962, 0.0497],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0350, 0.0287, 0.0237, 0.0294, 0.0242, 0.0267, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:45:47,411 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=57751.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:45:47,508 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57751.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:45:49,803 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57753.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:45:54,924 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.860e+02 5.906e+02 7.408e+02 1.029e+03 2.368e+03, threshold=1.482e+03, percent-clipped=3.0
+2023-04-01 14:45:57,423 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:46:14,158 INFO [train.py:903] (2/4) Epoch 9, batch 3150, loss[loss=0.2505, simple_loss=0.3196, pruned_loss=0.09071, over 19758.00 frames. ], tot_loss[loss=0.2445, simple_loss=0.3145, pruned_loss=0.08726, over 3812574.57 frames. ], batch size: 54, lr: 9.30e-03, grad_scale: 8.0
+2023-04-01 14:46:42,106 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 14:47:14,696 INFO [train.py:903] (2/4) Epoch 9, batch 3200, loss[loss=0.2164, simple_loss=0.2897, pruned_loss=0.07151, over 19408.00 frames. ], tot_loss[loss=0.2457, simple_loss=0.3153, pruned_loss=0.08802, over 3807451.53 frames. ], batch size: 48, lr: 9.29e-03, grad_scale: 8.0
+2023-04-01 14:47:16,007 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57824.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:47:30,902 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-01 14:47:55,923 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=57857.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:47:56,959 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.598e+02 5.791e+02 7.100e+02 9.261e+02 4.038e+03, threshold=1.420e+03, percent-clipped=7.0
+2023-04-01 14:48:14,909 INFO [train.py:903] (2/4) Epoch 9, batch 3250, loss[loss=0.2431, simple_loss=0.3132, pruned_loss=0.08652, over 19656.00 frames. ], tot_loss[loss=0.2446, simple_loss=0.3143, pruned_loss=0.08746, over 3821635.32 frames. ], batch size: 53, lr: 9.29e-03, grad_scale: 8.0
+2023-04-01 14:48:17,731 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.75 vs. limit=5.0
+2023-04-01 14:48:18,543 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57875.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:49:01,105 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5497, 1.5881, 1.8750, 1.6967, 2.8650, 2.4572, 2.8032, 1.4310],
+       device='cuda:2'), covar=tensor([0.1891, 0.3399, 0.2010, 0.1551, 0.1126, 0.1530, 0.1200, 0.3013],
+       device='cuda:2'), in_proj_covar=tensor([0.0473, 0.0556, 0.0561, 0.0427, 0.0583, 0.0477, 0.0641, 0.0478],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 14:49:12,236 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57919.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:49:16,424 INFO [train.py:903] (2/4) Epoch 9, batch 3300, loss[loss=0.2241, simple_loss=0.2915, pruned_loss=0.07838, over 19593.00 frames. ], tot_loss[loss=0.2441, simple_loss=0.3141, pruned_loss=0.08704, over 3820284.81 frames. ], batch size: 52, lr: 9.28e-03, grad_scale: 8.0
+2023-04-01 14:49:23,977 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 14:49:26,332 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57930.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:49:36,425 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57939.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:49:43,089 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57944.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:49:56,587 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=57955.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:49:59,469 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.480e+02 5.470e+02 6.783e+02 8.234e+02 1.579e+03, threshold=1.357e+03, percent-clipped=1.0
+2023-04-01 14:50:17,161 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=57972.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:50:17,932 INFO [train.py:903] (2/4) Epoch 9, batch 3350, loss[loss=0.2761, simple_loss=0.3475, pruned_loss=0.1024, over 19573.00 frames. ], tot_loss[loss=0.2468, simple_loss=0.3162, pruned_loss=0.08869, over 3799970.11 frames. ], batch size: 61, lr: 9.28e-03, grad_scale: 8.0
+2023-04-01 14:50:22,790 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=57977.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:50:54,291 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58002.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:51:20,069 INFO [train.py:903] (2/4) Epoch 9, batch 3400, loss[loss=0.2431, simple_loss=0.3242, pruned_loss=0.08102, over 18716.00 frames. ], tot_loss[loss=0.2463, simple_loss=0.3157, pruned_loss=0.08847, over 3790680.78 frames. ], batch size: 74, lr: 9.28e-03, grad_scale: 8.0
+2023-04-01 14:52:02,948 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.171e+02 5.309e+02 6.592e+02 8.930e+02 1.711e+03, threshold=1.318e+03, percent-clipped=4.0
+2023-04-01 14:52:14,506 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3409, 1.1168, 1.7231, 1.3749, 2.6204, 3.6886, 3.4654, 4.0110],
+       device='cuda:2'), covar=tensor([0.1586, 0.4410, 0.3599, 0.2149, 0.0581, 0.0203, 0.0261, 0.0172],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0290, 0.0322, 0.0249, 0.0211, 0.0146, 0.0207, 0.0185],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 14:52:20,806 INFO [train.py:903] (2/4) Epoch 9, batch 3450, loss[loss=0.2856, simple_loss=0.3518, pruned_loss=0.1097, over 18081.00 frames. ], tot_loss[loss=0.247, simple_loss=0.3166, pruned_loss=0.08871, over 3784788.62 frames. ], batch size: 83, lr: 9.27e-03, grad_scale: 8.0
+2023-04-01 14:52:25,120 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 14:52:48,557 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58095.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:53:22,371 INFO [train.py:903] (2/4) Epoch 9, batch 3500, loss[loss=0.2536, simple_loss=0.3275, pruned_loss=0.0898, over 19422.00 frames. ], tot_loss[loss=0.2462, simple_loss=0.3158, pruned_loss=0.08828, over 3775979.50 frames. ], batch size: 70, lr: 9.27e-03, grad_scale: 8.0
+2023-04-01 14:53:33,945 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58131.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:54:03,524 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58156.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:54:05,471 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.510e+02 6.015e+02 7.407e+02 9.414e+02 2.837e+03, threshold=1.481e+03, percent-clipped=3.0
+2023-04-01 14:54:06,931 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=58159.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:54:10,326 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=58162.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:54:24,270 INFO [train.py:903] (2/4) Epoch 9, batch 3550, loss[loss=0.2657, simple_loss=0.3378, pruned_loss=0.09681, over 19344.00 frames. ], tot_loss[loss=0.2473, simple_loss=0.3168, pruned_loss=0.08888, over 3780051.87 frames. ], batch size: 66, lr: 9.26e-03, grad_scale: 8.0
+2023-04-01 14:54:50,552 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58195.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:55:09,217 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58210.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:55:19,423 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2949, 1.3433, 1.6170, 1.4817, 2.5093, 2.1812, 2.5644, 0.9886],
+       device='cuda:2'), covar=tensor([0.2081, 0.3481, 0.1983, 0.1611, 0.1364, 0.1655, 0.1371, 0.3428],
+       device='cuda:2'), in_proj_covar=tensor([0.0468, 0.0547, 0.0556, 0.0422, 0.0578, 0.0474, 0.0635, 0.0473],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 14:55:20,412 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58220.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:55:24,264 INFO [train.py:903] (2/4) Epoch 9, batch 3600, loss[loss=0.2405, simple_loss=0.3216, pruned_loss=0.0797, over 19766.00 frames. ], tot_loss[loss=0.2479, simple_loss=0.3176, pruned_loss=0.08912, over 3784154.83 frames. ], batch size: 54, lr: 9.26e-03, grad_scale: 8.0
+2023-04-01 14:55:30,371 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58228.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:55:43,851 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3702, 1.3664, 2.0361, 1.8475, 2.9352, 4.6955, 4.6445, 4.9341],
+       device='cuda:2'), covar=tensor([0.1416, 0.3060, 0.2612, 0.1592, 0.0458, 0.0129, 0.0142, 0.0109],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0287, 0.0318, 0.0249, 0.0210, 0.0145, 0.0205, 0.0183],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 14:56:01,016 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58253.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 14:56:06,153 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.641e+02 5.487e+02 6.500e+02 7.997e+02 2.924e+03, threshold=1.300e+03, percent-clipped=2.0
+2023-04-01 14:56:15,755 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.94 vs. limit=5.0
+2023-04-01 14:56:23,768 INFO [train.py:903] (2/4) Epoch 9, batch 3650, loss[loss=0.2369, simple_loss=0.3098, pruned_loss=0.08197, over 19518.00 frames. ], tot_loss[loss=0.2482, simple_loss=0.318, pruned_loss=0.08925, over 3794025.30 frames. ], batch size: 54, lr: 9.26e-03, grad_scale: 16.0
+2023-04-01 14:57:24,455 INFO [train.py:903] (2/4) Epoch 9, batch 3700, loss[loss=0.2551, simple_loss=0.3199, pruned_loss=0.0952, over 19332.00 frames. ], tot_loss[loss=0.2501, simple_loss=0.3193, pruned_loss=0.09043, over 3772343.93 frames. ], batch size: 66, lr: 9.25e-03, grad_scale: 8.0
+2023-04-01 14:58:07,747 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.190e+02 6.060e+02 7.736e+02 9.843e+02 2.060e+03, threshold=1.547e+03, percent-clipped=9.0
+2023-04-01 14:58:17,419 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2204, 2.1116, 1.8011, 1.7388, 1.6376, 1.7255, 0.4351, 1.0152],
+       device='cuda:2'), covar=tensor([0.0348, 0.0343, 0.0246, 0.0403, 0.0717, 0.0443, 0.0703, 0.0610],
+       device='cuda:2'), in_proj_covar=tensor([0.0316, 0.0319, 0.0317, 0.0333, 0.0407, 0.0333, 0.0297, 0.0314],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 14:58:23,949 INFO [train.py:903] (2/4) Epoch 9, batch 3750, loss[loss=0.2134, simple_loss=0.2774, pruned_loss=0.0747, over 19753.00 frames. ], tot_loss[loss=0.2489, simple_loss=0.3182, pruned_loss=0.08979, over 3785501.57 frames. ], batch size: 47, lr: 9.25e-03, grad_scale: 8.0
+2023-04-01 14:59:10,951 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8444, 1.4644, 1.6442, 1.6646, 3.3547, 0.9965, 2.3464, 3.6677],
+       device='cuda:2'), covar=tensor([0.0382, 0.2316, 0.2383, 0.1584, 0.0691, 0.2655, 0.1263, 0.0270],
+       device='cuda:2'), in_proj_covar=tensor([0.0339, 0.0330, 0.0341, 0.0311, 0.0341, 0.0328, 0.0317, 0.0337],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 14:59:24,636 INFO [train.py:903] (2/4) Epoch 9, batch 3800, loss[loss=0.2121, simple_loss=0.2819, pruned_loss=0.0711, over 19772.00 frames. ], tot_loss[loss=0.2476, simple_loss=0.3176, pruned_loss=0.0888, over 3798282.51 frames. ], batch size: 47, lr: 9.24e-03, grad_scale: 8.0
+2023-04-01 14:59:54,343 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 15:00:07,803 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7378, 1.4884, 1.5067, 2.1451, 1.6989, 2.1217, 2.1253, 1.8152],
+       device='cuda:2'), covar=tensor([0.0810, 0.0950, 0.1058, 0.0815, 0.0859, 0.0685, 0.0838, 0.0666],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0230, 0.0226, 0.0257, 0.0239, 0.0216, 0.0203, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 15:00:08,584 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.327e+02 5.230e+02 6.601e+02 8.580e+02 1.875e+03, threshold=1.320e+03, percent-clipped=3.0
+2023-04-01 15:00:17,604 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58466.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:00:22,296 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
+2023-04-01 15:00:24,957 INFO [train.py:903] (2/4) Epoch 9, batch 3850, loss[loss=0.209, simple_loss=0.2817, pruned_loss=0.06812, over 19382.00 frames. ], tot_loss[loss=0.2452, simple_loss=0.3157, pruned_loss=0.08735, over 3805476.28 frames. ], batch size: 48, lr: 9.24e-03, grad_scale: 8.0
+2023-04-01 15:00:36,666 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2597, 1.2140, 1.2237, 1.3374, 1.0984, 1.3631, 1.2990, 1.2901],
+       device='cuda:2'), covar=tensor([0.0854, 0.0973, 0.1024, 0.0694, 0.0808, 0.0800, 0.0828, 0.0731],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0230, 0.0226, 0.0257, 0.0239, 0.0216, 0.0203, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 15:00:46,689 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58491.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:01:02,730 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58503.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:01:06,097 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=58506.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:01:25,308 INFO [train.py:903] (2/4) Epoch 9, batch 3900, loss[loss=0.2338, simple_loss=0.3102, pruned_loss=0.07864, over 19666.00 frames. ], tot_loss[loss=0.2454, simple_loss=0.316, pruned_loss=0.0874, over 3826538.75 frames. ], batch size: 55, lr: 9.24e-03, grad_scale: 8.0
+2023-04-01 15:02:08,184 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.315e+02 6.109e+02 7.308e+02 8.933e+02 2.200e+03, threshold=1.462e+03, percent-clipped=5.0
+2023-04-01 15:02:19,964 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
+2023-04-01 15:02:26,008 INFO [train.py:903] (2/4) Epoch 9, batch 3950, loss[loss=0.2131, simple_loss=0.2887, pruned_loss=0.06874, over 19479.00 frames. ], tot_loss[loss=0.2458, simple_loss=0.3161, pruned_loss=0.0877, over 3817253.57 frames. ], batch size: 49, lr: 9.23e-03, grad_scale: 8.0
+2023-04-01 15:02:28,083 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 15:03:21,984 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58618.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:03:25,419 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=58621.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:03:28,119 INFO [train.py:903] (2/4) Epoch 9, batch 4000, loss[loss=0.3297, simple_loss=0.3722, pruned_loss=0.1435, over 12884.00 frames. ], tot_loss[loss=0.2448, simple_loss=0.3153, pruned_loss=0.08719, over 3818986.45 frames. ], batch size: 136, lr: 9.23e-03, grad_scale: 8.0
+2023-04-01 15:04:10,730 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.392e+02 5.642e+02 6.845e+02 8.578e+02 2.087e+03, threshold=1.369e+03, percent-clipped=3.0
+2023-04-01 15:04:10,796 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 15:04:27,015 INFO [train.py:903] (2/4) Epoch 9, batch 4050, loss[loss=0.28, simple_loss=0.3333, pruned_loss=0.1133, over 13387.00 frames. ], tot_loss[loss=0.2466, simple_loss=0.3163, pruned_loss=0.0884, over 3791519.48 frames. ], batch size: 136, lr: 9.22e-03, grad_scale: 8.0
+2023-04-01 15:04:59,263 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=58699.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:05:28,158 INFO [train.py:903] (2/4) Epoch 9, batch 4100, loss[loss=0.2919, simple_loss=0.3557, pruned_loss=0.114, over 19662.00 frames. ], tot_loss[loss=0.246, simple_loss=0.3159, pruned_loss=0.088, over 3804735.60 frames. ], batch size: 58, lr: 9.22e-03, grad_scale: 8.0
+2023-04-01 15:06:03,196 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 15:06:11,190 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.329e+02 5.572e+02 6.953e+02 8.904e+02 1.888e+03, threshold=1.391e+03, percent-clipped=3.0
+2023-04-01 15:06:28,249 INFO [train.py:903] (2/4) Epoch 9, batch 4150, loss[loss=0.2501, simple_loss=0.3177, pruned_loss=0.0912, over 19773.00 frames. ], tot_loss[loss=0.2445, simple_loss=0.3147, pruned_loss=0.08719, over 3801968.89 frames. ], batch size: 56, lr: 9.22e-03, grad_scale: 8.0
+2023-04-01 15:06:54,431 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=58793.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:07:30,859 INFO [train.py:903] (2/4) Epoch 9, batch 4200, loss[loss=0.2575, simple_loss=0.324, pruned_loss=0.09551, over 19338.00 frames. ], tot_loss[loss=0.2441, simple_loss=0.3144, pruned_loss=0.08688, over 3816649.10 frames. ], batch size: 66, lr: 9.21e-03, grad_scale: 8.0
+2023-04-01 15:07:34,199 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 15:08:14,668 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.798e+02 5.991e+02 7.229e+02 9.145e+02 1.621e+03, threshold=1.446e+03, percent-clipped=3.0
+2023-04-01 15:08:16,298 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8211, 1.8648, 1.9976, 2.6156, 1.7954, 2.5352, 2.3835, 1.8549],
+       device='cuda:2'), covar=tensor([0.3216, 0.2581, 0.1342, 0.1366, 0.2667, 0.1150, 0.2992, 0.2482],
+       device='cuda:2'), in_proj_covar=tensor([0.0747, 0.0763, 0.0625, 0.0869, 0.0749, 0.0665, 0.0766, 0.0679],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 15:08:32,532 INFO [train.py:903] (2/4) Epoch 9, batch 4250, loss[loss=0.2042, simple_loss=0.276, pruned_loss=0.06617, over 19388.00 frames. ], tot_loss[loss=0.2431, simple_loss=0.3137, pruned_loss=0.08632, over 3827632.72 frames. ], batch size: 48, lr: 9.21e-03, grad_scale: 8.0
+2023-04-01 15:08:34,196 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58874.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:08:37,523 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=58877.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:08:48,674 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 15:09:00,002 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 15:09:03,850 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58899.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:09:08,239 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=58902.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:09:15,829 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-01 15:09:32,785 INFO [train.py:903] (2/4) Epoch 9, batch 4300, loss[loss=0.2776, simple_loss=0.3522, pruned_loss=0.1015, over 19561.00 frames. ], tot_loss[loss=0.2425, simple_loss=0.313, pruned_loss=0.08602, over 3835655.89 frames. ], batch size: 61, lr: 9.20e-03, grad_scale: 8.0
+2023-04-01 15:09:34,169 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=58924.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:10:17,292 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.360e+02 5.584e+02 7.321e+02 9.114e+02 2.155e+03, threshold=1.464e+03, percent-clipped=5.0
+2023-04-01 15:10:26,471 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 15:10:33,830 INFO [train.py:903] (2/4) Epoch 9, batch 4350, loss[loss=0.2674, simple_loss=0.3399, pruned_loss=0.09749, over 19675.00 frames. ], tot_loss[loss=0.2426, simple_loss=0.3133, pruned_loss=0.08595, over 3831453.48 frames. ], batch size: 60, lr: 9.20e-03, grad_scale: 8.0
+2023-04-01 15:11:34,342 INFO [train.py:903] (2/4) Epoch 9, batch 4400, loss[loss=0.2303, simple_loss=0.2941, pruned_loss=0.08326, over 19360.00 frames. ], tot_loss[loss=0.2425, simple_loss=0.3127, pruned_loss=0.08613, over 3837808.46 frames. ], batch size: 47, lr: 9.20e-03, grad_scale: 8.0
+2023-04-01 15:11:58,685 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 15:11:58,800 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59043.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:12:08,634 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 15:12:18,355 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.517e+02 5.626e+02 6.682e+02 1.014e+03 2.125e+03, threshold=1.336e+03, percent-clipped=6.0
+2023-04-01 15:12:35,842 INFO [train.py:903] (2/4) Epoch 9, batch 4450, loss[loss=0.2761, simple_loss=0.3358, pruned_loss=0.1082, over 17549.00 frames. ], tot_loss[loss=0.2445, simple_loss=0.3144, pruned_loss=0.08729, over 3821974.54 frames. ], batch size: 101, lr: 9.19e-03, grad_scale: 8.0
+2023-04-01 15:13:01,303 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1374, 2.0355, 1.7468, 1.5707, 1.3944, 1.6453, 0.4912, 1.0000],
+       device='cuda:2'), covar=tensor([0.0323, 0.0378, 0.0260, 0.0400, 0.0769, 0.0454, 0.0701, 0.0649],
+       device='cuda:2'), in_proj_covar=tensor([0.0325, 0.0321, 0.0321, 0.0335, 0.0413, 0.0338, 0.0299, 0.0319],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 15:13:36,621 INFO [train.py:903] (2/4) Epoch 9, batch 4500, loss[loss=0.199, simple_loss=0.2709, pruned_loss=0.06351, over 19765.00 frames. ], tot_loss[loss=0.2446, simple_loss=0.3143, pruned_loss=0.08749, over 3824141.32 frames. ], batch size: 48, lr: 9.19e-03, grad_scale: 8.0
+2023-04-01 15:13:54,296 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59137.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:14:20,642 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59158.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:14:21,456 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.665e+02 5.638e+02 7.209e+02 9.049e+02 2.430e+03, threshold=1.442e+03, percent-clipped=5.0
+2023-04-01 15:14:38,160 INFO [train.py:903] (2/4) Epoch 9, batch 4550, loss[loss=0.2546, simple_loss=0.3311, pruned_loss=0.08907, over 17974.00 frames. ], tot_loss[loss=0.2442, simple_loss=0.3139, pruned_loss=0.08726, over 3821092.46 frames. ], batch size: 83, lr: 9.19e-03, grad_scale: 8.0
+2023-04-01 15:14:38,495 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7578, 1.4765, 1.5846, 2.0739, 4.2354, 1.0495, 2.4572, 4.4018],
+       device='cuda:2'), covar=tensor([0.0335, 0.2572, 0.2826, 0.1441, 0.0681, 0.2567, 0.1274, 0.0263],
+       device='cuda:2'), in_proj_covar=tensor([0.0334, 0.0324, 0.0336, 0.0308, 0.0337, 0.0320, 0.0313, 0.0333],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 15:14:46,055 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 15:14:49,754 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59182.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:14:50,757 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8642, 0.8431, 1.1592, 1.3397, 2.2695, 0.9298, 1.9331, 2.5367],
+       device='cuda:2'), covar=tensor([0.0767, 0.3433, 0.3217, 0.1847, 0.1217, 0.2642, 0.1281, 0.0649],
+       device='cuda:2'), in_proj_covar=tensor([0.0334, 0.0323, 0.0336, 0.0308, 0.0337, 0.0319, 0.0313, 0.0333],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 15:14:55,977 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7639, 4.2410, 4.4535, 4.4288, 1.7484, 4.0830, 3.6583, 4.1260],
+       device='cuda:2'), covar=tensor([0.1316, 0.0710, 0.0543, 0.0544, 0.4700, 0.0598, 0.0616, 0.0976],
+       device='cuda:2'), in_proj_covar=tensor([0.0624, 0.0548, 0.0742, 0.0621, 0.0679, 0.0498, 0.0462, 0.0687],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 15:15:11,280 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 15:15:39,011 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
+2023-04-01 15:15:39,250 INFO [train.py:903] (2/4) Epoch 9, batch 4600, loss[loss=0.2399, simple_loss=0.3171, pruned_loss=0.08132, over 17409.00 frames. ], tot_loss[loss=0.2444, simple_loss=0.3143, pruned_loss=0.08724, over 3807835.81 frames. ], batch size: 101, lr: 9.18e-03, grad_scale: 8.0
+2023-04-01 15:16:15,413 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59252.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:16:24,166 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.716e+02 5.555e+02 6.855e+02 8.371e+02 1.742e+03, threshold=1.371e+03, percent-clipped=2.0
+2023-04-01 15:16:35,117 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59268.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:16:40,776 INFO [train.py:903] (2/4) Epoch 9, batch 4650, loss[loss=0.2358, simple_loss=0.3072, pruned_loss=0.08222, over 19742.00 frames. ], tot_loss[loss=0.2427, simple_loss=0.3131, pruned_loss=0.0861, over 3822649.44 frames. ], batch size: 51, lr: 9.18e-03, grad_scale: 8.0
+2023-04-01 15:16:56,386 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 15:17:02,653 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-01 15:17:09,158 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 15:17:41,932 INFO [train.py:903] (2/4) Epoch 9, batch 4700, loss[loss=0.2554, simple_loss=0.3225, pruned_loss=0.09411, over 17387.00 frames. ], tot_loss[loss=0.2428, simple_loss=0.3133, pruned_loss=0.08612, over 3819454.69 frames. ], batch size: 101, lr: 9.17e-03, grad_scale: 8.0
+2023-04-01 15:18:03,976 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 15:18:08,312 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
+2023-04-01 15:18:25,860 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.928e+02 5.586e+02 6.716e+02 8.168e+02 1.499e+03, threshold=1.343e+03, percent-clipped=1.0
+2023-04-01 15:18:41,884 INFO [train.py:903] (2/4) Epoch 9, batch 4750, loss[loss=0.2221, simple_loss=0.2926, pruned_loss=0.07583, over 19686.00 frames. ], tot_loss[loss=0.2437, simple_loss=0.3142, pruned_loss=0.08657, over 3826316.48 frames. ], batch size: 53, lr: 9.17e-03, grad_scale: 8.0
+2023-04-01 15:18:54,786 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59383.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:19:32,488 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=59414.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:19:43,257 INFO [train.py:903] (2/4) Epoch 9, batch 4800, loss[loss=0.2539, simple_loss=0.3271, pruned_loss=0.09033, over 19538.00 frames. ], tot_loss[loss=0.2453, simple_loss=0.3153, pruned_loss=0.08765, over 3815970.84 frames. ], batch size: 54, lr: 9.17e-03, grad_scale: 8.0
+2023-04-01 15:20:03,351 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=59439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:20:27,552 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.770e+02 5.762e+02 6.893e+02 8.818e+02 1.836e+03, threshold=1.379e+03, percent-clipped=7.0
+2023-04-01 15:20:43,944 INFO [train.py:903] (2/4) Epoch 9, batch 4850, loss[loss=0.2306, simple_loss=0.2961, pruned_loss=0.08251, over 19392.00 frames. ], tot_loss[loss=0.2448, simple_loss=0.315, pruned_loss=0.08733, over 3816900.33 frames. ], batch size: 48, lr: 9.16e-03, grad_scale: 8.0
+2023-04-01 15:21:08,939 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 15:21:27,134 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=59508.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:21:29,012 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 15:21:35,273 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 15:21:37,365 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 15:21:42,258 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59520.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:21:45,373 INFO [train.py:903] (2/4) Epoch 9, batch 4900, loss[loss=0.2383, simple_loss=0.3088, pruned_loss=0.08392, over 19701.00 frames. ], tot_loss[loss=0.2439, simple_loss=0.314, pruned_loss=0.08689, over 3821946.04 frames. ], batch size: 53, lr: 9.16e-03, grad_scale: 8.0
+2023-04-01 15:21:46,553 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 15:21:49,057 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59526.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:21:56,982 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=59533.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:22:05,284 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 15:22:25,050 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
+2023-04-01 15:22:29,460 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.724e+02 5.274e+02 6.528e+02 8.023e+02 2.606e+03, threshold=1.306e+03, percent-clipped=3.0
+2023-04-01 15:22:30,272 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
+2023-04-01 15:22:45,476 INFO [train.py:903] (2/4) Epoch 9, batch 4950, loss[loss=0.305, simple_loss=0.3642, pruned_loss=0.1229, over 19636.00 frames. ], tot_loss[loss=0.2445, simple_loss=0.3149, pruned_loss=0.08707, over 3830868.71 frames. ], batch size: 57, lr: 9.15e-03, grad_scale: 8.0
+2023-04-01 15:22:52,186 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8970, 4.2834, 4.5498, 4.5351, 1.6205, 4.1732, 3.7188, 4.2012],
+       device='cuda:2'), covar=tensor([0.1231, 0.0705, 0.0514, 0.0512, 0.5006, 0.0514, 0.0590, 0.0961],
+       device='cuda:2'), in_proj_covar=tensor([0.0632, 0.0564, 0.0750, 0.0631, 0.0695, 0.0506, 0.0463, 0.0699],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 15:23:01,087 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 15:23:24,571 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 15:23:30,057 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.83 vs. limit=5.0
+2023-04-01 15:23:46,153 INFO [train.py:903] (2/4) Epoch 9, batch 5000, loss[loss=0.2101, simple_loss=0.281, pruned_loss=0.06962, over 19765.00 frames. ], tot_loss[loss=0.2435, simple_loss=0.3142, pruned_loss=0.08636, over 3830762.47 frames. ], batch size: 47, lr: 9.15e-03, grad_scale: 4.0
+2023-04-01 15:23:53,573 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 15:24:04,780 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 15:24:06,320 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=59639.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:24:08,594 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59641.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:24:11,084 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-01 15:24:30,504 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.264e+02 5.818e+02 6.890e+02 9.185e+02 2.943e+03, threshold=1.378e+03, percent-clipped=3.0
+2023-04-01 15:24:35,464 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=59664.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:24:46,095 INFO [train.py:903] (2/4) Epoch 9, batch 5050, loss[loss=0.2275, simple_loss=0.3093, pruned_loss=0.07286, over 19745.00 frames. ], tot_loss[loss=0.2445, simple_loss=0.315, pruned_loss=0.08698, over 3831499.88 frames. ], batch size: 63, lr: 9.15e-03, grad_scale: 4.0
+2023-04-01 15:25:21,715 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 15:25:47,327 INFO [train.py:903] (2/4) Epoch 9, batch 5100, loss[loss=0.2314, simple_loss=0.3087, pruned_loss=0.07711, over 19689.00 frames. ], tot_loss[loss=0.2442, simple_loss=0.3145, pruned_loss=0.08697, over 3813299.50 frames. ], batch size: 53, lr: 9.14e-03, grad_scale: 4.0
+2023-04-01 15:25:56,477 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 15:25:59,769 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 15:26:05,154 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 15:26:33,073 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.640e+02 5.962e+02 7.316e+02 9.170e+02 1.645e+03, threshold=1.463e+03, percent-clipped=5.0
+2023-04-01 15:26:47,506 INFO [train.py:903] (2/4) Epoch 9, batch 5150, loss[loss=0.3086, simple_loss=0.3664, pruned_loss=0.1254, over 17287.00 frames. ], tot_loss[loss=0.244, simple_loss=0.3144, pruned_loss=0.08682, over 3813831.36 frames. ], batch size: 101, lr: 9.14e-03, grad_scale: 4.0
+2023-04-01 15:26:58,269 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 15:27:32,203 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 15:27:49,838 INFO [train.py:903] (2/4) Epoch 9, batch 5200, loss[loss=0.2386, simple_loss=0.3215, pruned_loss=0.07787, over 19700.00 frames. ], tot_loss[loss=0.245, simple_loss=0.3153, pruned_loss=0.08737, over 3809778.98 frames. ], batch size: 59, lr: 9.14e-03, grad_scale: 8.0
+2023-04-01 15:27:59,690 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 15:28:34,607 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.759e+02 5.545e+02 6.726e+02 8.723e+02 1.623e+03, threshold=1.345e+03, percent-clipped=2.0
+2023-04-01 15:28:39,338 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=59864.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:28:41,627 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 15:28:41,878 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59866.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:28:50,360 INFO [train.py:903] (2/4) Epoch 9, batch 5250, loss[loss=0.1732, simple_loss=0.2551, pruned_loss=0.04564, over 19718.00 frames. ], tot_loss[loss=0.2447, simple_loss=0.3155, pruned_loss=0.08701, over 3816719.82 frames. ], batch size: 45, lr: 9.13e-03, grad_scale: 8.0
+2023-04-01 15:29:19,313 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=59897.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:29:31,294 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=59907.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:29:50,072 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=59922.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:29:50,795 INFO [train.py:903] (2/4) Epoch 9, batch 5300, loss[loss=0.231, simple_loss=0.3024, pruned_loss=0.07982, over 19782.00 frames. ], tot_loss[loss=0.2453, simple_loss=0.3161, pruned_loss=0.08723, over 3815470.52 frames. ], batch size: 54, lr: 9.13e-03, grad_scale: 8.0
+2023-04-01 15:30:04,489 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 15:30:05,322 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-01 15:30:13,439 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8015, 3.2731, 3.3117, 3.3206, 1.4199, 3.1802, 2.8236, 3.0479],
+       device='cuda:2'), covar=tensor([0.1227, 0.0710, 0.0667, 0.0673, 0.4060, 0.0586, 0.0636, 0.1162],
+       device='cuda:2'), in_proj_covar=tensor([0.0625, 0.0558, 0.0738, 0.0626, 0.0683, 0.0497, 0.0459, 0.0691],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 15:30:36,750 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.396e+02 5.525e+02 7.204e+02 8.995e+02 2.228e+03, threshold=1.441e+03, percent-clipped=7.0
+2023-04-01 15:30:50,960 INFO [train.py:903] (2/4) Epoch 9, batch 5350, loss[loss=0.2266, simple_loss=0.2942, pruned_loss=0.07948, over 19803.00 frames. ], tot_loss[loss=0.2441, simple_loss=0.3151, pruned_loss=0.08659, over 3831941.54 frames. ], batch size: 49, lr: 9.12e-03, grad_scale: 8.0
+2023-04-01 15:30:58,309 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=59979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:31:24,004 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 15:31:37,380 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8354, 1.9434, 2.0443, 2.8202, 1.7418, 2.4272, 2.4512, 1.9097],
+       device='cuda:2'), covar=tensor([0.3238, 0.2702, 0.1305, 0.1536, 0.3250, 0.1360, 0.3006, 0.2423],
+       device='cuda:2'), in_proj_covar=tensor([0.0754, 0.0763, 0.0624, 0.0872, 0.0750, 0.0671, 0.0776, 0.0683],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 15:31:52,157 INFO [train.py:903] (2/4) Epoch 9, batch 5400, loss[loss=0.2759, simple_loss=0.3405, pruned_loss=0.1056, over 18027.00 frames. ], tot_loss[loss=0.2439, simple_loss=0.3148, pruned_loss=0.08651, over 3832676.92 frames. ], batch size: 83, lr: 9.12e-03, grad_scale: 8.0
+2023-04-01 15:32:18,786 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0027, 5.3974, 3.0318, 4.7838, 1.1559, 5.2177, 5.3196, 5.4004],
+       device='cuda:2'), covar=tensor([0.0411, 0.0801, 0.1812, 0.0541, 0.3797, 0.0497, 0.0537, 0.0770],
+       device='cuda:2'), in_proj_covar=tensor([0.0408, 0.0346, 0.0413, 0.0303, 0.0366, 0.0339, 0.0332, 0.0369],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 15:32:34,991 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60058.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:32:36,997 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.978e+02 5.587e+02 7.112e+02 9.365e+02 1.948e+03, threshold=1.422e+03, percent-clipped=3.0
+2023-04-01 15:32:49,996 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60070.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:32:53,196 INFO [train.py:903] (2/4) Epoch 9, batch 5450, loss[loss=0.2566, simple_loss=0.3369, pruned_loss=0.08816, over 19688.00 frames. ], tot_loss[loss=0.2429, simple_loss=0.3139, pruned_loss=0.08597, over 3840183.57 frames. ], batch size: 59, lr: 9.12e-03, grad_scale: 8.0
+2023-04-01 15:33:06,627 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60083.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:33:21,799 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60096.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:33:55,433 INFO [train.py:903] (2/4) Epoch 9, batch 5500, loss[loss=0.2725, simple_loss=0.3451, pruned_loss=0.09994, over 19717.00 frames. ], tot_loss[loss=0.2432, simple_loss=0.3142, pruned_loss=0.08614, over 3847103.12 frames. ], batch size: 63, lr: 9.11e-03, grad_scale: 8.0
+2023-04-01 15:34:17,032 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 15:34:40,128 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.116e+02 5.485e+02 6.858e+02 8.862e+02 1.983e+03, threshold=1.372e+03, percent-clipped=4.0
+2023-04-01 15:34:56,042 INFO [train.py:903] (2/4) Epoch 9, batch 5550, loss[loss=0.2192, simple_loss=0.3004, pruned_loss=0.069, over 19599.00 frames. ], tot_loss[loss=0.2431, simple_loss=0.3142, pruned_loss=0.08603, over 3836590.83 frames. ], batch size: 57, lr: 9.11e-03, grad_scale: 8.0
+2023-04-01 15:35:01,110 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3351, 1.5287, 2.0117, 1.6214, 3.1472, 2.5663, 3.3184, 1.5061],
+       device='cuda:2'), covar=tensor([0.2020, 0.3372, 0.2025, 0.1565, 0.1321, 0.1634, 0.1565, 0.3183],
+       device='cuda:2'), in_proj_covar=tensor([0.0470, 0.0552, 0.0564, 0.0420, 0.0581, 0.0472, 0.0635, 0.0473],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 15:35:01,735 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 15:35:42,125 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60210.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:35:45,679 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9025, 1.6146, 1.8303, 2.1603, 1.8173, 1.9557, 1.7668, 1.9678],
+       device='cuda:2'), covar=tensor([0.0984, 0.1714, 0.1192, 0.0857, 0.1243, 0.0434, 0.1071, 0.0630],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0351, 0.0289, 0.0239, 0.0297, 0.0240, 0.0274, 0.0236],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 15:35:48,946 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60216.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:35:49,881 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 15:35:57,517 INFO [train.py:903] (2/4) Epoch 9, batch 5600, loss[loss=0.2213, simple_loss=0.2841, pruned_loss=0.07925, over 19744.00 frames. ], tot_loss[loss=0.2431, simple_loss=0.3144, pruned_loss=0.08584, over 3843940.72 frames. ], batch size: 46, lr: 9.11e-03, grad_scale: 8.0
+2023-04-01 15:36:13,009 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60235.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:36:31,695 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60251.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:36:41,619 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.287e+02 5.903e+02 7.092e+02 9.595e+02 1.671e+03, threshold=1.418e+03, percent-clipped=4.0
+2023-04-01 15:36:42,017 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60260.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:36:55,412 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-01 15:36:58,107 INFO [train.py:903] (2/4) Epoch 9, batch 5650, loss[loss=0.2398, simple_loss=0.3175, pruned_loss=0.081, over 19653.00 frames. ], tot_loss[loss=0.2445, simple_loss=0.3152, pruned_loss=0.08689, over 3833022.48 frames. ], batch size: 55, lr: 9.10e-03, grad_scale: 8.0
+2023-04-01 15:37:12,668 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5391, 1.3631, 1.3368, 1.8189, 1.4326, 1.7542, 1.6850, 1.6117],
+       device='cuda:2'), covar=tensor([0.0783, 0.1015, 0.1041, 0.0686, 0.0780, 0.0757, 0.0919, 0.0690],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0232, 0.0230, 0.0257, 0.0245, 0.0218, 0.0203, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 15:37:29,798 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0006, 1.7508, 1.9079, 2.2769, 4.4399, 1.2742, 2.4215, 4.7131],
+       device='cuda:2'), covar=tensor([0.0271, 0.2447, 0.2512, 0.1397, 0.0640, 0.2324, 0.1261, 0.0205],
+       device='cuda:2'), in_proj_covar=tensor([0.0333, 0.0325, 0.0335, 0.0307, 0.0333, 0.0321, 0.0312, 0.0332],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 15:37:45,049 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 15:37:47,718 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7855, 1.4964, 1.4304, 2.0823, 1.6545, 2.1347, 2.1614, 1.8995],
+       device='cuda:2'), covar=tensor([0.0763, 0.0948, 0.1049, 0.0863, 0.0877, 0.0625, 0.0774, 0.0630],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0232, 0.0231, 0.0258, 0.0246, 0.0219, 0.0203, 0.0209],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 15:38:00,338 INFO [train.py:903] (2/4) Epoch 9, batch 5700, loss[loss=0.2334, simple_loss=0.3157, pruned_loss=0.07555, over 18325.00 frames. ], tot_loss[loss=0.2446, simple_loss=0.3156, pruned_loss=0.08685, over 3834357.64 frames. ], batch size: 84, lr: 9.10e-03, grad_scale: 8.0
+2023-04-01 15:38:02,966 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60325.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:38:45,025 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.384e+02 5.631e+02 6.670e+02 7.834e+02 2.342e+03, threshold=1.334e+03, percent-clipped=2.0
+2023-04-01 15:38:53,015 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60366.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:38:59,676 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 15:39:00,755 INFO [train.py:903] (2/4) Epoch 9, batch 5750, loss[loss=0.2198, simple_loss=0.2938, pruned_loss=0.07287, over 19630.00 frames. ], tot_loss[loss=0.2446, simple_loss=0.3155, pruned_loss=0.08684, over 3831741.43 frames. ], batch size: 50, lr: 9.09e-03, grad_scale: 8.0
+2023-04-01 15:39:07,406 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 15:39:12,818 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 15:39:25,316 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8155, 1.9006, 2.0481, 2.6280, 1.7562, 2.4603, 2.4331, 1.9592],
+       device='cuda:2'), covar=tensor([0.3207, 0.2642, 0.1249, 0.1496, 0.3026, 0.1256, 0.3028, 0.2335],
+       device='cuda:2'), in_proj_covar=tensor([0.0754, 0.0765, 0.0628, 0.0869, 0.0752, 0.0668, 0.0775, 0.0689],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 15:39:36,974 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60402.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:39:50,847 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60414.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:40:00,906 INFO [train.py:903] (2/4) Epoch 9, batch 5800, loss[loss=0.2621, simple_loss=0.3343, pruned_loss=0.09497, over 19546.00 frames. ], tot_loss[loss=0.2449, simple_loss=0.3154, pruned_loss=0.08724, over 3823519.84 frames. ], batch size: 56, lr: 9.09e-03, grad_scale: 8.0
+2023-04-01 15:40:06,303 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60427.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:40:16,603 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.59 vs. limit=2.0
+2023-04-01 15:40:22,431 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60440.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:40:44,649 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6216, 1.3271, 1.3387, 1.7168, 1.3939, 1.6910, 1.7893, 1.6112],
+       device='cuda:2'), covar=tensor([0.0763, 0.0975, 0.1021, 0.0690, 0.0795, 0.0740, 0.0772, 0.0643],
+       device='cuda:2'), in_proj_covar=tensor([0.0216, 0.0230, 0.0230, 0.0255, 0.0244, 0.0215, 0.0201, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 15:40:45,425 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.333e+02 6.303e+02 7.771e+02 9.979e+02 2.257e+03, threshold=1.554e+03, percent-clipped=12.0
+2023-04-01 15:41:01,367 INFO [train.py:903] (2/4) Epoch 9, batch 5850, loss[loss=0.2747, simple_loss=0.3377, pruned_loss=0.1059, over 19338.00 frames. ], tot_loss[loss=0.2465, simple_loss=0.3165, pruned_loss=0.08822, over 3805575.77 frames. ], batch size: 66, lr: 9.09e-03, grad_scale: 8.0
+2023-04-01 15:41:48,428 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7538, 1.5759, 1.4962, 1.8435, 1.8605, 1.6277, 1.4795, 1.7405],
+       device='cuda:2'), covar=tensor([0.0975, 0.1422, 0.1334, 0.0946, 0.1040, 0.0524, 0.1154, 0.0668],
+       device='cuda:2'), in_proj_covar=tensor([0.0248, 0.0348, 0.0288, 0.0237, 0.0295, 0.0240, 0.0274, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 15:41:56,034 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:42:02,435 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 15:42:03,583 INFO [train.py:903] (2/4) Epoch 9, batch 5900, loss[loss=0.199, simple_loss=0.2768, pruned_loss=0.06066, over 19493.00 frames. ], tot_loss[loss=0.2454, simple_loss=0.3157, pruned_loss=0.08751, over 3815981.75 frames. ], batch size: 49, lr: 9.08e-03, grad_scale: 8.0
+2023-04-01 15:42:10,687 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60529.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:42:22,840 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 15:42:25,399 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60542.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:42:42,824 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60555.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:42:47,838 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.985e+02 5.460e+02 7.799e+02 9.723e+02 2.713e+03, threshold=1.560e+03, percent-clipped=1.0
+2023-04-01 15:42:48,015 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=60560.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:43:01,170 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
+2023-04-01 15:43:03,513 INFO [train.py:903] (2/4) Epoch 9, batch 5950, loss[loss=0.2419, simple_loss=0.3111, pruned_loss=0.08641, over 18292.00 frames. ], tot_loss[loss=0.2466, simple_loss=0.3165, pruned_loss=0.0884, over 3814206.92 frames. ], batch size: 84, lr: 9.08e-03, grad_scale: 8.0
+2023-04-01 15:43:07,541 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.34 vs. limit=5.0
+2023-04-01 15:43:13,168 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60581.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:43:27,271 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5276, 1.3087, 1.4630, 1.5634, 3.1019, 0.9468, 2.1502, 3.4176],
+       device='cuda:2'), covar=tensor([0.0478, 0.2528, 0.2674, 0.1595, 0.0678, 0.2500, 0.1254, 0.0281],
+       device='cuda:2'), in_proj_covar=tensor([0.0339, 0.0331, 0.0339, 0.0311, 0.0337, 0.0324, 0.0316, 0.0337],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 15:43:41,945 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1135, 1.2443, 1.5973, 1.3459, 2.2862, 1.9481, 2.3943, 0.9463],
+       device='cuda:2'), covar=tensor([0.2458, 0.3908, 0.2317, 0.2071, 0.1495, 0.2087, 0.1494, 0.3834],
+       device='cuda:2'), in_proj_covar=tensor([0.0470, 0.0546, 0.0563, 0.0420, 0.0579, 0.0472, 0.0631, 0.0475],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 15:43:45,244 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60606.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:44:03,641 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60622.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:44:04,412 INFO [train.py:903] (2/4) Epoch 9, batch 6000, loss[loss=0.2319, simple_loss=0.3078, pruned_loss=0.07796, over 19435.00 frames. ], tot_loss[loss=0.2452, simple_loss=0.3153, pruned_loss=0.08754, over 3809953.81 frames. ], batch size: 70, lr: 9.08e-03, grad_scale: 8.0
+2023-04-01 15:44:04,412 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 15:44:16,877 INFO [train.py:937] (2/4) Epoch 9, validation: loss=0.1828, simple_loss=0.2835, pruned_loss=0.04105, over 944034.00 frames. 
+2023-04-01 15:44:16,877 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 15:44:37,651 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.62 vs. limit=2.0
+2023-04-01 15:44:47,019 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60647.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:44:48,299 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1037, 2.1109, 2.3131, 3.3140, 2.0769, 3.2313, 2.7897, 2.0826],
+       device='cuda:2'), covar=tensor([0.3787, 0.3288, 0.1344, 0.1670, 0.3821, 0.1310, 0.3052, 0.2563],
+       device='cuda:2'), in_proj_covar=tensor([0.0754, 0.0761, 0.0623, 0.0869, 0.0754, 0.0670, 0.0775, 0.0682],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 15:44:59,990 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.61 vs. limit=5.0
+2023-04-01 15:45:02,309 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.543e+02 5.785e+02 7.329e+02 9.590e+02 1.552e+03, threshold=1.466e+03, percent-clipped=0.0
+2023-04-01 15:45:15,389 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4585, 1.2304, 1.0612, 1.2377, 1.0958, 1.2801, 1.0551, 1.2876],
+       device='cuda:2'), covar=tensor([0.1125, 0.1257, 0.1737, 0.1134, 0.1352, 0.0908, 0.1556, 0.1001],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0351, 0.0289, 0.0239, 0.0296, 0.0240, 0.0274, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 15:45:17,211 INFO [train.py:903] (2/4) Epoch 9, batch 6050, loss[loss=0.2234, simple_loss=0.3068, pruned_loss=0.07, over 19319.00 frames. ], tot_loss[loss=0.2432, simple_loss=0.314, pruned_loss=0.08616, over 3825233.52 frames. ], batch size: 66, lr: 9.07e-03, grad_scale: 8.0
+2023-04-01 15:45:19,772 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=60675.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:46:18,277 INFO [train.py:903] (2/4) Epoch 9, batch 6100, loss[loss=0.2544, simple_loss=0.3268, pruned_loss=0.09096, over 19666.00 frames. ], tot_loss[loss=0.2418, simple_loss=0.3129, pruned_loss=0.08531, over 3831395.75 frames. ], batch size: 60, lr: 9.07e-03, grad_scale: 8.0
+2023-04-01 15:46:26,650 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
+2023-04-01 15:46:34,585 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=60736.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:47:03,005 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.337e+02 5.339e+02 6.367e+02 8.531e+02 1.806e+03, threshold=1.273e+03, percent-clipped=4.0
+2023-04-01 15:47:18,164 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7617, 1.5354, 1.3663, 1.5993, 1.4735, 1.4366, 1.2585, 1.6369],
+       device='cuda:2'), covar=tensor([0.0944, 0.1256, 0.1462, 0.0965, 0.1205, 0.0686, 0.1366, 0.0716],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0352, 0.0290, 0.0239, 0.0297, 0.0241, 0.0273, 0.0234],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 15:47:18,985 INFO [train.py:903] (2/4) Epoch 9, batch 6150, loss[loss=0.243, simple_loss=0.3084, pruned_loss=0.08876, over 19856.00 frames. ], tot_loss[loss=0.2427, simple_loss=0.3136, pruned_loss=0.08588, over 3830801.82 frames. ], batch size: 52, lr: 9.06e-03, grad_scale: 8.0
+2023-04-01 15:47:19,410 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60773.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:47:22,985 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.18 vs. limit=5.0
+2023-04-01 15:47:30,976 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7278, 1.4030, 1.4084, 2.2270, 1.8259, 1.9510, 2.1799, 1.8147],
+       device='cuda:2'), covar=tensor([0.0769, 0.0994, 0.1049, 0.0722, 0.0746, 0.0746, 0.0740, 0.0643],
+       device='cuda:2'), in_proj_covar=tensor([0.0218, 0.0231, 0.0233, 0.0257, 0.0247, 0.0216, 0.0203, 0.0210],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 15:47:33,344 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60785.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:47:44,097 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 15:47:48,656 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60798.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:47:48,685 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60798.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:48:03,528 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60810.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:48:04,589 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60811.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:48:18,464 INFO [train.py:903] (2/4) Epoch 9, batch 6200, loss[loss=0.2398, simple_loss=0.3128, pruned_loss=0.08339, over 19761.00 frames. ], tot_loss[loss=0.2443, simple_loss=0.3148, pruned_loss=0.08691, over 3833034.33 frames. ], batch size: 54, lr: 9.06e-03, grad_scale: 8.0
+2023-04-01 15:48:19,743 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60823.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:48:34,276 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60836.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:49:03,643 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.706e+02 5.965e+02 7.614e+02 9.330e+02 2.107e+03, threshold=1.523e+03, percent-clipped=6.0
+2023-04-01 15:49:19,598 INFO [train.py:903] (2/4) Epoch 9, batch 6250, loss[loss=0.2116, simple_loss=0.2912, pruned_loss=0.06604, over 19850.00 frames. ], tot_loss[loss=0.2437, simple_loss=0.314, pruned_loss=0.0867, over 3831809.95 frames. ], batch size: 52, lr: 9.06e-03, grad_scale: 8.0
+2023-04-01 15:49:38,719 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0695, 4.4643, 4.7903, 4.7383, 1.6275, 4.3866, 3.9115, 4.4471],
+       device='cuda:2'), covar=tensor([0.1143, 0.0614, 0.0465, 0.0512, 0.5008, 0.0517, 0.0515, 0.0934],
+       device='cuda:2'), in_proj_covar=tensor([0.0630, 0.0564, 0.0751, 0.0630, 0.0693, 0.0501, 0.0468, 0.0696],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 15:49:39,308 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
+2023-04-01 15:49:49,669 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 15:50:15,442 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.89 vs. limit=5.0
+2023-04-01 15:50:20,301 INFO [train.py:903] (2/4) Epoch 9, batch 6300, loss[loss=0.2099, simple_loss=0.2806, pruned_loss=0.06955, over 19638.00 frames. ], tot_loss[loss=0.2435, simple_loss=0.3137, pruned_loss=0.08668, over 3838497.04 frames. ], batch size: 50, lr: 9.05e-03, grad_scale: 8.0
+2023-04-01 15:50:31,341 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=60931.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:51:01,602 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=60956.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:51:05,839 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.132e+02 5.456e+02 6.999e+02 8.896e+02 1.665e+03, threshold=1.400e+03, percent-clipped=1.0
+2023-04-01 15:51:21,366 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.70 vs. limit=2.0
+2023-04-01 15:51:21,556 INFO [train.py:903] (2/4) Epoch 9, batch 6350, loss[loss=0.2474, simple_loss=0.3193, pruned_loss=0.08776, over 18247.00 frames. ], tot_loss[loss=0.2427, simple_loss=0.313, pruned_loss=0.08623, over 3842740.26 frames. ], batch size: 83, lr: 9.05e-03, grad_scale: 8.0
+2023-04-01 15:52:22,394 INFO [train.py:903] (2/4) Epoch 9, batch 6400, loss[loss=0.1905, simple_loss=0.2602, pruned_loss=0.06039, over 19741.00 frames. ], tot_loss[loss=0.2431, simple_loss=0.313, pruned_loss=0.08664, over 3832210.94 frames. ], batch size: 46, lr: 9.05e-03, grad_scale: 8.0
+2023-04-01 15:53:07,178 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.915e+02 6.196e+02 7.384e+02 8.672e+02 1.804e+03, threshold=1.477e+03, percent-clipped=4.0
+2023-04-01 15:53:12,814 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.83 vs. limit=2.0
+2023-04-01 15:53:22,486 INFO [train.py:903] (2/4) Epoch 9, batch 6450, loss[loss=0.2488, simple_loss=0.3222, pruned_loss=0.08769, over 18398.00 frames. ], tot_loss[loss=0.2439, simple_loss=0.3134, pruned_loss=0.08719, over 3831339.13 frames. ], batch size: 83, lr: 9.04e-03, grad_scale: 8.0
+2023-04-01 15:53:30,381 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=61079.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:53:31,426 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=61080.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:53:31,557 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7993, 4.9301, 5.5949, 5.5392, 2.0068, 5.2077, 4.5639, 5.2233],
+       device='cuda:2'), covar=tensor([0.1192, 0.0821, 0.0456, 0.0452, 0.4884, 0.0478, 0.0483, 0.0926],
+       device='cuda:2'), in_proj_covar=tensor([0.0627, 0.0560, 0.0750, 0.0627, 0.0690, 0.0498, 0.0461, 0.0694],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 15:54:05,107 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 15:54:22,076 INFO [train.py:903] (2/4) Epoch 9, batch 6500, loss[loss=0.2541, simple_loss=0.3102, pruned_loss=0.09897, over 19774.00 frames. ], tot_loss[loss=0.2448, simple_loss=0.3141, pruned_loss=0.08781, over 3825762.96 frames. ], batch size: 47, lr: 9.04e-03, grad_scale: 8.0
+2023-04-01 15:54:27,559 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 15:55:06,065 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.712e+02 6.706e+02 8.302e+02 1.012e+03 2.679e+03, threshold=1.660e+03, percent-clipped=7.0
+2023-04-01 15:55:21,994 INFO [train.py:903] (2/4) Epoch 9, batch 6550, loss[loss=0.2097, simple_loss=0.2807, pruned_loss=0.0693, over 19756.00 frames. ], tot_loss[loss=0.2446, simple_loss=0.3144, pruned_loss=0.08744, over 3829788.15 frames. ], batch size: 47, lr: 9.03e-03, grad_scale: 8.0
+2023-04-01 15:55:50,210 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=61195.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 15:56:24,271 INFO [train.py:903] (2/4) Epoch 9, batch 6600, loss[loss=0.2347, simple_loss=0.3133, pruned_loss=0.078, over 19287.00 frames. ], tot_loss[loss=0.2449, simple_loss=0.3147, pruned_loss=0.08757, over 3809663.60 frames. ], batch size: 66, lr: 9.03e-03, grad_scale: 8.0
+2023-04-01 15:57:09,254 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.208e+02 5.654e+02 6.784e+02 8.392e+02 1.741e+03, threshold=1.357e+03, percent-clipped=1.0
+2023-04-01 15:57:24,975 INFO [train.py:903] (2/4) Epoch 9, batch 6650, loss[loss=0.2117, simple_loss=0.295, pruned_loss=0.06422, over 19687.00 frames. ], tot_loss[loss=0.2453, simple_loss=0.3154, pruned_loss=0.08762, over 3807404.51 frames. ], batch size: 53, lr: 9.03e-03, grad_scale: 8.0
+2023-04-01 15:57:48,789 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3569, 1.4306, 1.8815, 1.5786, 2.6807, 2.3444, 2.8941, 1.0721],
+       device='cuda:2'), covar=tensor([0.2185, 0.3747, 0.2007, 0.1731, 0.1357, 0.1740, 0.1318, 0.3623],
+       device='cuda:2'), in_proj_covar=tensor([0.0476, 0.0554, 0.0570, 0.0427, 0.0586, 0.0479, 0.0639, 0.0479],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 15:58:25,585 INFO [train.py:903] (2/4) Epoch 9, batch 6700, loss[loss=0.2188, simple_loss=0.2994, pruned_loss=0.06906, over 19606.00 frames. ], tot_loss[loss=0.2465, simple_loss=0.3161, pruned_loss=0.08847, over 3788475.57 frames. ], batch size: 52, lr: 9.02e-03, grad_scale: 8.0
+2023-04-01 15:59:08,506 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.478e+02 5.683e+02 7.501e+02 9.618e+02 2.603e+03, threshold=1.500e+03, percent-clipped=7.0
+2023-04-01 15:59:23,016 INFO [train.py:903] (2/4) Epoch 9, batch 6750, loss[loss=0.1783, simple_loss=0.2518, pruned_loss=0.0524, over 19735.00 frames. ], tot_loss[loss=0.2473, simple_loss=0.3168, pruned_loss=0.08896, over 3793030.55 frames. ], batch size: 47, lr: 9.02e-03, grad_scale: 8.0
+2023-04-01 16:00:18,968 INFO [train.py:903] (2/4) Epoch 9, batch 6800, loss[loss=0.2484, simple_loss=0.3259, pruned_loss=0.08546, over 19513.00 frames. ], tot_loss[loss=0.2464, simple_loss=0.316, pruned_loss=0.08837, over 3804044.50 frames. ], batch size: 56, lr: 9.02e-03, grad_scale: 8.0
+2023-04-01 16:00:19,095 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=61423.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:01:03,214 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 16:01:04,314 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 16:01:06,612 INFO [train.py:903] (2/4) Epoch 10, batch 0, loss[loss=0.2373, simple_loss=0.3166, pruned_loss=0.07894, over 19657.00 frames. ], tot_loss[loss=0.2373, simple_loss=0.3166, pruned_loss=0.07894, over 19657.00 frames. ], batch size: 58, lr: 8.57e-03, grad_scale: 8.0
+2023-04-01 16:01:06,612 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 16:01:17,503 INFO [train.py:937] (2/4) Epoch 10, validation: loss=0.1825, simple_loss=0.2836, pruned_loss=0.04072, over 944034.00 frames. 
+2023-04-01 16:01:17,504 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 16:01:17,977 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=61451.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:01:27,607 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.284e+02 5.689e+02 6.760e+02 8.116e+02 1.440e+03, threshold=1.352e+03, percent-clipped=0.0
+2023-04-01 16:01:29,696 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 16:01:37,950 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3076, 1.5156, 1.9824, 2.5652, 1.9540, 2.2727, 2.6865, 2.3599],
+       device='cuda:2'), covar=tensor([0.0807, 0.1319, 0.1056, 0.1090, 0.1046, 0.0964, 0.1003, 0.0790],
+       device='cuda:2'), in_proj_covar=tensor([0.0217, 0.0233, 0.0231, 0.0261, 0.0247, 0.0218, 0.0206, 0.0211],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 16:01:48,108 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=61476.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:02:17,429 INFO [train.py:903] (2/4) Epoch 10, batch 50, loss[loss=0.2135, simple_loss=0.2926, pruned_loss=0.06716, over 19827.00 frames. ], tot_loss[loss=0.246, simple_loss=0.3163, pruned_loss=0.08786, over 866598.65 frames. ], batch size: 52, lr: 8.57e-03, grad_scale: 8.0
+2023-04-01 16:02:50,336 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 16:03:03,263 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=61538.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:03:18,479 INFO [train.py:903] (2/4) Epoch 10, batch 100, loss[loss=0.2154, simple_loss=0.2872, pruned_loss=0.07181, over 19742.00 frames. ], tot_loss[loss=0.2435, simple_loss=0.3138, pruned_loss=0.08661, over 1533140.62 frames. ], batch size: 45, lr: 8.57e-03, grad_scale: 8.0
+2023-04-01 16:03:24,182 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 16:03:29,311 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.995e+02 6.266e+02 7.755e+02 9.384e+02 2.029e+03, threshold=1.551e+03, percent-clipped=6.0
+2023-04-01 16:03:42,458 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7251, 1.4316, 1.4319, 1.9583, 1.5597, 1.9229, 2.1366, 1.8285],
+       device='cuda:2'), covar=tensor([0.0785, 0.1002, 0.1051, 0.0886, 0.0865, 0.0757, 0.0800, 0.0638],
+       device='cuda:2'), in_proj_covar=tensor([0.0215, 0.0227, 0.0226, 0.0254, 0.0241, 0.0214, 0.0201, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 16:04:19,611 INFO [train.py:903] (2/4) Epoch 10, batch 150, loss[loss=0.26, simple_loss=0.3326, pruned_loss=0.0937, over 19533.00 frames. ], tot_loss[loss=0.241, simple_loss=0.3124, pruned_loss=0.08479, over 2049206.21 frames. ], batch size: 56, lr: 8.56e-03, grad_scale: 16.0
+2023-04-01 16:05:12,399 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 16:05:20,093 INFO [train.py:903] (2/4) Epoch 10, batch 200, loss[loss=0.2752, simple_loss=0.3404, pruned_loss=0.105, over 19541.00 frames. ], tot_loss[loss=0.2404, simple_loss=0.3121, pruned_loss=0.08441, over 2439815.38 frames. ], batch size: 56, lr: 8.56e-03, grad_scale: 8.0
+2023-04-01 16:05:32,341 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.478e+02 5.325e+02 6.934e+02 9.117e+02 1.602e+03, threshold=1.387e+03, percent-clipped=3.0
+2023-04-01 16:05:34,721 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5082, 1.3789, 1.1221, 1.4390, 1.2087, 1.3276, 1.1431, 1.3954],
+       device='cuda:2'), covar=tensor([0.0970, 0.1113, 0.1463, 0.0889, 0.1116, 0.0573, 0.1220, 0.0725],
+       device='cuda:2'), in_proj_covar=tensor([0.0250, 0.0354, 0.0289, 0.0238, 0.0297, 0.0243, 0.0274, 0.0239],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 16:05:35,097 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
+2023-04-01 16:05:45,486 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0844, 5.1641, 5.9543, 5.9089, 2.0827, 5.5725, 4.7877, 5.5053],
+       device='cuda:2'), covar=tensor([0.1254, 0.0588, 0.0467, 0.0459, 0.5062, 0.0521, 0.0534, 0.1059],
+       device='cuda:2'), in_proj_covar=tensor([0.0632, 0.0563, 0.0751, 0.0633, 0.0694, 0.0506, 0.0465, 0.0701],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 16:06:20,989 INFO [train.py:903] (2/4) Epoch 10, batch 250, loss[loss=0.2133, simple_loss=0.2787, pruned_loss=0.07396, over 19742.00 frames. ], tot_loss[loss=0.2399, simple_loss=0.3114, pruned_loss=0.08421, over 2744998.55 frames. ], batch size: 46, lr: 8.56e-03, grad_scale: 8.0
+2023-04-01 16:07:19,644 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=61750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:07:20,496 INFO [train.py:903] (2/4) Epoch 10, batch 300, loss[loss=0.2159, simple_loss=0.2891, pruned_loss=0.07134, over 19776.00 frames. ], tot_loss[loss=0.2405, simple_loss=0.3125, pruned_loss=0.08421, over 2988600.87 frames. ], batch size: 48, lr: 8.55e-03, grad_scale: 8.0
+2023-04-01 16:07:32,775 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.696e+02 5.563e+02 6.785e+02 8.281e+02 1.821e+03, threshold=1.357e+03, percent-clipped=1.0
+2023-04-01 16:07:33,031 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=61761.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:08:12,888 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=61794.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:08:20,604 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 16:08:21,871 INFO [train.py:903] (2/4) Epoch 10, batch 350, loss[loss=0.2515, simple_loss=0.3262, pruned_loss=0.08845, over 19303.00 frames. ], tot_loss[loss=0.2431, simple_loss=0.3146, pruned_loss=0.08577, over 3174401.79 frames. ], batch size: 66, lr: 8.55e-03, grad_scale: 8.0
+2023-04-01 16:08:44,871 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=61819.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:09:23,123 INFO [train.py:903] (2/4) Epoch 10, batch 400, loss[loss=0.262, simple_loss=0.3446, pruned_loss=0.08968, over 19587.00 frames. ], tot_loss[loss=0.2439, simple_loss=0.315, pruned_loss=0.08635, over 3319389.39 frames. ], batch size: 61, lr: 8.54e-03, grad_scale: 8.0
+2023-04-01 16:09:36,144 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.162e+02 5.438e+02 6.846e+02 8.745e+02 2.106e+03, threshold=1.369e+03, percent-clipped=7.0
+2023-04-01 16:10:26,713 INFO [train.py:903] (2/4) Epoch 10, batch 450, loss[loss=0.216, simple_loss=0.2875, pruned_loss=0.07229, over 19398.00 frames. ], tot_loss[loss=0.2413, simple_loss=0.3123, pruned_loss=0.08512, over 3429904.49 frames. ], batch size: 47, lr: 8.54e-03, grad_scale: 8.0
+2023-04-01 16:10:29,707 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-01 16:10:50,945 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 16:10:50,979 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 16:11:05,202 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=61932.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:11:19,248 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9444, 4.3743, 4.6438, 4.6036, 1.6152, 4.3279, 3.7387, 4.2832],
+       device='cuda:2'), covar=tensor([0.1184, 0.0636, 0.0445, 0.0490, 0.4922, 0.0479, 0.0588, 0.0945],
+       device='cuda:2'), in_proj_covar=tensor([0.0624, 0.0559, 0.0743, 0.0631, 0.0687, 0.0500, 0.0460, 0.0690],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 16:11:27,991 INFO [train.py:903] (2/4) Epoch 10, batch 500, loss[loss=0.2873, simple_loss=0.3486, pruned_loss=0.113, over 17415.00 frames. ], tot_loss[loss=0.2403, simple_loss=0.3118, pruned_loss=0.08443, over 3532077.89 frames. ], batch size: 101, lr: 8.54e-03, grad_scale: 8.0
+2023-04-01 16:11:30,095 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.47 vs. limit=2.0
+2023-04-01 16:11:39,882 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.771e+02 5.473e+02 6.472e+02 7.882e+02 1.512e+03, threshold=1.294e+03, percent-clipped=2.0
+2023-04-01 16:12:30,819 INFO [train.py:903] (2/4) Epoch 10, batch 550, loss[loss=0.2461, simple_loss=0.3097, pruned_loss=0.0913, over 19364.00 frames. ], tot_loss[loss=0.2404, simple_loss=0.3121, pruned_loss=0.08436, over 3596497.38 frames. ], batch size: 47, lr: 8.53e-03, grad_scale: 8.0
+2023-04-01 16:13:32,127 INFO [train.py:903] (2/4) Epoch 10, batch 600, loss[loss=0.2351, simple_loss=0.3145, pruned_loss=0.07786, over 19618.00 frames. ], tot_loss[loss=0.2408, simple_loss=0.3126, pruned_loss=0.08445, over 3657800.56 frames. ], batch size: 57, lr: 8.53e-03, grad_scale: 8.0
+2023-04-01 16:13:42,187 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
+2023-04-01 16:13:46,035 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.499e+02 5.366e+02 7.096e+02 8.541e+02 1.663e+03, threshold=1.419e+03, percent-clipped=2.0
+2023-04-01 16:14:11,914 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 16:14:26,434 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:14:35,312 INFO [train.py:903] (2/4) Epoch 10, batch 650, loss[loss=0.2379, simple_loss=0.3121, pruned_loss=0.08182, over 19527.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.3122, pruned_loss=0.08461, over 3699877.57 frames. ], batch size: 56, lr: 8.53e-03, grad_scale: 8.0
+2023-04-01 16:14:40,049 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62105.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:15:24,608 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62140.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:15:39,378 INFO [train.py:903] (2/4) Epoch 10, batch 700, loss[loss=0.2601, simple_loss=0.328, pruned_loss=0.09615, over 17286.00 frames. ], tot_loss[loss=0.2409, simple_loss=0.3127, pruned_loss=0.08457, over 3731911.29 frames. ], batch size: 101, lr: 8.52e-03, grad_scale: 8.0
+2023-04-01 16:15:51,168 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.410e+02 5.986e+02 7.007e+02 9.230e+02 2.462e+03, threshold=1.401e+03, percent-clipped=6.0
+2023-04-01 16:15:51,691 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2396, 1.4639, 2.1467, 1.7271, 3.0752, 2.2684, 3.0566, 1.5400],
+       device='cuda:2'), covar=tensor([0.2341, 0.4105, 0.2205, 0.1743, 0.1470, 0.2091, 0.1815, 0.3592],
+       device='cuda:2'), in_proj_covar=tensor([0.0476, 0.0557, 0.0575, 0.0426, 0.0585, 0.0480, 0.0639, 0.0475],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 16:16:41,958 INFO [train.py:903] (2/4) Epoch 10, batch 750, loss[loss=0.2087, simple_loss=0.2766, pruned_loss=0.07044, over 19752.00 frames. ], tot_loss[loss=0.2415, simple_loss=0.313, pruned_loss=0.08498, over 3760607.69 frames. ], batch size: 46, lr: 8.52e-03, grad_scale: 8.0
+2023-04-01 16:16:51,093 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62209.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:17:04,544 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62220.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:17:11,228 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5393, 1.0737, 1.2019, 1.1302, 2.1239, 0.8596, 1.8645, 2.2652],
+       device='cuda:2'), covar=tensor([0.0669, 0.2631, 0.2787, 0.1614, 0.0943, 0.2095, 0.0993, 0.0531],
+       device='cuda:2'), in_proj_covar=tensor([0.0338, 0.0326, 0.0337, 0.0311, 0.0338, 0.0322, 0.0317, 0.0334],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 16:17:35,231 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.86 vs. limit=5.0
+2023-04-01 16:17:42,575 INFO [train.py:903] (2/4) Epoch 10, batch 800, loss[loss=0.2541, simple_loss=0.3173, pruned_loss=0.09547, over 19813.00 frames. ], tot_loss[loss=0.2427, simple_loss=0.314, pruned_loss=0.08568, over 3763851.48 frames. ], batch size: 49, lr: 8.52e-03, grad_scale: 8.0
+2023-04-01 16:17:54,855 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.040e+02 5.237e+02 6.930e+02 8.487e+02 1.526e+03, threshold=1.386e+03, percent-clipped=2.0
+2023-04-01 16:17:58,888 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 16:18:14,992 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62276.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:18:32,364 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62291.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:18:43,720 INFO [train.py:903] (2/4) Epoch 10, batch 850, loss[loss=0.2658, simple_loss=0.3232, pruned_loss=0.1042, over 19408.00 frames. ], tot_loss[loss=0.2416, simple_loss=0.3133, pruned_loss=0.08498, over 3783056.74 frames. ], batch size: 48, lr: 8.51e-03, grad_scale: 8.0
+2023-04-01 16:19:37,727 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 16:19:45,736 INFO [train.py:903] (2/4) Epoch 10, batch 900, loss[loss=0.251, simple_loss=0.3258, pruned_loss=0.08812, over 19718.00 frames. ], tot_loss[loss=0.2423, simple_loss=0.3139, pruned_loss=0.08533, over 3798327.43 frames. ], batch size: 59, lr: 8.51e-03, grad_scale: 8.0
+2023-04-01 16:19:59,165 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.268e+02 6.023e+02 7.076e+02 9.770e+02 2.916e+03, threshold=1.415e+03, percent-clipped=7.0
+2023-04-01 16:20:16,823 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9085, 1.9680, 1.9857, 2.6628, 1.7991, 2.5335, 2.3145, 1.8595],
+       device='cuda:2'), covar=tensor([0.3202, 0.2734, 0.1429, 0.1587, 0.3099, 0.1328, 0.3130, 0.2526],
+       device='cuda:2'), in_proj_covar=tensor([0.0762, 0.0769, 0.0629, 0.0879, 0.0759, 0.0674, 0.0774, 0.0687],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 16:20:35,896 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62391.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:20:48,993 INFO [train.py:903] (2/4) Epoch 10, batch 950, loss[loss=0.2386, simple_loss=0.3161, pruned_loss=0.08057, over 19666.00 frames. ], tot_loss[loss=0.2412, simple_loss=0.313, pruned_loss=0.08471, over 3800698.78 frames. ], batch size: 60, lr: 8.51e-03, grad_scale: 8.0
+2023-04-01 16:20:50,189 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 16:20:58,633 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62409.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:21:50,239 INFO [train.py:903] (2/4) Epoch 10, batch 1000, loss[loss=0.1908, simple_loss=0.2623, pruned_loss=0.05968, over 19748.00 frames. ], tot_loss[loss=0.2419, simple_loss=0.3132, pruned_loss=0.08527, over 3790669.35 frames. ], batch size: 46, lr: 8.50e-03, grad_scale: 8.0
+2023-04-01 16:22:01,606 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.402e+02 5.469e+02 6.659e+02 8.311e+02 1.987e+03, threshold=1.332e+03, percent-clipped=4.0
+2023-04-01 16:22:07,635 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62465.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:22:21,459 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62476.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:22:31,377 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62484.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:22:38,767 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62490.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:22:43,039 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 16:22:51,156 INFO [train.py:903] (2/4) Epoch 10, batch 1050, loss[loss=0.2104, simple_loss=0.2903, pruned_loss=0.06525, over 19649.00 frames. ], tot_loss[loss=0.242, simple_loss=0.313, pruned_loss=0.08545, over 3790814.68 frames. ], batch size: 53, lr: 8.50e-03, grad_scale: 8.0
+2023-04-01 16:22:51,559 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62501.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:23:23,767 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 16:23:54,501 INFO [train.py:903] (2/4) Epoch 10, batch 1100, loss[loss=0.227, simple_loss=0.2913, pruned_loss=0.08132, over 16412.00 frames. ], tot_loss[loss=0.2429, simple_loss=0.314, pruned_loss=0.08587, over 3789656.85 frames. ], batch size: 36, lr: 8.50e-03, grad_scale: 8.0
+2023-04-01 16:24:07,775 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.238e+02 5.569e+02 6.927e+02 9.101e+02 1.941e+03, threshold=1.385e+03, percent-clipped=3.0
+2023-04-01 16:24:10,209 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62563.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:24:54,389 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62599.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:24:56,397 INFO [train.py:903] (2/4) Epoch 10, batch 1150, loss[loss=0.275, simple_loss=0.3462, pruned_loss=0.1019, over 19602.00 frames. ], tot_loss[loss=0.2432, simple_loss=0.3142, pruned_loss=0.08606, over 3799048.21 frames. ], batch size: 57, lr: 8.49e-03, grad_scale: 8.0
+2023-04-01 16:24:59,696 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62603.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:25:15,618 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0315, 3.6814, 2.0615, 2.1990, 3.2834, 1.8351, 1.3218, 2.1079],
+       device='cuda:2'), covar=tensor([0.1072, 0.0399, 0.0888, 0.0635, 0.0392, 0.0978, 0.0820, 0.0575],
+       device='cuda:2'), in_proj_covar=tensor([0.0287, 0.0296, 0.0321, 0.0239, 0.0231, 0.0325, 0.0285, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 16:25:37,689 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62635.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:25:53,887 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62647.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:25:56,106 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3477, 3.9692, 2.6582, 3.6192, 0.9515, 3.7406, 3.7335, 3.8197],
+       device='cuda:2'), covar=tensor([0.0624, 0.0953, 0.1659, 0.0722, 0.3653, 0.0689, 0.0739, 0.0937],
+       device='cuda:2'), in_proj_covar=tensor([0.0411, 0.0350, 0.0420, 0.0308, 0.0369, 0.0344, 0.0339, 0.0370],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0002, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 16:25:58,141 INFO [train.py:903] (2/4) Epoch 10, batch 1200, loss[loss=0.2746, simple_loss=0.345, pruned_loss=0.1021, over 19211.00 frames. ], tot_loss[loss=0.243, simple_loss=0.3141, pruned_loss=0.08594, over 3811358.83 frames. ], batch size: 70, lr: 8.49e-03, grad_scale: 8.0
+2023-04-01 16:26:09,507 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.384e+02 5.581e+02 6.902e+02 9.588e+02 2.703e+03, threshold=1.380e+03, percent-clipped=8.0
+2023-04-01 16:26:24,980 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62672.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:26:32,555 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 16:26:39,737 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62684.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:26:59,722 INFO [train.py:903] (2/4) Epoch 10, batch 1250, loss[loss=0.2593, simple_loss=0.3332, pruned_loss=0.09266, over 18659.00 frames. ], tot_loss[loss=0.2437, simple_loss=0.3148, pruned_loss=0.0863, over 3799174.58 frames. ], batch size: 74, lr: 8.49e-03, grad_scale: 4.0
+2023-04-01 16:28:00,855 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:28:01,675 INFO [train.py:903] (2/4) Epoch 10, batch 1300, loss[loss=0.2503, simple_loss=0.3237, pruned_loss=0.08843, over 17310.00 frames. ], tot_loss[loss=0.2447, simple_loss=0.3157, pruned_loss=0.08685, over 3799957.67 frames. ], batch size: 101, lr: 8.48e-03, grad_scale: 4.0
+2023-04-01 16:28:05,077 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62753.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:28:16,589 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.133e+02 5.064e+02 6.596e+02 8.862e+02 1.920e+03, threshold=1.319e+03, percent-clipped=1.0
+2023-04-01 16:28:27,844 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2442, 2.1485, 1.6468, 1.4138, 2.0259, 1.1749, 1.0813, 1.5650],
+       device='cuda:2'), covar=tensor([0.0838, 0.0648, 0.0907, 0.0619, 0.0458, 0.1122, 0.0654, 0.0454],
+       device='cuda:2'), in_proj_covar=tensor([0.0286, 0.0298, 0.0323, 0.0241, 0.0233, 0.0324, 0.0286, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 16:28:51,872 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=62791.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:29:05,053 INFO [train.py:903] (2/4) Epoch 10, batch 1350, loss[loss=0.2481, simple_loss=0.3114, pruned_loss=0.09245, over 19364.00 frames. ], tot_loss[loss=0.245, simple_loss=0.3156, pruned_loss=0.08716, over 3807652.79 frames. ], batch size: 47, lr: 8.48e-03, grad_scale: 4.0
+2023-04-01 16:29:16,162 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.64 vs. limit=2.0
+2023-04-01 16:29:34,244 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5148, 1.0864, 1.3158, 1.1661, 2.1454, 0.8267, 1.9839, 2.3142],
+       device='cuda:2'), covar=tensor([0.0667, 0.2500, 0.2514, 0.1517, 0.0880, 0.2047, 0.0913, 0.0477],
+       device='cuda:2'), in_proj_covar=tensor([0.0343, 0.0326, 0.0342, 0.0313, 0.0339, 0.0324, 0.0320, 0.0340],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 16:30:07,951 INFO [train.py:903] (2/4) Epoch 10, batch 1400, loss[loss=0.216, simple_loss=0.2854, pruned_loss=0.07331, over 19747.00 frames. ], tot_loss[loss=0.2438, simple_loss=0.3148, pruned_loss=0.08637, over 3811780.25 frames. ], batch size: 47, lr: 8.48e-03, grad_scale: 4.0
+2023-04-01 16:30:13,135 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=62855.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:30:20,951 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.159e+02 5.591e+02 6.749e+02 8.217e+02 1.554e+03, threshold=1.350e+03, percent-clipped=4.0
+2023-04-01 16:30:28,011 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=62868.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:30:44,952 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=62880.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:31:07,151 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 16:31:09,402 INFO [train.py:903] (2/4) Epoch 10, batch 1450, loss[loss=0.2132, simple_loss=0.2942, pruned_loss=0.06606, over 19767.00 frames. ], tot_loss[loss=0.242, simple_loss=0.3136, pruned_loss=0.08524, over 3818706.83 frames. ], batch size: 54, lr: 8.47e-03, grad_scale: 4.0
+2023-04-01 16:31:16,514 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62907.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:32:07,386 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=62947.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:32:11,882 INFO [train.py:903] (2/4) Epoch 10, batch 1500, loss[loss=0.221, simple_loss=0.285, pruned_loss=0.0785, over 19796.00 frames. ], tot_loss[loss=0.2411, simple_loss=0.3124, pruned_loss=0.08489, over 3832942.33 frames. ], batch size: 47, lr: 8.47e-03, grad_scale: 4.0
+2023-04-01 16:32:27,780 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.889e+02 5.675e+02 6.883e+02 8.252e+02 2.690e+03, threshold=1.377e+03, percent-clipped=4.0
+2023-04-01 16:33:17,113 INFO [train.py:903] (2/4) Epoch 10, batch 1550, loss[loss=0.3318, simple_loss=0.3688, pruned_loss=0.1474, over 13403.00 frames. ], tot_loss[loss=0.2419, simple_loss=0.3129, pruned_loss=0.08539, over 3827208.49 frames. ], batch size: 136, lr: 8.47e-03, grad_scale: 4.0
+2023-04-01 16:33:23,627 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63006.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:33:42,947 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63022.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:33:49,632 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63028.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:33:53,320 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63031.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:34:18,377 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1178, 1.1750, 1.6854, 1.3008, 2.7475, 3.6543, 3.3796, 3.9223],
+       device='cuda:2'), covar=tensor([0.1661, 0.3445, 0.3046, 0.2064, 0.0507, 0.0180, 0.0216, 0.0163],
+       device='cuda:2'), in_proj_covar=tensor([0.0257, 0.0293, 0.0323, 0.0248, 0.0213, 0.0149, 0.0205, 0.0189],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 16:34:20,237 INFO [train.py:903] (2/4) Epoch 10, batch 1600, loss[loss=0.2912, simple_loss=0.3579, pruned_loss=0.1123, over 18879.00 frames. ], tot_loss[loss=0.2423, simple_loss=0.3136, pruned_loss=0.08552, over 3819375.77 frames. ], batch size: 74, lr: 8.46e-03, grad_scale: 8.0
+2023-04-01 16:34:24,384 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
+2023-04-01 16:34:33,009 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.609e+02 5.367e+02 6.713e+02 8.573e+02 1.582e+03, threshold=1.343e+03, percent-clipped=2.0
+2023-04-01 16:34:33,388 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:34:42,304 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 16:35:21,340 INFO [train.py:903] (2/4) Epoch 10, batch 1650, loss[loss=0.2087, simple_loss=0.2905, pruned_loss=0.06342, over 19776.00 frames. ], tot_loss[loss=0.2436, simple_loss=0.3148, pruned_loss=0.08618, over 3825872.54 frames. ], batch size: 54, lr: 8.46e-03, grad_scale: 8.0
+2023-04-01 16:35:51,907 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63124.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:36:05,473 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63135.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:36:14,719 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63143.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:36:21,905 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63149.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:36:23,503 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
+2023-04-01 16:36:23,856 INFO [train.py:903] (2/4) Epoch 10, batch 1700, loss[loss=0.2183, simple_loss=0.2844, pruned_loss=0.07612, over 19308.00 frames. ], tot_loss[loss=0.2442, simple_loss=0.3149, pruned_loss=0.0867, over 3825423.83 frames. ], batch size: 44, lr: 8.46e-03, grad_scale: 8.0
+2023-04-01 16:36:38,459 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.334e+02 5.819e+02 7.178e+02 9.040e+02 2.117e+03, threshold=1.436e+03, percent-clipped=7.0
+2023-04-01 16:36:58,831 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.5700, 4.1619, 2.5969, 3.7176, 1.1384, 3.8506, 3.9752, 4.0416],
+       device='cuda:2'), covar=tensor([0.0661, 0.1014, 0.1984, 0.0738, 0.3690, 0.0762, 0.0669, 0.0901],
+       device='cuda:2'), in_proj_covar=tensor([0.0421, 0.0356, 0.0426, 0.0312, 0.0374, 0.0352, 0.0347, 0.0377],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 16:37:04,092 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 16:37:28,660 INFO [train.py:903] (2/4) Epoch 10, batch 1750, loss[loss=0.1843, simple_loss=0.2575, pruned_loss=0.05557, over 19388.00 frames. ], tot_loss[loss=0.2436, simple_loss=0.3143, pruned_loss=0.08644, over 3826825.90 frames. ], batch size: 48, lr: 8.45e-03, grad_scale: 4.0
+2023-04-01 16:38:14,984 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:38:30,199 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:38:30,883 INFO [train.py:903] (2/4) Epoch 10, batch 1800, loss[loss=0.2453, simple_loss=0.3171, pruned_loss=0.0868, over 19520.00 frames. ], tot_loss[loss=0.2419, simple_loss=0.313, pruned_loss=0.08545, over 3832706.39 frames. ], batch size: 54, lr: 8.45e-03, grad_scale: 4.0
+2023-04-01 16:38:44,560 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.600e+02 5.870e+02 7.659e+02 9.293e+02 2.596e+03, threshold=1.532e+03, percent-clipped=8.0
+2023-04-01 16:39:03,308 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63278.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:39:30,797 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 16:39:32,970 INFO [train.py:903] (2/4) Epoch 10, batch 1850, loss[loss=0.272, simple_loss=0.3424, pruned_loss=0.1008, over 19532.00 frames. ], tot_loss[loss=0.2418, simple_loss=0.313, pruned_loss=0.08533, over 3832204.80 frames. ], batch size: 64, lr: 8.45e-03, grad_scale: 4.0
+2023-04-01 16:39:35,803 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63303.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:39:54,120 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63318.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:40:05,775 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6495, 1.4179, 1.3866, 2.0843, 1.5565, 2.1071, 2.0518, 1.8244],
+       device='cuda:2'), covar=tensor([0.0845, 0.1021, 0.1066, 0.0913, 0.0987, 0.0680, 0.0886, 0.0689],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0228, 0.0226, 0.0257, 0.0240, 0.0213, 0.0200, 0.0209],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 16:40:10,161 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 16:40:26,753 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63343.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:40:35,819 INFO [train.py:903] (2/4) Epoch 10, batch 1900, loss[loss=0.2973, simple_loss=0.354, pruned_loss=0.1203, over 12858.00 frames. ], tot_loss[loss=0.2403, simple_loss=0.3123, pruned_loss=0.08417, over 3827412.61 frames. ], batch size: 136, lr: 8.44e-03, grad_scale: 4.0
+2023-04-01 16:40:52,645 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.343e+02 5.562e+02 7.038e+02 8.618e+02 1.834e+03, threshold=1.408e+03, percent-clipped=3.0
+2023-04-01 16:40:55,982 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 16:41:01,856 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 16:41:24,913 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 16:41:37,249 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63399.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:41:40,406 INFO [train.py:903] (2/4) Epoch 10, batch 1950, loss[loss=0.214, simple_loss=0.2952, pruned_loss=0.06634, over 19477.00 frames. ], tot_loss[loss=0.2424, simple_loss=0.3137, pruned_loss=0.08555, over 3828309.89 frames. ], batch size: 49, lr: 8.44e-03, grad_scale: 4.0
+2023-04-01 16:42:09,764 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
+2023-04-01 16:42:10,548 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63424.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:42:27,982 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63438.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:42:31,455 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63440.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:42:44,762 INFO [train.py:903] (2/4) Epoch 10, batch 2000, loss[loss=0.2578, simple_loss=0.3243, pruned_loss=0.09565, over 19657.00 frames. ], tot_loss[loss=0.242, simple_loss=0.3137, pruned_loss=0.08517, over 3831709.38 frames. ], batch size: 55, lr: 8.44e-03, grad_scale: 8.0
+2023-04-01 16:43:00,248 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.731e+02 5.221e+02 6.641e+02 8.776e+02 2.044e+03, threshold=1.328e+03, percent-clipped=3.0
+2023-04-01 16:43:23,894 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2831, 1.4585, 1.5908, 1.5442, 2.8314, 1.0449, 2.2097, 3.0792],
+       device='cuda:2'), covar=tensor([0.0428, 0.2298, 0.2391, 0.1593, 0.0696, 0.2317, 0.1154, 0.0334],
+       device='cuda:2'), in_proj_covar=tensor([0.0342, 0.0326, 0.0343, 0.0313, 0.0342, 0.0326, 0.0322, 0.0345],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 16:43:43,942 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 16:43:47,385 INFO [train.py:903] (2/4) Epoch 10, batch 2050, loss[loss=0.214, simple_loss=0.2974, pruned_loss=0.06528, over 19646.00 frames. ], tot_loss[loss=0.2425, simple_loss=0.3138, pruned_loss=0.08559, over 3823467.67 frames. ], batch size: 53, lr: 8.43e-03, grad_scale: 8.0
+2023-04-01 16:43:53,594 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0159, 1.6878, 1.5970, 2.0552, 1.8507, 1.7819, 1.6337, 1.8854],
+       device='cuda:2'), covar=tensor([0.0852, 0.1512, 0.1464, 0.0994, 0.1214, 0.0488, 0.1182, 0.0682],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0349, 0.0285, 0.0235, 0.0292, 0.0242, 0.0272, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 16:43:53,634 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63506.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:44:03,928 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 16:44:05,940 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 16:44:26,418 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63531.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:44:28,404 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 16:44:50,577 INFO [train.py:903] (2/4) Epoch 10, batch 2100, loss[loss=0.2673, simple_loss=0.3326, pruned_loss=0.101, over 19671.00 frames. ], tot_loss[loss=0.2415, simple_loss=0.3135, pruned_loss=0.08477, over 3837863.70 frames. ], batch size: 53, lr: 8.43e-03, grad_scale: 8.0
+2023-04-01 16:45:06,402 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.339e+02 5.645e+02 7.348e+02 9.688e+02 2.351e+03, threshold=1.470e+03, percent-clipped=4.0
+2023-04-01 16:45:10,684 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2049, 1.3257, 1.6694, 1.4908, 2.2950, 2.0310, 2.4222, 0.9555],
+       device='cuda:2'), covar=tensor([0.2355, 0.3898, 0.2201, 0.1785, 0.1508, 0.1943, 0.1531, 0.3706],
+       device='cuda:2'), in_proj_covar=tensor([0.0476, 0.0557, 0.0578, 0.0424, 0.0584, 0.0475, 0.0637, 0.0479],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 16:45:26,364 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 16:45:32,510 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:45:37,362 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:45:46,582 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 16:45:54,833 INFO [train.py:903] (2/4) Epoch 10, batch 2150, loss[loss=0.1976, simple_loss=0.2893, pruned_loss=0.05295, over 19784.00 frames. ], tot_loss[loss=0.2413, simple_loss=0.3133, pruned_loss=0.08461, over 3825349.74 frames. ], batch size: 56, lr: 8.43e-03, grad_scale: 8.0
+2023-04-01 16:46:00,149 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63604.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:46:58,771 INFO [train.py:903] (2/4) Epoch 10, batch 2200, loss[loss=0.1878, simple_loss=0.2617, pruned_loss=0.05693, over 19322.00 frames. ], tot_loss[loss=0.2408, simple_loss=0.3128, pruned_loss=0.08441, over 3824443.45 frames. ], batch size: 44, lr: 8.42e-03, grad_scale: 8.0
+2023-04-01 16:47:13,918 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.200e+02 5.616e+02 6.875e+02 8.680e+02 1.983e+03, threshold=1.375e+03, percent-clipped=4.0
+2023-04-01 16:48:00,198 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:48:03,390 INFO [train.py:903] (2/4) Epoch 10, batch 2250, loss[loss=0.228, simple_loss=0.3111, pruned_loss=0.07246, over 19684.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.313, pruned_loss=0.08427, over 3829079.59 frames. ], batch size: 60, lr: 8.42e-03, grad_scale: 8.0
+2023-04-01 16:49:04,913 INFO [train.py:903] (2/4) Epoch 10, batch 2300, loss[loss=0.1908, simple_loss=0.265, pruned_loss=0.05828, over 19388.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.3125, pruned_loss=0.08449, over 3831389.57 frames. ], batch size: 48, lr: 8.42e-03, grad_scale: 4.0
+2023-04-01 16:49:19,549 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 16:49:23,046 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.591e+02 5.837e+02 6.965e+02 8.642e+02 2.205e+03, threshold=1.393e+03, percent-clipped=3.0
+2023-04-01 16:49:28,478 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.14 vs. limit=2.0
+2023-04-01 16:49:45,523 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63782.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:49:47,896 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63784.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:50:09,266 INFO [train.py:903] (2/4) Epoch 10, batch 2350, loss[loss=0.2604, simple_loss=0.3412, pruned_loss=0.0898, over 19607.00 frames. ], tot_loss[loss=0.24, simple_loss=0.3115, pruned_loss=0.08422, over 3829782.66 frames. ], batch size: 57, lr: 8.41e-03, grad_scale: 4.0
+2023-04-01 16:50:44,334 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63828.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:50:50,882 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 16:51:10,045 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 16:51:13,618 INFO [train.py:903] (2/4) Epoch 10, batch 2400, loss[loss=0.2288, simple_loss=0.3068, pruned_loss=0.07538, over 19667.00 frames. ], tot_loss[loss=0.2399, simple_loss=0.3115, pruned_loss=0.08416, over 3835451.24 frames. ], batch size: 55, lr: 8.41e-03, grad_scale: 8.0
+2023-04-01 16:51:29,400 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63863.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:51:30,159 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.763e+02 5.915e+02 7.022e+02 9.244e+02 2.907e+03, threshold=1.404e+03, percent-clipped=10.0
+2023-04-01 16:52:12,817 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63897.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:52:15,944 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=63899.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:52:17,971 INFO [train.py:903] (2/4) Epoch 10, batch 2450, loss[loss=0.2505, simple_loss=0.3137, pruned_loss=0.09364, over 19678.00 frames. ], tot_loss[loss=0.2376, simple_loss=0.3095, pruned_loss=0.08281, over 3839550.23 frames. ], batch size: 53, lr: 8.41e-03, grad_scale: 8.0
+2023-04-01 16:52:55,569 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63931.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:52:59,286 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=63934.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:53:16,594 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=63948.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:53:19,963 INFO [train.py:903] (2/4) Epoch 10, batch 2500, loss[loss=0.1618, simple_loss=0.2422, pruned_loss=0.0407, over 19374.00 frames. ], tot_loss[loss=0.2379, simple_loss=0.3102, pruned_loss=0.08283, over 3837848.21 frames. ], batch size: 47, lr: 8.40e-03, grad_scale: 8.0
+2023-04-01 16:53:24,600 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=63954.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:53:35,919 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.566e+02 5.261e+02 6.826e+02 9.233e+02 1.687e+03, threshold=1.365e+03, percent-clipped=6.0
+2023-04-01 16:53:48,735 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=2.04 vs. limit=2.0
+2023-04-01 16:53:56,267 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=63979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:54:23,070 INFO [train.py:903] (2/4) Epoch 10, batch 2550, loss[loss=0.2849, simple_loss=0.3368, pruned_loss=0.1165, over 19786.00 frames. ], tot_loss[loss=0.239, simple_loss=0.3112, pruned_loss=0.08334, over 3827936.46 frames. ], batch size: 56, lr: 8.40e-03, grad_scale: 8.0
+2023-04-01 16:54:37,665 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0251, 2.0822, 2.1940, 2.7036, 1.8939, 2.5495, 2.3950, 1.9823],
+       device='cuda:2'), covar=tensor([0.3239, 0.2746, 0.1411, 0.1727, 0.3066, 0.1347, 0.3096, 0.2497],
+       device='cuda:2'), in_proj_covar=tensor([0.0768, 0.0777, 0.0635, 0.0875, 0.0759, 0.0678, 0.0777, 0.0691],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 16:55:13,497 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64041.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:55:15,688 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 16:55:20,832 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64046.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:55:26,449 INFO [train.py:903] (2/4) Epoch 10, batch 2600, loss[loss=0.2131, simple_loss=0.2962, pruned_loss=0.06504, over 19659.00 frames. ], tot_loss[loss=0.2389, simple_loss=0.3112, pruned_loss=0.08327, over 3829235.19 frames. ], batch size: 55, lr: 8.40e-03, grad_scale: 8.0
+2023-04-01 16:55:41,485 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64063.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:55:42,248 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.625e+02 5.188e+02 6.411e+02 7.864e+02 1.888e+03, threshold=1.282e+03, percent-clipped=1.0
+2023-04-01 16:56:27,598 INFO [train.py:903] (2/4) Epoch 10, batch 2650, loss[loss=0.2364, simple_loss=0.3075, pruned_loss=0.08263, over 19630.00 frames. ], tot_loss[loss=0.2415, simple_loss=0.3132, pruned_loss=0.0849, over 3837441.57 frames. ], batch size: 50, lr: 8.39e-03, grad_scale: 8.0
+2023-04-01 16:56:34,117 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-01 16:56:43,807 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
+2023-04-01 16:56:45,315 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 16:57:21,034 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.61 vs. limit=5.0
+2023-04-01 16:57:29,287 INFO [train.py:903] (2/4) Epoch 10, batch 2700, loss[loss=0.1925, simple_loss=0.2709, pruned_loss=0.05702, over 19485.00 frames. ], tot_loss[loss=0.2392, simple_loss=0.311, pruned_loss=0.08365, over 3846943.71 frames. ], batch size: 49, lr: 8.39e-03, grad_scale: 8.0
+2023-04-01 16:57:32,890 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64153.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:57:35,361 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64155.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:57:45,501 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.698e+02 5.891e+02 6.747e+02 8.779e+02 3.257e+03, threshold=1.349e+03, percent-clipped=11.0
+2023-04-01 16:57:56,913 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64172.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:58:04,119 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64178.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:58:07,405 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64180.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:58:33,082 INFO [train.py:903] (2/4) Epoch 10, batch 2750, loss[loss=0.2432, simple_loss=0.3119, pruned_loss=0.08723, over 19655.00 frames. ], tot_loss[loss=0.2411, simple_loss=0.3128, pruned_loss=0.08466, over 3839335.88 frames. ], batch size: 58, lr: 8.39e-03, grad_scale: 8.0
+2023-04-01 16:58:41,444 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64207.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:59:36,127 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 16:59:36,901 INFO [train.py:903] (2/4) Epoch 10, batch 2800, loss[loss=0.2137, simple_loss=0.2873, pruned_loss=0.07005, over 19478.00 frames. ], tot_loss[loss=0.241, simple_loss=0.3127, pruned_loss=0.08462, over 3839237.63 frames. ], batch size: 49, lr: 8.38e-03, grad_scale: 8.0
+2023-04-01 16:59:52,862 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.388e+02 5.243e+02 6.695e+02 7.923e+02 2.040e+03, threshold=1.339e+03, percent-clipped=2.0
+2023-04-01 17:00:10,664 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64278.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:00:21,824 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64287.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:00:40,325 INFO [train.py:903] (2/4) Epoch 10, batch 2850, loss[loss=0.2128, simple_loss=0.2881, pruned_loss=0.06879, over 19661.00 frames. ], tot_loss[loss=0.2408, simple_loss=0.3125, pruned_loss=0.08455, over 3832011.50 frames. ], batch size: 53, lr: 8.38e-03, grad_scale: 8.0
+2023-04-01 17:00:41,943 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:00:50,231 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9277, 1.5911, 1.4591, 2.2156, 1.8029, 2.2195, 2.2601, 2.0656],
+       device='cuda:2'), covar=tensor([0.0691, 0.0877, 0.0981, 0.0777, 0.0792, 0.0605, 0.0726, 0.0593],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0223, 0.0223, 0.0251, 0.0236, 0.0211, 0.0199, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 17:01:03,210 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64319.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:01:06,420 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:01:12,450 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:01:35,577 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64344.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:01:39,735 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 17:01:43,204 INFO [train.py:903] (2/4) Epoch 10, batch 2900, loss[loss=0.2536, simple_loss=0.3229, pruned_loss=0.09214, over 19080.00 frames. ], tot_loss[loss=0.2423, simple_loss=0.3137, pruned_loss=0.08543, over 3826871.93 frames. ], batch size: 69, lr: 8.38e-03, grad_scale: 8.0
+2023-04-01 17:01:58,189 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64363.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:01:58,975 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.152e+02 6.015e+02 7.349e+02 1.031e+03 2.008e+03, threshold=1.470e+03, percent-clipped=12.0
+2023-04-01 17:02:14,477 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2318, 2.3059, 2.3693, 2.9430, 2.3371, 2.8323, 2.6661, 2.2168],
+       device='cuda:2'), covar=tensor([0.2583, 0.2051, 0.1089, 0.1369, 0.2322, 0.1028, 0.2090, 0.1794],
+       device='cuda:2'), in_proj_covar=tensor([0.0765, 0.0776, 0.0634, 0.0872, 0.0761, 0.0683, 0.0777, 0.0690],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 17:02:26,637 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64385.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:02:36,433 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64393.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:02:46,691 INFO [train.py:903] (2/4) Epoch 10, batch 2950, loss[loss=0.2788, simple_loss=0.3574, pruned_loss=0.1001, over 19688.00 frames. ], tot_loss[loss=0.2425, simple_loss=0.3137, pruned_loss=0.08567, over 3822098.56 frames. ], batch size: 59, lr: 8.37e-03, grad_scale: 8.0
+2023-04-01 17:03:44,310 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-01 17:03:48,250 INFO [train.py:903] (2/4) Epoch 10, batch 3000, loss[loss=0.2169, simple_loss=0.2823, pruned_loss=0.07569, over 18186.00 frames. ], tot_loss[loss=0.2408, simple_loss=0.3126, pruned_loss=0.08454, over 3831169.51 frames. ], batch size: 40, lr: 8.37e-03, grad_scale: 8.0
+2023-04-01 17:03:48,250 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 17:04:00,871 INFO [train.py:937] (2/4) Epoch 10, validation: loss=0.1811, simple_loss=0.2816, pruned_loss=0.04036, over 944034.00 frames. 
+2023-04-01 17:04:00,872 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 17:04:02,406 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9582, 1.3092, 1.0505, 0.9047, 1.2172, 0.8148, 0.8633, 1.1089],
+       device='cuda:2'), covar=tensor([0.0514, 0.0548, 0.0615, 0.0472, 0.0335, 0.0796, 0.0439, 0.0359],
+       device='cuda:2'), in_proj_covar=tensor([0.0286, 0.0294, 0.0321, 0.0239, 0.0231, 0.0319, 0.0286, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:04:04,355 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 17:04:13,261 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.73 vs. limit=2.0
+2023-04-01 17:04:18,119 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.319e+02 5.533e+02 6.661e+02 8.174e+02 1.809e+03, threshold=1.332e+03, percent-clipped=2.0
+2023-04-01 17:04:41,335 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64483.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:05:03,229 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64500.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:05:04,026 INFO [train.py:903] (2/4) Epoch 10, batch 3050, loss[loss=0.2357, simple_loss=0.3125, pruned_loss=0.07943, over 19538.00 frames. ], tot_loss[loss=0.2412, simple_loss=0.3132, pruned_loss=0.08465, over 3816983.41 frames. ], batch size: 56, lr: 8.37e-03, grad_scale: 8.0
+2023-04-01 17:05:48,559 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9121, 0.8535, 0.8529, 1.0294, 0.8914, 1.0193, 1.0221, 0.9207],
+       device='cuda:2'), covar=tensor([0.0679, 0.0781, 0.0824, 0.0545, 0.0675, 0.0603, 0.0665, 0.0622],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0226, 0.0225, 0.0253, 0.0239, 0.0216, 0.0202, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 17:05:57,704 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6663, 1.6637, 1.4013, 1.8596, 1.9500, 1.4331, 1.4581, 1.7290],
+       device='cuda:2'), covar=tensor([0.1079, 0.1638, 0.1676, 0.1124, 0.1239, 0.0917, 0.1431, 0.0861],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0347, 0.0284, 0.0235, 0.0292, 0.0242, 0.0271, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:05:57,730 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64543.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:06:06,595 INFO [train.py:903] (2/4) Epoch 10, batch 3100, loss[loss=0.2073, simple_loss=0.2786, pruned_loss=0.06798, over 15088.00 frames. ], tot_loss[loss=0.2421, simple_loss=0.3137, pruned_loss=0.08532, over 3793324.56 frames. ], batch size: 33, lr: 8.37e-03, grad_scale: 8.0
+2023-04-01 17:06:22,864 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.367e+02 5.961e+02 7.216e+02 8.690e+02 2.208e+03, threshold=1.443e+03, percent-clipped=3.0
+2023-04-01 17:06:27,966 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64568.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:06:40,885 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64578.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:07:01,273 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64594.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:07:10,484 INFO [train.py:903] (2/4) Epoch 10, batch 3150, loss[loss=0.2762, simple_loss=0.3387, pruned_loss=0.1069, over 13678.00 frames. ], tot_loss[loss=0.2422, simple_loss=0.3137, pruned_loss=0.08531, over 3798086.82 frames. ], batch size: 136, lr: 8.36e-03, grad_scale: 8.0
+2023-04-01 17:07:13,015 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64603.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:07:17,527 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64607.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:07:21,725 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5701, 4.0811, 4.2215, 4.2113, 1.4529, 3.9374, 3.4600, 3.8773],
+       device='cuda:2'), covar=tensor([0.1306, 0.0702, 0.0555, 0.0547, 0.5001, 0.0660, 0.0598, 0.1051],
+       device='cuda:2'), in_proj_covar=tensor([0.0645, 0.0581, 0.0768, 0.0645, 0.0713, 0.0518, 0.0476, 0.0712],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 17:07:31,636 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
+2023-04-01 17:07:39,762 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 17:08:10,650 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64649.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:08:12,600 INFO [train.py:903] (2/4) Epoch 10, batch 3200, loss[loss=0.2057, simple_loss=0.2807, pruned_loss=0.0654, over 19719.00 frames. ], tot_loss[loss=0.2404, simple_loss=0.3121, pruned_loss=0.08437, over 3811228.42 frames. ], batch size: 51, lr: 8.36e-03, grad_scale: 8.0
+2023-04-01 17:08:30,175 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.006e+02 5.483e+02 6.754e+02 8.204e+02 1.644e+03, threshold=1.351e+03, percent-clipped=2.0
+2023-04-01 17:08:32,807 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64666.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:08:43,807 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64674.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:09:16,032 INFO [train.py:903] (2/4) Epoch 10, batch 3250, loss[loss=0.2145, simple_loss=0.2891, pruned_loss=0.06995, over 19398.00 frames. ], tot_loss[loss=0.2391, simple_loss=0.311, pruned_loss=0.08361, over 3816102.33 frames. ], batch size: 48, lr: 8.36e-03, grad_scale: 8.0
+2023-04-01 17:09:24,059 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64707.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:09:26,685 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64709.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:09:42,843 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64721.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:10:20,329 INFO [train.py:903] (2/4) Epoch 10, batch 3300, loss[loss=0.223, simple_loss=0.3053, pruned_loss=0.07035, over 19272.00 frames. ], tot_loss[loss=0.2382, simple_loss=0.3102, pruned_loss=0.0831, over 3819235.92 frames. ], batch size: 66, lr: 8.35e-03, grad_scale: 8.0
+2023-04-01 17:10:26,820 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64756.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:10:28,776 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 17:10:35,537 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64763.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:10:37,429 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.278e+02 5.384e+02 6.605e+02 8.281e+02 2.311e+03, threshold=1.321e+03, percent-clipped=9.0
+2023-04-01 17:10:43,924 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64770.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:10:57,743 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64781.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:11:23,425 INFO [train.py:903] (2/4) Epoch 10, batch 3350, loss[loss=0.2366, simple_loss=0.3007, pruned_loss=0.08625, over 19730.00 frames. ], tot_loss[loss=0.239, simple_loss=0.3108, pruned_loss=0.08362, over 3797876.40 frames. ], batch size: 51, lr: 8.35e-03, grad_scale: 4.0
+2023-04-01 17:11:49,568 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64822.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:11:55,099 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64827.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:12:04,644 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5984, 1.4375, 1.3845, 1.8876, 1.5636, 1.8831, 1.8577, 1.7787],
+       device='cuda:2'), covar=tensor([0.0703, 0.0838, 0.0900, 0.0703, 0.0789, 0.0660, 0.0756, 0.0567],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0227, 0.0225, 0.0253, 0.0239, 0.0215, 0.0201, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 17:12:24,018 INFO [train.py:903] (2/4) Epoch 10, batch 3400, loss[loss=0.2705, simple_loss=0.3406, pruned_loss=0.1002, over 19539.00 frames. ], tot_loss[loss=0.2417, simple_loss=0.3131, pruned_loss=0.0852, over 3794608.63 frames. ], batch size: 56, lr: 8.35e-03, grad_scale: 4.0
+2023-04-01 17:12:42,252 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.893e+02 5.724e+02 7.342e+02 8.665e+02 1.913e+03, threshold=1.468e+03, percent-clipped=6.0
+2023-04-01 17:13:27,830 INFO [train.py:903] (2/4) Epoch 10, batch 3450, loss[loss=0.2481, simple_loss=0.3241, pruned_loss=0.08605, over 19500.00 frames. ], tot_loss[loss=0.2406, simple_loss=0.3122, pruned_loss=0.08452, over 3794727.66 frames. ], batch size: 64, lr: 8.34e-03, grad_scale: 4.0
+2023-04-01 17:13:35,095 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 17:13:36,889 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-01 17:14:20,582 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=64942.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:14:30,656 INFO [train.py:903] (2/4) Epoch 10, batch 3500, loss[loss=0.2473, simple_loss=0.3205, pruned_loss=0.08698, over 19715.00 frames. ], tot_loss[loss=0.241, simple_loss=0.3127, pruned_loss=0.08467, over 3807110.49 frames. ], batch size: 51, lr: 8.34e-03, grad_scale: 4.0
+2023-04-01 17:14:31,775 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=64951.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:14:48,656 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.495e+02 5.616e+02 6.822e+02 8.996e+02 1.764e+03, threshold=1.364e+03, percent-clipped=1.0
+2023-04-01 17:14:49,107 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=64965.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:14:50,319 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3871, 1.5845, 1.9384, 1.6336, 2.6095, 2.2014, 2.9644, 1.1461],
+       device='cuda:2'), covar=tensor([0.1927, 0.3304, 0.2054, 0.1545, 0.1389, 0.1798, 0.1362, 0.3367],
+       device='cuda:2'), in_proj_covar=tensor([0.0485, 0.0569, 0.0588, 0.0430, 0.0589, 0.0486, 0.0648, 0.0486],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 17:15:05,375 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.39 vs. limit=5.0
+2023-04-01 17:15:19,919 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=64990.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:15:25,283 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=64994.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:15:34,054 INFO [train.py:903] (2/4) Epoch 10, batch 3550, loss[loss=0.2535, simple_loss=0.3184, pruned_loss=0.09429, over 19762.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.3127, pruned_loss=0.0844, over 3804728.29 frames. ], batch size: 54, lr: 8.34e-03, grad_scale: 4.0
+2023-04-01 17:15:44,374 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65010.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:16:34,669 INFO [train.py:903] (2/4) Epoch 10, batch 3600, loss[loss=0.2993, simple_loss=0.3576, pruned_loss=0.1205, over 14206.00 frames. ], tot_loss[loss=0.2417, simple_loss=0.3134, pruned_loss=0.08504, over 3796176.98 frames. ], batch size: 135, lr: 8.33e-03, grad_scale: 8.0
+2023-04-01 17:16:52,002 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.218e+02 5.791e+02 6.813e+02 8.568e+02 1.743e+03, threshold=1.363e+03, percent-clipped=4.0
+2023-04-01 17:16:52,162 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65065.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:16:53,550 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65066.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:17:02,288 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65073.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:17:08,152 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65078.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:17:35,955 INFO [train.py:903] (2/4) Epoch 10, batch 3650, loss[loss=0.2644, simple_loss=0.3317, pruned_loss=0.09853, over 19582.00 frames. ], tot_loss[loss=0.2435, simple_loss=0.3148, pruned_loss=0.08608, over 3794676.93 frames. ], batch size: 52, lr: 8.33e-03, grad_scale: 8.0
+2023-04-01 17:17:38,638 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65103.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:17:42,758 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65107.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:17:51,946 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65114.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:18:05,510 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65125.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:18:36,262 INFO [train.py:903] (2/4) Epoch 10, batch 3700, loss[loss=0.24, simple_loss=0.3043, pruned_loss=0.08785, over 19474.00 frames. ], tot_loss[loss=0.2427, simple_loss=0.3139, pruned_loss=0.08578, over 3800058.55 frames. ], batch size: 49, lr: 8.33e-03, grad_scale: 8.0
+2023-04-01 17:18:53,974 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.395e+02 5.629e+02 7.088e+02 8.754e+02 1.818e+03, threshold=1.418e+03, percent-clipped=5.0
+2023-04-01 17:19:12,232 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65180.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:19:33,227 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65198.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:19:37,039 INFO [train.py:903] (2/4) Epoch 10, batch 3750, loss[loss=0.2371, simple_loss=0.3187, pruned_loss=0.07775, over 19659.00 frames. ], tot_loss[loss=0.2439, simple_loss=0.315, pruned_loss=0.08646, over 3802430.46 frames. ], batch size: 58, lr: 8.32e-03, grad_scale: 8.0
+2023-04-01 17:20:02,488 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65222.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:20:03,653 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65223.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:20:10,502 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65229.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:20:36,852 INFO [train.py:903] (2/4) Epoch 10, batch 3800, loss[loss=0.2418, simple_loss=0.3045, pruned_loss=0.0895, over 19471.00 frames. ], tot_loss[loss=0.2432, simple_loss=0.314, pruned_loss=0.08617, over 3803022.74 frames. ], batch size: 49, lr: 8.32e-03, grad_scale: 8.0
+2023-04-01 17:20:54,003 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.166e+02 5.620e+02 6.620e+02 8.005e+02 1.692e+03, threshold=1.324e+03, percent-clipped=4.0
+2023-04-01 17:21:06,344 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 17:21:30,857 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8563, 3.3315, 1.8417, 1.5961, 3.1981, 1.2856, 1.0707, 2.0851],
+       device='cuda:2'), covar=tensor([0.1096, 0.0459, 0.0931, 0.0933, 0.0426, 0.1235, 0.0998, 0.0542],
+       device='cuda:2'), in_proj_covar=tensor([0.0288, 0.0298, 0.0323, 0.0245, 0.0234, 0.0319, 0.0288, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:21:37,759 INFO [train.py:903] (2/4) Epoch 10, batch 3850, loss[loss=0.2865, simple_loss=0.3556, pruned_loss=0.1087, over 19467.00 frames. ], tot_loss[loss=0.2425, simple_loss=0.3139, pruned_loss=0.08558, over 3808364.09 frames. ], batch size: 64, lr: 8.32e-03, grad_scale: 8.0
+2023-04-01 17:21:40,430 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65303.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:22:03,652 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:22:13,880 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2368, 1.9994, 1.5646, 1.3193, 1.8998, 1.1549, 1.1756, 1.7494],
+       device='cuda:2'), covar=tensor([0.0785, 0.0630, 0.0949, 0.0660, 0.0446, 0.1118, 0.0604, 0.0338],
+       device='cuda:2'), in_proj_covar=tensor([0.0288, 0.0298, 0.0324, 0.0244, 0.0235, 0.0319, 0.0289, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:22:21,626 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:22:33,946 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:22:37,979 INFO [train.py:903] (2/4) Epoch 10, batch 3900, loss[loss=0.37, simple_loss=0.3974, pruned_loss=0.1713, over 13331.00 frames. ], tot_loss[loss=0.2408, simple_loss=0.3121, pruned_loss=0.08479, over 3794701.06 frames. ], batch size: 135, lr: 8.31e-03, grad_scale: 8.0
+2023-04-01 17:22:55,831 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.027e+02 5.653e+02 7.180e+02 9.093e+02 1.633e+03, threshold=1.436e+03, percent-clipped=2.0
+2023-04-01 17:23:15,725 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65381.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:23:40,379 INFO [train.py:903] (2/4) Epoch 10, batch 3950, loss[loss=0.2379, simple_loss=0.3132, pruned_loss=0.08128, over 19658.00 frames. ], tot_loss[loss=0.241, simple_loss=0.3126, pruned_loss=0.08474, over 3788482.30 frames. ], batch size: 60, lr: 8.31e-03, grad_scale: 8.0
+2023-04-01 17:23:40,402 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 17:23:46,493 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:23:46,521 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3542, 2.2355, 1.9164, 1.7256, 1.4934, 1.8483, 0.4478, 1.2979],
+       device='cuda:2'), covar=tensor([0.0397, 0.0368, 0.0314, 0.0564, 0.0812, 0.0527, 0.0874, 0.0694],
+       device='cuda:2'), in_proj_covar=tensor([0.0329, 0.0328, 0.0325, 0.0346, 0.0419, 0.0344, 0.0305, 0.0321],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 17:23:58,947 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:24:23,271 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65436.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:24:41,315 INFO [train.py:903] (2/4) Epoch 10, batch 4000, loss[loss=0.2534, simple_loss=0.3243, pruned_loss=0.09123, over 19667.00 frames. ], tot_loss[loss=0.2398, simple_loss=0.3116, pruned_loss=0.08398, over 3785022.66 frames. ], batch size: 58, lr: 8.31e-03, grad_scale: 8.0
+2023-04-01 17:24:44,063 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65453.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:24:48,569 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3903, 1.1963, 1.2677, 1.6928, 1.3607, 1.5935, 1.7471, 1.4646],
+       device='cuda:2'), covar=tensor([0.0899, 0.1005, 0.1105, 0.0805, 0.0873, 0.0787, 0.0791, 0.0738],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0227, 0.0225, 0.0251, 0.0241, 0.0215, 0.0201, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 17:24:54,631 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65461.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:24:58,705 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.016e+02 5.448e+02 7.265e+02 9.508e+02 1.942e+03, threshold=1.453e+03, percent-clipped=2.0
+2023-04-01 17:25:01,419 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-01 17:25:14,534 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:25:23,066 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 17:25:23,382 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65485.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:25:41,795 INFO [train.py:903] (2/4) Epoch 10, batch 4050, loss[loss=0.3073, simple_loss=0.3619, pruned_loss=0.1263, over 17993.00 frames. ], tot_loss[loss=0.2404, simple_loss=0.3119, pruned_loss=0.08442, over 3786865.44 frames. ], batch size: 83, lr: 8.30e-03, grad_scale: 8.0
+2023-04-01 17:25:45,338 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65503.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:25:53,316 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65510.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:26:11,621 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-01 17:26:19,252 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65532.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:26:22,554 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5409, 1.2265, 1.1807, 1.4296, 1.1705, 1.3216, 1.1507, 1.3728],
+       device='cuda:2'), covar=tensor([0.0925, 0.1120, 0.1422, 0.0874, 0.1075, 0.0577, 0.1233, 0.0751],
+       device='cuda:2'), in_proj_covar=tensor([0.0247, 0.0347, 0.0288, 0.0237, 0.0295, 0.0242, 0.0273, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:26:40,673 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65550.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:26:41,425 INFO [train.py:903] (2/4) Epoch 10, batch 4100, loss[loss=0.2951, simple_loss=0.3671, pruned_loss=0.1115, over 18798.00 frames. ], tot_loss[loss=0.242, simple_loss=0.3134, pruned_loss=0.08528, over 3797533.83 frames. ], batch size: 74, lr: 8.30e-03, grad_scale: 8.0
+2023-04-01 17:26:47,365 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9829, 1.9336, 1.7446, 1.5498, 1.3886, 1.5764, 0.6296, 0.9988],
+       device='cuda:2'), covar=tensor([0.0434, 0.0415, 0.0252, 0.0421, 0.0901, 0.0493, 0.0733, 0.0635],
+       device='cuda:2'), in_proj_covar=tensor([0.0330, 0.0331, 0.0330, 0.0349, 0.0423, 0.0348, 0.0307, 0.0322],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 17:26:59,039 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.532e+02 5.925e+02 7.032e+02 8.463e+02 2.911e+03, threshold=1.406e+03, percent-clipped=6.0
+2023-04-01 17:27:03,494 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
+2023-04-01 17:27:11,835 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 17:27:33,863 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3426, 3.9648, 2.4953, 3.5059, 0.8726, 3.6634, 3.7028, 3.9400],
+       device='cuda:2'), covar=tensor([0.0680, 0.1033, 0.1957, 0.0747, 0.3875, 0.0719, 0.0801, 0.0922],
+       device='cuda:2'), in_proj_covar=tensor([0.0424, 0.0364, 0.0425, 0.0317, 0.0376, 0.0357, 0.0351, 0.0382],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 17:27:42,544 INFO [train.py:903] (2/4) Epoch 10, batch 4150, loss[loss=0.2448, simple_loss=0.3181, pruned_loss=0.08573, over 19672.00 frames. ], tot_loss[loss=0.2418, simple_loss=0.3135, pruned_loss=0.0851, over 3816342.20 frames. ], batch size: 58, lr: 8.30e-03, grad_scale: 8.0
+2023-04-01 17:28:17,145 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3196, 1.4211, 1.8166, 1.5944, 2.7102, 2.1925, 2.9571, 1.0944],
+       device='cuda:2'), covar=tensor([0.2045, 0.3480, 0.2089, 0.1611, 0.1325, 0.1769, 0.1326, 0.3423],
+       device='cuda:2'), in_proj_covar=tensor([0.0481, 0.0563, 0.0584, 0.0428, 0.0585, 0.0481, 0.0646, 0.0482],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 17:28:39,194 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65647.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:28:43,357 INFO [train.py:903] (2/4) Epoch 10, batch 4200, loss[loss=0.2285, simple_loss=0.2939, pruned_loss=0.08157, over 19682.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.3128, pruned_loss=0.08428, over 3824840.91 frames. ], batch size: 53, lr: 8.30e-03, grad_scale: 8.0
+2023-04-01 17:28:43,400 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 17:28:59,414 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.075e+02 5.851e+02 6.725e+02 9.221e+02 2.199e+03, threshold=1.345e+03, percent-clipped=6.0
+2023-04-01 17:29:42,454 INFO [train.py:903] (2/4) Epoch 10, batch 4250, loss[loss=0.2309, simple_loss=0.2959, pruned_loss=0.08292, over 19474.00 frames. ], tot_loss[loss=0.2417, simple_loss=0.3132, pruned_loss=0.08507, over 3815613.26 frames. ], batch size: 49, lr: 8.29e-03, grad_scale: 8.0
+2023-04-01 17:29:54,078 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65709.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:29:55,751 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 17:30:06,594 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 17:30:22,807 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65734.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:30:43,328 INFO [train.py:903] (2/4) Epoch 10, batch 4300, loss[loss=0.1897, simple_loss=0.2702, pruned_loss=0.05459, over 19730.00 frames. ], tot_loss[loss=0.2411, simple_loss=0.3126, pruned_loss=0.08478, over 3822625.49 frames. ], batch size: 51, lr: 8.29e-03, grad_scale: 8.0
+2023-04-01 17:30:56,185 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=65762.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:31:00,065 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.946e+02 5.358e+02 7.223e+02 8.854e+02 2.636e+03, threshold=1.445e+03, percent-clipped=3.0
+2023-04-01 17:31:28,027 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=65788.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:31:35,316 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 17:31:43,143 INFO [train.py:903] (2/4) Epoch 10, batch 4350, loss[loss=0.2303, simple_loss=0.3079, pruned_loss=0.07633, over 19839.00 frames. ], tot_loss[loss=0.2398, simple_loss=0.3115, pruned_loss=0.0841, over 3830567.48 frames. ], batch size: 52, lr: 8.29e-03, grad_scale: 8.0
+2023-04-01 17:31:58,659 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=65813.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:32:03,765 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-01 17:32:44,687 INFO [train.py:903] (2/4) Epoch 10, batch 4400, loss[loss=0.2439, simple_loss=0.2971, pruned_loss=0.09533, over 19735.00 frames. ], tot_loss[loss=0.2397, simple_loss=0.3115, pruned_loss=0.08401, over 3829656.82 frames. ], batch size: 46, lr: 8.28e-03, grad_scale: 8.0
+2023-04-01 17:32:50,639 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=65856.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:33:00,115 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.366e+02 5.748e+02 7.554e+02 9.760e+02 1.805e+03, threshold=1.511e+03, percent-clipped=4.0
+2023-04-01 17:33:10,945 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 17:33:19,849 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 17:33:36,098 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=65894.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:33:44,058 INFO [train.py:903] (2/4) Epoch 10, batch 4450, loss[loss=0.1888, simple_loss=0.2608, pruned_loss=0.05834, over 19400.00 frames. ], tot_loss[loss=0.2393, simple_loss=0.3107, pruned_loss=0.08392, over 3811969.37 frames. ], batch size: 48, lr: 8.28e-03, grad_scale: 8.0
+2023-04-01 17:34:12,368 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.83 vs. limit=2.0
+2023-04-01 17:34:34,015 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1009, 1.3648, 1.4172, 1.3813, 2.7218, 0.9200, 2.1134, 2.9291],
+       device='cuda:2'), covar=tensor([0.0476, 0.2270, 0.2476, 0.1567, 0.0704, 0.2317, 0.1037, 0.0363],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0334, 0.0353, 0.0320, 0.0344, 0.0332, 0.0325, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:34:45,020 INFO [train.py:903] (2/4) Epoch 10, batch 4500, loss[loss=0.2294, simple_loss=0.308, pruned_loss=0.07538, over 19636.00 frames. ], tot_loss[loss=0.2392, simple_loss=0.3107, pruned_loss=0.08386, over 3809218.09 frames. ], batch size: 57, lr: 8.28e-03, grad_scale: 8.0
+2023-04-01 17:35:01,306 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.423e+02 5.376e+02 6.626e+02 8.325e+02 1.832e+03, threshold=1.325e+03, percent-clipped=3.0
+2023-04-01 17:35:47,224 INFO [train.py:903] (2/4) Epoch 10, batch 4550, loss[loss=0.2154, simple_loss=0.282, pruned_loss=0.0744, over 19768.00 frames. ], tot_loss[loss=0.2391, simple_loss=0.3103, pruned_loss=0.0839, over 3814019.63 frames. ], batch size: 47, lr: 8.27e-03, grad_scale: 8.0
+2023-04-01 17:35:56,040 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 17:35:56,375 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66009.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:36:02,839 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3704, 1.4776, 1.6903, 1.5630, 2.5319, 2.2663, 2.7333, 0.9594],
+       device='cuda:2'), covar=tensor([0.1944, 0.3378, 0.2042, 0.1541, 0.1155, 0.1641, 0.1144, 0.3252],
+       device='cuda:2'), in_proj_covar=tensor([0.0479, 0.0558, 0.0582, 0.0428, 0.0584, 0.0483, 0.0641, 0.0481],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 17:36:07,038 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66018.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:36:17,594 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 17:36:36,252 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66043.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:36:45,871 INFO [train.py:903] (2/4) Epoch 10, batch 4600, loss[loss=0.2545, simple_loss=0.3295, pruned_loss=0.08975, over 19657.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.3121, pruned_loss=0.08463, over 3806257.91 frames. ], batch size: 59, lr: 8.27e-03, grad_scale: 8.0
+2023-04-01 17:37:00,875 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.957e+02 5.689e+02 6.858e+02 9.462e+02 1.667e+03, threshold=1.372e+03, percent-clipped=8.0
+2023-04-01 17:37:43,790 INFO [train.py:903] (2/4) Epoch 10, batch 4650, loss[loss=0.2098, simple_loss=0.2823, pruned_loss=0.06865, over 19402.00 frames. ], tot_loss[loss=0.2402, simple_loss=0.3117, pruned_loss=0.08433, over 3810275.85 frames. ], batch size: 48, lr: 8.27e-03, grad_scale: 8.0
+2023-04-01 17:38:00,804 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 17:38:10,791 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 17:38:44,399 INFO [train.py:903] (2/4) Epoch 10, batch 4700, loss[loss=0.2193, simple_loss=0.2862, pruned_loss=0.07622, over 19752.00 frames. ], tot_loss[loss=0.2417, simple_loss=0.3131, pruned_loss=0.08516, over 3807080.17 frames. ], batch size: 48, lr: 8.26e-03, grad_scale: 8.0
+2023-04-01 17:38:57,797 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66162.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:39:00,971 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.007e+02 6.063e+02 7.892e+02 1.039e+03 2.104e+03, threshold=1.578e+03, percent-clipped=6.0
+2023-04-01 17:39:05,609 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 17:39:17,516 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66178.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:39:17,930 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.45 vs. limit=5.0
+2023-04-01 17:39:24,694 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-01 17:39:43,294 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66200.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:39:44,101 INFO [train.py:903] (2/4) Epoch 10, batch 4750, loss[loss=0.2434, simple_loss=0.3098, pruned_loss=0.0885, over 19543.00 frames. ], tot_loss[loss=0.2416, simple_loss=0.3131, pruned_loss=0.08507, over 3821538.29 frames. ], batch size: 54, lr: 8.26e-03, grad_scale: 8.0
+2023-04-01 17:40:33,544 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9593, 1.1483, 1.4151, 0.5841, 2.1087, 2.4445, 2.1753, 2.5735],
+       device='cuda:2'), covar=tensor([0.1482, 0.3360, 0.2947, 0.2283, 0.0461, 0.0249, 0.0320, 0.0271],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0293, 0.0316, 0.0248, 0.0211, 0.0151, 0.0203, 0.0194],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 17:40:43,464 INFO [train.py:903] (2/4) Epoch 10, batch 4800, loss[loss=0.2499, simple_loss=0.3244, pruned_loss=0.08773, over 19644.00 frames. ], tot_loss[loss=0.2421, simple_loss=0.3136, pruned_loss=0.08527, over 3834825.82 frames. ], batch size: 55, lr: 8.26e-03, grad_scale: 8.0
+2023-04-01 17:41:01,208 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.573e+02 5.914e+02 7.080e+02 8.206e+02 1.527e+03, threshold=1.416e+03, percent-clipped=0.0
+2023-04-01 17:41:01,683 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66265.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:41:15,537 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66276.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:41:31,335 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66290.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:41:44,769 INFO [train.py:903] (2/4) Epoch 10, batch 4850, loss[loss=0.2307, simple_loss=0.2858, pruned_loss=0.08779, over 19283.00 frames. ], tot_loss[loss=0.2402, simple_loss=0.3119, pruned_loss=0.0843, over 3834927.10 frames. ], batch size: 44, lr: 8.25e-03, grad_scale: 8.0
+2023-04-01 17:41:58,682 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.68 vs. limit=5.0
+2023-04-01 17:42:02,678 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66315.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:42:10,364 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 17:42:30,017 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 17:42:35,769 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 17:42:35,794 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 17:42:45,282 INFO [train.py:903] (2/4) Epoch 10, batch 4900, loss[loss=0.2252, simple_loss=0.2914, pruned_loss=0.07946, over 19747.00 frames. ], tot_loss[loss=0.24, simple_loss=0.3119, pruned_loss=0.08411, over 3832994.53 frames. ], batch size: 46, lr: 8.25e-03, grad_scale: 8.0
+2023-04-01 17:42:45,296 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 17:43:01,822 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.050e+02 5.967e+02 7.269e+02 9.008e+02 2.184e+03, threshold=1.454e+03, percent-clipped=11.0
+2023-04-01 17:43:03,047 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 17:43:14,253 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0784, 1.9704, 1.7419, 1.5727, 1.4809, 1.6224, 0.4402, 0.8466],
+       device='cuda:2'), covar=tensor([0.0332, 0.0396, 0.0275, 0.0397, 0.0849, 0.0480, 0.0719, 0.0669],
+       device='cuda:2'), in_proj_covar=tensor([0.0328, 0.0326, 0.0325, 0.0345, 0.0415, 0.0345, 0.0301, 0.0317],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 17:43:33,679 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.76 vs. limit=2.0
+2023-04-01 17:43:45,940 INFO [train.py:903] (2/4) Epoch 10, batch 4950, loss[loss=0.2758, simple_loss=0.3423, pruned_loss=0.1047, over 17595.00 frames. ], tot_loss[loss=0.238, simple_loss=0.3099, pruned_loss=0.08303, over 3840907.66 frames. ], batch size: 101, lr: 8.25e-03, grad_scale: 8.0
+2023-04-01 17:44:02,380 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 17:44:16,766 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2520, 3.8354, 2.6348, 3.4914, 1.0515, 3.5088, 3.5505, 3.6667],
+       device='cuda:2'), covar=tensor([0.0850, 0.1206, 0.1966, 0.0803, 0.4001, 0.0932, 0.0827, 0.1110],
+       device='cuda:2'), in_proj_covar=tensor([0.0426, 0.0360, 0.0425, 0.0316, 0.0375, 0.0354, 0.0349, 0.0383],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 17:44:19,201 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2997, 2.9842, 1.9690, 2.1952, 2.0827, 2.5053, 0.8868, 2.1484],
+       device='cuda:2'), covar=tensor([0.0520, 0.0411, 0.0547, 0.0781, 0.0765, 0.0762, 0.0945, 0.0761],
+       device='cuda:2'), in_proj_covar=tensor([0.0328, 0.0323, 0.0324, 0.0344, 0.0412, 0.0343, 0.0300, 0.0318],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 17:44:26,192 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 17:44:44,953 INFO [train.py:903] (2/4) Epoch 10, batch 5000, loss[loss=0.261, simple_loss=0.3126, pruned_loss=0.1048, over 19470.00 frames. ], tot_loss[loss=0.2403, simple_loss=0.3117, pruned_loss=0.08448, over 3831076.67 frames. ], batch size: 49, lr: 8.25e-03, grad_scale: 8.0
+2023-04-01 17:44:56,407 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 17:45:01,936 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.596e+02 5.419e+02 6.464e+02 8.305e+02 1.628e+03, threshold=1.293e+03, percent-clipped=3.0
+2023-04-01 17:45:02,455 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2396, 1.3084, 1.4135, 1.4065, 1.7322, 1.7941, 1.6991, 0.4898],
+       device='cuda:2'), covar=tensor([0.2121, 0.3554, 0.2217, 0.1600, 0.1379, 0.1938, 0.1256, 0.3712],
+       device='cuda:2'), in_proj_covar=tensor([0.0479, 0.0566, 0.0585, 0.0430, 0.0586, 0.0487, 0.0643, 0.0484],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 17:45:06,372 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 17:45:45,184 INFO [train.py:903] (2/4) Epoch 10, batch 5050, loss[loss=0.208, simple_loss=0.2824, pruned_loss=0.06684, over 17846.00 frames. ], tot_loss[loss=0.2399, simple_loss=0.3113, pruned_loss=0.08429, over 3822013.78 frames. ], batch size: 39, lr: 8.24e-03, grad_scale: 8.0
+2023-04-01 17:45:51,095 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66506.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:46:10,874 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66522.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:46:16,368 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3898, 2.3083, 1.7234, 1.5782, 2.1364, 1.2470, 1.1918, 1.8389],
+       device='cuda:2'), covar=tensor([0.0919, 0.0616, 0.0925, 0.0620, 0.0446, 0.1090, 0.0725, 0.0401],
+       device='cuda:2'), in_proj_covar=tensor([0.0287, 0.0298, 0.0325, 0.0243, 0.0234, 0.0319, 0.0289, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:46:19,329 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 17:46:31,389 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66539.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:46:44,532 INFO [train.py:903] (2/4) Epoch 10, batch 5100, loss[loss=0.2514, simple_loss=0.3254, pruned_loss=0.08873, over 19628.00 frames. ], tot_loss[loss=0.2406, simple_loss=0.3121, pruned_loss=0.08456, over 3823224.46 frames. ], batch size: 57, lr: 8.24e-03, grad_scale: 8.0
+2023-04-01 17:46:56,036 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
+2023-04-01 17:46:57,228 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 17:46:58,844 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8481, 1.9166, 2.0379, 2.7383, 1.7838, 2.5182, 2.3972, 2.0399],
+       device='cuda:2'), covar=tensor([0.3391, 0.2877, 0.1440, 0.1490, 0.3038, 0.1305, 0.3237, 0.2538],
+       device='cuda:2'), in_proj_covar=tensor([0.0774, 0.0785, 0.0640, 0.0885, 0.0764, 0.0690, 0.0774, 0.0701],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 17:46:59,527 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 17:47:01,863 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.567e+02 5.864e+02 7.142e+02 9.030e+02 2.803e+03, threshold=1.428e+03, percent-clipped=6.0
+2023-04-01 17:47:04,001 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 17:47:08,998 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66571.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:47:39,621 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66596.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:47:45,736 INFO [train.py:903] (2/4) Epoch 10, batch 5150, loss[loss=0.2724, simple_loss=0.3424, pruned_loss=0.1012, over 19599.00 frames. ], tot_loss[loss=0.2419, simple_loss=0.3133, pruned_loss=0.08529, over 3802709.96 frames. ], batch size: 61, lr: 8.24e-03, grad_scale: 8.0
+2023-04-01 17:47:56,918 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 17:48:09,057 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66620.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:48:10,481 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66621.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:48:29,330 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66637.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:48:33,117 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 17:48:45,644 INFO [train.py:903] (2/4) Epoch 10, batch 5200, loss[loss=0.2462, simple_loss=0.32, pruned_loss=0.08623, over 19361.00 frames. ], tot_loss[loss=0.241, simple_loss=0.3127, pruned_loss=0.08463, over 3797677.97 frames. ], batch size: 70, lr: 8.23e-03, grad_scale: 8.0
+2023-04-01 17:49:00,689 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 17:49:02,885 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.107e+02 5.688e+02 7.032e+02 8.430e+02 1.656e+03, threshold=1.406e+03, percent-clipped=2.0
+2023-04-01 17:49:44,616 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 17:49:46,891 INFO [train.py:903] (2/4) Epoch 10, batch 5250, loss[loss=0.199, simple_loss=0.2711, pruned_loss=0.06345, over 19745.00 frames. ], tot_loss[loss=0.2401, simple_loss=0.3118, pruned_loss=0.08419, over 3807987.22 frames. ], batch size: 45, lr: 8.23e-03, grad_scale: 8.0
+2023-04-01 17:50:28,125 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66735.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:50:44,996 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66749.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:50:47,100 INFO [train.py:903] (2/4) Epoch 10, batch 5300, loss[loss=0.2888, simple_loss=0.3413, pruned_loss=0.1181, over 13167.00 frames. ], tot_loss[loss=0.2411, simple_loss=0.3126, pruned_loss=0.08481, over 3806101.32 frames. ], batch size: 136, lr: 8.23e-03, grad_scale: 8.0
+2023-04-01 17:51:03,230 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 17:51:04,361 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.476e+02 5.985e+02 7.858e+02 1.069e+03 1.957e+03, threshold=1.572e+03, percent-clipped=7.0
+2023-04-01 17:51:47,694 INFO [train.py:903] (2/4) Epoch 10, batch 5350, loss[loss=0.2547, simple_loss=0.3141, pruned_loss=0.09771, over 19772.00 frames. ], tot_loss[loss=0.2415, simple_loss=0.3129, pruned_loss=0.0851, over 3806103.48 frames. ], batch size: 49, lr: 8.22e-03, grad_scale: 8.0
+2023-04-01 17:52:18,672 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1312, 1.0383, 1.4066, 1.3390, 2.4798, 3.4961, 3.2797, 3.7544],
+       device='cuda:2'), covar=tensor([0.1888, 0.4643, 0.4103, 0.2226, 0.0692, 0.0263, 0.0268, 0.0217],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0290, 0.0316, 0.0246, 0.0209, 0.0151, 0.0202, 0.0193],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 17:52:19,370 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 17:52:46,947 INFO [train.py:903] (2/4) Epoch 10, batch 5400, loss[loss=0.1916, simple_loss=0.2648, pruned_loss=0.05924, over 19361.00 frames. ], tot_loss[loss=0.2417, simple_loss=0.3133, pruned_loss=0.08508, over 3814897.28 frames. ], batch size: 47, lr: 8.22e-03, grad_scale: 8.0
+2023-04-01 17:53:05,689 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.674e+02 5.633e+02 6.871e+02 8.512e+02 1.525e+03, threshold=1.374e+03, percent-clipped=0.0
+2023-04-01 17:53:18,110 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66877.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:53:26,402 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=66883.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:53:36,319 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9771, 5.0893, 5.9120, 5.8418, 1.7240, 5.4858, 4.6486, 5.4476],
+       device='cuda:2'), covar=tensor([0.1293, 0.0751, 0.0449, 0.0432, 0.5701, 0.0467, 0.0563, 0.0862],
+       device='cuda:2'), in_proj_covar=tensor([0.0648, 0.0577, 0.0767, 0.0640, 0.0706, 0.0527, 0.0467, 0.0705],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 17:53:37,775 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66893.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:53:47,836 INFO [train.py:903] (2/4) Epoch 10, batch 5450, loss[loss=0.2099, simple_loss=0.275, pruned_loss=0.07241, over 19758.00 frames. ], tot_loss[loss=0.2426, simple_loss=0.3142, pruned_loss=0.08554, over 3811237.76 frames. ], batch size: 45, lr: 8.22e-03, grad_scale: 8.0
+2023-04-01 17:53:49,480 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66902.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:54:08,166 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=66918.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:54:22,427 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7671, 1.3835, 1.3142, 1.7116, 1.4896, 1.5826, 1.4321, 1.5680],
+       device='cuda:2'), covar=tensor([0.0903, 0.1422, 0.1358, 0.0942, 0.1106, 0.0502, 0.1137, 0.0740],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0354, 0.0291, 0.0239, 0.0295, 0.0244, 0.0278, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:54:47,622 INFO [train.py:903] (2/4) Epoch 10, batch 5500, loss[loss=0.2324, simple_loss=0.2996, pruned_loss=0.08258, over 15146.00 frames. ], tot_loss[loss=0.2434, simple_loss=0.3146, pruned_loss=0.08607, over 3801480.54 frames. ], batch size: 33, lr: 8.21e-03, grad_scale: 8.0
+2023-04-01 17:55:06,147 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.718e+02 5.851e+02 7.428e+02 9.674e+02 2.066e+03, threshold=1.486e+03, percent-clipped=6.0
+2023-04-01 17:55:10,684 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 17:55:16,788 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=66975.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:55:36,726 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=66991.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:55:44,732 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=66998.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:55:48,014 INFO [train.py:903] (2/4) Epoch 10, batch 5550, loss[loss=0.2277, simple_loss=0.3045, pruned_loss=0.07547, over 19518.00 frames. ], tot_loss[loss=0.2414, simple_loss=0.3129, pruned_loss=0.08496, over 3801980.38 frames. ], batch size: 54, lr: 8.21e-03, grad_scale: 8.0
+2023-04-01 17:55:54,328 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 17:56:05,780 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67016.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:56:11,219 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-01 17:56:42,319 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 17:56:47,801 INFO [train.py:903] (2/4) Epoch 10, batch 5600, loss[loss=0.2157, simple_loss=0.2967, pruned_loss=0.06731, over 19534.00 frames. ], tot_loss[loss=0.2408, simple_loss=0.3125, pruned_loss=0.08461, over 3817538.29 frames. ], batch size: 54, lr: 8.21e-03, grad_scale: 8.0
+2023-04-01 17:57:06,482 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.953e+02 5.918e+02 7.804e+02 1.015e+03 2.269e+03, threshold=1.561e+03, percent-clipped=7.0
+2023-04-01 17:57:38,365 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=67093.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 17:57:47,806 INFO [train.py:903] (2/4) Epoch 10, batch 5650, loss[loss=0.2167, simple_loss=0.3011, pruned_loss=0.06622, over 19538.00 frames. ], tot_loss[loss=0.2411, simple_loss=0.3125, pruned_loss=0.08482, over 3813211.42 frames. ], batch size: 56, lr: 8.21e-03, grad_scale: 8.0
+2023-04-01 17:57:48,105 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67101.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 17:58:33,177 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 17:58:47,423 INFO [train.py:903] (2/4) Epoch 10, batch 5700, loss[loss=0.2959, simple_loss=0.3485, pruned_loss=0.1217, over 13275.00 frames. ], tot_loss[loss=0.242, simple_loss=0.3132, pruned_loss=0.08538, over 3810184.86 frames. ], batch size: 136, lr: 8.20e-03, grad_scale: 8.0
+2023-04-01 17:59:05,256 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.236e+02 6.145e+02 7.592e+02 1.064e+03 2.520e+03, threshold=1.518e+03, percent-clipped=7.0
+2023-04-01 17:59:32,590 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8382, 1.7553, 1.4454, 1.8552, 1.7607, 1.3692, 1.5002, 1.6700],
+       device='cuda:2'), covar=tensor([0.1053, 0.1578, 0.1582, 0.1051, 0.1350, 0.0784, 0.1449, 0.0898],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0350, 0.0288, 0.0237, 0.0292, 0.0241, 0.0275, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 17:59:47,165 INFO [train.py:903] (2/4) Epoch 10, batch 5750, loss[loss=0.2129, simple_loss=0.2864, pruned_loss=0.06973, over 19475.00 frames. ], tot_loss[loss=0.2394, simple_loss=0.3112, pruned_loss=0.08383, over 3816127.34 frames. ], batch size: 49, lr: 8.20e-03, grad_scale: 8.0
+2023-04-01 17:59:48,356 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 17:59:57,130 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=67208.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 17:59:57,973 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 18:00:02,608 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 18:00:47,888 INFO [train.py:903] (2/4) Epoch 10, batch 5800, loss[loss=0.2647, simple_loss=0.3422, pruned_loss=0.09363, over 18714.00 frames. ], tot_loss[loss=0.2393, simple_loss=0.3112, pruned_loss=0.08369, over 3829012.75 frames. ], batch size: 74, lr: 8.20e-03, grad_scale: 8.0
+2023-04-01 18:00:51,546 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67254.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:01:06,016 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.662e+02 5.628e+02 6.923e+02 8.923e+02 2.275e+03, threshold=1.385e+03, percent-clipped=6.0
+2023-04-01 18:01:20,799 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67279.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:01:47,321 INFO [train.py:903] (2/4) Epoch 10, batch 5850, loss[loss=0.2537, simple_loss=0.3291, pruned_loss=0.08914, over 19667.00 frames. ], tot_loss[loss=0.2409, simple_loss=0.3127, pruned_loss=0.08461, over 3819167.73 frames. ], batch size: 55, lr: 8.19e-03, grad_scale: 8.0
+2023-04-01 18:02:07,175 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9458, 4.4701, 2.9022, 4.0391, 0.9857, 4.2251, 4.2870, 4.3926],
+       device='cuda:2'), covar=tensor([0.0462, 0.0921, 0.1669, 0.0641, 0.3871, 0.0648, 0.0668, 0.0859],
+       device='cuda:2'), in_proj_covar=tensor([0.0419, 0.0356, 0.0420, 0.0308, 0.0372, 0.0352, 0.0345, 0.0376],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 18:02:09,367 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=67319.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:02:48,429 INFO [train.py:903] (2/4) Epoch 10, batch 5900, loss[loss=0.2216, simple_loss=0.2942, pruned_loss=0.07448, over 19593.00 frames. ], tot_loss[loss=0.2402, simple_loss=0.312, pruned_loss=0.08419, over 3822121.51 frames. ], batch size: 50, lr: 8.19e-03, grad_scale: 8.0
+2023-04-01 18:02:52,959 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 18:03:05,150 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.548e+02 5.688e+02 6.588e+02 8.588e+02 1.646e+03, threshold=1.318e+03, percent-clipped=2.0
+2023-04-01 18:03:11,565 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 18:03:47,182 INFO [train.py:903] (2/4) Epoch 10, batch 5950, loss[loss=0.2381, simple_loss=0.3116, pruned_loss=0.08234, over 19277.00 frames. ], tot_loss[loss=0.2406, simple_loss=0.3125, pruned_loss=0.08438, over 3825009.02 frames. ], batch size: 66, lr: 8.19e-03, grad_scale: 8.0
+2023-04-01 18:04:26,293 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=67434.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:04:38,312 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=67445.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:04:45,822 INFO [train.py:903] (2/4) Epoch 10, batch 6000, loss[loss=0.2045, simple_loss=0.2806, pruned_loss=0.06417, over 19605.00 frames. ], tot_loss[loss=0.2412, simple_loss=0.3128, pruned_loss=0.08478, over 3814405.96 frames. ], batch size: 50, lr: 8.18e-03, grad_scale: 8.0
+2023-04-01 18:04:45,823 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 18:04:58,249 INFO [train.py:937] (2/4) Epoch 10, validation: loss=0.1798, simple_loss=0.2805, pruned_loss=0.03952, over 944034.00 frames. 
+2023-04-01 18:04:58,250 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 18:05:15,140 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67464.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:05:17,960 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.621e+02 5.414e+02 6.867e+02 8.657e+02 1.897e+03, threshold=1.373e+03, percent-clipped=4.0
+2023-04-01 18:05:44,653 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67489.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:05:59,559 INFO [train.py:903] (2/4) Epoch 10, batch 6050, loss[loss=0.1873, simple_loss=0.262, pruned_loss=0.05628, over 19421.00 frames. ], tot_loss[loss=0.2411, simple_loss=0.3127, pruned_loss=0.0848, over 3824435.02 frames. ], batch size: 48, lr: 8.18e-03, grad_scale: 8.0
+2023-04-01 18:06:35,098 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67531.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:06:59,165 INFO [train.py:903] (2/4) Epoch 10, batch 6100, loss[loss=0.1789, simple_loss=0.2551, pruned_loss=0.05129, over 19768.00 frames. ], tot_loss[loss=0.241, simple_loss=0.3125, pruned_loss=0.08476, over 3813381.82 frames. ], batch size: 47, lr: 8.18e-03, grad_scale: 4.0
+2023-04-01 18:07:10,603 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=67560.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:07:19,953 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.598e+02 5.925e+02 6.739e+02 8.410e+02 2.337e+03, threshold=1.348e+03, percent-clipped=5.0
+2023-04-01 18:07:22,757 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3100, 1.4002, 1.9499, 1.5172, 3.0084, 2.3959, 3.3362, 1.3758],
+       device='cuda:2'), covar=tensor([0.2192, 0.3694, 0.2227, 0.1768, 0.1523, 0.1891, 0.1630, 0.3528],
+       device='cuda:2'), in_proj_covar=tensor([0.0475, 0.0560, 0.0582, 0.0427, 0.0583, 0.0483, 0.0640, 0.0480],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 18:07:59,371 INFO [train.py:903] (2/4) Epoch 10, batch 6150, loss[loss=0.1837, simple_loss=0.263, pruned_loss=0.05219, over 19384.00 frames. ], tot_loss[loss=0.2415, simple_loss=0.3129, pruned_loss=0.08499, over 3812280.33 frames. ], batch size: 47, lr: 8.18e-03, grad_scale: 4.0
+2023-04-01 18:08:28,208 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 18:08:59,752 INFO [train.py:903] (2/4) Epoch 10, batch 6200, loss[loss=0.2361, simple_loss=0.3102, pruned_loss=0.081, over 19560.00 frames. ], tot_loss[loss=0.2418, simple_loss=0.3133, pruned_loss=0.08518, over 3813826.33 frames. ], batch size: 61, lr: 8.17e-03, grad_scale: 4.0
+2023-04-01 18:09:20,095 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.127e+02 5.059e+02 6.776e+02 9.553e+02 2.024e+03, threshold=1.355e+03, percent-clipped=7.0
+2023-04-01 18:09:46,796 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67690.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:09:56,499 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:09:59,569 INFO [train.py:903] (2/4) Epoch 10, batch 6250, loss[loss=0.2109, simple_loss=0.2878, pruned_loss=0.06699, over 19732.00 frames. ], tot_loss[loss=0.2407, simple_loss=0.3121, pruned_loss=0.08461, over 3813613.48 frames. ], batch size: 51, lr: 8.17e-03, grad_scale: 4.0
+2023-04-01 18:10:09,930 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67710.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:10:15,779 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67715.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:10:16,840 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9770, 4.3422, 4.6524, 4.6605, 1.5645, 4.3544, 3.7748, 4.2793],
+       device='cuda:2'), covar=tensor([0.1182, 0.0735, 0.0545, 0.0516, 0.5346, 0.0640, 0.0652, 0.1006],
+       device='cuda:2'), in_proj_covar=tensor([0.0649, 0.0585, 0.0772, 0.0649, 0.0711, 0.0530, 0.0476, 0.0709],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 18:10:30,843 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 18:10:59,325 INFO [train.py:903] (2/4) Epoch 10, batch 6300, loss[loss=0.1851, simple_loss=0.2623, pruned_loss=0.05395, over 19725.00 frames. ], tot_loss[loss=0.238, simple_loss=0.3103, pruned_loss=0.08288, over 3823905.16 frames. ], batch size: 51, lr: 8.17e-03, grad_scale: 4.0
+2023-04-01 18:11:19,321 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.616e+02 5.371e+02 6.798e+02 8.698e+02 1.915e+03, threshold=1.360e+03, percent-clipped=7.0
+2023-04-01 18:11:41,352 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.1669, 4.3223, 4.7618, 4.7567, 2.7423, 4.4553, 4.0723, 4.4970],
+       device='cuda:2'), covar=tensor([0.1042, 0.2038, 0.0488, 0.0487, 0.3521, 0.0701, 0.0481, 0.0813],
+       device='cuda:2'), in_proj_covar=tensor([0.0641, 0.0578, 0.0762, 0.0643, 0.0702, 0.0523, 0.0471, 0.0700],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 18:11:58,679 INFO [train.py:903] (2/4) Epoch 10, batch 6350, loss[loss=0.2448, simple_loss=0.3301, pruned_loss=0.07978, over 19530.00 frames. ], tot_loss[loss=0.2402, simple_loss=0.3122, pruned_loss=0.08411, over 3811503.49 frames. ], batch size: 54, lr: 8.16e-03, grad_scale: 4.0
+2023-04-01 18:12:16,887 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=67816.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:12:47,272 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=67841.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:12:58,586 INFO [train.py:903] (2/4) Epoch 10, batch 6400, loss[loss=0.2616, simple_loss=0.3282, pruned_loss=0.09754, over 19340.00 frames. ], tot_loss[loss=0.2411, simple_loss=0.3128, pruned_loss=0.08466, over 3811371.59 frames. ], batch size: 70, lr: 8.16e-03, grad_scale: 8.0
+2023-04-01 18:13:17,934 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5395, 1.0518, 1.2912, 1.2073, 2.1473, 0.9056, 1.8228, 2.3879],
+       device='cuda:2'), covar=tensor([0.0638, 0.2859, 0.2766, 0.1629, 0.0875, 0.2289, 0.1096, 0.0484],
+       device='cuda:2'), in_proj_covar=tensor([0.0349, 0.0333, 0.0347, 0.0314, 0.0340, 0.0329, 0.0322, 0.0343],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 18:13:18,759 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.354e+02 5.283e+02 6.601e+02 9.298e+02 1.582e+03, threshold=1.320e+03, percent-clipped=4.0
+2023-04-01 18:13:27,001 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=67875.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:13:59,329 INFO [train.py:903] (2/4) Epoch 10, batch 6450, loss[loss=0.2249, simple_loss=0.2856, pruned_loss=0.08214, over 19745.00 frames. ], tot_loss[loss=0.2399, simple_loss=0.3118, pruned_loss=0.084, over 3817672.60 frames. ], batch size: 46, lr: 8.16e-03, grad_scale: 8.0
+2023-04-01 18:14:42,674 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 18:14:59,326 INFO [train.py:903] (2/4) Epoch 10, batch 6500, loss[loss=0.2235, simple_loss=0.3093, pruned_loss=0.06881, over 19612.00 frames. ], tot_loss[loss=0.2393, simple_loss=0.3115, pruned_loss=0.08354, over 3810118.40 frames. ], batch size: 57, lr: 8.15e-03, grad_scale: 8.0
+2023-04-01 18:15:00,916 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2243, 1.2376, 1.5171, 1.3756, 2.1041, 1.9259, 2.1369, 0.7735],
+       device='cuda:2'), covar=tensor([0.2332, 0.4090, 0.2318, 0.1903, 0.1507, 0.2062, 0.1537, 0.3834],
+       device='cuda:2'), in_proj_covar=tensor([0.0481, 0.0567, 0.0586, 0.0431, 0.0588, 0.0486, 0.0644, 0.0486],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 18:15:05,087 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 18:15:19,445 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.752e+02 5.758e+02 7.165e+02 9.309e+02 2.290e+03, threshold=1.433e+03, percent-clipped=7.0
+2023-04-01 18:15:47,504 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=67990.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:15:57,571 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=67999.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:16:01,747 INFO [train.py:903] (2/4) Epoch 10, batch 6550, loss[loss=0.2431, simple_loss=0.3204, pruned_loss=0.08294, over 19668.00 frames. ], tot_loss[loss=0.2392, simple_loss=0.3114, pruned_loss=0.08347, over 3802980.37 frames. ], batch size: 60, lr: 8.15e-03, grad_scale: 8.0
+2023-04-01 18:16:51,309 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:17:02,075 INFO [train.py:903] (2/4) Epoch 10, batch 6600, loss[loss=0.2453, simple_loss=0.3236, pruned_loss=0.08353, over 17143.00 frames. ], tot_loss[loss=0.2395, simple_loss=0.3116, pruned_loss=0.08365, over 3802483.36 frames. ], batch size: 101, lr: 8.15e-03, grad_scale: 8.0
+2023-04-01 18:17:05,669 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68054.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:17:23,335 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.670e+02 5.913e+02 7.324e+02 8.709e+02 1.479e+03, threshold=1.465e+03, percent-clipped=1.0
+2023-04-01 18:17:40,406 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.65 vs. limit=5.0
+2023-04-01 18:17:41,119 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4974, 4.0575, 2.5937, 3.5892, 1.0156, 3.7818, 3.8167, 3.8984],
+       device='cuda:2'), covar=tensor([0.0657, 0.1090, 0.1988, 0.0750, 0.3991, 0.0759, 0.0755, 0.1018],
+       device='cuda:2'), in_proj_covar=tensor([0.0424, 0.0364, 0.0429, 0.0315, 0.0380, 0.0358, 0.0350, 0.0381],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 18:18:02,112 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4037, 2.0600, 1.6516, 1.3894, 1.9280, 1.2229, 1.3552, 1.7523],
+       device='cuda:2'), covar=tensor([0.0715, 0.0568, 0.0730, 0.0555, 0.0379, 0.0898, 0.0515, 0.0360],
+       device='cuda:2'), in_proj_covar=tensor([0.0285, 0.0297, 0.0329, 0.0244, 0.0235, 0.0317, 0.0286, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 18:18:02,823 INFO [train.py:903] (2/4) Epoch 10, batch 6650, loss[loss=0.2693, simple_loss=0.3314, pruned_loss=0.1036, over 17251.00 frames. ], tot_loss[loss=0.2385, simple_loss=0.3104, pruned_loss=0.08327, over 3797466.85 frames. ], batch size: 101, lr: 8.15e-03, grad_scale: 8.0
+2023-04-01 18:18:07,742 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68105.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:18:33,861 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7377, 4.1671, 4.4450, 4.3988, 1.4803, 4.1229, 3.4771, 4.0938],
+       device='cuda:2'), covar=tensor([0.1340, 0.0771, 0.0511, 0.0531, 0.5255, 0.0581, 0.0697, 0.1043],
+       device='cuda:2'), in_proj_covar=tensor([0.0650, 0.0589, 0.0768, 0.0653, 0.0711, 0.0531, 0.0479, 0.0711],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 18:18:52,660 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7198, 1.8377, 1.9740, 2.4349, 1.6173, 2.1326, 2.2147, 1.8763],
+       device='cuda:2'), covar=tensor([0.3205, 0.2585, 0.1286, 0.1554, 0.2898, 0.1417, 0.3099, 0.2369],
+       device='cuda:2'), in_proj_covar=tensor([0.0776, 0.0791, 0.0643, 0.0885, 0.0769, 0.0693, 0.0780, 0.0700],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 18:19:02,662 INFO [train.py:903] (2/4) Epoch 10, batch 6700, loss[loss=0.2385, simple_loss=0.3145, pruned_loss=0.0812, over 18005.00 frames. ], tot_loss[loss=0.2377, simple_loss=0.31, pruned_loss=0.08269, over 3812386.54 frames. ], batch size: 83, lr: 8.14e-03, grad_scale: 8.0
+2023-04-01 18:19:09,887 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68157.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:19:22,649 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.762e+02 5.919e+02 7.224e+02 9.287e+02 2.274e+03, threshold=1.445e+03, percent-clipped=4.0
+2023-04-01 18:19:24,156 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68169.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:20:00,041 INFO [train.py:903] (2/4) Epoch 10, batch 6750, loss[loss=0.2033, simple_loss=0.2821, pruned_loss=0.06223, over 19840.00 frames. ], tot_loss[loss=0.2391, simple_loss=0.3112, pruned_loss=0.0835, over 3815821.48 frames. ], batch size: 52, lr: 8.14e-03, grad_scale: 8.0
+2023-04-01 18:20:51,831 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68246.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:20:56,747 INFO [train.py:903] (2/4) Epoch 10, batch 6800, loss[loss=0.2224, simple_loss=0.2886, pruned_loss=0.07806, over 19839.00 frames. ], tot_loss[loss=0.2405, simple_loss=0.3128, pruned_loss=0.08413, over 3816881.36 frames. ], batch size: 52, lr: 8.14e-03, grad_scale: 8.0
+2023-04-01 18:21:15,044 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.210e+02 6.150e+02 7.610e+02 9.082e+02 1.904e+03, threshold=1.522e+03, percent-clipped=4.0
+2023-04-01 18:21:18,302 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68271.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:21:40,677 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 18:21:41,102 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 18:21:44,651 INFO [train.py:903] (2/4) Epoch 11, batch 0, loss[loss=0.2348, simple_loss=0.3111, pruned_loss=0.0792, over 19549.00 frames. ], tot_loss[loss=0.2348, simple_loss=0.3111, pruned_loss=0.0792, over 19549.00 frames. ], batch size: 56, lr: 7.77e-03, grad_scale: 8.0
+2023-04-01 18:21:44,651 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 18:21:56,762 INFO [train.py:937] (2/4) Epoch 11, validation: loss=0.181, simple_loss=0.2818, pruned_loss=0.04012, over 944034.00 frames. 
+2023-04-01 18:21:56,762 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 18:22:09,366 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 18:22:22,222 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
+2023-04-01 18:22:36,719 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5109, 1.2366, 1.1100, 1.3552, 1.1407, 1.3276, 1.1569, 1.3127],
+       device='cuda:2'), covar=tensor([0.1022, 0.1170, 0.1444, 0.0943, 0.1123, 0.0573, 0.1298, 0.0797],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0355, 0.0290, 0.0240, 0.0297, 0.0246, 0.0277, 0.0240],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 18:22:57,937 INFO [train.py:903] (2/4) Epoch 11, batch 50, loss[loss=0.2359, simple_loss=0.3129, pruned_loss=0.07951, over 19542.00 frames. ], tot_loss[loss=0.2427, simple_loss=0.3156, pruned_loss=0.08492, over 877722.94 frames. ], batch size: 56, lr: 7.76e-03, grad_scale: 8.0
+2023-04-01 18:23:15,269 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68343.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:23:35,576 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 18:23:46,892 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.915e+02 5.747e+02 7.027e+02 9.557e+02 1.564e+03, threshold=1.405e+03, percent-clipped=1.0
+2023-04-01 18:24:00,196 INFO [train.py:903] (2/4) Epoch 11, batch 100, loss[loss=0.2327, simple_loss=0.3002, pruned_loss=0.08262, over 19476.00 frames. ], tot_loss[loss=0.2387, simple_loss=0.3125, pruned_loss=0.08245, over 1541595.98 frames. ], batch size: 49, lr: 7.76e-03, grad_scale: 8.0
+2023-04-01 18:24:13,706 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 18:24:32,245 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8363, 1.9092, 2.0789, 2.5400, 1.6982, 2.3307, 2.3644, 2.0404],
+       device='cuda:2'), covar=tensor([0.3311, 0.2803, 0.1393, 0.1502, 0.3019, 0.1365, 0.3294, 0.2449],
+       device='cuda:2'), in_proj_covar=tensor([0.0773, 0.0789, 0.0641, 0.0880, 0.0771, 0.0695, 0.0779, 0.0696],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 18:24:42,604 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68413.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:24:47,978 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:24:57,057 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68425.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:25:01,050 INFO [train.py:903] (2/4) Epoch 11, batch 150, loss[loss=0.2848, simple_loss=0.3472, pruned_loss=0.1112, over 17301.00 frames. ], tot_loss[loss=0.2399, simple_loss=0.3117, pruned_loss=0.08409, over 2037854.52 frames. ], batch size: 101, lr: 7.76e-03, grad_scale: 8.0
+2023-04-01 18:25:11,958 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68438.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:25:25,310 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68449.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:25:26,525 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68450.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:25:36,638 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68458.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:25:47,789 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.848e+02 5.281e+02 6.719e+02 8.986e+02 1.619e+03, threshold=1.344e+03, percent-clipped=5.0
+2023-04-01 18:26:00,672 INFO [train.py:903] (2/4) Epoch 11, batch 200, loss[loss=0.218, simple_loss=0.299, pruned_loss=0.06848, over 19768.00 frames. ], tot_loss[loss=0.2398, simple_loss=0.3117, pruned_loss=0.08392, over 2437202.50 frames. ], batch size: 56, lr: 7.76e-03, grad_scale: 8.0
+2023-04-01 18:26:02,035 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 18:27:03,598 INFO [train.py:903] (2/4) Epoch 11, batch 250, loss[loss=0.1898, simple_loss=0.2662, pruned_loss=0.05672, over 19766.00 frames. ], tot_loss[loss=0.2391, simple_loss=0.3113, pruned_loss=0.08345, over 2741828.19 frames. ], batch size: 45, lr: 7.75e-03, grad_scale: 8.0
+2023-04-01 18:27:46,877 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68564.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:27:50,273 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1884, 1.3258, 1.7479, 1.1515, 2.5612, 3.2160, 3.0088, 3.3688],
+       device='cuda:2'), covar=tensor([0.1584, 0.3278, 0.2886, 0.2217, 0.0554, 0.0260, 0.0218, 0.0218],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0295, 0.0321, 0.0251, 0.0212, 0.0154, 0.0204, 0.0193],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 18:27:51,041 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.001e+02 5.512e+02 6.613e+02 8.406e+02 1.798e+03, threshold=1.323e+03, percent-clipped=1.0
+2023-04-01 18:28:07,068 INFO [train.py:903] (2/4) Epoch 11, batch 300, loss[loss=0.2116, simple_loss=0.287, pruned_loss=0.06811, over 19773.00 frames. ], tot_loss[loss=0.2375, simple_loss=0.3098, pruned_loss=0.08259, over 2987845.32 frames. ], batch size: 54, lr: 7.75e-03, grad_scale: 8.0
+2023-04-01 18:28:27,754 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68596.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:28:30,370 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.62 vs. limit=2.0
+2023-04-01 18:29:09,803 INFO [train.py:903] (2/4) Epoch 11, batch 350, loss[loss=0.2151, simple_loss=0.278, pruned_loss=0.0761, over 19763.00 frames. ], tot_loss[loss=0.2369, simple_loss=0.3089, pruned_loss=0.08245, over 3169412.15 frames. ], batch size: 47, lr: 7.75e-03, grad_scale: 8.0
+2023-04-01 18:29:16,646 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 18:29:44,192 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8853, 1.5464, 1.4899, 1.7967, 1.5141, 1.6387, 1.5577, 1.7862],
+       device='cuda:2'), covar=tensor([0.0914, 0.1458, 0.1351, 0.1004, 0.1294, 0.0520, 0.1186, 0.0697],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0353, 0.0291, 0.0239, 0.0298, 0.0247, 0.0277, 0.0240],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 18:29:57,405 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.055e+02 5.409e+02 6.235e+02 7.842e+02 1.948e+03, threshold=1.247e+03, percent-clipped=7.0
+2023-04-01 18:30:09,870 INFO [train.py:903] (2/4) Epoch 11, batch 400, loss[loss=0.2929, simple_loss=0.3663, pruned_loss=0.1098, over 19772.00 frames. ], tot_loss[loss=0.2373, simple_loss=0.3091, pruned_loss=0.08281, over 3320755.33 frames. ], batch size: 56, lr: 7.74e-03, grad_scale: 8.0
+2023-04-01 18:30:40,469 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=68703.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:30:54,270 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68714.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:31:11,175 INFO [train.py:903] (2/4) Epoch 11, batch 450, loss[loss=0.23, simple_loss=0.3111, pruned_loss=0.07446, over 18825.00 frames. ], tot_loss[loss=0.2371, simple_loss=0.3091, pruned_loss=0.08254, over 3434273.53 frames. ], batch size: 74, lr: 7.74e-03, grad_scale: 8.0
+2023-04-01 18:31:25,506 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68739.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:31:49,566 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 18:31:50,666 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 18:31:51,684 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68761.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:31:59,522 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.166e+02 5.180e+02 6.491e+02 8.751e+02 1.660e+03, threshold=1.298e+03, percent-clipped=7.0
+2023-04-01 18:32:13,202 INFO [train.py:903] (2/4) Epoch 11, batch 500, loss[loss=0.2324, simple_loss=0.3077, pruned_loss=0.07852, over 19603.00 frames. ], tot_loss[loss=0.2376, simple_loss=0.3097, pruned_loss=0.08272, over 3520362.83 frames. ], batch size: 61, lr: 7.74e-03, grad_scale: 8.0
+2023-04-01 18:33:05,564 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=68820.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:33:17,987 INFO [train.py:903] (2/4) Epoch 11, batch 550, loss[loss=0.2322, simple_loss=0.3104, pruned_loss=0.07699, over 19492.00 frames. ], tot_loss[loss=0.237, simple_loss=0.3098, pruned_loss=0.08204, over 3594164.16 frames. ], batch size: 64, lr: 7.74e-03, grad_scale: 8.0
+2023-04-01 18:33:36,737 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=68845.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:34:06,691 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.095e+02 5.206e+02 6.523e+02 8.559e+02 1.532e+03, threshold=1.305e+03, percent-clipped=5.0
+2023-04-01 18:34:18,046 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=68876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:34:21,116 INFO [train.py:903] (2/4) Epoch 11, batch 600, loss[loss=0.2089, simple_loss=0.2852, pruned_loss=0.06632, over 19556.00 frames. ], tot_loss[loss=0.2355, simple_loss=0.3085, pruned_loss=0.08129, over 3655291.75 frames. ], batch size: 52, lr: 7.73e-03, grad_scale: 8.0
+2023-04-01 18:35:07,377 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 18:35:08,213 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-01 18:35:09,955 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0166, 1.9254, 1.6379, 1.4387, 1.4012, 1.6085, 0.3340, 0.8487],
+       device='cuda:2'), covar=tensor([0.0368, 0.0394, 0.0290, 0.0435, 0.0837, 0.0481, 0.0787, 0.0695],
+       device='cuda:2'), in_proj_covar=tensor([0.0329, 0.0327, 0.0329, 0.0350, 0.0422, 0.0346, 0.0307, 0.0321],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 18:35:23,583 INFO [train.py:903] (2/4) Epoch 11, batch 650, loss[loss=0.2398, simple_loss=0.3176, pruned_loss=0.08101, over 19578.00 frames. ], tot_loss[loss=0.2368, simple_loss=0.3093, pruned_loss=0.08216, over 3694813.49 frames. ], batch size: 61, lr: 7.73e-03, grad_scale: 4.0
+2023-04-01 18:35:36,870 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=68940.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:36:14,702 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.863e+02 5.561e+02 7.157e+02 8.945e+02 2.089e+03, threshold=1.431e+03, percent-clipped=8.0
+2023-04-01 18:36:26,502 INFO [train.py:903] (2/4) Epoch 11, batch 700, loss[loss=0.3034, simple_loss=0.3659, pruned_loss=0.1204, over 19486.00 frames. ], tot_loss[loss=0.2368, simple_loss=0.3093, pruned_loss=0.08215, over 3718851.22 frames. ], batch size: 64, lr: 7.73e-03, grad_scale: 4.0
+2023-04-01 18:36:41,608 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.33 vs. limit=5.0
+2023-04-01 18:37:30,460 INFO [train.py:903] (2/4) Epoch 11, batch 750, loss[loss=0.2149, simple_loss=0.297, pruned_loss=0.06641, over 19610.00 frames. ], tot_loss[loss=0.2396, simple_loss=0.3114, pruned_loss=0.08386, over 3730765.73 frames. ], batch size: 57, lr: 7.72e-03, grad_scale: 4.0
+2023-04-01 18:37:44,835 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3222, 2.1872, 1.8321, 1.7266, 1.4956, 1.7028, 0.3635, 1.1533],
+       device='cuda:2'), covar=tensor([0.0390, 0.0407, 0.0363, 0.0543, 0.0833, 0.0681, 0.0913, 0.0697],
+       device='cuda:2'), in_proj_covar=tensor([0.0333, 0.0329, 0.0330, 0.0352, 0.0425, 0.0349, 0.0309, 0.0324],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 18:37:52,532 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69047.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:38:01,890 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69055.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:38:10,059 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69061.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:38:20,856 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.322e+02 5.289e+02 6.423e+02 8.063e+02 1.861e+03, threshold=1.285e+03, percent-clipped=2.0
+2023-04-01 18:38:33,454 INFO [train.py:903] (2/4) Epoch 11, batch 800, loss[loss=0.2264, simple_loss=0.3039, pruned_loss=0.07451, over 18214.00 frames. ], tot_loss[loss=0.2398, simple_loss=0.312, pruned_loss=0.08378, over 3755505.86 frames. ], batch size: 83, lr: 7.72e-03, grad_scale: 8.0
+2023-04-01 18:38:49,967 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 18:39:20,884 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-01 18:39:26,278 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9216, 2.0137, 2.1853, 2.8110, 1.8670, 2.5765, 2.5312, 2.0873],
+       device='cuda:2'), covar=tensor([0.3413, 0.2759, 0.1301, 0.1569, 0.3207, 0.1421, 0.3081, 0.2431],
+       device='cuda:2'), in_proj_covar=tensor([0.0778, 0.0794, 0.0639, 0.0887, 0.0771, 0.0697, 0.0777, 0.0701],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 18:39:35,210 INFO [train.py:903] (2/4) Epoch 11, batch 850, loss[loss=0.2232, simple_loss=0.3039, pruned_loss=0.07126, over 19656.00 frames. ], tot_loss[loss=0.2402, simple_loss=0.3121, pruned_loss=0.08413, over 3752121.49 frames. ], batch size: 55, lr: 7.72e-03, grad_scale: 8.0
+2023-04-01 18:39:39,371 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:40:12,615 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69157.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:40:18,347 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69162.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:40:26,039 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.965e+02 5.808e+02 7.359e+02 9.451e+02 2.011e+03, threshold=1.472e+03, percent-clipped=12.0
+2023-04-01 18:40:32,125 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 18:40:32,652 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6290, 1.7058, 1.9134, 2.0047, 1.3085, 1.8306, 2.1009, 1.8170],
+       device='cuda:2'), covar=tensor([0.3418, 0.2818, 0.1406, 0.1642, 0.3092, 0.1540, 0.3463, 0.2581],
+       device='cuda:2'), in_proj_covar=tensor([0.0783, 0.0797, 0.0644, 0.0889, 0.0775, 0.0700, 0.0784, 0.0707],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 18:40:38,100 INFO [train.py:903] (2/4) Epoch 11, batch 900, loss[loss=0.2434, simple_loss=0.3208, pruned_loss=0.08298, over 19697.00 frames. ], tot_loss[loss=0.2389, simple_loss=0.3108, pruned_loss=0.08356, over 3777787.36 frames. ], batch size: 59, lr: 7.72e-03, grad_scale: 8.0
+2023-04-01 18:40:39,673 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69180.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:40:48,337 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69186.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:41:42,673 INFO [train.py:903] (2/4) Epoch 11, batch 950, loss[loss=0.1893, simple_loss=0.276, pruned_loss=0.05137, over 19690.00 frames. ], tot_loss[loss=0.2392, simple_loss=0.311, pruned_loss=0.0837, over 3790110.83 frames. ], batch size: 53, lr: 7.71e-03, grad_scale: 8.0
+2023-04-01 18:41:49,506 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 18:42:01,306 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69243.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:42:11,240 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
+2023-04-01 18:42:24,823 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69263.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:42:33,741 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.446e+02 5.204e+02 6.315e+02 7.601e+02 2.315e+03, threshold=1.263e+03, percent-clipped=1.0
+2023-04-01 18:42:47,226 INFO [train.py:903] (2/4) Epoch 11, batch 1000, loss[loss=0.207, simple_loss=0.29, pruned_loss=0.06202, over 19681.00 frames. ], tot_loss[loss=0.2388, simple_loss=0.3106, pruned_loss=0.08353, over 3797220.72 frames. ], batch size: 53, lr: 7.71e-03, grad_scale: 8.0
+2023-04-01 18:43:01,192 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69291.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:43:27,085 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69311.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:43:43,490 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 18:43:48,898 INFO [train.py:903] (2/4) Epoch 11, batch 1050, loss[loss=0.2276, simple_loss=0.3044, pruned_loss=0.07542, over 19773.00 frames. ], tot_loss[loss=0.2371, simple_loss=0.3094, pruned_loss=0.08244, over 3802952.93 frames. ], batch size: 56, lr: 7.71e-03, grad_scale: 8.0
+2023-04-01 18:43:57,034 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:43:59,165 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7854, 4.3012, 2.4213, 3.8113, 1.0078, 4.0977, 4.0652, 4.1722],
+       device='cuda:2'), covar=tensor([0.0514, 0.0879, 0.2151, 0.0740, 0.3939, 0.0654, 0.0757, 0.0982],
+       device='cuda:2'), in_proj_covar=tensor([0.0423, 0.0361, 0.0428, 0.0312, 0.0375, 0.0361, 0.0350, 0.0383],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 18:43:59,252 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:43:59,381 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0951, 2.0669, 1.7311, 1.5468, 1.2560, 1.5525, 0.4833, 1.0699],
+       device='cuda:2'), covar=tensor([0.0645, 0.0608, 0.0496, 0.0811, 0.1305, 0.0933, 0.1085, 0.0986],
+       device='cuda:2'), in_proj_covar=tensor([0.0336, 0.0329, 0.0331, 0.0352, 0.0425, 0.0348, 0.0309, 0.0324],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 18:44:02,820 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1023, 3.5602, 2.0830, 2.2048, 3.2788, 1.9997, 1.4130, 2.0659],
+       device='cuda:2'), covar=tensor([0.1228, 0.0511, 0.0945, 0.0706, 0.0434, 0.0961, 0.0931, 0.0598],
+       device='cuda:2'), in_proj_covar=tensor([0.0285, 0.0301, 0.0328, 0.0246, 0.0237, 0.0318, 0.0289, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 18:44:24,571 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 18:44:38,149 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.334e+02 5.222e+02 6.475e+02 7.672e+02 1.315e+03, threshold=1.295e+03, percent-clipped=1.0
+2023-04-01 18:44:49,374 INFO [train.py:903] (2/4) Epoch 11, batch 1100, loss[loss=0.2362, simple_loss=0.3046, pruned_loss=0.0839, over 19750.00 frames. ], tot_loss[loss=0.2386, simple_loss=0.3107, pruned_loss=0.0833, over 3811331.68 frames. ], batch size: 51, lr: 7.70e-03, grad_scale: 8.0
+2023-04-01 18:44:57,816 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69386.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:45:24,089 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69405.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:45:32,701 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69412.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:45:39,645 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69418.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:45:53,091 INFO [train.py:903] (2/4) Epoch 11, batch 1150, loss[loss=0.2144, simple_loss=0.2899, pruned_loss=0.06939, over 19476.00 frames. ], tot_loss[loss=0.2372, simple_loss=0.3092, pruned_loss=0.0826, over 3813866.60 frames. ], batch size: 49, lr: 7.70e-03, grad_scale: 8.0
+2023-04-01 18:46:11,250 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69443.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:46:41,983 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.975e+02 5.885e+02 7.181e+02 8.495e+02 1.651e+03, threshold=1.436e+03, percent-clipped=3.0
+2023-04-01 18:46:55,768 INFO [train.py:903] (2/4) Epoch 11, batch 1200, loss[loss=0.2541, simple_loss=0.323, pruned_loss=0.09266, over 19734.00 frames. ], tot_loss[loss=0.2374, simple_loss=0.3093, pruned_loss=0.08271, over 3801544.24 frames. ], batch size: 63, lr: 7.70e-03, grad_scale: 8.0
+2023-04-01 18:47:27,278 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 18:47:48,982 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69520.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:47:53,433 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69524.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:47:59,002 INFO [train.py:903] (2/4) Epoch 11, batch 1250, loss[loss=0.1963, simple_loss=0.2698, pruned_loss=0.06142, over 19728.00 frames. ], tot_loss[loss=0.2363, simple_loss=0.3087, pruned_loss=0.08193, over 3813285.72 frames. ], batch size: 46, lr: 7.70e-03, grad_scale: 8.0
+2023-04-01 18:48:00,183 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69530.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:48:49,514 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.132e+02 5.575e+02 6.899e+02 8.428e+02 1.860e+03, threshold=1.380e+03, percent-clipped=3.0
+2023-04-01 18:49:00,825 INFO [train.py:903] (2/4) Epoch 11, batch 1300, loss[loss=0.2383, simple_loss=0.3135, pruned_loss=0.08153, over 19531.00 frames. ], tot_loss[loss=0.2358, simple_loss=0.3081, pruned_loss=0.08171, over 3823825.92 frames. ], batch size: 54, lr: 7.69e-03, grad_scale: 8.0
+2023-04-01 18:49:10,209 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:49:38,645 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69607.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:49:39,101 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-01 18:50:04,334 INFO [train.py:903] (2/4) Epoch 11, batch 1350, loss[loss=0.2216, simple_loss=0.3094, pruned_loss=0.0669, over 19604.00 frames. ], tot_loss[loss=0.2346, simple_loss=0.3071, pruned_loss=0.081, over 3833085.45 frames. ], batch size: 57, lr: 7.69e-03, grad_scale: 8.0
+2023-04-01 18:50:13,536 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69635.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:50:19,136 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69639.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:50:26,826 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69645.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:50:54,483 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.470e+02 5.709e+02 6.895e+02 8.476e+02 1.895e+03, threshold=1.379e+03, percent-clipped=5.0
+2023-04-01 18:51:08,229 INFO [train.py:903] (2/4) Epoch 11, batch 1400, loss[loss=0.3078, simple_loss=0.3631, pruned_loss=0.1262, over 13226.00 frames. ], tot_loss[loss=0.2352, simple_loss=0.3075, pruned_loss=0.08143, over 3814970.65 frames. ], batch size: 136, lr: 7.69e-03, grad_scale: 8.0
+2023-04-01 18:51:11,991 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69682.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:51:25,033 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=69692.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 18:51:36,497 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69702.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:52:03,535 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69722.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 18:52:09,960 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 18:52:10,953 INFO [train.py:903] (2/4) Epoch 11, batch 1450, loss[loss=0.2768, simple_loss=0.3463, pruned_loss=0.1037, over 19673.00 frames. ], tot_loss[loss=0.2367, simple_loss=0.3089, pruned_loss=0.08227, over 3817096.91 frames. ], batch size: 58, lr: 7.69e-03, grad_scale: 8.0
+2023-04-01 18:52:12,414 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69730.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:52:36,785 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:52:44,822 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=69756.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:53:01,501 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.562e+02 5.344e+02 6.531e+02 8.357e+02 2.062e+03, threshold=1.306e+03, percent-clipped=2.0
+2023-04-01 18:53:10,357 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69776.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:53:13,435 INFO [train.py:903] (2/4) Epoch 11, batch 1500, loss[loss=0.1971, simple_loss=0.2723, pruned_loss=0.06099, over 19756.00 frames. ], tot_loss[loss=0.2349, simple_loss=0.3073, pruned_loss=0.08123, over 3835952.68 frames. ], batch size: 51, lr: 7.68e-03, grad_scale: 8.0
+2023-04-01 18:53:34,492 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5046, 1.3389, 1.3374, 1.9202, 1.5366, 1.9514, 2.0139, 1.6801],
+       device='cuda:2'), covar=tensor([0.0870, 0.1002, 0.1014, 0.0803, 0.0821, 0.0639, 0.0788, 0.0698],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0226, 0.0222, 0.0250, 0.0237, 0.0214, 0.0200, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 18:53:36,864 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69797.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:53:43,130 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69801.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:54:15,934 INFO [train.py:903] (2/4) Epoch 11, batch 1550, loss[loss=0.2055, simple_loss=0.2891, pruned_loss=0.06093, over 19759.00 frames. ], tot_loss[loss=0.2338, simple_loss=0.3063, pruned_loss=0.08067, over 3845685.44 frames. ], batch size: 54, lr: 7.68e-03, grad_scale: 8.0
+2023-04-01 18:54:38,390 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69845.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:55:07,630 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.582e+02 5.814e+02 6.999e+02 8.951e+02 2.972e+03, threshold=1.400e+03, percent-clipped=5.0
+2023-04-01 18:55:09,154 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=69871.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:55:20,440 INFO [train.py:903] (2/4) Epoch 11, batch 1600, loss[loss=0.2153, simple_loss=0.295, pruned_loss=0.06781, over 19763.00 frames. ], tot_loss[loss=0.2346, simple_loss=0.3072, pruned_loss=0.08103, over 3831427.99 frames. ], batch size: 56, lr: 7.68e-03, grad_scale: 8.0
+2023-04-01 18:55:41,189 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69895.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:55:46,718 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 18:55:48,183 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69901.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:56:12,787 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69920.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:56:20,532 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69926.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:56:23,825 INFO [train.py:903] (2/4) Epoch 11, batch 1650, loss[loss=0.2258, simple_loss=0.2986, pruned_loss=0.0765, over 19727.00 frames. ], tot_loss[loss=0.2351, simple_loss=0.3078, pruned_loss=0.0812, over 3836030.40 frames. ], batch size: 51, lr: 7.67e-03, grad_scale: 8.0
+2023-04-01 18:57:00,804 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69958.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:57:16,652 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.105e+02 5.294e+02 6.504e+02 8.314e+02 1.576e+03, threshold=1.301e+03, percent-clipped=2.0
+2023-04-01 18:57:26,354 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=69978.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:57:27,012 INFO [train.py:903] (2/4) Epoch 11, batch 1700, loss[loss=0.2262, simple_loss=0.3036, pruned_loss=0.07444, over 19836.00 frames. ], tot_loss[loss=0.2339, simple_loss=0.3069, pruned_loss=0.08047, over 3835090.91 frames. ], batch size: 52, lr: 7.67e-03, grad_scale: 8.0
+2023-04-01 18:57:32,055 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=69983.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:57:59,118 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70003.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 18:58:03,168 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70006.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:58:09,485 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 18:58:11,920 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6133, 4.1995, 2.5756, 3.7885, 1.2012, 3.9122, 3.9411, 4.0620],
+       device='cuda:2'), covar=tensor([0.0616, 0.0977, 0.1922, 0.0725, 0.3534, 0.0739, 0.0768, 0.0992],
+       device='cuda:2'), in_proj_covar=tensor([0.0426, 0.0364, 0.0432, 0.0316, 0.0376, 0.0365, 0.0357, 0.0386],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 18:58:29,317 INFO [train.py:903] (2/4) Epoch 11, batch 1750, loss[loss=0.2032, simple_loss=0.2756, pruned_loss=0.06538, over 19356.00 frames. ], tot_loss[loss=0.2352, simple_loss=0.3076, pruned_loss=0.08144, over 3835513.33 frames. ], batch size: 47, lr: 7.67e-03, grad_scale: 8.0
+2023-04-01 18:58:32,053 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70031.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:58:40,220 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70036.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 18:58:44,996 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3334, 1.2488, 1.2698, 1.7469, 1.3357, 1.6487, 1.6539, 1.5751],
+       device='cuda:2'), covar=tensor([0.0943, 0.1035, 0.1105, 0.0786, 0.0854, 0.0764, 0.0882, 0.0694],
+       device='cuda:2'), in_proj_covar=tensor([0.0215, 0.0229, 0.0226, 0.0251, 0.0240, 0.0217, 0.0201, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 18:59:02,477 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70053.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:59:22,249 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.188e+02 6.480e+02 8.127e+02 9.904e+02 1.581e+03, threshold=1.625e+03, percent-clipped=5.0
+2023-04-01 18:59:34,177 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70078.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 18:59:34,847 INFO [train.py:903] (2/4) Epoch 11, batch 1800, loss[loss=0.2527, simple_loss=0.3289, pruned_loss=0.08826, over 19462.00 frames. ], tot_loss[loss=0.2357, simple_loss=0.308, pruned_loss=0.08171, over 3835498.82 frames. ], batch size: 64, lr: 7.67e-03, grad_scale: 8.0
+2023-04-01 18:59:43,614 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-01 19:00:02,673 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70101.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:00:14,319 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
+2023-04-01 19:00:32,733 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.77 vs. limit=5.0
+2023-04-01 19:00:34,715 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70126.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:00:35,505 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 19:00:35,953 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70127.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:00:37,769 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=70128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:00:38,711 INFO [train.py:903] (2/4) Epoch 11, batch 1850, loss[loss=0.2435, simple_loss=0.3173, pruned_loss=0.08487, over 19739.00 frames. ], tot_loss[loss=0.2359, simple_loss=0.3085, pruned_loss=0.08163, over 3839792.10 frames. ], batch size: 63, lr: 7.66e-03, grad_scale: 8.0
+2023-04-01 19:01:05,127 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=70151.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 19:01:06,352 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70152.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:01:13,665 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 19:01:19,261 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
+2023-04-01 19:01:30,925 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.636e+02 5.171e+02 6.551e+02 7.968e+02 1.780e+03, threshold=1.310e+03, percent-clipped=1.0
+2023-04-01 19:01:41,531 INFO [train.py:903] (2/4) Epoch 11, batch 1900, loss[loss=0.2377, simple_loss=0.3164, pruned_loss=0.07948, over 19675.00 frames. ], tot_loss[loss=0.2354, simple_loss=0.3081, pruned_loss=0.0814, over 3819074.75 frames. ], batch size: 59, lr: 7.66e-03, grad_scale: 8.0
+2023-04-01 19:01:57,138 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 19:02:04,757 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 19:02:28,857 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 19:02:42,954 INFO [train.py:903] (2/4) Epoch 11, batch 1950, loss[loss=0.2154, simple_loss=0.2991, pruned_loss=0.06582, over 19717.00 frames. ], tot_loss[loss=0.2354, simple_loss=0.3081, pruned_loss=0.08134, over 3819445.27 frames. ], batch size: 59, lr: 7.66e-03, grad_scale: 8.0
+2023-04-01 19:03:35,382 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.353e+02 4.987e+02 6.114e+02 7.804e+02 3.131e+03, threshold=1.223e+03, percent-clipped=9.0
+2023-04-01 19:03:37,258 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-01 19:03:43,632 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8867, 1.3199, 1.0458, 0.9884, 1.1313, 0.9564, 0.9649, 1.2772],
+       device='cuda:2'), covar=tensor([0.0460, 0.0639, 0.0907, 0.0546, 0.0466, 0.1019, 0.0481, 0.0370],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0293, 0.0321, 0.0242, 0.0231, 0.0314, 0.0284, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 19:03:45,817 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=70278.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:03:46,665 INFO [train.py:903] (2/4) Epoch 11, batch 2000, loss[loss=0.1997, simple_loss=0.2738, pruned_loss=0.06273, over 19616.00 frames. ], tot_loss[loss=0.235, simple_loss=0.3076, pruned_loss=0.08114, over 3828444.92 frames. ], batch size: 50, lr: 7.66e-03, grad_scale: 8.0
+2023-04-01 19:04:48,762 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 19:04:51,058 INFO [train.py:903] (2/4) Epoch 11, batch 2050, loss[loss=0.2155, simple_loss=0.2881, pruned_loss=0.07147, over 19728.00 frames. ], tot_loss[loss=0.2348, simple_loss=0.3077, pruned_loss=0.08092, over 3822997.49 frames. ], batch size: 51, lr: 7.65e-03, grad_scale: 8.0
+2023-04-01 19:05:07,046 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 19:05:08,127 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 19:05:28,944 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 19:05:43,671 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.125e+02 5.481e+02 7.126e+02 9.531e+02 2.002e+03, threshold=1.425e+03, percent-clipped=10.0
+2023-04-01 19:05:54,411 INFO [train.py:903] (2/4) Epoch 11, batch 2100, loss[loss=0.2104, simple_loss=0.2732, pruned_loss=0.07383, over 19792.00 frames. ], tot_loss[loss=0.2366, simple_loss=0.3088, pruned_loss=0.08226, over 3827440.50 frames. ], batch size: 48, lr: 7.65e-03, grad_scale: 8.0
+2023-04-01 19:06:24,764 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 19:06:30,845 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70407.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 19:06:48,475 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 19:06:57,555 INFO [train.py:903] (2/4) Epoch 11, batch 2150, loss[loss=0.2025, simple_loss=0.268, pruned_loss=0.06847, over 19736.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3087, pruned_loss=0.08166, over 3831621.35 frames. ], batch size: 46, lr: 7.65e-03, grad_scale: 8.0
+2023-04-01 19:07:01,570 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70432.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 19:07:51,371 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.544e+02 5.585e+02 6.733e+02 8.759e+02 1.859e+03, threshold=1.347e+03, percent-clipped=4.0
+2023-04-01 19:07:52,886 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70472.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:08:02,122 INFO [train.py:903] (2/4) Epoch 11, batch 2200, loss[loss=0.2359, simple_loss=0.3147, pruned_loss=0.07861, over 19675.00 frames. ], tot_loss[loss=0.2356, simple_loss=0.3083, pruned_loss=0.08149, over 3823201.96 frames. ], batch size: 53, lr: 7.64e-03, grad_scale: 4.0
+2023-04-01 19:09:06,398 INFO [train.py:903] (2/4) Epoch 11, batch 2250, loss[loss=0.2028, simple_loss=0.2715, pruned_loss=0.06706, over 19752.00 frames. ], tot_loss[loss=0.2357, simple_loss=0.3085, pruned_loss=0.08151, over 3821187.80 frames. ], batch size: 45, lr: 7.64e-03, grad_scale: 4.0
+2023-04-01 19:10:01,002 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.382e+02 4.990e+02 6.839e+02 8.349e+02 1.575e+03, threshold=1.368e+03, percent-clipped=2.0
+2023-04-01 19:10:10,417 INFO [train.py:903] (2/4) Epoch 11, batch 2300, loss[loss=0.2397, simple_loss=0.3155, pruned_loss=0.08198, over 19615.00 frames. ], tot_loss[loss=0.238, simple_loss=0.3103, pruned_loss=0.08278, over 3804654.61 frames. ], batch size: 57, lr: 7.64e-03, grad_scale: 4.0
+2023-04-01 19:10:19,799 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=70587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:10:23,131 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 19:11:05,011 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=70622.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:11:13,190 INFO [train.py:903] (2/4) Epoch 11, batch 2350, loss[loss=0.2565, simple_loss=0.3274, pruned_loss=0.09281, over 19668.00 frames. ], tot_loss[loss=0.2376, simple_loss=0.3103, pruned_loss=0.08241, over 3802826.42 frames. ], batch size: 58, lr: 7.64e-03, grad_scale: 4.0
+2023-04-01 19:11:27,812 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1106, 2.1780, 2.2496, 3.2341, 2.1289, 2.9901, 2.6549, 2.0824],
+       device='cuda:2'), covar=tensor([0.3640, 0.3054, 0.1406, 0.1774, 0.3683, 0.1453, 0.3187, 0.2612],
+       device='cuda:2'), in_proj_covar=tensor([0.0788, 0.0799, 0.0644, 0.0887, 0.0776, 0.0694, 0.0779, 0.0706],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 19:11:56,873 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 19:12:06,977 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.408e+02 5.270e+02 6.524e+02 8.351e+02 2.247e+03, threshold=1.305e+03, percent-clipped=5.0
+2023-04-01 19:12:12,589 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 19:12:16,796 INFO [train.py:903] (2/4) Epoch 11, batch 2400, loss[loss=0.2475, simple_loss=0.3215, pruned_loss=0.08671, over 18023.00 frames. ], tot_loss[loss=0.2367, simple_loss=0.3095, pruned_loss=0.082, over 3813950.85 frames. ], batch size: 83, lr: 7.63e-03, grad_scale: 8.0
+2023-04-01 19:12:58,793 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0990, 1.2435, 1.7622, 1.1109, 2.6100, 3.5601, 3.2208, 3.6437],
+       device='cuda:2'), covar=tensor([0.1586, 0.3407, 0.2909, 0.2211, 0.0494, 0.0186, 0.0200, 0.0192],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0295, 0.0320, 0.0251, 0.0215, 0.0155, 0.0205, 0.0196],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 19:13:20,246 INFO [train.py:903] (2/4) Epoch 11, batch 2450, loss[loss=0.2282, simple_loss=0.3172, pruned_loss=0.0696, over 19683.00 frames. ], tot_loss[loss=0.2377, simple_loss=0.31, pruned_loss=0.08272, over 3814687.12 frames. ], batch size: 58, lr: 7.63e-03, grad_scale: 8.0
+2023-04-01 19:13:32,449 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=70737.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:13:44,567 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8989, 2.1840, 2.3351, 2.9437, 2.5863, 2.3514, 2.2049, 2.8333],
+       device='cuda:2'), covar=tensor([0.0687, 0.1536, 0.1227, 0.0808, 0.1113, 0.0440, 0.1068, 0.0517],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0347, 0.0287, 0.0238, 0.0296, 0.0242, 0.0276, 0.0239],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 19:14:14,278 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.733e+02 5.717e+02 6.752e+02 8.721e+02 4.215e+03, threshold=1.350e+03, percent-clipped=8.0
+2023-04-01 19:14:25,711 INFO [train.py:903] (2/4) Epoch 11, batch 2500, loss[loss=0.1815, simple_loss=0.2547, pruned_loss=0.05411, over 19025.00 frames. ], tot_loss[loss=0.2369, simple_loss=0.3094, pruned_loss=0.08223, over 3813918.69 frames. ], batch size: 42, lr: 7.63e-03, grad_scale: 8.0
+2023-04-01 19:15:27,558 INFO [train.py:903] (2/4) Epoch 11, batch 2550, loss[loss=0.2106, simple_loss=0.2888, pruned_loss=0.06625, over 19483.00 frames. ], tot_loss[loss=0.2379, simple_loss=0.3101, pruned_loss=0.0828, over 3814708.80 frames. ], batch size: 49, lr: 7.63e-03, grad_scale: 8.0
+2023-04-01 19:15:46,695 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:16:17,504 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=70868.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:16:20,506 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.586e+02 5.428e+02 6.511e+02 7.969e+02 1.423e+03, threshold=1.302e+03, percent-clipped=4.0
+2023-04-01 19:16:26,498 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 19:16:30,133 INFO [train.py:903] (2/4) Epoch 11, batch 2600, loss[loss=0.2185, simple_loss=0.3005, pruned_loss=0.06826, over 19539.00 frames. ], tot_loss[loss=0.2369, simple_loss=0.3092, pruned_loss=0.08229, over 3819624.22 frames. ], batch size: 54, lr: 7.62e-03, grad_scale: 8.0
+2023-04-01 19:17:34,839 INFO [train.py:903] (2/4) Epoch 11, batch 2650, loss[loss=0.2235, simple_loss=0.296, pruned_loss=0.07546, over 19458.00 frames. ], tot_loss[loss=0.2363, simple_loss=0.3089, pruned_loss=0.0819, over 3813840.33 frames. ], batch size: 49, lr: 7.62e-03, grad_scale: 8.0
+2023-04-01 19:17:56,649 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 19:18:28,065 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.326e+02 5.322e+02 6.264e+02 9.085e+02 2.401e+03, threshold=1.253e+03, percent-clipped=10.0
+2023-04-01 19:18:39,383 INFO [train.py:903] (2/4) Epoch 11, batch 2700, loss[loss=0.2416, simple_loss=0.3218, pruned_loss=0.08067, over 19474.00 frames. ], tot_loss[loss=0.2357, simple_loss=0.3083, pruned_loss=0.08159, over 3815363.41 frames. ], batch size: 64, lr: 7.62e-03, grad_scale: 8.0
+2023-04-01 19:18:56,259 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=70993.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:19:18,245 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=71010.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:19:30,052 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=71018.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:19:43,436 INFO [train.py:903] (2/4) Epoch 11, batch 2750, loss[loss=0.2387, simple_loss=0.318, pruned_loss=0.0797, over 13546.00 frames. ], tot_loss[loss=0.2349, simple_loss=0.3076, pruned_loss=0.08109, over 3817174.06 frames. ], batch size: 135, lr: 7.62e-03, grad_scale: 8.0
+2023-04-01 19:20:08,223 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=71048.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:20:37,010 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.532e+02 5.301e+02 6.565e+02 7.951e+02 1.458e+03, threshold=1.313e+03, percent-clipped=6.0
+2023-04-01 19:20:45,883 INFO [train.py:903] (2/4) Epoch 11, batch 2800, loss[loss=0.2527, simple_loss=0.3206, pruned_loss=0.09236, over 17295.00 frames. ], tot_loss[loss=0.2351, simple_loss=0.3077, pruned_loss=0.08123, over 3814443.41 frames. ], batch size: 101, lr: 7.61e-03, grad_scale: 8.0
+2023-04-01 19:21:29,709 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-01 19:21:51,269 INFO [train.py:903] (2/4) Epoch 11, batch 2850, loss[loss=0.2352, simple_loss=0.3113, pruned_loss=0.07953, over 18398.00 frames. ], tot_loss[loss=0.2349, simple_loss=0.3075, pruned_loss=0.08113, over 3814300.29 frames. ], batch size: 84, lr: 7.61e-03, grad_scale: 8.0
+2023-04-01 19:22:45,074 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.239e+02 5.466e+02 6.713e+02 8.640e+02 2.236e+03, threshold=1.343e+03, percent-clipped=7.0
+2023-04-01 19:22:54,321 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 19:22:55,471 INFO [train.py:903] (2/4) Epoch 11, batch 2900, loss[loss=0.2441, simple_loss=0.3184, pruned_loss=0.08491, over 19337.00 frames. ], tot_loss[loss=0.2338, simple_loss=0.3065, pruned_loss=0.0805, over 3825045.14 frames. ], batch size: 66, lr: 7.61e-03, grad_scale: 8.0
+2023-04-01 19:23:03,498 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.71 vs. limit=5.0
+2023-04-01 19:23:09,038 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8966, 3.5188, 2.4796, 3.2407, 0.9110, 3.2913, 3.2833, 3.3868],
+       device='cuda:2'), covar=tensor([0.0847, 0.1130, 0.1954, 0.0884, 0.4037, 0.0972, 0.0883, 0.1157],
+       device='cuda:2'), in_proj_covar=tensor([0.0431, 0.0366, 0.0440, 0.0321, 0.0382, 0.0368, 0.0356, 0.0393],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 19:24:00,125 INFO [train.py:903] (2/4) Epoch 11, batch 2950, loss[loss=0.211, simple_loss=0.2785, pruned_loss=0.07178, over 19756.00 frames. ], tot_loss[loss=0.234, simple_loss=0.3069, pruned_loss=0.08057, over 3819470.48 frames. ], batch size: 47, lr: 7.60e-03, grad_scale: 8.0
+2023-04-01 19:24:53,527 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.649e+02 5.471e+02 6.960e+02 8.532e+02 1.699e+03, threshold=1.392e+03, percent-clipped=7.0
+2023-04-01 19:25:02,840 INFO [train.py:903] (2/4) Epoch 11, batch 3000, loss[loss=0.2241, simple_loss=0.3011, pruned_loss=0.07357, over 19761.00 frames. ], tot_loss[loss=0.2351, simple_loss=0.3077, pruned_loss=0.08125, over 3828417.92 frames. ], batch size: 54, lr: 7.60e-03, grad_scale: 8.0
+2023-04-01 19:25:02,840 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 19:25:16,084 INFO [train.py:937] (2/4) Epoch 11, validation: loss=0.1785, simple_loss=0.2793, pruned_loss=0.0389, over 944034.00 frames. 
+2023-04-01 19:25:16,085 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 19:25:20,539 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 19:25:26,639 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3350, 2.9455, 1.9017, 2.0545, 2.1384, 2.3773, 0.7725, 2.1271],
+       device='cuda:2'), covar=tensor([0.0429, 0.0431, 0.0621, 0.0793, 0.0729, 0.0877, 0.0991, 0.0784],
+       device='cuda:2'), in_proj_covar=tensor([0.0342, 0.0335, 0.0335, 0.0356, 0.0429, 0.0358, 0.0312, 0.0326],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 19:25:51,496 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2263, 2.1701, 2.2846, 3.3056, 2.1949, 3.1281, 2.7252, 2.0971],
+       device='cuda:2'), covar=tensor([0.3558, 0.2987, 0.1422, 0.1704, 0.3642, 0.1348, 0.3142, 0.2671],
+       device='cuda:2'), in_proj_covar=tensor([0.0789, 0.0803, 0.0647, 0.0890, 0.0781, 0.0701, 0.0784, 0.0705],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 19:26:01,951 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7992, 1.6647, 1.2622, 1.7688, 1.6678, 1.4138, 1.3417, 1.6100],
+       device='cuda:2'), covar=tensor([0.1019, 0.1450, 0.1728, 0.1129, 0.1304, 0.0908, 0.1499, 0.0912],
+       device='cuda:2'), in_proj_covar=tensor([0.0249, 0.0344, 0.0284, 0.0235, 0.0290, 0.0240, 0.0273, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 19:26:20,107 INFO [train.py:903] (2/4) Epoch 11, batch 3050, loss[loss=0.2705, simple_loss=0.3286, pruned_loss=0.1062, over 13317.00 frames. ], tot_loss[loss=0.235, simple_loss=0.3076, pruned_loss=0.08116, over 3821386.44 frames. ], batch size: 135, lr: 7.60e-03, grad_scale: 8.0
+2023-04-01 19:26:51,695 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=71354.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:27:07,114 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1851, 2.1818, 2.4295, 3.2384, 2.1646, 2.9781, 2.7577, 2.2840],
+       device='cuda:2'), covar=tensor([0.3848, 0.3503, 0.1392, 0.1921, 0.3863, 0.1597, 0.3388, 0.2598],
+       device='cuda:2'), in_proj_covar=tensor([0.0786, 0.0802, 0.0645, 0.0888, 0.0777, 0.0699, 0.0783, 0.0703],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 19:27:13,585 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.278e+02 5.484e+02 7.005e+02 9.170e+02 2.820e+03, threshold=1.401e+03, percent-clipped=8.0
+2023-04-01 19:27:23,008 INFO [train.py:903] (2/4) Epoch 11, batch 3100, loss[loss=0.221, simple_loss=0.3019, pruned_loss=0.07011, over 19671.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3084, pruned_loss=0.08178, over 3822090.25 frames. ], batch size: 60, lr: 7.60e-03, grad_scale: 8.0
+2023-04-01 19:27:27,788 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7394, 1.3134, 1.4111, 2.0285, 1.8156, 2.0967, 2.1424, 1.7814],
+       device='cuda:2'), covar=tensor([0.0749, 0.0963, 0.1012, 0.0794, 0.0810, 0.0616, 0.0801, 0.0658],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0228, 0.0224, 0.0251, 0.0238, 0.0215, 0.0198, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 19:27:39,104 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=71392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:28:26,276 INFO [train.py:903] (2/4) Epoch 11, batch 3150, loss[loss=0.2391, simple_loss=0.3137, pruned_loss=0.08219, over 19442.00 frames. ], tot_loss[loss=0.2349, simple_loss=0.3077, pruned_loss=0.081, over 3833762.07 frames. ], batch size: 70, lr: 7.59e-03, grad_scale: 8.0
+2023-04-01 19:28:55,935 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 19:28:57,877 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-01 19:29:17,646 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=71469.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:29:19,600 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.562e+02 5.450e+02 6.508e+02 8.826e+02 1.534e+03, threshold=1.302e+03, percent-clipped=1.0
+2023-04-01 19:29:31,369 INFO [train.py:903] (2/4) Epoch 11, batch 3200, loss[loss=0.2223, simple_loss=0.3031, pruned_loss=0.07074, over 19672.00 frames. ], tot_loss[loss=0.2357, simple_loss=0.3086, pruned_loss=0.0814, over 3820244.59 frames. ], batch size: 58, lr: 7.59e-03, grad_scale: 8.0
+2023-04-01 19:30:05,861 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=71507.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:30:32,441 INFO [train.py:903] (2/4) Epoch 11, batch 3250, loss[loss=0.2686, simple_loss=0.3411, pruned_loss=0.0981, over 17505.00 frames. ], tot_loss[loss=0.2364, simple_loss=0.3088, pruned_loss=0.08198, over 3806978.27 frames. ], batch size: 101, lr: 7.59e-03, grad_scale: 8.0
+2023-04-01 19:30:35,050 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3259, 1.4277, 1.6239, 1.4997, 2.2756, 2.1002, 2.2818, 0.8400],
+       device='cuda:2'), covar=tensor([0.2235, 0.3779, 0.2271, 0.1790, 0.1299, 0.1863, 0.1367, 0.3718],
+       device='cuda:2'), in_proj_covar=tensor([0.0490, 0.0575, 0.0601, 0.0441, 0.0595, 0.0493, 0.0649, 0.0497],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 19:31:26,706 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.701e+02 5.157e+02 6.415e+02 8.641e+02 1.397e+03, threshold=1.283e+03, percent-clipped=1.0
+2023-04-01 19:31:36,063 INFO [train.py:903] (2/4) Epoch 11, batch 3300, loss[loss=0.1789, simple_loss=0.2488, pruned_loss=0.05447, over 19751.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3086, pruned_loss=0.08169, over 3814771.45 frames. ], batch size: 46, lr: 7.59e-03, grad_scale: 8.0
+2023-04-01 19:31:41,722 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 19:32:39,937 INFO [train.py:903] (2/4) Epoch 11, batch 3350, loss[loss=0.2414, simple_loss=0.3204, pruned_loss=0.08126, over 18649.00 frames. ], tot_loss[loss=0.2352, simple_loss=0.3076, pruned_loss=0.08137, over 3819887.23 frames. ], batch size: 74, lr: 7.58e-03, grad_scale: 8.0
+2023-04-01 19:32:47,342 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=71634.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:33:26,644 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-01 19:33:34,248 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.542e+02 5.202e+02 6.815e+02 8.173e+02 2.322e+03, threshold=1.363e+03, percent-clipped=5.0
+2023-04-01 19:33:44,445 INFO [train.py:903] (2/4) Epoch 11, batch 3400, loss[loss=0.2513, simple_loss=0.3324, pruned_loss=0.08513, over 19659.00 frames. ], tot_loss[loss=0.2339, simple_loss=0.3063, pruned_loss=0.08072, over 3829317.69 frames. ], batch size: 58, lr: 7.58e-03, grad_scale: 8.0
+2023-04-01 19:34:40,448 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0467, 3.4897, 2.0691, 2.2031, 3.1253, 1.7957, 1.3021, 2.1766],
+       device='cuda:2'), covar=tensor([0.1255, 0.0505, 0.1020, 0.0736, 0.0435, 0.1015, 0.1014, 0.0616],
+       device='cuda:2'), in_proj_covar=tensor([0.0291, 0.0301, 0.0329, 0.0250, 0.0235, 0.0321, 0.0289, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 19:34:44,108 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=71725.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:34:48,498 INFO [train.py:903] (2/4) Epoch 11, batch 3450, loss[loss=0.2239, simple_loss=0.3035, pruned_loss=0.0721, over 19484.00 frames. ], tot_loss[loss=0.2337, simple_loss=0.3062, pruned_loss=0.08064, over 3812385.34 frames. ], batch size: 64, lr: 7.58e-03, grad_scale: 8.0
+2023-04-01 19:34:52,154 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 19:35:15,999 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=71750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:35:33,074 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=71763.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:35:42,106 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.543e+02 5.649e+02 6.835e+02 8.667e+02 1.565e+03, threshold=1.367e+03, percent-clipped=4.0
+2023-04-01 19:35:52,291 INFO [train.py:903] (2/4) Epoch 11, batch 3500, loss[loss=0.2717, simple_loss=0.3503, pruned_loss=0.09651, over 19559.00 frames. ], tot_loss[loss=0.2339, simple_loss=0.3066, pruned_loss=0.08066, over 3814269.27 frames. ], batch size: 61, lr: 7.58e-03, grad_scale: 8.0
+2023-04-01 19:36:04,527 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=71788.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:36:33,843 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1543, 2.1327, 2.2776, 2.9361, 2.0240, 3.1371, 2.5441, 2.1400],
+       device='cuda:2'), covar=tensor([0.3726, 0.3244, 0.1607, 0.2126, 0.3805, 0.1507, 0.3704, 0.2897],
+       device='cuda:2'), in_proj_covar=tensor([0.0787, 0.0805, 0.0648, 0.0891, 0.0779, 0.0703, 0.0785, 0.0709],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 19:36:56,405 INFO [train.py:903] (2/4) Epoch 11, batch 3550, loss[loss=0.2284, simple_loss=0.3065, pruned_loss=0.07521, over 19665.00 frames. ], tot_loss[loss=0.2341, simple_loss=0.307, pruned_loss=0.08062, over 3830286.16 frames. ], batch size: 60, lr: 7.57e-03, grad_scale: 8.0
+2023-04-01 19:37:00,714 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.10 vs. limit=5.0
+2023-04-01 19:37:49,025 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.173e+02 5.129e+02 6.236e+02 8.069e+02 1.994e+03, threshold=1.247e+03, percent-clipped=3.0
+2023-04-01 19:37:58,900 INFO [train.py:903] (2/4) Epoch 11, batch 3600, loss[loss=0.2496, simple_loss=0.3177, pruned_loss=0.09071, over 19533.00 frames. ], tot_loss[loss=0.2365, simple_loss=0.3093, pruned_loss=0.08181, over 3835338.03 frames. ], batch size: 54, lr: 7.57e-03, grad_scale: 8.0
+2023-04-01 19:39:03,006 INFO [train.py:903] (2/4) Epoch 11, batch 3650, loss[loss=0.2189, simple_loss=0.303, pruned_loss=0.06737, over 19534.00 frames. ], tot_loss[loss=0.2354, simple_loss=0.3085, pruned_loss=0.08118, over 3841255.12 frames. ], batch size: 56, lr: 7.57e-03, grad_scale: 8.0
+2023-04-01 19:39:13,485 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=71937.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:39:55,945 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.339e+02 5.422e+02 6.726e+02 7.997e+02 1.955e+03, threshold=1.345e+03, percent-clipped=5.0
+2023-04-01 19:40:05,245 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=71978.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:40:06,257 INFO [train.py:903] (2/4) Epoch 11, batch 3700, loss[loss=0.2144, simple_loss=0.2922, pruned_loss=0.06827, over 19587.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3091, pruned_loss=0.08145, over 3827922.86 frames. ], batch size: 52, lr: 7.57e-03, grad_scale: 8.0
+2023-04-01 19:41:02,230 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.76 vs. limit=2.0
+2023-04-01 19:41:11,914 INFO [train.py:903] (2/4) Epoch 11, batch 3750, loss[loss=0.2096, simple_loss=0.2772, pruned_loss=0.07102, over 19288.00 frames. ], tot_loss[loss=0.235, simple_loss=0.3083, pruned_loss=0.08086, over 3829127.28 frames. ], batch size: 44, lr: 7.56e-03, grad_scale: 8.0
+2023-04-01 19:42:06,342 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.116e+02 5.141e+02 6.053e+02 7.322e+02 1.150e+03, threshold=1.211e+03, percent-clipped=0.0
+2023-04-01 19:42:17,093 INFO [train.py:903] (2/4) Epoch 11, batch 3800, loss[loss=0.2199, simple_loss=0.2978, pruned_loss=0.07104, over 19582.00 frames. ], tot_loss[loss=0.2351, simple_loss=0.3088, pruned_loss=0.08073, over 3825125.16 frames. ], batch size: 52, lr: 7.56e-03, grad_scale: 8.0
+2023-04-01 19:42:22,599 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.85 vs. limit=2.0
+2023-04-01 19:42:35,690 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=72093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:42:46,984 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 19:43:21,151 INFO [train.py:903] (2/4) Epoch 11, batch 3850, loss[loss=0.239, simple_loss=0.3079, pruned_loss=0.08503, over 19531.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3096, pruned_loss=0.08119, over 3796595.50 frames. ], batch size: 54, lr: 7.56e-03, grad_scale: 8.0
+2023-04-01 19:43:45,190 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=72147.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:44:16,372 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.216e+02 5.600e+02 6.929e+02 8.545e+02 2.074e+03, threshold=1.386e+03, percent-clipped=5.0
+2023-04-01 19:44:25,945 INFO [train.py:903] (2/4) Epoch 11, batch 3900, loss[loss=0.2585, simple_loss=0.3316, pruned_loss=0.09266, over 19623.00 frames. ], tot_loss[loss=0.2357, simple_loss=0.3089, pruned_loss=0.08122, over 3785137.20 frames. ], batch size: 57, lr: 7.55e-03, grad_scale: 8.0
+2023-04-01 19:45:04,304 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3211, 1.2489, 1.8253, 1.3787, 2.7221, 3.6995, 3.3776, 3.8890],
+       device='cuda:2'), covar=tensor([0.1385, 0.3361, 0.2790, 0.1977, 0.0493, 0.0138, 0.0203, 0.0181],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0294, 0.0321, 0.0251, 0.0213, 0.0154, 0.0206, 0.0199],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 19:45:30,656 INFO [train.py:903] (2/4) Epoch 11, batch 3950, loss[loss=0.2412, simple_loss=0.318, pruned_loss=0.0822, over 19652.00 frames. ], tot_loss[loss=0.2348, simple_loss=0.308, pruned_loss=0.08079, over 3782525.57 frames. ], batch size: 60, lr: 7.55e-03, grad_scale: 8.0
+2023-04-01 19:45:31,946 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 19:46:23,815 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.514e+02 5.760e+02 7.487e+02 9.416e+02 2.541e+03, threshold=1.497e+03, percent-clipped=9.0
+2023-04-01 19:46:34,099 INFO [train.py:903] (2/4) Epoch 11, batch 4000, loss[loss=0.3037, simple_loss=0.3534, pruned_loss=0.1269, over 13592.00 frames. ], tot_loss[loss=0.237, simple_loss=0.3097, pruned_loss=0.08214, over 3786276.72 frames. ], batch size: 136, lr: 7.55e-03, grad_scale: 8.0
+2023-04-01 19:46:36,471 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=72281.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:47:22,616 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 19:47:37,790 INFO [train.py:903] (2/4) Epoch 11, batch 4050, loss[loss=0.214, simple_loss=0.2928, pruned_loss=0.06762, over 19662.00 frames. ], tot_loss[loss=0.2354, simple_loss=0.3084, pruned_loss=0.08119, over 3806495.64 frames. ], batch size: 53, lr: 7.55e-03, grad_scale: 8.0
+2023-04-01 19:47:57,890 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=72344.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:48:05,149 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=72349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:48:33,043 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.561e+02 4.924e+02 6.616e+02 8.581e+02 2.031e+03, threshold=1.323e+03, percent-clipped=3.0
+2023-04-01 19:48:37,063 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=72374.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:48:43,646 INFO [train.py:903] (2/4) Epoch 11, batch 4100, loss[loss=0.2641, simple_loss=0.3372, pruned_loss=0.09548, over 18210.00 frames. ], tot_loss[loss=0.2353, simple_loss=0.3081, pruned_loss=0.08122, over 3796483.34 frames. ], batch size: 83, lr: 7.54e-03, grad_scale: 8.0
+2023-04-01 19:49:05,282 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=72396.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:49:18,927 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 19:49:48,299 INFO [train.py:903] (2/4) Epoch 11, batch 4150, loss[loss=0.2275, simple_loss=0.3078, pruned_loss=0.07361, over 19328.00 frames. ], tot_loss[loss=0.234, simple_loss=0.307, pruned_loss=0.08047, over 3800054.46 frames. ], batch size: 70, lr: 7.54e-03, grad_scale: 8.0
+2023-04-01 19:50:01,627 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4769, 4.0504, 4.1785, 4.1646, 1.5465, 3.9116, 3.3962, 3.8658],
+       device='cuda:2'), covar=tensor([0.1444, 0.0766, 0.0551, 0.0609, 0.4923, 0.0695, 0.0659, 0.1096],
+       device='cuda:2'), in_proj_covar=tensor([0.0665, 0.0601, 0.0793, 0.0674, 0.0723, 0.0550, 0.0485, 0.0733],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 19:50:42,219 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.080e+02 4.902e+02 6.015e+02 8.099e+02 1.569e+03, threshold=1.203e+03, percent-clipped=3.0
+2023-04-01 19:50:42,516 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0949, 5.3897, 3.1722, 4.7435, 1.1563, 5.4335, 5.4618, 5.5450],
+       device='cuda:2'), covar=tensor([0.0379, 0.0928, 0.1685, 0.0595, 0.3825, 0.0564, 0.0594, 0.0785],
+       device='cuda:2'), in_proj_covar=tensor([0.0433, 0.0370, 0.0440, 0.0320, 0.0379, 0.0373, 0.0358, 0.0393],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 19:50:47,150 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9937, 4.4837, 4.7666, 4.7376, 1.7932, 4.4233, 3.8273, 4.4500],
+       device='cuda:2'), covar=tensor([0.1316, 0.0626, 0.0467, 0.0512, 0.4733, 0.0528, 0.0553, 0.0928],
+       device='cuda:2'), in_proj_covar=tensor([0.0668, 0.0602, 0.0795, 0.0676, 0.0724, 0.0552, 0.0485, 0.0734],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 19:50:51,447 INFO [train.py:903] (2/4) Epoch 11, batch 4200, loss[loss=0.2092, simple_loss=0.2822, pruned_loss=0.06809, over 19748.00 frames. ], tot_loss[loss=0.2332, simple_loss=0.3066, pruned_loss=0.0799, over 3816395.46 frames. ], batch size: 47, lr: 7.54e-03, grad_scale: 16.0
+2023-04-01 19:50:57,217 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 19:51:07,231 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=72491.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:51:56,568 INFO [train.py:903] (2/4) Epoch 11, batch 4250, loss[loss=0.2308, simple_loss=0.2917, pruned_loss=0.08491, over 19362.00 frames. ], tot_loss[loss=0.2309, simple_loss=0.3046, pruned_loss=0.07862, over 3824727.08 frames. ], batch size: 47, lr: 7.54e-03, grad_scale: 8.0
+2023-04-01 19:52:17,342 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 19:52:23,720 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8791, 4.3144, 4.5862, 4.5659, 1.6352, 4.2523, 3.7009, 4.2678],
+       device='cuda:2'), covar=tensor([0.1341, 0.0663, 0.0512, 0.0569, 0.5013, 0.0609, 0.0592, 0.0965],
+       device='cuda:2'), in_proj_covar=tensor([0.0671, 0.0603, 0.0795, 0.0679, 0.0726, 0.0554, 0.0485, 0.0735],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 19:52:23,923 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9957, 2.0580, 2.1588, 2.7501, 1.9514, 2.5864, 2.4180, 1.9861],
+       device='cuda:2'), covar=tensor([0.3674, 0.3117, 0.1553, 0.1881, 0.3479, 0.1537, 0.3529, 0.2747],
+       device='cuda:2'), in_proj_covar=tensor([0.0792, 0.0811, 0.0651, 0.0896, 0.0781, 0.0707, 0.0790, 0.0713],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 19:52:28,257 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 19:52:51,994 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.976e+02 5.433e+02 6.415e+02 7.675e+02 1.468e+03, threshold=1.283e+03, percent-clipped=2.0
+2023-04-01 19:52:58,569 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3256, 1.4714, 1.9065, 1.5597, 3.1637, 2.5337, 3.2884, 1.5691],
+       device='cuda:2'), covar=tensor([0.2382, 0.3911, 0.2357, 0.1863, 0.1506, 0.1879, 0.1720, 0.3653],
+       device='cuda:2'), in_proj_covar=tensor([0.0490, 0.0572, 0.0596, 0.0435, 0.0589, 0.0489, 0.0645, 0.0493],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 19:53:01,666 INFO [train.py:903] (2/4) Epoch 11, batch 4300, loss[loss=0.1907, simple_loss=0.2676, pruned_loss=0.05691, over 19733.00 frames. ], tot_loss[loss=0.2313, simple_loss=0.3049, pruned_loss=0.07888, over 3819671.98 frames. ], batch size: 46, lr: 7.53e-03, grad_scale: 8.0
+2023-04-01 19:53:26,286 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4300, 1.2144, 1.3601, 1.5025, 2.1726, 1.0941, 1.8902, 2.3613],
+       device='cuda:2'), covar=tensor([0.0524, 0.2064, 0.2010, 0.1167, 0.0566, 0.1713, 0.1242, 0.0403],
+       device='cuda:2'), in_proj_covar=tensor([0.0354, 0.0336, 0.0350, 0.0319, 0.0345, 0.0331, 0.0333, 0.0352],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 19:53:36,376 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=72606.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:54:00,204 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 19:54:04,818 INFO [train.py:903] (2/4) Epoch 11, batch 4350, loss[loss=0.2604, simple_loss=0.3179, pruned_loss=0.1014, over 19712.00 frames. ], tot_loss[loss=0.2341, simple_loss=0.3073, pruned_loss=0.08045, over 3817046.07 frames. ], batch size: 51, lr: 7.53e-03, grad_scale: 8.0
+2023-04-01 19:54:33,995 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=72652.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:54:58,901 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.400e+02 5.206e+02 6.524e+02 8.372e+02 1.509e+03, threshold=1.305e+03, percent-clipped=4.0
+2023-04-01 19:55:06,330 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=72677.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:55:08,352 INFO [train.py:903] (2/4) Epoch 11, batch 4400, loss[loss=0.258, simple_loss=0.3331, pruned_loss=0.09144, over 19683.00 frames. ], tot_loss[loss=0.2351, simple_loss=0.3084, pruned_loss=0.08092, over 3825730.42 frames. ], batch size: 59, lr: 7.53e-03, grad_scale: 8.0
+2023-04-01 19:55:12,322 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2799, 1.3665, 1.6980, 1.5194, 2.7654, 2.2467, 2.7108, 1.2019],
+       device='cuda:2'), covar=tensor([0.2184, 0.3763, 0.2285, 0.1687, 0.1185, 0.1723, 0.1339, 0.3447],
+       device='cuda:2'), in_proj_covar=tensor([0.0490, 0.0575, 0.0600, 0.0436, 0.0592, 0.0492, 0.0647, 0.0495],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 19:55:20,153 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=72688.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:55:37,564 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 19:55:47,774 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 19:56:12,262 INFO [train.py:903] (2/4) Epoch 11, batch 4450, loss[loss=0.2894, simple_loss=0.3525, pruned_loss=0.1132, over 19688.00 frames. ], tot_loss[loss=0.2357, simple_loss=0.3091, pruned_loss=0.08116, over 3822928.62 frames. ], batch size: 60, lr: 7.53e-03, grad_scale: 8.0
+2023-04-01 19:57:06,051 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.681e+02 5.500e+02 6.922e+02 8.863e+02 1.965e+03, threshold=1.384e+03, percent-clipped=10.0
+2023-04-01 19:57:14,268 INFO [train.py:903] (2/4) Epoch 11, batch 4500, loss[loss=0.2229, simple_loss=0.3021, pruned_loss=0.07188, over 19523.00 frames. ], tot_loss[loss=0.2365, simple_loss=0.3097, pruned_loss=0.0817, over 3820046.17 frames. ], batch size: 54, lr: 7.52e-03, grad_scale: 8.0
+2023-04-01 19:57:46,490 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=72803.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:58:19,530 INFO [train.py:903] (2/4) Epoch 11, batch 4550, loss[loss=0.2608, simple_loss=0.3303, pruned_loss=0.09569, over 19568.00 frames. ], tot_loss[loss=0.2361, simple_loss=0.3094, pruned_loss=0.08145, over 3819940.46 frames. ], batch size: 61, lr: 7.52e-03, grad_scale: 8.0
+2023-04-01 19:58:28,661 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 19:58:53,293 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 19:59:02,318 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=72862.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 19:59:15,576 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.061e+02 5.895e+02 7.318e+02 9.053e+02 1.617e+03, threshold=1.464e+03, percent-clipped=1.0
+2023-04-01 19:59:16,562 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.51 vs. limit=2.0
+2023-04-01 19:59:23,893 INFO [train.py:903] (2/4) Epoch 11, batch 4600, loss[loss=0.2754, simple_loss=0.3433, pruned_loss=0.1038, over 19683.00 frames. ], tot_loss[loss=0.2365, simple_loss=0.3096, pruned_loss=0.08173, over 3821408.86 frames. ], batch size: 59, lr: 7.52e-03, grad_scale: 8.0
+2023-04-01 19:59:34,623 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=72887.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:00:04,229 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-01 20:00:06,142 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=72912.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:00:27,766 INFO [train.py:903] (2/4) Epoch 11, batch 4650, loss[loss=0.2242, simple_loss=0.2919, pruned_loss=0.07819, over 19382.00 frames. ], tot_loss[loss=0.2362, simple_loss=0.3091, pruned_loss=0.08167, over 3835209.00 frames. ], batch size: 47, lr: 7.52e-03, grad_scale: 8.0
+2023-04-01 20:00:46,736 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 20:00:57,793 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 20:01:22,034 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.839e+02 5.234e+02 6.593e+02 8.122e+02 1.324e+03, threshold=1.319e+03, percent-clipped=0.0
+2023-04-01 20:01:30,180 INFO [train.py:903] (2/4) Epoch 11, batch 4700, loss[loss=0.2051, simple_loss=0.284, pruned_loss=0.06311, over 19751.00 frames. ], tot_loss[loss=0.2365, simple_loss=0.3091, pruned_loss=0.08195, over 3823582.57 frames. ], batch size: 51, lr: 7.51e-03, grad_scale: 8.0
+2023-04-01 20:01:34,999 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=72982.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 20:01:55,721 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 20:02:34,870 INFO [train.py:903] (2/4) Epoch 11, batch 4750, loss[loss=0.2431, simple_loss=0.3196, pruned_loss=0.08337, over 19542.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3085, pruned_loss=0.08172, over 3835476.72 frames. ], batch size: 56, lr: 7.51e-03, grad_scale: 8.0
+2023-04-01 20:03:11,993 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=73059.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:03:28,793 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.570e+02 5.728e+02 6.958e+02 8.518e+02 2.013e+03, threshold=1.392e+03, percent-clipped=2.0
+2023-04-01 20:03:37,827 INFO [train.py:903] (2/4) Epoch 11, batch 4800, loss[loss=0.2742, simple_loss=0.3468, pruned_loss=0.1008, over 19286.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3086, pruned_loss=0.08168, over 3831828.81 frames. ], batch size: 66, lr: 7.51e-03, grad_scale: 8.0
+2023-04-01 20:03:38,477 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-01 20:03:44,162 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=73084.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:04:18,421 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0113, 5.3284, 2.8941, 4.7940, 1.3337, 5.4463, 5.3413, 5.4942],
+       device='cuda:2'), covar=tensor([0.0389, 0.0937, 0.1885, 0.0572, 0.3776, 0.0573, 0.0655, 0.0926],
+       device='cuda:2'), in_proj_covar=tensor([0.0430, 0.0364, 0.0433, 0.0315, 0.0376, 0.0370, 0.0356, 0.0389],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:04:26,306 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2223, 1.3120, 1.9485, 1.4803, 2.6518, 2.0370, 2.6676, 1.3142],
+       device='cuda:2'), covar=tensor([0.2477, 0.4260, 0.2447, 0.2017, 0.1603, 0.2271, 0.1753, 0.3737],
+       device='cuda:2'), in_proj_covar=tensor([0.0490, 0.0577, 0.0601, 0.0438, 0.0591, 0.0493, 0.0645, 0.0497],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 20:04:40,996 INFO [train.py:903] (2/4) Epoch 11, batch 4850, loss[loss=0.2524, simple_loss=0.321, pruned_loss=0.09192, over 18708.00 frames. ], tot_loss[loss=0.2361, simple_loss=0.3086, pruned_loss=0.0818, over 3823981.60 frames. ], batch size: 74, lr: 7.51e-03, grad_scale: 8.0
+2023-04-01 20:05:01,963 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 20:05:22,854 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 20:05:29,947 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 20:05:29,990 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 20:05:35,783 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.053e+02 5.592e+02 6.791e+02 8.044e+02 1.982e+03, threshold=1.358e+03, percent-clipped=5.0
+2023-04-01 20:05:39,476 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 20:05:44,087 INFO [train.py:903] (2/4) Epoch 11, batch 4900, loss[loss=0.2481, simple_loss=0.3203, pruned_loss=0.08795, over 19675.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3087, pruned_loss=0.08167, over 3813978.52 frames. ], batch size: 60, lr: 7.50e-03, grad_scale: 8.0
+2023-04-01 20:05:57,048 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3420, 1.1617, 1.4248, 1.4231, 2.8386, 0.9468, 2.0479, 3.2548],
+       device='cuda:2'), covar=tensor([0.0492, 0.2768, 0.2816, 0.1842, 0.0799, 0.2637, 0.1341, 0.0304],
+       device='cuda:2'), in_proj_covar=tensor([0.0355, 0.0337, 0.0352, 0.0321, 0.0344, 0.0332, 0.0331, 0.0351],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:06:01,207 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 20:06:48,385 INFO [train.py:903] (2/4) Epoch 11, batch 4950, loss[loss=0.2456, simple_loss=0.3136, pruned_loss=0.08884, over 13445.00 frames. ], tot_loss[loss=0.2367, simple_loss=0.3092, pruned_loss=0.08209, over 3795220.45 frames. ], batch size: 136, lr: 7.50e-03, grad_scale: 8.0
+2023-04-01 20:07:00,944 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 20:07:21,304 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=73256.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:07:24,668 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 20:07:42,672 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.726e+02 5.448e+02 7.218e+02 1.051e+03 2.092e+03, threshold=1.444e+03, percent-clipped=5.0
+2023-04-01 20:07:51,019 INFO [train.py:903] (2/4) Epoch 11, batch 5000, loss[loss=0.2185, simple_loss=0.3015, pruned_loss=0.06775, over 19571.00 frames. ], tot_loss[loss=0.2381, simple_loss=0.3105, pruned_loss=0.08281, over 3807943.34 frames. ], batch size: 61, lr: 7.50e-03, grad_scale: 8.0
+2023-04-01 20:07:55,880 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 20:08:08,614 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 20:08:32,086 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=73311.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:08:50,649 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=73326.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 20:08:54,855 INFO [train.py:903] (2/4) Epoch 11, batch 5050, loss[loss=0.2054, simple_loss=0.2896, pruned_loss=0.06062, over 19844.00 frames. ], tot_loss[loss=0.2367, simple_loss=0.3095, pruned_loss=0.08197, over 3813676.64 frames. ], batch size: 52, lr: 7.50e-03, grad_scale: 8.0
+2023-04-01 20:09:28,948 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 20:09:47,564 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=73371.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:09:48,288 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.996e+02 5.337e+02 6.487e+02 8.820e+02 1.986e+03, threshold=1.297e+03, percent-clipped=3.0
+2023-04-01 20:09:56,488 INFO [train.py:903] (2/4) Epoch 11, batch 5100, loss[loss=0.2606, simple_loss=0.3314, pruned_loss=0.09495, over 19734.00 frames. ], tot_loss[loss=0.2384, simple_loss=0.3109, pruned_loss=0.08292, over 3802572.16 frames. ], batch size: 63, lr: 7.49e-03, grad_scale: 8.0
+2023-04-01 20:10:04,911 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 20:10:10,263 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 20:10:13,761 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 20:10:22,107 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2958, 2.0855, 1.6490, 1.9235, 0.7078, 2.0352, 1.9542, 2.0380],
+       device='cuda:2'), covar=tensor([0.1146, 0.1049, 0.1632, 0.0759, 0.2841, 0.0934, 0.0887, 0.1168],
+       device='cuda:2'), in_proj_covar=tensor([0.0432, 0.0363, 0.0437, 0.0317, 0.0379, 0.0373, 0.0357, 0.0390],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:11:00,239 INFO [train.py:903] (2/4) Epoch 11, batch 5150, loss[loss=0.2517, simple_loss=0.3139, pruned_loss=0.09476, over 19618.00 frames. ], tot_loss[loss=0.2364, simple_loss=0.309, pruned_loss=0.08187, over 3806679.33 frames. ], batch size: 50, lr: 7.49e-03, grad_scale: 8.0
+2023-04-01 20:11:09,664 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 20:11:16,074 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=73441.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 20:11:31,598 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6854, 1.3399, 1.4705, 1.4375, 3.2351, 0.9713, 2.2422, 3.5323],
+       device='cuda:2'), covar=tensor([0.0453, 0.2605, 0.2559, 0.1783, 0.0724, 0.2585, 0.1200, 0.0293],
+       device='cuda:2'), in_proj_covar=tensor([0.0354, 0.0334, 0.0348, 0.0320, 0.0344, 0.0331, 0.0328, 0.0350],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:11:43,044 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 20:11:50,701 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-01 20:11:54,728 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.282e+02 5.910e+02 7.077e+02 9.438e+02 2.777e+03, threshold=1.415e+03, percent-clipped=4.0
+2023-04-01 20:12:03,999 INFO [train.py:903] (2/4) Epoch 11, batch 5200, loss[loss=0.2116, simple_loss=0.2836, pruned_loss=0.06979, over 19760.00 frames. ], tot_loss[loss=0.2358, simple_loss=0.309, pruned_loss=0.08129, over 3811588.31 frames. ], batch size: 47, lr: 7.49e-03, grad_scale: 8.0
+2023-04-01 20:12:16,613 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 20:13:00,075 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 20:13:07,095 INFO [train.py:903] (2/4) Epoch 11, batch 5250, loss[loss=0.222, simple_loss=0.2882, pruned_loss=0.07788, over 19751.00 frames. ], tot_loss[loss=0.2358, simple_loss=0.3091, pruned_loss=0.08122, over 3818513.33 frames. ], batch size: 46, lr: 7.49e-03, grad_scale: 8.0
+2023-04-01 20:14:02,595 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.872e+02 5.338e+02 6.658e+02 8.757e+02 1.866e+03, threshold=1.332e+03, percent-clipped=3.0
+2023-04-01 20:14:11,101 INFO [train.py:903] (2/4) Epoch 11, batch 5300, loss[loss=0.2478, simple_loss=0.3192, pruned_loss=0.08826, over 19342.00 frames. ], tot_loss[loss=0.2355, simple_loss=0.3085, pruned_loss=0.08124, over 3806980.80 frames. ], batch size: 66, lr: 7.48e-03, grad_scale: 8.0
+2023-04-01 20:14:26,078 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 20:14:31,192 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0454, 1.9912, 1.7753, 1.5661, 1.4843, 1.6062, 0.3579, 0.9072],
+       device='cuda:2'), covar=tensor([0.0413, 0.0403, 0.0284, 0.0435, 0.0831, 0.0518, 0.0820, 0.0697],
+       device='cuda:2'), in_proj_covar=tensor([0.0334, 0.0326, 0.0329, 0.0348, 0.0424, 0.0349, 0.0304, 0.0318],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 20:14:43,172 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3022, 3.7563, 3.8641, 3.8730, 1.5077, 3.6556, 3.1879, 3.5804],
+       device='cuda:2'), covar=tensor([0.1434, 0.0843, 0.0629, 0.0693, 0.4899, 0.0702, 0.0692, 0.1143],
+       device='cuda:2'), in_proj_covar=tensor([0.0666, 0.0600, 0.0794, 0.0678, 0.0724, 0.0553, 0.0485, 0.0730],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 20:14:49,205 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=73608.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:15:13,570 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=73627.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:15:15,324 INFO [train.py:903] (2/4) Epoch 11, batch 5350, loss[loss=0.2187, simple_loss=0.2934, pruned_loss=0.072, over 19670.00 frames. ], tot_loss[loss=0.2348, simple_loss=0.3079, pruned_loss=0.08087, over 3800258.01 frames. ], batch size: 53, lr: 7.48e-03, grad_scale: 8.0
+2023-04-01 20:15:46,128 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=73652.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:15:46,890 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 20:15:49,353 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=73655.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:16:09,902 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.174e+02 5.285e+02 6.573e+02 8.256e+02 1.333e+03, threshold=1.315e+03, percent-clipped=1.0
+2023-04-01 20:16:19,909 INFO [train.py:903] (2/4) Epoch 11, batch 5400, loss[loss=0.2589, simple_loss=0.3105, pruned_loss=0.1037, over 19768.00 frames. ], tot_loss[loss=0.2337, simple_loss=0.3067, pruned_loss=0.08037, over 3816011.38 frames. ], batch size: 47, lr: 7.48e-03, grad_scale: 8.0
+2023-04-01 20:16:41,375 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=73697.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 20:17:13,047 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=73722.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 20:17:20,604 INFO [train.py:903] (2/4) Epoch 11, batch 5450, loss[loss=0.2525, simple_loss=0.3282, pruned_loss=0.08837, over 18210.00 frames. ], tot_loss[loss=0.2353, simple_loss=0.3081, pruned_loss=0.08123, over 3831064.13 frames. ], batch size: 83, lr: 7.48e-03, grad_scale: 8.0
+2023-04-01 20:17:45,882 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=73750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:18:12,036 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=73770.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:18:14,011 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.246e+02 5.707e+02 7.323e+02 9.356e+02 2.024e+03, threshold=1.465e+03, percent-clipped=8.0
+2023-04-01 20:18:23,367 INFO [train.py:903] (2/4) Epoch 11, batch 5500, loss[loss=0.1995, simple_loss=0.2707, pruned_loss=0.06422, over 17774.00 frames. ], tot_loss[loss=0.235, simple_loss=0.3077, pruned_loss=0.08116, over 3837292.22 frames. ], batch size: 39, lr: 7.47e-03, grad_scale: 8.0
+2023-04-01 20:18:50,416 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 20:19:25,476 INFO [train.py:903] (2/4) Epoch 11, batch 5550, loss[loss=0.264, simple_loss=0.3356, pruned_loss=0.09618, over 17451.00 frames. ], tot_loss[loss=0.2353, simple_loss=0.3081, pruned_loss=0.08126, over 3838691.11 frames. ], batch size: 101, lr: 7.47e-03, grad_scale: 8.0
+2023-04-01 20:19:35,108 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 20:20:04,832 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0498, 1.2901, 1.6253, 0.5985, 2.1451, 2.4444, 2.1506, 2.5767],
+       device='cuda:2'), covar=tensor([0.1342, 0.3172, 0.2810, 0.2255, 0.0440, 0.0246, 0.0335, 0.0274],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0292, 0.0321, 0.0248, 0.0212, 0.0156, 0.0205, 0.0200],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 20:20:20,659 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.349e+02 5.761e+02 6.752e+02 8.536e+02 1.570e+03, threshold=1.350e+03, percent-clipped=1.0
+2023-04-01 20:20:26,357 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 20:20:29,856 INFO [train.py:903] (2/4) Epoch 11, batch 5600, loss[loss=0.2683, simple_loss=0.3379, pruned_loss=0.09931, over 19742.00 frames. ], tot_loss[loss=0.2344, simple_loss=0.3074, pruned_loss=0.08068, over 3832625.08 frames. ], batch size: 51, lr: 7.47e-03, grad_scale: 8.0
+2023-04-01 20:21:24,767 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0784, 1.1331, 1.3125, 1.3521, 2.6054, 1.0265, 1.9365, 2.9179],
+       device='cuda:2'), covar=tensor([0.0480, 0.2726, 0.2809, 0.1753, 0.0786, 0.2375, 0.1242, 0.0372],
+       device='cuda:2'), in_proj_covar=tensor([0.0353, 0.0338, 0.0349, 0.0322, 0.0347, 0.0331, 0.0332, 0.0353],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:21:34,086 INFO [train.py:903] (2/4) Epoch 11, batch 5650, loss[loss=0.2646, simple_loss=0.332, pruned_loss=0.09858, over 19310.00 frames. ], tot_loss[loss=0.236, simple_loss=0.3089, pruned_loss=0.08155, over 3822119.52 frames. ], batch size: 70, lr: 7.47e-03, grad_scale: 8.0
+2023-04-01 20:21:41,800 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-01 20:21:42,590 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4120, 1.4792, 1.7482, 1.4888, 2.2998, 2.6688, 2.5723, 2.7847],
+       device='cuda:2'), covar=tensor([0.1259, 0.2643, 0.2424, 0.1942, 0.0997, 0.0396, 0.0228, 0.0282],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0294, 0.0322, 0.0250, 0.0214, 0.0157, 0.0206, 0.0201],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 20:22:03,008 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=73952.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:22:23,912 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 20:22:28,528 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.512e+02 5.880e+02 7.006e+02 8.632e+02 1.687e+03, threshold=1.401e+03, percent-clipped=2.0
+2023-04-01 20:22:37,797 INFO [train.py:903] (2/4) Epoch 11, batch 5700, loss[loss=0.2351, simple_loss=0.3163, pruned_loss=0.07693, over 19613.00 frames. ], tot_loss[loss=0.2348, simple_loss=0.3081, pruned_loss=0.08074, over 3823797.76 frames. ], batch size: 57, lr: 7.46e-03, grad_scale: 8.0
+2023-04-01 20:23:13,060 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3456, 1.4292, 1.7503, 1.5951, 2.7302, 2.2001, 2.8336, 1.1810],
+       device='cuda:2'), covar=tensor([0.2154, 0.3550, 0.2174, 0.1591, 0.1291, 0.1788, 0.1271, 0.3495],
+       device='cuda:2'), in_proj_covar=tensor([0.0492, 0.0574, 0.0599, 0.0436, 0.0594, 0.0492, 0.0645, 0.0494],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 20:23:38,876 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74026.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:23:42,014 INFO [train.py:903] (2/4) Epoch 11, batch 5750, loss[loss=0.2685, simple_loss=0.3337, pruned_loss=0.1017, over 19663.00 frames. ], tot_loss[loss=0.2354, simple_loss=0.3082, pruned_loss=0.08127, over 3823128.13 frames. ], batch size: 60, lr: 7.46e-03, grad_scale: 8.0
+2023-04-01 20:23:43,294 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 20:23:51,346 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 20:23:56,775 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 20:24:11,320 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74051.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:24:30,624 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=74067.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:24:36,271 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.134e+02 5.413e+02 6.547e+02 7.617e+02 1.298e+03, threshold=1.309e+03, percent-clipped=0.0
+2023-04-01 20:24:45,231 INFO [train.py:903] (2/4) Epoch 11, batch 5800, loss[loss=0.2619, simple_loss=0.3191, pruned_loss=0.1023, over 19273.00 frames. ], tot_loss[loss=0.2366, simple_loss=0.3094, pruned_loss=0.08187, over 3808979.86 frames. ], batch size: 66, lr: 7.46e-03, grad_scale: 8.0
+2023-04-01 20:24:50,616 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:25:04,161 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=74094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:25:46,660 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2438, 1.2826, 1.2349, 1.0415, 1.0182, 1.1004, 0.0653, 0.3780],
+       device='cuda:2'), covar=tensor([0.0461, 0.0422, 0.0250, 0.0334, 0.0815, 0.0372, 0.0765, 0.0682],
+       device='cuda:2'), in_proj_covar=tensor([0.0331, 0.0325, 0.0327, 0.0346, 0.0421, 0.0344, 0.0305, 0.0318],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 20:25:48,487 INFO [train.py:903] (2/4) Epoch 11, batch 5850, loss[loss=0.1809, simple_loss=0.2568, pruned_loss=0.05246, over 19811.00 frames. ], tot_loss[loss=0.2371, simple_loss=0.3096, pruned_loss=0.08226, over 3805169.66 frames. ], batch size: 49, lr: 7.46e-03, grad_scale: 8.0
+2023-04-01 20:25:52,584 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=2.04 vs. limit=2.0
+2023-04-01 20:26:04,731 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
+2023-04-01 20:26:41,993 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.778e+02 5.734e+02 7.251e+02 9.100e+02 2.751e+03, threshold=1.450e+03, percent-clipped=7.0
+2023-04-01 20:26:51,312 INFO [train.py:903] (2/4) Epoch 11, batch 5900, loss[loss=0.2217, simple_loss=0.2967, pruned_loss=0.07339, over 19599.00 frames. ], tot_loss[loss=0.2379, simple_loss=0.3099, pruned_loss=0.08292, over 3790882.43 frames. ], batch size: 52, lr: 7.45e-03, grad_scale: 8.0
+2023-04-01 20:26:53,556 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 20:27:15,051 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 20:27:30,967 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=74209.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:27:55,171 INFO [train.py:903] (2/4) Epoch 11, batch 5950, loss[loss=0.2367, simple_loss=0.3203, pruned_loss=0.07652, over 19480.00 frames. ], tot_loss[loss=0.2364, simple_loss=0.3086, pruned_loss=0.08206, over 3792337.92 frames. ], batch size: 64, lr: 7.45e-03, grad_scale: 8.0
+2023-04-01 20:28:33,387 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74258.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:28:49,682 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.166e+02 4.883e+02 6.160e+02 7.607e+02 1.521e+03, threshold=1.232e+03, percent-clipped=1.0
+2023-04-01 20:28:59,175 INFO [train.py:903] (2/4) Epoch 11, batch 6000, loss[loss=0.2192, simple_loss=0.2903, pruned_loss=0.07399, over 19622.00 frames. ], tot_loss[loss=0.2349, simple_loss=0.3074, pruned_loss=0.08125, over 3795627.92 frames. ], batch size: 50, lr: 7.45e-03, grad_scale: 8.0
+2023-04-01 20:28:59,175 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 20:29:11,911 INFO [train.py:937] (2/4) Epoch 11, validation: loss=0.1778, simple_loss=0.2787, pruned_loss=0.03847, over 944034.00 frames. 
+2023-04-01 20:29:11,912 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 20:30:09,788 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74323.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:30:18,379 INFO [train.py:903] (2/4) Epoch 11, batch 6050, loss[loss=0.1847, simple_loss=0.2624, pruned_loss=0.05354, over 19614.00 frames. ], tot_loss[loss=0.2341, simple_loss=0.3065, pruned_loss=0.08084, over 3781563.42 frames. ], batch size: 50, lr: 7.45e-03, grad_scale: 8.0
+2023-04-01 20:30:42,810 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74348.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:31:12,597 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.290e+02 5.870e+02 7.295e+02 8.913e+02 1.728e+03, threshold=1.459e+03, percent-clipped=8.0
+2023-04-01 20:31:21,958 INFO [train.py:903] (2/4) Epoch 11, batch 6100, loss[loss=0.1915, simple_loss=0.2601, pruned_loss=0.06143, over 19754.00 frames. ], tot_loss[loss=0.2347, simple_loss=0.307, pruned_loss=0.08121, over 3781629.88 frames. ], batch size: 46, lr: 7.44e-03, grad_scale: 8.0
+2023-04-01 20:32:22,433 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=74426.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:32:25,903 INFO [train.py:903] (2/4) Epoch 11, batch 6150, loss[loss=0.2117, simple_loss=0.2861, pruned_loss=0.06871, over 19859.00 frames. ], tot_loss[loss=0.2338, simple_loss=0.3067, pruned_loss=0.08044, over 3797938.89 frames. ], batch size: 52, lr: 7.44e-03, grad_scale: 8.0
+2023-04-01 20:32:54,707 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 20:33:12,678 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74465.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:33:20,925 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.809e+02 5.576e+02 6.382e+02 8.608e+02 2.367e+03, threshold=1.276e+03, percent-clipped=4.0
+2023-04-01 20:33:29,311 INFO [train.py:903] (2/4) Epoch 11, batch 6200, loss[loss=0.2341, simple_loss=0.3118, pruned_loss=0.07825, over 18812.00 frames. ], tot_loss[loss=0.2345, simple_loss=0.3075, pruned_loss=0.08076, over 3810825.94 frames. ], batch size: 74, lr: 7.44e-03, grad_scale: 8.0
+2023-04-01 20:33:34,560 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4421, 2.0699, 2.0002, 2.5350, 2.2718, 2.2930, 2.0142, 2.4699],
+       device='cuda:2'), covar=tensor([0.0838, 0.1587, 0.1309, 0.0853, 0.1234, 0.0415, 0.1041, 0.0577],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0349, 0.0291, 0.0237, 0.0295, 0.0241, 0.0277, 0.0237],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:33:43,973 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74490.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:33:47,334 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2637, 1.0762, 1.6414, 1.4256, 2.6488, 3.5960, 3.4171, 3.9063],
+       device='cuda:2'), covar=tensor([0.1744, 0.4807, 0.3973, 0.2122, 0.0620, 0.0167, 0.0261, 0.0217],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0294, 0.0321, 0.0249, 0.0213, 0.0156, 0.0206, 0.0201],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 20:34:31,914 INFO [train.py:903] (2/4) Epoch 11, batch 6250, loss[loss=0.2128, simple_loss=0.2965, pruned_loss=0.06453, over 19773.00 frames. ], tot_loss[loss=0.2348, simple_loss=0.3077, pruned_loss=0.08095, over 3810978.52 frames. ], batch size: 54, lr: 7.44e-03, grad_scale: 8.0
+2023-04-01 20:34:48,607 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=74541.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:34:53,764 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2770, 2.9595, 2.1611, 2.1287, 2.0656, 2.4211, 0.6993, 2.0282],
+       device='cuda:2'), covar=tensor([0.0421, 0.0399, 0.0544, 0.0855, 0.0853, 0.0755, 0.1068, 0.0879],
+       device='cuda:2'), in_proj_covar=tensor([0.0338, 0.0332, 0.0332, 0.0353, 0.0427, 0.0352, 0.0308, 0.0325],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 20:35:02,953 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 20:35:30,751 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.915e+02 5.334e+02 6.699e+02 8.918e+02 1.691e+03, threshold=1.340e+03, percent-clipped=6.0
+2023-04-01 20:35:38,657 INFO [train.py:903] (2/4) Epoch 11, batch 6300, loss[loss=0.3068, simple_loss=0.3606, pruned_loss=0.1265, over 19672.00 frames. ], tot_loss[loss=0.2332, simple_loss=0.3062, pruned_loss=0.08005, over 3810439.38 frames. ], batch size: 58, lr: 7.43e-03, grad_scale: 8.0
+2023-04-01 20:36:06,824 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=74602.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:36:21,221 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74613.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:36:40,491 INFO [train.py:903] (2/4) Epoch 11, batch 6350, loss[loss=0.2684, simple_loss=0.3422, pruned_loss=0.09732, over 17998.00 frames. ], tot_loss[loss=0.2344, simple_loss=0.3074, pruned_loss=0.08069, over 3804867.25 frames. ], batch size: 83, lr: 7.43e-03, grad_scale: 8.0
+2023-04-01 20:37:36,492 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.847e+02 5.622e+02 6.880e+02 9.256e+02 3.776e+03, threshold=1.376e+03, percent-clipped=5.0
+2023-04-01 20:37:44,831 INFO [train.py:903] (2/4) Epoch 11, batch 6400, loss[loss=0.2082, simple_loss=0.2856, pruned_loss=0.06535, over 19624.00 frames. ], tot_loss[loss=0.2331, simple_loss=0.3064, pruned_loss=0.07992, over 3821619.33 frames. ], batch size: 50, lr: 7.43e-03, grad_scale: 8.0
+2023-04-01 20:37:56,012 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-01 20:38:02,535 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7003, 2.2614, 2.1369, 2.7247, 2.6721, 2.2109, 2.1286, 2.7825],
+       device='cuda:2'), covar=tensor([0.0843, 0.1626, 0.1409, 0.0921, 0.1161, 0.0506, 0.1164, 0.0579],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0351, 0.0291, 0.0238, 0.0298, 0.0243, 0.0278, 0.0239],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:38:33,497 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=74717.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:38:46,853 INFO [train.py:903] (2/4) Epoch 11, batch 6450, loss[loss=0.1803, simple_loss=0.2649, pruned_loss=0.04785, over 19665.00 frames. ], tot_loss[loss=0.2335, simple_loss=0.3068, pruned_loss=0.08009, over 3814420.09 frames. ], batch size: 53, lr: 7.43e-03, grad_scale: 8.0
+2023-04-01 20:39:25,282 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0695, 1.9288, 1.6577, 2.0449, 2.2331, 1.7636, 1.6632, 1.9800],
+       device='cuda:2'), covar=tensor([0.0898, 0.1353, 0.1368, 0.0907, 0.0971, 0.0506, 0.1154, 0.0653],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0351, 0.0293, 0.0239, 0.0298, 0.0244, 0.0279, 0.0240],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:39:28,514 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 20:39:44,917 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.542e+02 5.590e+02 7.165e+02 9.175e+02 2.194e+03, threshold=1.433e+03, percent-clipped=7.0
+2023-04-01 20:39:53,340 INFO [train.py:903] (2/4) Epoch 11, batch 6500, loss[loss=0.238, simple_loss=0.3195, pruned_loss=0.07823, over 19661.00 frames. ], tot_loss[loss=0.234, simple_loss=0.3072, pruned_loss=0.08038, over 3809321.08 frames. ], batch size: 55, lr: 7.42e-03, grad_scale: 8.0
+2023-04-01 20:39:54,563 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 20:40:16,067 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74797.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:40:48,452 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74822.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:40:56,364 INFO [train.py:903] (2/4) Epoch 11, batch 6550, loss[loss=0.2377, simple_loss=0.3099, pruned_loss=0.08276, over 17466.00 frames. ], tot_loss[loss=0.2329, simple_loss=0.3065, pruned_loss=0.0797, over 3805379.97 frames. ], batch size: 101, lr: 7.42e-03, grad_scale: 8.0
+2023-04-01 20:40:56,798 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3274, 2.2163, 1.8803, 1.8278, 1.6861, 1.8164, 0.4954, 1.1917],
+       device='cuda:2'), covar=tensor([0.0412, 0.0396, 0.0333, 0.0492, 0.0795, 0.0635, 0.0914, 0.0756],
+       device='cuda:2'), in_proj_covar=tensor([0.0341, 0.0331, 0.0333, 0.0354, 0.0429, 0.0353, 0.0312, 0.0328],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 20:41:52,114 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.386e+02 5.036e+02 6.201e+02 8.020e+02 1.527e+03, threshold=1.240e+03, percent-clipped=1.0
+2023-04-01 20:41:59,113 INFO [train.py:903] (2/4) Epoch 11, batch 6600, loss[loss=0.2432, simple_loss=0.327, pruned_loss=0.07968, over 19507.00 frames. ], tot_loss[loss=0.2334, simple_loss=0.3068, pruned_loss=0.07998, over 3798136.18 frames. ], batch size: 64, lr: 7.42e-03, grad_scale: 8.0
+2023-04-01 20:42:16,807 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.86 vs. limit=5.0
+2023-04-01 20:42:46,181 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4311, 1.5023, 1.8718, 1.6428, 2.7546, 2.2554, 2.8424, 1.1942],
+       device='cuda:2'), covar=tensor([0.2070, 0.3533, 0.2087, 0.1642, 0.1278, 0.1801, 0.1335, 0.3575],
+       device='cuda:2'), in_proj_covar=tensor([0.0496, 0.0577, 0.0604, 0.0441, 0.0597, 0.0493, 0.0651, 0.0495],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 20:43:01,227 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:43:03,142 INFO [train.py:903] (2/4) Epoch 11, batch 6650, loss[loss=0.2402, simple_loss=0.3131, pruned_loss=0.08362, over 19316.00 frames. ], tot_loss[loss=0.2337, simple_loss=0.3072, pruned_loss=0.08004, over 3797496.73 frames. ], batch size: 70, lr: 7.42e-03, grad_scale: 8.0
+2023-04-01 20:43:32,787 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6701, 2.2960, 2.3948, 2.7361, 2.7124, 2.3876, 1.9853, 2.7877],
+       device='cuda:2'), covar=tensor([0.0784, 0.1478, 0.1142, 0.0857, 0.1032, 0.0414, 0.1088, 0.0520],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0352, 0.0291, 0.0239, 0.0296, 0.0242, 0.0279, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:43:40,238 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=74957.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:44:00,893 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.349e+02 5.506e+02 7.046e+02 9.043e+02 1.602e+03, threshold=1.409e+03, percent-clipped=2.0
+2023-04-01 20:44:01,376 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=74973.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:44:07,812 INFO [train.py:903] (2/4) Epoch 11, batch 6700, loss[loss=0.2356, simple_loss=0.3144, pruned_loss=0.07839, over 19655.00 frames. ], tot_loss[loss=0.2322, simple_loss=0.306, pruned_loss=0.07916, over 3815679.78 frames. ], batch size: 55, lr: 7.41e-03, grad_scale: 8.0
+2023-04-01 20:44:12,449 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=74982.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:44:31,775 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=74998.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:45:06,536 INFO [train.py:903] (2/4) Epoch 11, batch 6750, loss[loss=0.2461, simple_loss=0.2993, pruned_loss=0.09643, over 19780.00 frames. ], tot_loss[loss=0.2335, simple_loss=0.307, pruned_loss=0.07998, over 3821309.02 frames. ], batch size: 47, lr: 7.41e-03, grad_scale: 8.0
+2023-04-01 20:45:30,092 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-01 20:45:55,356 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75072.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:45:56,179 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.565e+02 5.649e+02 7.002e+02 8.709e+02 1.691e+03, threshold=1.400e+03, percent-clipped=2.0
+2023-04-01 20:46:04,201 INFO [train.py:903] (2/4) Epoch 11, batch 6800, loss[loss=0.2525, simple_loss=0.3275, pruned_loss=0.08868, over 19538.00 frames. ], tot_loss[loss=0.2341, simple_loss=0.3073, pruned_loss=0.08048, over 3813341.44 frames. ], batch size: 54, lr: 7.41e-03, grad_scale: 8.0
+2023-04-01 20:46:52,590 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 20:46:53,156 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 20:46:56,127 INFO [train.py:903] (2/4) Epoch 12, batch 0, loss[loss=0.2374, simple_loss=0.3074, pruned_loss=0.08374, over 19774.00 frames. ], tot_loss[loss=0.2374, simple_loss=0.3074, pruned_loss=0.08374, over 19774.00 frames. ], batch size: 54, lr: 7.10e-03, grad_scale: 8.0
+2023-04-01 20:46:56,128 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 20:47:05,124 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8526, 2.5523, 1.9920, 2.4348, 0.5865, 2.4379, 2.4048, 2.6211],
+       device='cuda:2'), covar=tensor([0.0613, 0.0694, 0.1474, 0.0754, 0.3129, 0.0883, 0.0703, 0.0799],
+       device='cuda:2'), in_proj_covar=tensor([0.0430, 0.0361, 0.0432, 0.0312, 0.0374, 0.0364, 0.0352, 0.0385],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-01 20:47:08,135 INFO [train.py:937] (2/4) Epoch 12, validation: loss=0.1777, simple_loss=0.2788, pruned_loss=0.03825, over 944034.00 frames. 
+2023-04-01 20:47:08,136 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 20:47:20,786 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 20:47:58,798 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
+2023-04-01 20:48:11,512 INFO [train.py:903] (2/4) Epoch 12, batch 50, loss[loss=0.1911, simple_loss=0.2761, pruned_loss=0.05305, over 19840.00 frames. ], tot_loss[loss=0.2322, simple_loss=0.3063, pruned_loss=0.07907, over 854144.69 frames. ], batch size: 52, lr: 7.09e-03, grad_scale: 8.0
+2023-04-01 20:48:29,486 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.226e+02 5.251e+02 6.823e+02 1.011e+03 3.055e+03, threshold=1.365e+03, percent-clipped=9.0
+2023-04-01 20:48:41,949 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 20:48:54,700 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-01 20:49:13,865 INFO [train.py:903] (2/4) Epoch 12, batch 100, loss[loss=0.2041, simple_loss=0.2903, pruned_loss=0.05892, over 19773.00 frames. ], tot_loss[loss=0.2354, simple_loss=0.3084, pruned_loss=0.08118, over 1513593.00 frames. ], batch size: 54, lr: 7.09e-03, grad_scale: 8.0
+2023-04-01 20:49:22,088 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 20:50:02,892 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=75246.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:50:16,759 INFO [train.py:903] (2/4) Epoch 12, batch 150, loss[loss=0.2129, simple_loss=0.3002, pruned_loss=0.06277, over 19699.00 frames. ], tot_loss[loss=0.23, simple_loss=0.3041, pruned_loss=0.07794, over 2042724.72 frames. ], batch size: 59, lr: 7.09e-03, grad_scale: 8.0
+2023-04-01 20:50:34,005 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75271.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:50:36,108 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.416e+02 5.206e+02 6.373e+02 8.343e+02 1.576e+03, threshold=1.275e+03, percent-clipped=5.0
+2023-04-01 20:50:47,874 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8013, 1.5382, 1.4151, 1.6967, 1.7058, 1.6010, 1.2813, 1.6896],
+       device='cuda:2'), covar=tensor([0.0978, 0.1263, 0.1435, 0.0928, 0.0994, 0.0522, 0.1322, 0.0722],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0350, 0.0288, 0.0239, 0.0293, 0.0242, 0.0276, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:50:56,167 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=75288.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:51:15,335 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 20:51:18,699 INFO [train.py:903] (2/4) Epoch 12, batch 200, loss[loss=0.1958, simple_loss=0.2733, pruned_loss=0.0592, over 19614.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3049, pruned_loss=0.07824, over 2448660.67 frames. ], batch size: 50, lr: 7.09e-03, grad_scale: 8.0
+2023-04-01 20:51:42,621 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75326.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:51:45,333 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=75328.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:52:02,505 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2995, 3.0369, 2.3466, 2.3921, 2.1109, 2.4496, 1.0349, 2.0803],
+       device='cuda:2'), covar=tensor([0.0403, 0.0373, 0.0464, 0.0733, 0.0823, 0.0703, 0.0903, 0.0788],
+       device='cuda:2'), in_proj_covar=tensor([0.0341, 0.0331, 0.0330, 0.0357, 0.0430, 0.0353, 0.0309, 0.0325],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 20:52:16,217 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=75353.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:52:22,162 INFO [train.py:903] (2/4) Epoch 12, batch 250, loss[loss=0.262, simple_loss=0.3331, pruned_loss=0.09546, over 17140.00 frames. ], tot_loss[loss=0.2309, simple_loss=0.3042, pruned_loss=0.07874, over 2756146.39 frames. ], batch size: 101, lr: 7.08e-03, grad_scale: 8.0
+2023-04-01 20:52:41,708 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.835e+02 5.714e+02 6.835e+02 8.470e+02 1.829e+03, threshold=1.367e+03, percent-clipped=2.0
+2023-04-01 20:52:56,657 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75386.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:53:25,593 INFO [train.py:903] (2/4) Epoch 12, batch 300, loss[loss=0.2512, simple_loss=0.3278, pruned_loss=0.08734, over 19440.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3044, pruned_loss=0.07848, over 3010666.42 frames. ], batch size: 70, lr: 7.08e-03, grad_scale: 8.0
+2023-04-01 20:54:07,383 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75441.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:54:28,456 INFO [train.py:903] (2/4) Epoch 12, batch 350, loss[loss=0.2423, simple_loss=0.3201, pruned_loss=0.0822, over 19376.00 frames. ], tot_loss[loss=0.2318, simple_loss=0.3053, pruned_loss=0.07919, over 3185488.40 frames. ], batch size: 70, lr: 7.08e-03, grad_scale: 8.0
+2023-04-01 20:54:31,938 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 20:54:45,902 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.322e+02 5.463e+02 6.814e+02 8.627e+02 1.955e+03, threshold=1.363e+03, percent-clipped=3.0
+2023-04-01 20:55:30,816 INFO [train.py:903] (2/4) Epoch 12, batch 400, loss[loss=0.2003, simple_loss=0.2696, pruned_loss=0.06553, over 19378.00 frames. ], tot_loss[loss=0.231, simple_loss=0.3046, pruned_loss=0.07872, over 3330607.34 frames. ], batch size: 48, lr: 7.08e-03, grad_scale: 8.0
+2023-04-01 20:56:16,899 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6474, 1.7495, 1.9832, 1.8267, 2.7926, 2.4888, 2.9392, 1.5965],
+       device='cuda:2'), covar=tensor([0.1765, 0.3002, 0.1799, 0.1415, 0.1124, 0.1431, 0.1140, 0.2794],
+       device='cuda:2'), in_proj_covar=tensor([0.0492, 0.0577, 0.0604, 0.0438, 0.0598, 0.0493, 0.0646, 0.0492],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 20:56:32,364 INFO [train.py:903] (2/4) Epoch 12, batch 450, loss[loss=0.1853, simple_loss=0.2561, pruned_loss=0.05725, over 19756.00 frames. ], tot_loss[loss=0.2315, simple_loss=0.3051, pruned_loss=0.07894, over 3432653.24 frames. ], batch size: 46, lr: 7.07e-03, grad_scale: 8.0
+2023-04-01 20:56:51,545 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.480e+02 5.172e+02 6.423e+02 7.976e+02 2.291e+03, threshold=1.285e+03, percent-clipped=4.0
+2023-04-01 20:57:09,452 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 20:57:10,714 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 20:57:13,222 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75590.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:57:17,008 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.5404, 4.6748, 5.2281, 5.2259, 2.1209, 4.8568, 4.2147, 4.8757],
+       device='cuda:2'), covar=tensor([0.1240, 0.1193, 0.0543, 0.0537, 0.5122, 0.0629, 0.0583, 0.1057],
+       device='cuda:2'), in_proj_covar=tensor([0.0677, 0.0603, 0.0804, 0.0688, 0.0731, 0.0559, 0.0492, 0.0741],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 20:57:36,531 INFO [train.py:903] (2/4) Epoch 12, batch 500, loss[loss=0.2334, simple_loss=0.3088, pruned_loss=0.07905, over 19584.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3042, pruned_loss=0.07834, over 3524137.69 frames. ], batch size: 61, lr: 7.07e-03, grad_scale: 8.0
+2023-04-01 20:58:06,138 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=75632.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:58:18,048 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=75642.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:58:38,563 INFO [train.py:903] (2/4) Epoch 12, batch 550, loss[loss=0.1938, simple_loss=0.267, pruned_loss=0.0603, over 19747.00 frames. ], tot_loss[loss=0.2303, simple_loss=0.3042, pruned_loss=0.0782, over 3600578.32 frames. ], batch size: 45, lr: 7.07e-03, grad_scale: 8.0
+2023-04-01 20:58:50,431 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=75667.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:58:56,735 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.239e+02 5.816e+02 6.939e+02 9.327e+02 2.224e+03, threshold=1.388e+03, percent-clipped=13.0
+2023-04-01 20:59:09,126 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-01 20:59:24,527 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5655, 1.1925, 1.3284, 1.5946, 3.0845, 0.9924, 2.1881, 3.4167],
+       device='cuda:2'), covar=tensor([0.0450, 0.2853, 0.2886, 0.1765, 0.0768, 0.2699, 0.1332, 0.0301],
+       device='cuda:2'), in_proj_covar=tensor([0.0357, 0.0340, 0.0351, 0.0319, 0.0347, 0.0330, 0.0333, 0.0354],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 20:59:26,880 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=75697.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:59:38,252 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75705.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 20:59:41,416 INFO [train.py:903] (2/4) Epoch 12, batch 600, loss[loss=0.2446, simple_loss=0.3283, pruned_loss=0.08039, over 19081.00 frames. ], tot_loss[loss=0.2297, simple_loss=0.3038, pruned_loss=0.07776, over 3650043.29 frames. ], batch size: 69, lr: 7.07e-03, grad_scale: 8.0
+2023-04-01 20:59:57,543 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=75722.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:00:22,875 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 21:00:30,127 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=75747.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:00:42,506 INFO [train.py:903] (2/4) Epoch 12, batch 650, loss[loss=0.2141, simple_loss=0.2808, pruned_loss=0.0737, over 16925.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3052, pruned_loss=0.07789, over 3695699.03 frames. ], batch size: 37, lr: 7.07e-03, grad_scale: 8.0
+2023-04-01 21:01:01,243 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.249e+02 5.224e+02 6.354e+02 7.929e+02 1.382e+03, threshold=1.271e+03, percent-clipped=0.0
+2023-04-01 21:01:22,999 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5635, 2.3945, 1.8096, 1.5730, 2.2150, 1.2585, 1.3097, 1.9212],
+       device='cuda:2'), covar=tensor([0.0746, 0.0514, 0.0841, 0.0630, 0.0349, 0.1013, 0.0628, 0.0346],
+       device='cuda:2'), in_proj_covar=tensor([0.0294, 0.0304, 0.0329, 0.0249, 0.0237, 0.0320, 0.0292, 0.0265],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:01:24,576 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.63 vs. limit=5.0
+2023-04-01 21:01:29,699 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4553, 1.3254, 1.7055, 1.3811, 2.8209, 3.7433, 3.5080, 3.8386],
+       device='cuda:2'), covar=tensor([0.1377, 0.3309, 0.2992, 0.2024, 0.0489, 0.0158, 0.0183, 0.0223],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0293, 0.0323, 0.0250, 0.0214, 0.0156, 0.0206, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 21:01:45,571 INFO [train.py:903] (2/4) Epoch 12, batch 700, loss[loss=0.2113, simple_loss=0.2809, pruned_loss=0.07083, over 19815.00 frames. ], tot_loss[loss=0.2315, simple_loss=0.3058, pruned_loss=0.07858, over 3728334.26 frames. ], batch size: 49, lr: 7.06e-03, grad_scale: 8.0
+2023-04-01 21:02:04,536 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.64 vs. limit=5.0
+2023-04-01 21:02:46,461 INFO [train.py:903] (2/4) Epoch 12, batch 750, loss[loss=0.2492, simple_loss=0.3337, pruned_loss=0.08233, over 19742.00 frames. ], tot_loss[loss=0.2318, simple_loss=0.3061, pruned_loss=0.07871, over 3741921.07 frames. ], batch size: 63, lr: 7.06e-03, grad_scale: 8.0
+2023-04-01 21:03:05,205 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.592e+02 5.547e+02 6.814e+02 8.571e+02 2.504e+03, threshold=1.363e+03, percent-clipped=8.0
+2023-04-01 21:03:40,188 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
+2023-04-01 21:03:49,639 INFO [train.py:903] (2/4) Epoch 12, batch 800, loss[loss=0.2519, simple_loss=0.3303, pruned_loss=0.08676, over 19657.00 frames. ], tot_loss[loss=0.2312, simple_loss=0.3056, pruned_loss=0.07842, over 3763288.40 frames. ], batch size: 58, lr: 7.06e-03, grad_scale: 8.0
+2023-04-01 21:04:07,030 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 21:04:50,829 INFO [train.py:903] (2/4) Epoch 12, batch 850, loss[loss=0.2207, simple_loss=0.3005, pruned_loss=0.07043, over 19773.00 frames. ], tot_loss[loss=0.2309, simple_loss=0.3053, pruned_loss=0.07823, over 3778847.32 frames. ], batch size: 54, lr: 7.06e-03, grad_scale: 8.0
+2023-04-01 21:04:54,863 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=75961.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:05:10,027 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.002e+02 5.208e+02 6.361e+02 7.722e+02 1.579e+03, threshold=1.272e+03, percent-clipped=2.0
+2023-04-01 21:05:25,782 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=75986.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:05:29,772 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3211, 1.3660, 1.7449, 1.2433, 2.6571, 3.4111, 3.1713, 3.5953],
+       device='cuda:2'), covar=tensor([0.1515, 0.3323, 0.2980, 0.2164, 0.0528, 0.0182, 0.0211, 0.0208],
+       device='cuda:2'), in_proj_covar=tensor([0.0257, 0.0294, 0.0324, 0.0251, 0.0214, 0.0157, 0.0206, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 21:05:46,874 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 21:05:48,477 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=76003.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:05:53,891 INFO [train.py:903] (2/4) Epoch 12, batch 900, loss[loss=0.2446, simple_loss=0.3139, pruned_loss=0.0876, over 19598.00 frames. ], tot_loss[loss=0.2316, simple_loss=0.3056, pruned_loss=0.07879, over 3765208.27 frames. ], batch size: 57, lr: 7.05e-03, grad_scale: 8.0
+2023-04-01 21:06:13,758 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7844, 1.4022, 1.4119, 2.1340, 1.6924, 2.1826, 2.0979, 1.9479],
+       device='cuda:2'), covar=tensor([0.0770, 0.1017, 0.1083, 0.0835, 0.0938, 0.0645, 0.0888, 0.0616],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0224, 0.0222, 0.0244, 0.0235, 0.0212, 0.0195, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 21:06:20,402 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=76028.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:06:57,929 INFO [train.py:903] (2/4) Epoch 12, batch 950, loss[loss=0.1991, simple_loss=0.2759, pruned_loss=0.06118, over 19740.00 frames. ], tot_loss[loss=0.2316, simple_loss=0.3058, pruned_loss=0.07876, over 3788230.39 frames. ], batch size: 46, lr: 7.05e-03, grad_scale: 8.0
+2023-04-01 21:07:02,617 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 21:07:17,508 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.890e+02 5.102e+02 6.493e+02 8.387e+02 1.985e+03, threshold=1.299e+03, percent-clipped=2.0
+2023-04-01 21:07:59,837 INFO [train.py:903] (2/4) Epoch 12, batch 1000, loss[loss=0.2242, simple_loss=0.294, pruned_loss=0.07725, over 19485.00 frames. ], tot_loss[loss=0.2295, simple_loss=0.3038, pruned_loss=0.07763, over 3798253.50 frames. ], batch size: 49, lr: 7.05e-03, grad_scale: 8.0
+2023-04-01 21:08:42,454 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8363, 1.3384, 1.0340, 0.9512, 1.1817, 0.9687, 0.7932, 1.2474],
+       device='cuda:2'), covar=tensor([0.0539, 0.0704, 0.0973, 0.0570, 0.0467, 0.1038, 0.0611, 0.0394],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0303, 0.0326, 0.0247, 0.0233, 0.0314, 0.0289, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:08:54,935 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 21:09:02,677 INFO [train.py:903] (2/4) Epoch 12, batch 1050, loss[loss=0.2098, simple_loss=0.2798, pruned_loss=0.06987, over 19410.00 frames. ], tot_loss[loss=0.2302, simple_loss=0.3041, pruned_loss=0.0781, over 3791783.73 frames. ], batch size: 48, lr: 7.05e-03, grad_scale: 8.0
+2023-04-01 21:09:20,678 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.538e+02 5.178e+02 6.428e+02 8.624e+02 1.751e+03, threshold=1.286e+03, percent-clipped=4.0
+2023-04-01 21:09:35,976 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 21:10:05,074 INFO [train.py:903] (2/4) Epoch 12, batch 1100, loss[loss=0.2036, simple_loss=0.2725, pruned_loss=0.06735, over 19380.00 frames. ], tot_loss[loss=0.2312, simple_loss=0.3049, pruned_loss=0.07878, over 3797342.45 frames. ], batch size: 47, lr: 7.04e-03, grad_scale: 8.0
+2023-04-01 21:10:12,413 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3414, 1.7399, 1.8479, 2.1985, 1.9919, 1.9431, 1.8020, 2.1280],
+       device='cuda:2'), covar=tensor([0.0742, 0.1461, 0.1180, 0.0846, 0.1091, 0.0440, 0.1148, 0.0556],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0352, 0.0292, 0.0241, 0.0296, 0.0243, 0.0280, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:11:08,892 INFO [train.py:903] (2/4) Epoch 12, batch 1150, loss[loss=0.2473, simple_loss=0.3212, pruned_loss=0.08671, over 19318.00 frames. ], tot_loss[loss=0.2308, simple_loss=0.3045, pruned_loss=0.07853, over 3810411.88 frames. ], batch size: 66, lr: 7.04e-03, grad_scale: 8.0
+2023-04-01 21:11:27,479 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.258e+02 5.432e+02 6.664e+02 8.568e+02 1.731e+03, threshold=1.333e+03, percent-clipped=3.0
+2023-04-01 21:11:44,816 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=76287.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 21:12:10,715 INFO [train.py:903] (2/4) Epoch 12, batch 1200, loss[loss=0.2892, simple_loss=0.3449, pruned_loss=0.1167, over 13186.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3045, pruned_loss=0.07848, over 3815846.66 frames. ], batch size: 135, lr: 7.04e-03, grad_scale: 8.0
+2023-04-01 21:12:15,523 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=76312.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:12:45,722 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 21:12:52,874 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=76341.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 21:13:14,054 INFO [train.py:903] (2/4) Epoch 12, batch 1250, loss[loss=0.2299, simple_loss=0.3086, pruned_loss=0.0756, over 18381.00 frames. ], tot_loss[loss=0.2309, simple_loss=0.3047, pruned_loss=0.07859, over 3818342.45 frames. ], batch size: 84, lr: 7.04e-03, grad_scale: 8.0
+2023-04-01 21:13:31,221 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.467e+02 5.242e+02 6.279e+02 7.669e+02 1.575e+03, threshold=1.256e+03, percent-clipped=2.0
+2023-04-01 21:14:15,613 INFO [train.py:903] (2/4) Epoch 12, batch 1300, loss[loss=0.262, simple_loss=0.3351, pruned_loss=0.09443, over 19562.00 frames. ], tot_loss[loss=0.231, simple_loss=0.3046, pruned_loss=0.07867, over 3802638.91 frames. ], batch size: 61, lr: 7.04e-03, grad_scale: 8.0
+2023-04-01 21:15:18,798 INFO [train.py:903] (2/4) Epoch 12, batch 1350, loss[loss=0.2549, simple_loss=0.3218, pruned_loss=0.09399, over 19649.00 frames. ], tot_loss[loss=0.2322, simple_loss=0.3055, pruned_loss=0.07947, over 3798426.57 frames. ], batch size: 58, lr: 7.03e-03, grad_scale: 8.0
+2023-04-01 21:15:37,066 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.121e+02 5.247e+02 6.486e+02 7.910e+02 1.390e+03, threshold=1.297e+03, percent-clipped=4.0
+2023-04-01 21:16:20,442 INFO [train.py:903] (2/4) Epoch 12, batch 1400, loss[loss=0.2977, simple_loss=0.3594, pruned_loss=0.118, over 19573.00 frames. ], tot_loss[loss=0.2319, simple_loss=0.3056, pruned_loss=0.0791, over 3810445.03 frames. ], batch size: 61, lr: 7.03e-03, grad_scale: 16.0
+2023-04-01 21:16:50,864 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2047, 1.7057, 1.6503, 2.0400, 1.9783, 1.8715, 1.5816, 2.0317],
+       device='cuda:2'), covar=tensor([0.0842, 0.1645, 0.1369, 0.0885, 0.1088, 0.0484, 0.1293, 0.0623],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0354, 0.0292, 0.0242, 0.0298, 0.0245, 0.0279, 0.0240],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:17:01,826 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9469, 3.5440, 2.4380, 3.1952, 0.8771, 3.3426, 3.3440, 3.4362],
+       device='cuda:2'), covar=tensor([0.0812, 0.1159, 0.2069, 0.0884, 0.4069, 0.1011, 0.0904, 0.1124],
+       device='cuda:2'), in_proj_covar=tensor([0.0442, 0.0367, 0.0442, 0.0319, 0.0380, 0.0374, 0.0358, 0.0392],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:17:23,456 INFO [train.py:903] (2/4) Epoch 12, batch 1450, loss[loss=0.2735, simple_loss=0.3411, pruned_loss=0.103, over 19545.00 frames. ], tot_loss[loss=0.2322, simple_loss=0.3056, pruned_loss=0.07944, over 3807952.99 frames. ], batch size: 54, lr: 7.03e-03, grad_scale: 16.0
+2023-04-01 21:17:25,875 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 21:17:40,981 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.252e+02 4.935e+02 6.510e+02 8.250e+02 1.774e+03, threshold=1.302e+03, percent-clipped=3.0
+2023-04-01 21:18:24,875 INFO [train.py:903] (2/4) Epoch 12, batch 1500, loss[loss=0.2043, simple_loss=0.2779, pruned_loss=0.06533, over 19042.00 frames. ], tot_loss[loss=0.2323, simple_loss=0.3059, pruned_loss=0.07938, over 3804603.53 frames. ], batch size: 42, lr: 7.03e-03, grad_scale: 8.0
+2023-04-01 21:18:53,775 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=76631.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 21:19:24,218 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=76656.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:19:27,185 INFO [train.py:903] (2/4) Epoch 12, batch 1550, loss[loss=0.2211, simple_loss=0.2924, pruned_loss=0.07487, over 19473.00 frames. ], tot_loss[loss=0.233, simple_loss=0.3063, pruned_loss=0.07984, over 3813304.52 frames. ], batch size: 49, lr: 7.02e-03, grad_scale: 8.0
+2023-04-01 21:19:46,334 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.911e+02 5.709e+02 6.905e+02 9.210e+02 1.884e+03, threshold=1.381e+03, percent-clipped=4.0
+2023-04-01 21:20:01,237 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=76685.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 21:20:19,360 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
+2023-04-01 21:20:23,671 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.68 vs. limit=2.0
+2023-04-01 21:20:29,928 INFO [train.py:903] (2/4) Epoch 12, batch 1600, loss[loss=0.2163, simple_loss=0.301, pruned_loss=0.06583, over 19778.00 frames. ], tot_loss[loss=0.2308, simple_loss=0.3045, pruned_loss=0.07854, over 3823241.30 frames. ], batch size: 56, lr: 7.02e-03, grad_scale: 8.0
+2023-04-01 21:20:53,980 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 21:21:16,387 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=76746.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 21:21:23,364 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9599, 3.3986, 1.9025, 1.9124, 3.0444, 1.5415, 1.2705, 2.1399],
+       device='cuda:2'), covar=tensor([0.1247, 0.0418, 0.1030, 0.0790, 0.0475, 0.1178, 0.1058, 0.0635],
+       device='cuda:2'), in_proj_covar=tensor([0.0289, 0.0300, 0.0321, 0.0243, 0.0231, 0.0316, 0.0289, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:21:29,664 INFO [train.py:903] (2/4) Epoch 12, batch 1650, loss[loss=0.2228, simple_loss=0.2874, pruned_loss=0.0791, over 19779.00 frames. ], tot_loss[loss=0.2315, simple_loss=0.3049, pruned_loss=0.07907, over 3814188.05 frames. ], batch size: 48, lr: 7.02e-03, grad_scale: 8.0
+2023-04-01 21:21:30,359 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.63 vs. limit=2.0
+2023-04-01 21:21:46,977 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=76771.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:21:49,944 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.672e+02 5.088e+02 6.360e+02 7.707e+02 1.579e+03, threshold=1.272e+03, percent-clipped=3.0
+2023-04-01 21:22:06,325 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3876, 1.4934, 1.4829, 2.0435, 1.4221, 1.8415, 1.7392, 1.2256],
+       device='cuda:2'), covar=tensor([0.4117, 0.3373, 0.2179, 0.2069, 0.3491, 0.1737, 0.4811, 0.4037],
+       device='cuda:2'), in_proj_covar=tensor([0.0791, 0.0816, 0.0646, 0.0889, 0.0781, 0.0706, 0.0779, 0.0709],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 21:22:22,677 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=76800.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 21:22:33,399 INFO [train.py:903] (2/4) Epoch 12, batch 1700, loss[loss=0.2546, simple_loss=0.3267, pruned_loss=0.09124, over 19367.00 frames. ], tot_loss[loss=0.2315, simple_loss=0.305, pruned_loss=0.079, over 3819017.20 frames. ], batch size: 70, lr: 7.02e-03, grad_scale: 8.0
+2023-04-01 21:22:59,201 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4211, 1.8384, 1.9601, 2.7307, 2.1462, 2.7703, 2.6228, 2.5023],
+       device='cuda:2'), covar=tensor([0.0684, 0.0874, 0.0897, 0.0890, 0.0901, 0.0607, 0.0833, 0.0538],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0225, 0.0224, 0.0246, 0.0236, 0.0213, 0.0195, 0.0201],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 21:23:10,303 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 21:23:16,962 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0083, 1.9034, 1.7763, 1.5633, 1.4587, 1.5986, 0.5142, 0.8950],
+       device='cuda:2'), covar=tensor([0.0398, 0.0425, 0.0284, 0.0459, 0.0865, 0.0489, 0.0811, 0.0753],
+       device='cuda:2'), in_proj_covar=tensor([0.0339, 0.0329, 0.0332, 0.0356, 0.0427, 0.0354, 0.0309, 0.0322],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 21:23:33,212 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=76857.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:23:34,180 INFO [train.py:903] (2/4) Epoch 12, batch 1750, loss[loss=0.2975, simple_loss=0.3514, pruned_loss=0.1218, over 12862.00 frames. ], tot_loss[loss=0.2331, simple_loss=0.3065, pruned_loss=0.07985, over 3811449.00 frames. ], batch size: 135, lr: 7.01e-03, grad_scale: 8.0
+2023-04-01 21:23:36,412 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.48 vs. limit=2.0
+2023-04-01 21:23:53,639 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.317e+02 5.587e+02 7.065e+02 8.864e+02 2.096e+03, threshold=1.413e+03, percent-clipped=6.0
+2023-04-01 21:24:37,130 INFO [train.py:903] (2/4) Epoch 12, batch 1800, loss[loss=0.2932, simple_loss=0.358, pruned_loss=0.1141, over 19676.00 frames. ], tot_loss[loss=0.2336, simple_loss=0.3069, pruned_loss=0.08013, over 3822270.67 frames. ], batch size: 60, lr: 7.01e-03, grad_scale: 8.0
+2023-04-01 21:24:44,436 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1089, 3.2423, 1.9297, 2.0933, 2.9463, 1.6165, 1.5570, 2.1870],
+       device='cuda:2'), covar=tensor([0.1136, 0.0575, 0.0941, 0.0644, 0.0486, 0.1082, 0.0820, 0.0587],
+       device='cuda:2'), in_proj_covar=tensor([0.0287, 0.0300, 0.0320, 0.0243, 0.0231, 0.0317, 0.0289, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:25:32,716 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 21:25:38,683 INFO [train.py:903] (2/4) Epoch 12, batch 1850, loss[loss=0.2154, simple_loss=0.2946, pruned_loss=0.06815, over 19771.00 frames. ], tot_loss[loss=0.232, simple_loss=0.3052, pruned_loss=0.07934, over 3819336.65 frames. ], batch size: 56, lr: 7.01e-03, grad_scale: 8.0
+2023-04-01 21:25:45,873 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.83 vs. limit=5.0
+2023-04-01 21:25:59,471 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.186e+02 5.640e+02 7.026e+02 8.457e+02 1.689e+03, threshold=1.405e+03, percent-clipped=1.0
+2023-04-01 21:26:12,278 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 21:26:34,375 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77002.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 21:26:41,880 INFO [train.py:903] (2/4) Epoch 12, batch 1900, loss[loss=0.2347, simple_loss=0.3098, pruned_loss=0.07977, over 19604.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3043, pruned_loss=0.07853, over 3816338.52 frames. ], batch size: 57, lr: 7.01e-03, grad_scale: 8.0
+2023-04-01 21:27:00,195 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 21:27:04,914 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 21:27:06,370 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77027.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 21:27:06,385 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77027.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:27:28,481 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 21:27:36,585 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77052.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:27:42,264 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77056.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 21:27:43,954 INFO [train.py:903] (2/4) Epoch 12, batch 1950, loss[loss=0.2857, simple_loss=0.3433, pruned_loss=0.114, over 19294.00 frames. ], tot_loss[loss=0.2327, simple_loss=0.3061, pruned_loss=0.07969, over 3809349.82 frames. ], batch size: 66, lr: 7.01e-03, grad_scale: 8.0
+2023-04-01 21:28:03,222 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.700e+02 5.468e+02 7.092e+02 9.065e+02 1.810e+03, threshold=1.418e+03, percent-clipped=4.0
+2023-04-01 21:28:11,852 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77081.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 21:28:45,469 INFO [train.py:903] (2/4) Epoch 12, batch 2000, loss[loss=0.219, simple_loss=0.299, pruned_loss=0.06954, over 19528.00 frames. ], tot_loss[loss=0.2321, simple_loss=0.3059, pruned_loss=0.07913, over 3820858.88 frames. ], batch size: 54, lr: 7.00e-03, grad_scale: 8.0
+2023-04-01 21:28:51,469 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77113.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:29:15,585 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5890, 1.3056, 1.2034, 1.4553, 1.0846, 1.3879, 1.2032, 1.3930],
+       device='cuda:2'), covar=tensor([0.0996, 0.1082, 0.1447, 0.0874, 0.1174, 0.0533, 0.1316, 0.0748],
+       device='cuda:2'), in_proj_covar=tensor([0.0252, 0.0349, 0.0292, 0.0238, 0.0294, 0.0242, 0.0278, 0.0236],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:29:43,041 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 21:29:46,526 INFO [train.py:903] (2/4) Epoch 12, batch 2050, loss[loss=0.2545, simple_loss=0.3285, pruned_loss=0.09024, over 18043.00 frames. ], tot_loss[loss=0.2316, simple_loss=0.3054, pruned_loss=0.07893, over 3828935.35 frames. ], batch size: 83, lr: 7.00e-03, grad_scale: 8.0
+2023-04-01 21:30:02,221 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 21:30:03,438 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 21:30:06,831 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.225e+02 5.837e+02 7.308e+02 9.815e+02 2.165e+03, threshold=1.462e+03, percent-clipped=5.0
+2023-04-01 21:30:26,535 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 21:30:40,585 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77201.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:30:49,625 INFO [train.py:903] (2/4) Epoch 12, batch 2100, loss[loss=0.2519, simple_loss=0.3033, pruned_loss=0.1002, over 18688.00 frames. ], tot_loss[loss=0.2311, simple_loss=0.3051, pruned_loss=0.07861, over 3815939.81 frames. ], batch size: 41, lr: 7.00e-03, grad_scale: 4.0
+2023-04-01 21:31:10,322 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-01 21:31:12,344 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0140, 5.4086, 2.8964, 4.6936, 1.1042, 5.4321, 5.3134, 5.5164],
+       device='cuda:2'), covar=tensor([0.0391, 0.0886, 0.1908, 0.0674, 0.3935, 0.0543, 0.0735, 0.0926],
+       device='cuda:2'), in_proj_covar=tensor([0.0445, 0.0369, 0.0444, 0.0321, 0.0384, 0.0378, 0.0364, 0.0397],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:31:17,056 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77229.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:31:20,290 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 21:31:28,734 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1585, 1.7102, 1.7890, 2.5541, 2.0561, 2.6583, 2.5057, 2.2832],
+       device='cuda:2'), covar=tensor([0.0779, 0.0949, 0.1018, 0.0961, 0.0957, 0.0632, 0.0888, 0.0634],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0226, 0.0226, 0.0249, 0.0236, 0.0215, 0.0197, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 21:31:40,661 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 21:31:52,747 INFO [train.py:903] (2/4) Epoch 12, batch 2150, loss[loss=0.2642, simple_loss=0.3365, pruned_loss=0.09599, over 19524.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3046, pruned_loss=0.07845, over 3814714.38 frames. ], batch size: 56, lr: 7.00e-03, grad_scale: 4.0
+2023-04-01 21:32:13,143 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.202e+02 5.327e+02 7.168e+02 9.347e+02 2.125e+03, threshold=1.434e+03, percent-clipped=4.0
+2023-04-01 21:32:33,258 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77291.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:32:39,481 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77295.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:32:51,910 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.52 vs. limit=5.0
+2023-04-01 21:32:53,873 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2340, 1.3985, 1.9066, 1.7492, 2.9343, 4.6726, 4.5715, 5.0109],
+       device='cuda:2'), covar=tensor([0.1611, 0.3433, 0.2973, 0.1872, 0.0528, 0.0146, 0.0141, 0.0125],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0295, 0.0324, 0.0250, 0.0215, 0.0158, 0.0205, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 21:32:55,901 INFO [train.py:903] (2/4) Epoch 12, batch 2200, loss[loss=0.2106, simple_loss=0.2813, pruned_loss=0.06989, over 19743.00 frames. ], tot_loss[loss=0.2306, simple_loss=0.3048, pruned_loss=0.07825, over 3809170.89 frames. ], batch size: 51, lr: 6.99e-03, grad_scale: 4.0
+2023-04-01 21:33:05,515 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77316.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:33:25,215 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-01 21:33:57,352 INFO [train.py:903] (2/4) Epoch 12, batch 2250, loss[loss=0.1879, simple_loss=0.2774, pruned_loss=0.0492, over 19762.00 frames. ], tot_loss[loss=0.2308, simple_loss=0.305, pruned_loss=0.07835, over 3802096.32 frames. ], batch size: 54, lr: 6.99e-03, grad_scale: 4.0
+2023-04-01 21:34:08,728 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1465, 1.2414, 1.7788, 1.2682, 2.8684, 3.7728, 3.4624, 3.9524],
+       device='cuda:2'), covar=tensor([0.1587, 0.3342, 0.2901, 0.2061, 0.0451, 0.0130, 0.0201, 0.0183],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0294, 0.0325, 0.0250, 0.0215, 0.0158, 0.0206, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 21:34:18,142 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.729e+02 5.298e+02 6.341e+02 7.997e+02 1.542e+03, threshold=1.268e+03, percent-clipped=2.0
+2023-04-01 21:34:27,370 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5670, 2.9626, 3.0413, 3.0541, 1.3156, 2.8547, 2.5809, 2.7786],
+       device='cuda:2'), covar=tensor([0.1523, 0.1331, 0.0746, 0.0791, 0.4508, 0.1052, 0.0746, 0.1259],
+       device='cuda:2'), in_proj_covar=tensor([0.0683, 0.0613, 0.0812, 0.0690, 0.0738, 0.0565, 0.0498, 0.0749],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 21:34:35,673 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-01 21:34:58,601 INFO [train.py:903] (2/4) Epoch 12, batch 2300, loss[loss=0.2543, simple_loss=0.3276, pruned_loss=0.09052, over 18229.00 frames. ], tot_loss[loss=0.2318, simple_loss=0.3056, pruned_loss=0.07905, over 3805209.99 frames. ], batch size: 83, lr: 6.99e-03, grad_scale: 4.0
+2023-04-01 21:35:10,959 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 21:35:59,758 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77457.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:36:00,823 INFO [train.py:903] (2/4) Epoch 12, batch 2350, loss[loss=0.3273, simple_loss=0.3712, pruned_loss=0.1417, over 13072.00 frames. ], tot_loss[loss=0.2327, simple_loss=0.3062, pruned_loss=0.07962, over 3798718.52 frames. ], batch size: 136, lr: 6.99e-03, grad_scale: 4.0
+2023-04-01 21:36:22,284 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.400e+02 5.245e+02 6.457e+02 8.417e+02 4.507e+03, threshold=1.291e+03, percent-clipped=6.0
+2023-04-01 21:36:41,217 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 21:36:59,067 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 21:37:02,535 INFO [train.py:903] (2/4) Epoch 12, batch 2400, loss[loss=0.216, simple_loss=0.2876, pruned_loss=0.07225, over 19601.00 frames. ], tot_loss[loss=0.2329, simple_loss=0.3066, pruned_loss=0.07956, over 3806277.03 frames. ], batch size: 50, lr: 6.99e-03, grad_scale: 8.0
+2023-04-01 21:37:17,476 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4561, 1.2550, 1.2869, 1.7911, 1.4045, 1.6022, 1.7889, 1.4944],
+       device='cuda:2'), covar=tensor([0.0813, 0.0996, 0.1025, 0.0730, 0.0802, 0.0752, 0.0747, 0.0736],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0224, 0.0224, 0.0248, 0.0234, 0.0214, 0.0196, 0.0201],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 21:37:36,456 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9270, 2.0042, 2.1425, 2.7519, 1.9761, 2.6123, 2.4182, 1.9864],
+       device='cuda:2'), covar=tensor([0.3270, 0.2913, 0.1439, 0.1760, 0.3143, 0.1401, 0.3127, 0.2597],
+       device='cuda:2'), in_proj_covar=tensor([0.0802, 0.0823, 0.0653, 0.0897, 0.0788, 0.0711, 0.0789, 0.0719],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 21:38:04,500 INFO [train.py:903] (2/4) Epoch 12, batch 2450, loss[loss=0.314, simple_loss=0.3569, pruned_loss=0.1355, over 13148.00 frames. ], tot_loss[loss=0.2337, simple_loss=0.3071, pruned_loss=0.08016, over 3802178.46 frames. ], batch size: 136, lr: 6.98e-03, grad_scale: 8.0
+2023-04-01 21:38:21,434 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77572.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:38:21,503 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77572.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:38:22,409 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77573.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:38:24,483 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.532e+02 5.530e+02 6.529e+02 8.263e+02 1.639e+03, threshold=1.306e+03, percent-clipped=2.0
+2023-04-01 21:38:52,851 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77597.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:38:56,119 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.1834, 5.5879, 3.0768, 4.9568, 1.3016, 5.5395, 5.5372, 5.6966],
+       device='cuda:2'), covar=tensor([0.0377, 0.0793, 0.1786, 0.0596, 0.3715, 0.0540, 0.0627, 0.0828],
+       device='cuda:2'), in_proj_covar=tensor([0.0440, 0.0365, 0.0440, 0.0319, 0.0380, 0.0373, 0.0360, 0.0392],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:39:05,884 INFO [train.py:903] (2/4) Epoch 12, batch 2500, loss[loss=0.264, simple_loss=0.3361, pruned_loss=0.09594, over 19676.00 frames. ], tot_loss[loss=0.2327, simple_loss=0.3061, pruned_loss=0.07968, over 3805937.15 frames. ], batch size: 60, lr: 6.98e-03, grad_scale: 8.0
+2023-04-01 21:39:27,243 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5594, 1.2939, 1.3150, 2.0965, 1.6759, 1.8699, 2.1848, 1.7885],
+       device='cuda:2'), covar=tensor([0.0859, 0.1029, 0.1109, 0.0839, 0.0929, 0.0721, 0.0779, 0.0661],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0221, 0.0222, 0.0244, 0.0232, 0.0211, 0.0193, 0.0199],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 21:39:39,425 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77634.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:39:40,537 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77635.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:39:40,750 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4708, 1.3493, 1.3058, 1.9098, 1.4778, 1.8031, 1.8707, 1.6877],
+       device='cuda:2'), covar=tensor([0.0842, 0.0937, 0.1095, 0.0800, 0.0898, 0.0721, 0.0879, 0.0647],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0220, 0.0221, 0.0243, 0.0231, 0.0211, 0.0193, 0.0199],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 21:39:45,165 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77639.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:40:08,010 INFO [train.py:903] (2/4) Epoch 12, batch 2550, loss[loss=0.2792, simple_loss=0.3394, pruned_loss=0.1095, over 19667.00 frames. ], tot_loss[loss=0.234, simple_loss=0.3074, pruned_loss=0.08028, over 3808638.73 frames. ], batch size: 53, lr: 6.98e-03, grad_scale: 8.0
+2023-04-01 21:40:30,541 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.096e+02 5.340e+02 6.709e+02 8.508e+02 1.809e+03, threshold=1.342e+03, percent-clipped=3.0
+2023-04-01 21:40:46,827 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77688.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:40:54,793 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=77695.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:41:05,590 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-01 21:41:10,775 INFO [train.py:903] (2/4) Epoch 12, batch 2600, loss[loss=0.2165, simple_loss=0.2935, pruned_loss=0.06976, over 19480.00 frames. ], tot_loss[loss=0.2321, simple_loss=0.3058, pruned_loss=0.07922, over 3823625.35 frames. ], batch size: 49, lr: 6.98e-03, grad_scale: 8.0
+2023-04-01 21:41:54,843 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-01 21:42:02,073 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:42:07,421 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=77754.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:42:11,588 INFO [train.py:903] (2/4) Epoch 12, batch 2650, loss[loss=0.2451, simple_loss=0.3194, pruned_loss=0.08539, over 19761.00 frames. ], tot_loss[loss=0.2334, simple_loss=0.3072, pruned_loss=0.07986, over 3817494.07 frames. ], batch size: 54, lr: 6.97e-03, grad_scale: 8.0
+2023-04-01 21:42:32,175 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.366e+02 5.775e+02 6.860e+02 8.613e+02 1.817e+03, threshold=1.372e+03, percent-clipped=5.0
+2023-04-01 21:42:33,278 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-01 21:43:06,970 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0079, 3.6261, 2.3932, 3.2997, 0.8176, 3.4162, 3.4452, 3.5083],
+       device='cuda:2'), covar=tensor([0.0754, 0.1163, 0.2134, 0.0816, 0.4122, 0.0872, 0.0832, 0.1159],
+       device='cuda:2'), in_proj_covar=tensor([0.0449, 0.0374, 0.0450, 0.0326, 0.0386, 0.0379, 0.0367, 0.0400],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:43:12,307 INFO [train.py:903] (2/4) Epoch 12, batch 2700, loss[loss=0.2356, simple_loss=0.3056, pruned_loss=0.08286, over 19647.00 frames. ], tot_loss[loss=0.2342, simple_loss=0.308, pruned_loss=0.08017, over 3812483.23 frames. ], batch size: 53, lr: 6.97e-03, grad_scale: 8.0
+2023-04-01 21:43:38,298 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77828.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:44:08,839 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77853.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:44:14,409 INFO [train.py:903] (2/4) Epoch 12, batch 2750, loss[loss=0.1969, simple_loss=0.2707, pruned_loss=0.06156, over 19616.00 frames. ], tot_loss[loss=0.2334, simple_loss=0.3071, pruned_loss=0.07984, over 3817261.98 frames. ], batch size: 50, lr: 6.97e-03, grad_scale: 8.0
+2023-04-01 21:44:36,443 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.412e+02 5.785e+02 6.935e+02 8.560e+02 1.739e+03, threshold=1.387e+03, percent-clipped=4.0
+2023-04-01 21:45:15,194 INFO [train.py:903] (2/4) Epoch 12, batch 2800, loss[loss=0.249, simple_loss=0.3234, pruned_loss=0.08728, over 17322.00 frames. ], tot_loss[loss=0.2346, simple_loss=0.3078, pruned_loss=0.08066, over 3813254.05 frames. ], batch size: 101, lr: 6.97e-03, grad_scale: 8.0
+2023-04-01 21:46:01,216 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=77944.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:46:19,703 INFO [train.py:903] (2/4) Epoch 12, batch 2850, loss[loss=0.1757, simple_loss=0.253, pruned_loss=0.04923, over 19772.00 frames. ], tot_loss[loss=0.2335, simple_loss=0.3072, pruned_loss=0.07991, over 3824364.39 frames. ], batch size: 47, lr: 6.97e-03, grad_scale: 4.0
+2023-04-01 21:46:22,374 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3823, 1.3640, 1.5239, 1.5659, 2.9079, 1.0640, 2.1848, 3.2888],
+       device='cuda:2'), covar=tensor([0.0514, 0.2635, 0.2574, 0.1692, 0.0827, 0.2493, 0.1115, 0.0285],
+       device='cuda:2'), in_proj_covar=tensor([0.0354, 0.0333, 0.0345, 0.0315, 0.0340, 0.0330, 0.0331, 0.0351],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 21:46:32,749 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=77969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:46:41,208 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.493e+02 5.663e+02 6.634e+02 8.773e+02 3.814e+03, threshold=1.327e+03, percent-clipped=6.0
+2023-04-01 21:46:43,717 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=77978.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:47:20,370 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=78006.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:47:22,308 INFO [train.py:903] (2/4) Epoch 12, batch 2900, loss[loss=0.2495, simple_loss=0.3279, pruned_loss=0.08552, over 19736.00 frames. ], tot_loss[loss=0.2331, simple_loss=0.3068, pruned_loss=0.07965, over 3834384.59 frames. ], batch size: 63, lr: 6.96e-03, grad_scale: 4.0
+2023-04-01 21:47:22,330 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-01 21:47:25,084 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=78010.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:47:39,756 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3714, 1.3233, 1.4750, 1.4966, 1.8653, 1.9358, 1.8251, 0.4935],
+       device='cuda:2'), covar=tensor([0.1988, 0.3629, 0.2166, 0.1624, 0.1241, 0.1855, 0.1199, 0.3718],
+       device='cuda:2'), in_proj_covar=tensor([0.0489, 0.0578, 0.0608, 0.0437, 0.0594, 0.0489, 0.0644, 0.0495],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 21:47:52,633 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78031.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:47:57,859 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78035.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:48:02,336 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=78039.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:48:25,035 INFO [train.py:903] (2/4) Epoch 12, batch 2950, loss[loss=0.261, simple_loss=0.3266, pruned_loss=0.0977, over 12656.00 frames. ], tot_loss[loss=0.2317, simple_loss=0.3056, pruned_loss=0.07888, over 3821619.95 frames. ], batch size: 136, lr: 6.96e-03, grad_scale: 4.0
+2023-04-01 21:48:48,723 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.235e+02 5.583e+02 6.866e+02 9.102e+02 1.641e+03, threshold=1.373e+03, percent-clipped=7.0
+2023-04-01 21:49:10,004 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=78093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:49:28,169 INFO [train.py:903] (2/4) Epoch 12, batch 3000, loss[loss=0.2726, simple_loss=0.3471, pruned_loss=0.09903, over 18097.00 frames. ], tot_loss[loss=0.2324, simple_loss=0.3063, pruned_loss=0.07931, over 3812846.41 frames. ], batch size: 83, lr: 6.96e-03, grad_scale: 4.0
+2023-04-01 21:49:28,170 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 21:49:40,672 INFO [train.py:937] (2/4) Epoch 12, validation: loss=0.1772, simple_loss=0.2779, pruned_loss=0.0383, over 944034.00 frames. 
+2023-04-01 21:49:40,673 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 21:49:45,492 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-01 21:50:38,067 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=78154.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:50:42,294 INFO [train.py:903] (2/4) Epoch 12, batch 3050, loss[loss=0.2252, simple_loss=0.309, pruned_loss=0.07066, over 19742.00 frames. ], tot_loss[loss=0.2317, simple_loss=0.3056, pruned_loss=0.07887, over 3819726.79 frames. ], batch size: 63, lr: 6.96e-03, grad_scale: 4.0
+2023-04-01 21:51:04,779 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.897e+02 5.238e+02 6.566e+02 8.426e+02 1.854e+03, threshold=1.313e+03, percent-clipped=6.0
+2023-04-01 21:51:18,347 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1002, 1.3128, 1.9779, 1.5171, 2.7919, 4.3989, 4.3962, 4.8911],
+       device='cuda:2'), covar=tensor([0.1669, 0.3457, 0.2905, 0.1980, 0.0574, 0.0172, 0.0152, 0.0129],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0297, 0.0326, 0.0253, 0.0216, 0.0159, 0.0205, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 21:51:43,592 INFO [train.py:903] (2/4) Epoch 12, batch 3100, loss[loss=0.1932, simple_loss=0.2631, pruned_loss=0.06164, over 18201.00 frames. ], tot_loss[loss=0.2337, simple_loss=0.3068, pruned_loss=0.08026, over 3808483.17 frames. ], batch size: 40, lr: 6.95e-03, grad_scale: 4.0
+2023-04-01 21:52:36,393 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=78250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:52:45,562 INFO [train.py:903] (2/4) Epoch 12, batch 3150, loss[loss=0.2805, simple_loss=0.3315, pruned_loss=0.1148, over 19130.00 frames. ], tot_loss[loss=0.2324, simple_loss=0.306, pruned_loss=0.07939, over 3804905.95 frames. ], batch size: 42, lr: 6.95e-03, grad_scale: 4.0
+2023-04-01 21:53:07,636 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.745e+02 5.622e+02 7.364e+02 8.683e+02 1.879e+03, threshold=1.473e+03, percent-clipped=3.0
+2023-04-01 21:53:15,172 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-01 21:53:47,081 INFO [train.py:903] (2/4) Epoch 12, batch 3200, loss[loss=0.2148, simple_loss=0.2807, pruned_loss=0.07442, over 19789.00 frames. ], tot_loss[loss=0.2316, simple_loss=0.305, pruned_loss=0.07906, over 3816484.21 frames. ], batch size: 48, lr: 6.95e-03, grad_scale: 8.0
+2023-04-01 21:54:39,760 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=78349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:54:50,773 INFO [train.py:903] (2/4) Epoch 12, batch 3250, loss[loss=0.1977, simple_loss=0.2792, pruned_loss=0.05811, over 19848.00 frames. ], tot_loss[loss=0.2311, simple_loss=0.3048, pruned_loss=0.07871, over 3804783.41 frames. ], batch size: 52, lr: 6.95e-03, grad_scale: 8.0
+2023-04-01 21:54:57,744 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
+2023-04-01 21:55:10,576 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1731, 2.2241, 2.3159, 3.1047, 2.2014, 2.9851, 2.7061, 2.2783],
+       device='cuda:2'), covar=tensor([0.3615, 0.3257, 0.1495, 0.2025, 0.3588, 0.1546, 0.3348, 0.2623],
+       device='cuda:2'), in_proj_covar=tensor([0.0798, 0.0823, 0.0652, 0.0895, 0.0785, 0.0711, 0.0788, 0.0717],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 21:55:11,700 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78374.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:55:13,650 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.865e+02 5.227e+02 6.164e+02 7.465e+02 1.234e+03, threshold=1.233e+03, percent-clipped=0.0
+2023-04-01 21:55:54,296 INFO [train.py:903] (2/4) Epoch 12, batch 3300, loss[loss=0.2146, simple_loss=0.2973, pruned_loss=0.06594, over 19574.00 frames. ], tot_loss[loss=0.2306, simple_loss=0.3044, pruned_loss=0.07841, over 3811096.87 frames. ], batch size: 61, lr: 6.95e-03, grad_scale: 8.0
+2023-04-01 21:55:57,137 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=78410.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:55:57,914 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-01 21:56:26,553 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78435.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:56:55,608 INFO [train.py:903] (2/4) Epoch 12, batch 3350, loss[loss=0.2315, simple_loss=0.3096, pruned_loss=0.07668, over 19784.00 frames. ], tot_loss[loss=0.2304, simple_loss=0.3041, pruned_loss=0.07835, over 3823772.03 frames. ], batch size: 56, lr: 6.94e-03, grad_scale: 8.0
+2023-04-01 21:56:58,282 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2999, 1.5019, 1.9324, 1.5354, 2.9506, 2.4832, 3.3237, 1.4606],
+       device='cuda:2'), covar=tensor([0.2251, 0.3796, 0.2324, 0.1822, 0.1559, 0.1894, 0.1585, 0.3542],
+       device='cuda:2'), in_proj_covar=tensor([0.0483, 0.0570, 0.0598, 0.0430, 0.0587, 0.0483, 0.0636, 0.0486],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 21:57:18,018 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.479e+02 5.251e+02 6.145e+02 6.896e+02 1.617e+03, threshold=1.229e+03, percent-clipped=1.0
+2023-04-01 21:57:20,559 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=78478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:57:37,003 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.86 vs. limit=5.0
+2023-04-01 21:57:57,198 INFO [train.py:903] (2/4) Epoch 12, batch 3400, loss[loss=0.1993, simple_loss=0.2722, pruned_loss=0.06317, over 19795.00 frames. ], tot_loss[loss=0.2303, simple_loss=0.3042, pruned_loss=0.07822, over 3817087.52 frames. ], batch size: 48, lr: 6.94e-03, grad_scale: 8.0
+2023-04-01 21:58:04,346 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5410, 1.6829, 1.8043, 1.9657, 1.3251, 1.7289, 1.9565, 1.7612],
+       device='cuda:2'), covar=tensor([0.3498, 0.2825, 0.1520, 0.1832, 0.3187, 0.1684, 0.3899, 0.2712],
+       device='cuda:2'), in_proj_covar=tensor([0.0800, 0.0824, 0.0652, 0.0895, 0.0784, 0.0711, 0.0789, 0.0717],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 21:59:00,752 INFO [train.py:903] (2/4) Epoch 12, batch 3450, loss[loss=0.2316, simple_loss=0.3034, pruned_loss=0.07987, over 19768.00 frames. ], tot_loss[loss=0.2314, simple_loss=0.305, pruned_loss=0.07886, over 3808823.84 frames. ], batch size: 51, lr: 6.94e-03, grad_scale: 8.0
+2023-04-01 21:59:06,183 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-01 21:59:06,677 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1423, 2.2236, 2.4559, 3.2577, 2.2524, 3.1843, 2.8618, 2.3164],
+       device='cuda:2'), covar=tensor([0.3931, 0.3465, 0.1402, 0.1930, 0.3874, 0.1463, 0.3349, 0.2629],
+       device='cuda:2'), in_proj_covar=tensor([0.0800, 0.0827, 0.0652, 0.0894, 0.0787, 0.0710, 0.0788, 0.0718],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 21:59:21,427 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=78574.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 21:59:23,277 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.785e+02 5.692e+02 7.472e+02 9.495e+02 2.057e+03, threshold=1.494e+03, percent-clipped=9.0
+2023-04-01 21:59:44,665 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=78594.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:00:03,308 INFO [train.py:903] (2/4) Epoch 12, batch 3500, loss[loss=0.1851, simple_loss=0.2596, pruned_loss=0.05525, over 19328.00 frames. ], tot_loss[loss=0.2322, simple_loss=0.3056, pruned_loss=0.0794, over 3812128.52 frames. ], batch size: 44, lr: 6.94e-03, grad_scale: 8.0
+2023-04-01 22:00:54,059 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3169, 1.7548, 1.9232, 2.6236, 2.0291, 2.5462, 2.8223, 2.4629],
+       device='cuda:2'), covar=tensor([0.0762, 0.0929, 0.0981, 0.0903, 0.0923, 0.0674, 0.0782, 0.0621],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0226, 0.0225, 0.0248, 0.0236, 0.0213, 0.0196, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 22:01:05,327 INFO [train.py:903] (2/4) Epoch 12, batch 3550, loss[loss=0.2507, simple_loss=0.3203, pruned_loss=0.09059, over 19536.00 frames. ], tot_loss[loss=0.2301, simple_loss=0.3035, pruned_loss=0.07833, over 3825133.81 frames. ], batch size: 56, lr: 6.93e-03, grad_scale: 8.0
+2023-04-01 22:01:09,480 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
+2023-04-01 22:01:26,751 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.897e+02 5.737e+02 7.042e+02 1.025e+03 1.962e+03, threshold=1.408e+03, percent-clipped=6.0
+2023-04-01 22:02:07,311 INFO [train.py:903] (2/4) Epoch 12, batch 3600, loss[loss=0.2109, simple_loss=0.2865, pruned_loss=0.06762, over 19858.00 frames. ], tot_loss[loss=0.2303, simple_loss=0.3037, pruned_loss=0.07849, over 3816891.56 frames. ], batch size: 52, lr: 6.93e-03, grad_scale: 8.0
+2023-04-01 22:02:08,944 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=78709.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:02:13,717 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.46 vs. limit=2.0
+2023-04-01 22:03:09,180 INFO [train.py:903] (2/4) Epoch 12, batch 3650, loss[loss=0.1997, simple_loss=0.2853, pruned_loss=0.05701, over 19669.00 frames. ], tot_loss[loss=0.2301, simple_loss=0.3036, pruned_loss=0.07829, over 3816887.14 frames. ], batch size: 53, lr: 6.93e-03, grad_scale: 8.0
+2023-04-01 22:03:29,512 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5625, 4.0027, 4.2363, 4.2272, 1.6341, 3.9735, 3.5449, 3.9278],
+       device='cuda:2'), covar=tensor([0.1365, 0.0784, 0.0545, 0.0592, 0.5396, 0.0725, 0.0611, 0.1086],
+       device='cuda:2'), in_proj_covar=tensor([0.0674, 0.0612, 0.0801, 0.0685, 0.0729, 0.0569, 0.0488, 0.0738],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 22:03:33,803 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.478e+02 5.318e+02 6.562e+02 8.219e+02 2.478e+03, threshold=1.312e+03, percent-clipped=4.0
+2023-04-01 22:04:14,202 INFO [train.py:903] (2/4) Epoch 12, batch 3700, loss[loss=0.218, simple_loss=0.296, pruned_loss=0.07001, over 19545.00 frames. ], tot_loss[loss=0.2306, simple_loss=0.3042, pruned_loss=0.07849, over 3810308.03 frames. ], batch size: 54, lr: 6.93e-03, grad_scale: 8.0
+2023-04-01 22:04:31,405 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=78822.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:04:31,612 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3516, 1.1891, 1.1984, 1.6668, 1.4305, 1.5018, 1.6297, 1.4213],
+       device='cuda:2'), covar=tensor([0.0941, 0.1066, 0.1134, 0.0793, 0.0836, 0.0798, 0.0902, 0.0775],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0226, 0.0224, 0.0249, 0.0237, 0.0214, 0.0196, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 22:04:34,432 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-01 22:05:15,856 INFO [train.py:903] (2/4) Epoch 12, batch 3750, loss[loss=0.2113, simple_loss=0.2888, pruned_loss=0.06694, over 19675.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3043, pruned_loss=0.07836, over 3828439.54 frames. ], batch size: 53, lr: 6.93e-03, grad_scale: 8.0
+2023-04-01 22:05:37,740 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.608e+02 5.233e+02 6.179e+02 8.242e+02 1.500e+03, threshold=1.236e+03, percent-clipped=2.0
+2023-04-01 22:05:59,316 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
+2023-04-01 22:06:05,767 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
+2023-04-01 22:06:16,422 INFO [train.py:903] (2/4) Epoch 12, batch 3800, loss[loss=0.2472, simple_loss=0.3169, pruned_loss=0.08878, over 19462.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3046, pruned_loss=0.07834, over 3819870.91 frames. ], batch size: 49, lr: 6.92e-03, grad_scale: 8.0
+2023-04-01 22:06:29,210 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=78918.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:06:53,665 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-01 22:06:54,061 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=78937.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:07:17,948 INFO [train.py:903] (2/4) Epoch 12, batch 3850, loss[loss=0.2279, simple_loss=0.3063, pruned_loss=0.07471, over 19700.00 frames. ], tot_loss[loss=0.2302, simple_loss=0.3041, pruned_loss=0.07817, over 3835745.19 frames. ], batch size: 59, lr: 6.92e-03, grad_scale: 8.0
+2023-04-01 22:07:28,328 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=78965.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:07:40,746 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.425e+02 5.982e+02 6.977e+02 9.373e+02 2.137e+03, threshold=1.395e+03, percent-clipped=8.0
+2023-04-01 22:07:49,870 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=78983.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:07:58,031 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=78990.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:08:21,050 INFO [train.py:903] (2/4) Epoch 12, batch 3900, loss[loss=0.1977, simple_loss=0.2647, pruned_loss=0.06536, over 19366.00 frames. ], tot_loss[loss=0.2304, simple_loss=0.3042, pruned_loss=0.07835, over 3827781.41 frames. ], batch size: 47, lr: 6.92e-03, grad_scale: 8.0
+2023-04-01 22:08:51,016 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79033.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:09:15,007 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0967, 2.1398, 2.3762, 3.1756, 2.1391, 2.9730, 2.5657, 2.1477],
+       device='cuda:2'), covar=tensor([0.3791, 0.3411, 0.1505, 0.1908, 0.3827, 0.1545, 0.3606, 0.2815],
+       device='cuda:2'), in_proj_covar=tensor([0.0802, 0.0826, 0.0655, 0.0900, 0.0787, 0.0716, 0.0794, 0.0718],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 22:09:22,284 INFO [train.py:903] (2/4) Epoch 12, batch 3950, loss[loss=0.2544, simple_loss=0.3312, pruned_loss=0.08877, over 19302.00 frames. ], tot_loss[loss=0.2314, simple_loss=0.3051, pruned_loss=0.07886, over 3819967.03 frames. ], batch size: 66, lr: 6.92e-03, grad_scale: 8.0
+2023-04-01 22:09:24,092 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-01 22:09:29,047 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-01 22:09:29,436 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2373, 2.8182, 2.2451, 2.0303, 1.8032, 2.2777, 0.8262, 2.0258],
+       device='cuda:2'), covar=tensor([0.0434, 0.0503, 0.0507, 0.0920, 0.0975, 0.0869, 0.1099, 0.0808],
+       device='cuda:2'), in_proj_covar=tensor([0.0346, 0.0334, 0.0336, 0.0361, 0.0431, 0.0360, 0.0316, 0.0328],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 22:09:43,635 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.615e+02 6.132e+02 6.993e+02 8.356e+02 2.478e+03, threshold=1.399e+03, percent-clipped=5.0
+2023-04-01 22:10:22,893 INFO [train.py:903] (2/4) Epoch 12, batch 4000, loss[loss=0.2431, simple_loss=0.3152, pruned_loss=0.08549, over 19374.00 frames. ], tot_loss[loss=0.23, simple_loss=0.304, pruned_loss=0.07803, over 3813305.87 frames. ], batch size: 47, lr: 6.91e-03, grad_scale: 8.0
+2023-04-01 22:11:13,114 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-01 22:11:21,647 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.30 vs. limit=5.0
+2023-04-01 22:11:24,594 INFO [train.py:903] (2/4) Epoch 12, batch 4050, loss[loss=0.2455, simple_loss=0.3251, pruned_loss=0.08293, over 19669.00 frames. ], tot_loss[loss=0.2298, simple_loss=0.3039, pruned_loss=0.07785, over 3809228.58 frames. ], batch size: 60, lr: 6.91e-03, grad_scale: 8.0
+2023-04-01 22:11:47,128 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.257e+02 5.067e+02 6.190e+02 7.758e+02 2.001e+03, threshold=1.238e+03, percent-clipped=2.0
+2023-04-01 22:11:53,114 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.11 vs. limit=2.0
+2023-04-01 22:12:05,426 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1494, 1.9626, 1.8031, 1.5874, 1.4647, 1.5925, 0.3785, 0.9632],
+       device='cuda:2'), covar=tensor([0.0431, 0.0498, 0.0377, 0.0613, 0.0937, 0.0692, 0.1000, 0.0832],
+       device='cuda:2'), in_proj_covar=tensor([0.0346, 0.0336, 0.0338, 0.0362, 0.0433, 0.0361, 0.0318, 0.0330],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 22:12:07,778 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79193.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:12:26,659 INFO [train.py:903] (2/4) Epoch 12, batch 4100, loss[loss=0.1713, simple_loss=0.2449, pruned_loss=0.04889, over 19751.00 frames. ], tot_loss[loss=0.2297, simple_loss=0.3038, pruned_loss=0.0778, over 3810961.46 frames. ], batch size: 45, lr: 6.91e-03, grad_scale: 8.0
+2023-04-01 22:12:39,314 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79218.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:13:03,843 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-01 22:13:27,006 INFO [train.py:903] (2/4) Epoch 12, batch 4150, loss[loss=0.2143, simple_loss=0.2995, pruned_loss=0.06458, over 19703.00 frames. ], tot_loss[loss=0.2306, simple_loss=0.3049, pruned_loss=0.07817, over 3828638.58 frames. ], batch size: 63, lr: 6.91e-03, grad_scale: 8.0
+2023-04-01 22:13:49,452 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.496e+02 5.552e+02 6.928e+02 9.304e+02 2.111e+03, threshold=1.386e+03, percent-clipped=6.0
+2023-04-01 22:14:06,885 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79289.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:14:23,449 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79303.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 22:14:28,770 INFO [train.py:903] (2/4) Epoch 12, batch 4200, loss[loss=0.1864, simple_loss=0.2607, pruned_loss=0.0561, over 15954.00 frames. ], tot_loss[loss=0.2302, simple_loss=0.3043, pruned_loss=0.07804, over 3826931.60 frames. ], batch size: 35, lr: 6.91e-03, grad_scale: 8.0
+2023-04-01 22:14:33,309 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-01 22:14:35,715 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79314.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:14:53,793 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:15:22,567 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79351.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:15:26,847 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5611, 3.9560, 4.1880, 4.1867, 1.6558, 3.9190, 3.5024, 3.8554],
+       device='cuda:2'), covar=tensor([0.1425, 0.0964, 0.0589, 0.0629, 0.5293, 0.0764, 0.0631, 0.1217],
+       device='cuda:2'), in_proj_covar=tensor([0.0689, 0.0619, 0.0816, 0.0695, 0.0741, 0.0573, 0.0497, 0.0753],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 22:15:31,214 INFO [train.py:903] (2/4) Epoch 12, batch 4250, loss[loss=0.231, simple_loss=0.3041, pruned_loss=0.07894, over 19750.00 frames. ], tot_loss[loss=0.23, simple_loss=0.3042, pruned_loss=0.07791, over 3817209.62 frames. ], batch size: 51, lr: 6.90e-03, grad_scale: 8.0
+2023-04-01 22:15:43,224 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-01 22:15:52,360 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.517e+02 4.925e+02 6.557e+02 8.003e+02 1.515e+03, threshold=1.311e+03, percent-clipped=3.0
+2023-04-01 22:15:54,744 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-01 22:16:00,652 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79382.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:16:13,122 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79393.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 22:16:13,617 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.57 vs. limit=5.0
+2023-04-01 22:16:33,040 INFO [train.py:903] (2/4) Epoch 12, batch 4300, loss[loss=0.2196, simple_loss=0.2994, pruned_loss=0.06996, over 19853.00 frames. ], tot_loss[loss=0.2309, simple_loss=0.3043, pruned_loss=0.07877, over 3808915.09 frames. ], batch size: 52, lr: 6.90e-03, grad_scale: 8.0
+2023-04-01 22:16:43,495 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9414, 2.5570, 1.8364, 1.9905, 2.3884, 1.6199, 1.5723, 2.0357],
+       device='cuda:2'), covar=tensor([0.0824, 0.0588, 0.0739, 0.0527, 0.0432, 0.0846, 0.0644, 0.0509],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0299, 0.0324, 0.0245, 0.0235, 0.0318, 0.0287, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:17:07,821 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2673, 1.2947, 1.5667, 1.4316, 2.1986, 1.9762, 2.2820, 0.8759],
+       device='cuda:2'), covar=tensor([0.2163, 0.3685, 0.2185, 0.1683, 0.1344, 0.1849, 0.1219, 0.3712],
+       device='cuda:2'), in_proj_covar=tensor([0.0493, 0.0580, 0.0611, 0.0439, 0.0595, 0.0495, 0.0648, 0.0495],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 22:17:14,346 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79442.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:17:24,310 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-01 22:17:32,596 INFO [train.py:903] (2/4) Epoch 12, batch 4350, loss[loss=0.2164, simple_loss=0.2866, pruned_loss=0.07304, over 19591.00 frames. ], tot_loss[loss=0.2318, simple_loss=0.3053, pruned_loss=0.07914, over 3821022.56 frames. ], batch size: 52, lr: 6.90e-03, grad_scale: 8.0
+2023-04-01 22:17:54,380 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.719e+02 5.544e+02 6.866e+02 8.754e+02 2.036e+03, threshold=1.373e+03, percent-clipped=4.0
+2023-04-01 22:17:59,268 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
+2023-04-01 22:18:34,714 INFO [train.py:903] (2/4) Epoch 12, batch 4400, loss[loss=0.2405, simple_loss=0.314, pruned_loss=0.08354, over 19364.00 frames. ], tot_loss[loss=0.2321, simple_loss=0.3056, pruned_loss=0.07928, over 3823237.90 frames. ], batch size: 66, lr: 6.90e-03, grad_scale: 8.0
+2023-04-01 22:18:45,486 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8510, 1.3471, 1.0095, 0.8578, 1.1746, 0.9339, 0.8158, 1.2227],
+       device='cuda:2'), covar=tensor([0.0571, 0.0715, 0.1062, 0.0778, 0.0508, 0.1152, 0.0619, 0.0376],
+       device='cuda:2'), in_proj_covar=tensor([0.0290, 0.0298, 0.0322, 0.0244, 0.0234, 0.0315, 0.0286, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:18:58,952 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-01 22:19:07,289 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-01 22:19:38,009 INFO [train.py:903] (2/4) Epoch 12, batch 4450, loss[loss=0.1793, simple_loss=0.2562, pruned_loss=0.05118, over 19760.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3044, pruned_loss=0.07827, over 3823790.41 frames. ], batch size: 45, lr: 6.90e-03, grad_scale: 8.0
+2023-04-01 22:20:00,027 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.129e+02 5.261e+02 6.909e+02 8.531e+02 1.990e+03, threshold=1.382e+03, percent-clipped=5.0
+2023-04-01 22:20:33,599 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79603.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:20:41,076 INFO [train.py:903] (2/4) Epoch 12, batch 4500, loss[loss=0.2404, simple_loss=0.3118, pruned_loss=0.08444, over 19625.00 frames. ], tot_loss[loss=0.2313, simple_loss=0.3049, pruned_loss=0.07883, over 3821074.05 frames. ], batch size: 57, lr: 6.89e-03, grad_scale: 8.0
+2023-04-01 22:20:51,329 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.67 vs. limit=5.0
+2023-04-01 22:21:29,744 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79647.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 22:21:43,337 INFO [train.py:903] (2/4) Epoch 12, batch 4550, loss[loss=0.2736, simple_loss=0.3362, pruned_loss=0.1055, over 19522.00 frames. ], tot_loss[loss=0.2316, simple_loss=0.3052, pruned_loss=0.07904, over 3809576.14 frames. ], batch size: 64, lr: 6.89e-03, grad_scale: 8.0
+2023-04-01 22:21:49,802 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.70 vs. limit=5.0
+2023-04-01 22:21:52,463 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-01 22:22:04,153 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79675.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:22:04,987 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.248e+02 5.458e+02 6.277e+02 7.572e+02 1.495e+03, threshold=1.255e+03, percent-clipped=2.0
+2023-04-01 22:22:11,618 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0126, 4.4375, 4.7761, 4.7404, 1.8150, 4.3791, 3.8668, 4.3803],
+       device='cuda:2'), covar=tensor([0.1351, 0.0748, 0.0489, 0.0500, 0.4705, 0.0673, 0.0572, 0.0999],
+       device='cuda:2'), in_proj_covar=tensor([0.0686, 0.0617, 0.0812, 0.0691, 0.0732, 0.0565, 0.0495, 0.0745],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 22:22:15,955 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-01 22:22:29,762 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79695.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:22:29,930 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7488, 4.2582, 4.4665, 4.4553, 1.6666, 4.1194, 3.6934, 4.1072],
+       device='cuda:2'), covar=tensor([0.1416, 0.0667, 0.0509, 0.0538, 0.4967, 0.0665, 0.0565, 0.0986],
+       device='cuda:2'), in_proj_covar=tensor([0.0686, 0.0616, 0.0812, 0.0691, 0.0732, 0.0564, 0.0494, 0.0745],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 22:22:33,637 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=79698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:22:44,774 INFO [train.py:903] (2/4) Epoch 12, batch 4600, loss[loss=0.2316, simple_loss=0.3064, pruned_loss=0.07841, over 19841.00 frames. ], tot_loss[loss=0.2306, simple_loss=0.3045, pruned_loss=0.07836, over 3824842.05 frames. ], batch size: 52, lr: 6.89e-03, grad_scale: 8.0
+2023-04-01 22:23:04,290 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=79723.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:23:07,649 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79726.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:23:21,790 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79737.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 22:23:46,648 INFO [train.py:903] (2/4) Epoch 12, batch 4650, loss[loss=0.2633, simple_loss=0.3336, pruned_loss=0.0965, over 19574.00 frames. ], tot_loss[loss=0.2306, simple_loss=0.3049, pruned_loss=0.07818, over 3835677.72 frames. ], batch size: 61, lr: 6.89e-03, grad_scale: 8.0
+2023-04-01 22:23:49,908 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.38 vs. limit=5.0
+2023-04-01 22:23:52,626 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79762.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 22:24:06,317 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-01 22:24:09,608 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.145e+02 5.614e+02 7.010e+02 8.934e+02 1.991e+03, threshold=1.402e+03, percent-clipped=7.0
+2023-04-01 22:24:14,672 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=79780.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:24:15,607 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-01 22:24:48,915 INFO [train.py:903] (2/4) Epoch 12, batch 4700, loss[loss=0.2226, simple_loss=0.3061, pruned_loss=0.06962, over 19754.00 frames. ], tot_loss[loss=0.2314, simple_loss=0.3056, pruned_loss=0.07856, over 3831949.39 frames. ], batch size: 54, lr: 6.88e-03, grad_scale: 8.0
+2023-04-01 22:24:52,468 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79810.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:25:12,467 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-01 22:25:30,332 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79841.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:25:45,559 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=79852.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 22:25:52,116 INFO [train.py:903] (2/4) Epoch 12, batch 4750, loss[loss=0.2359, simple_loss=0.3106, pruned_loss=0.0806, over 18108.00 frames. ], tot_loss[loss=0.2303, simple_loss=0.3046, pruned_loss=0.07804, over 3822384.25 frames. ], batch size: 83, lr: 6.88e-03, grad_scale: 8.0
+2023-04-01 22:26:14,210 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.848e+02 5.173e+02 6.366e+02 7.623e+02 1.625e+03, threshold=1.273e+03, percent-clipped=2.0
+2023-04-01 22:26:54,248 INFO [train.py:903] (2/4) Epoch 12, batch 4800, loss[loss=0.2053, simple_loss=0.2856, pruned_loss=0.0625, over 19594.00 frames. ], tot_loss[loss=0.2294, simple_loss=0.3037, pruned_loss=0.07759, over 3828263.03 frames. ], batch size: 52, lr: 6.88e-03, grad_scale: 8.0
+2023-04-01 22:26:58,940 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8185, 1.6073, 1.7208, 2.3259, 2.0314, 1.9310, 2.0464, 1.8677],
+       device='cuda:2'), covar=tensor([0.0709, 0.0930, 0.0801, 0.0602, 0.0731, 0.0720, 0.0820, 0.0639],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0226, 0.0224, 0.0247, 0.0237, 0.0213, 0.0194, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 22:27:42,669 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=79947.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:27:55,362 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5175, 3.6233, 3.9914, 4.0037, 2.3204, 3.7364, 3.4113, 3.7057],
+       device='cuda:2'), covar=tensor([0.1242, 0.3326, 0.0589, 0.0636, 0.3869, 0.1049, 0.0589, 0.0999],
+       device='cuda:2'), in_proj_covar=tensor([0.0679, 0.0615, 0.0805, 0.0688, 0.0726, 0.0558, 0.0487, 0.0739],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 22:27:56,267 INFO [train.py:903] (2/4) Epoch 12, batch 4850, loss[loss=0.3002, simple_loss=0.3487, pruned_loss=0.1259, over 13524.00 frames. ], tot_loss[loss=0.2301, simple_loss=0.3043, pruned_loss=0.078, over 3825817.16 frames. ], batch size: 136, lr: 6.88e-03, grad_scale: 16.0
+2023-04-01 22:28:19,171 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.933e+02 5.432e+02 6.685e+02 9.186e+02 1.976e+03, threshold=1.337e+03, percent-clipped=11.0
+2023-04-01 22:28:21,558 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8919, 1.6434, 1.5238, 1.8783, 1.7582, 1.5946, 1.5503, 1.7360],
+       device='cuda:2'), covar=tensor([0.0872, 0.1382, 0.1345, 0.0895, 0.1134, 0.0509, 0.1169, 0.0704],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0351, 0.0293, 0.0240, 0.0298, 0.0242, 0.0281, 0.0241],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:28:23,575 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-01 22:28:43,806 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-01 22:28:48,464 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-01 22:28:51,004 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-01 22:28:59,978 INFO [train.py:903] (2/4) Epoch 12, batch 4900, loss[loss=0.1804, simple_loss=0.2539, pruned_loss=0.05346, over 19774.00 frames. ], tot_loss[loss=0.2296, simple_loss=0.3037, pruned_loss=0.07777, over 3821738.99 frames. ], batch size: 47, lr: 6.88e-03, grad_scale: 8.0
+2023-04-01 22:29:02,304 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-01 22:29:13,782 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80018.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 22:29:14,546 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80019.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:29:21,245 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-01 22:29:39,133 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5144, 2.3742, 1.6071, 1.6494, 2.2029, 1.3207, 1.2711, 1.9706],
+       device='cuda:2'), covar=tensor([0.1016, 0.0662, 0.0969, 0.0665, 0.0488, 0.1082, 0.0772, 0.0427],
+       device='cuda:2'), in_proj_covar=tensor([0.0290, 0.0297, 0.0322, 0.0243, 0.0236, 0.0316, 0.0286, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:29:43,751 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80043.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 22:30:03,743 INFO [train.py:903] (2/4) Epoch 12, batch 4950, loss[loss=0.2191, simple_loss=0.2851, pruned_loss=0.07655, over 19411.00 frames. ], tot_loss[loss=0.2297, simple_loss=0.3038, pruned_loss=0.0778, over 3823715.55 frames. ], batch size: 48, lr: 6.87e-03, grad_scale: 8.0
+2023-04-01 22:30:08,669 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:30:13,625 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80066.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:30:20,433 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-01 22:30:26,819 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.980e+02 5.263e+02 6.788e+02 8.958e+02 2.034e+03, threshold=1.358e+03, percent-clipped=5.0
+2023-04-01 22:30:44,587 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80091.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:30:45,316 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-01 22:30:49,222 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.95 vs. limit=5.0
+2023-04-01 22:30:52,454 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80097.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:31:04,647 INFO [train.py:903] (2/4) Epoch 12, batch 5000, loss[loss=0.1745, simple_loss=0.2506, pruned_loss=0.04918, over 19725.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3044, pruned_loss=0.07831, over 3823734.72 frames. ], batch size: 51, lr: 6.87e-03, grad_scale: 8.0
+2023-04-01 22:31:05,081 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80108.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 22:31:13,750 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-01 22:31:22,046 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80122.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:31:24,067 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80124.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:31:26,035 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-01 22:31:37,130 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80133.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 22:31:38,250 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80134.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:32:06,837 INFO [train.py:903] (2/4) Epoch 12, batch 5050, loss[loss=0.2782, simple_loss=0.3342, pruned_loss=0.1111, over 13919.00 frames. ], tot_loss[loss=0.2331, simple_loss=0.3067, pruned_loss=0.07973, over 3810609.27 frames. ], batch size: 136, lr: 6.87e-03, grad_scale: 8.0
+2023-04-01 22:32:30,892 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.181e+02 5.736e+02 7.301e+02 9.465e+02 2.500e+03, threshold=1.460e+03, percent-clipped=5.0
+2023-04-01 22:32:41,349 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-01 22:32:55,396 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7849, 1.4424, 1.4573, 1.7052, 1.4678, 1.5519, 1.4305, 1.6230],
+       device='cuda:2'), covar=tensor([0.0901, 0.1273, 0.1353, 0.0888, 0.1182, 0.0502, 0.1235, 0.0707],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0349, 0.0291, 0.0238, 0.0297, 0.0241, 0.0280, 0.0240],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:33:07,070 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
+2023-04-01 22:33:08,738 INFO [train.py:903] (2/4) Epoch 12, batch 5100, loss[loss=0.2914, simple_loss=0.3451, pruned_loss=0.1189, over 13433.00 frames. ], tot_loss[loss=0.2337, simple_loss=0.3072, pruned_loss=0.08009, over 3808060.04 frames. ], batch size: 136, lr: 6.87e-03, grad_scale: 8.0
+2023-04-01 22:33:21,044 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-01 22:33:23,158 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-01 22:33:26,504 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-01 22:33:47,514 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:33:53,912 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-01 22:34:11,773 INFO [train.py:903] (2/4) Epoch 12, batch 5150, loss[loss=0.202, simple_loss=0.2753, pruned_loss=0.06436, over 19055.00 frames. ], tot_loss[loss=0.2319, simple_loss=0.3057, pruned_loss=0.07906, over 3820382.57 frames. ], batch size: 42, lr: 6.87e-03, grad_scale: 8.0
+2023-04-01 22:34:23,658 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-01 22:34:34,582 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.377e+02 5.205e+02 6.062e+02 7.794e+02 1.645e+03, threshold=1.212e+03, percent-clipped=2.0
+2023-04-01 22:34:59,509 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 22:35:05,754 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:35:13,720 INFO [train.py:903] (2/4) Epoch 12, batch 5200, loss[loss=0.2054, simple_loss=0.2988, pruned_loss=0.05595, over 19676.00 frames. ], tot_loss[loss=0.2302, simple_loss=0.3045, pruned_loss=0.07797, over 3808060.42 frames. ], batch size: 58, lr: 6.86e-03, grad_scale: 8.0
+2023-04-01 22:35:26,463 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80318.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:35:27,300 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-01 22:35:58,830 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80343.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:36:13,572 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-01 22:36:16,619 INFO [train.py:903] (2/4) Epoch 12, batch 5250, loss[loss=0.2395, simple_loss=0.3189, pruned_loss=0.08009, over 19661.00 frames. ], tot_loss[loss=0.2299, simple_loss=0.3044, pruned_loss=0.07776, over 3811222.28 frames. ], batch size: 58, lr: 6.86e-03, grad_scale: 8.0
+2023-04-01 22:36:41,375 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.664e+02 5.603e+02 6.465e+02 8.351e+02 1.434e+03, threshold=1.293e+03, percent-clipped=3.0
+2023-04-01 22:36:43,227 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-01 22:36:57,036 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80390.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:37:18,484 INFO [train.py:903] (2/4) Epoch 12, batch 5300, loss[loss=0.218, simple_loss=0.2956, pruned_loss=0.07023, over 19616.00 frames. ], tot_loss[loss=0.2291, simple_loss=0.3038, pruned_loss=0.07717, over 3817386.56 frames. ], batch size: 57, lr: 6.86e-03, grad_scale: 8.0
+2023-04-01 22:37:22,956 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80411.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:37:28,733 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80415.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:37:42,141 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-01 22:38:23,295 INFO [train.py:903] (2/4) Epoch 12, batch 5350, loss[loss=0.2637, simple_loss=0.3284, pruned_loss=0.09953, over 19609.00 frames. ], tot_loss[loss=0.2286, simple_loss=0.3034, pruned_loss=0.07691, over 3821741.51 frames. ], batch size: 57, lr: 6.86e-03, grad_scale: 8.0
+2023-04-01 22:38:33,792 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9191, 2.0130, 2.1660, 2.7198, 1.9576, 2.6300, 2.3591, 1.9211],
+       device='cuda:2'), covar=tensor([0.3830, 0.3312, 0.1523, 0.2074, 0.3682, 0.1631, 0.3768, 0.2936],
+       device='cuda:2'), in_proj_covar=tensor([0.0806, 0.0828, 0.0658, 0.0896, 0.0792, 0.0717, 0.0792, 0.0720],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 22:38:44,526 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.162e+02 5.085e+02 6.728e+02 8.660e+02 2.071e+03, threshold=1.346e+03, percent-clipped=4.0
+2023-04-01 22:38:50,335 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80481.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:38:52,582 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9125, 1.1901, 1.4055, 1.4599, 2.4415, 1.0591, 1.8860, 2.8556],
+       device='cuda:2'), covar=tensor([0.0736, 0.2886, 0.2816, 0.1772, 0.1066, 0.2510, 0.1414, 0.0433],
+       device='cuda:2'), in_proj_covar=tensor([0.0365, 0.0344, 0.0357, 0.0323, 0.0350, 0.0333, 0.0340, 0.0362],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:38:59,012 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-01 22:39:08,253 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=80495.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:39:23,541 INFO [train.py:903] (2/4) Epoch 12, batch 5400, loss[loss=0.1908, simple_loss=0.2608, pruned_loss=0.06037, over 19105.00 frames. ], tot_loss[loss=0.2302, simple_loss=0.3047, pruned_loss=0.07782, over 3828119.06 frames. ], batch size: 42, lr: 6.85e-03, grad_scale: 8.0
+2023-04-01 22:39:28,314 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80512.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:39:38,451 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=80520.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:40:24,797 INFO [train.py:903] (2/4) Epoch 12, batch 5450, loss[loss=0.2173, simple_loss=0.2887, pruned_loss=0.0729, over 19852.00 frames. ], tot_loss[loss=0.2301, simple_loss=0.3045, pruned_loss=0.07781, over 3822301.80 frames. ], batch size: 52, lr: 6.85e-03, grad_scale: 8.0
+2023-04-01 22:40:49,072 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.130e+02 5.165e+02 6.319e+02 8.444e+02 1.726e+03, threshold=1.264e+03, percent-clipped=5.0
+2023-04-01 22:41:26,460 INFO [train.py:903] (2/4) Epoch 12, batch 5500, loss[loss=0.2235, simple_loss=0.305, pruned_loss=0.07096, over 19667.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3049, pruned_loss=0.07806, over 3822646.77 frames. ], batch size: 58, lr: 6.85e-03, grad_scale: 8.0
+2023-04-01 22:41:53,692 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-01 22:42:12,382 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80645.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:42:29,083 INFO [train.py:903] (2/4) Epoch 12, batch 5550, loss[loss=0.2243, simple_loss=0.3059, pruned_loss=0.07135, over 18706.00 frames. ], tot_loss[loss=0.231, simple_loss=0.3053, pruned_loss=0.07839, over 3808668.96 frames. ], batch size: 74, lr: 6.85e-03, grad_scale: 8.0
+2023-04-01 22:42:38,030 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-01 22:42:45,270 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3362, 1.9326, 1.9229, 2.3823, 1.9883, 1.9586, 2.0323, 2.2717],
+       device='cuda:2'), covar=tensor([0.0755, 0.1367, 0.1198, 0.0864, 0.1182, 0.0446, 0.0978, 0.0583],
+       device='cuda:2'), in_proj_covar=tensor([0.0253, 0.0351, 0.0292, 0.0239, 0.0300, 0.0239, 0.0280, 0.0240],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:42:51,886 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.910e+02 5.291e+02 6.725e+02 8.423e+02 1.958e+03, threshold=1.345e+03, percent-clipped=4.0
+2023-04-01 22:43:28,246 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-01 22:43:31,865 INFO [train.py:903] (2/4) Epoch 12, batch 5600, loss[loss=0.2049, simple_loss=0.2775, pruned_loss=0.06614, over 19737.00 frames. ], tot_loss[loss=0.2295, simple_loss=0.3038, pruned_loss=0.07757, over 3800209.36 frames. ], batch size: 47, lr: 6.85e-03, grad_scale: 8.0
+2023-04-01 22:44:29,095 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80754.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:44:30,106 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80755.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:44:30,268 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1012, 5.1901, 5.9737, 5.8809, 1.9756, 5.6038, 4.7845, 5.5592],
+       device='cuda:2'), covar=tensor([0.1221, 0.0663, 0.0410, 0.0463, 0.5256, 0.0485, 0.0500, 0.0851],
+       device='cuda:2'), in_proj_covar=tensor([0.0686, 0.0616, 0.0811, 0.0698, 0.0736, 0.0562, 0.0497, 0.0744],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 22:44:33,521 INFO [train.py:903] (2/4) Epoch 12, batch 5650, loss[loss=0.2115, simple_loss=0.2803, pruned_loss=0.07136, over 19765.00 frames. ], tot_loss[loss=0.2298, simple_loss=0.3039, pruned_loss=0.0778, over 3810078.82 frames. ], batch size: 45, lr: 6.84e-03, grad_scale: 8.0
+2023-04-01 22:44:36,173 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:44:57,737 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.312e+02 5.237e+02 6.303e+02 7.862e+02 2.175e+03, threshold=1.261e+03, percent-clipped=3.0
+2023-04-01 22:45:15,131 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=80791.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:45:17,621 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6679, 1.4748, 1.5323, 1.9929, 1.8152, 1.8672, 1.8666, 1.8144],
+       device='cuda:2'), covar=tensor([0.0711, 0.0886, 0.0871, 0.0734, 0.0766, 0.0673, 0.0867, 0.0586],
+       device='cuda:2'), in_proj_covar=tensor([0.0207, 0.0223, 0.0220, 0.0242, 0.0232, 0.0208, 0.0192, 0.0200],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 22:45:20,700 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-01 22:45:24,541 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4538, 2.3052, 1.7715, 1.5718, 2.1180, 1.3716, 1.3170, 1.7369],
+       device='cuda:2'), covar=tensor([0.0995, 0.0655, 0.0938, 0.0730, 0.0468, 0.1114, 0.0706, 0.0479],
+       device='cuda:2'), in_proj_covar=tensor([0.0291, 0.0301, 0.0323, 0.0244, 0.0238, 0.0317, 0.0284, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:45:35,185 INFO [train.py:903] (2/4) Epoch 12, batch 5700, loss[loss=0.2203, simple_loss=0.3075, pruned_loss=0.06654, over 18840.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3047, pruned_loss=0.07819, over 3805359.24 frames. ], batch size: 74, lr: 6.84e-03, grad_scale: 8.0
+2023-04-01 22:45:57,688 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80825.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:46:33,738 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7122, 1.5339, 1.3578, 1.6326, 1.5408, 1.3183, 1.2286, 1.5498],
+       device='cuda:2'), covar=tensor([0.1079, 0.1400, 0.1540, 0.1013, 0.1234, 0.0767, 0.1545, 0.0835],
+       device='cuda:2'), in_proj_covar=tensor([0.0255, 0.0353, 0.0293, 0.0239, 0.0299, 0.0241, 0.0281, 0.0241],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:46:35,803 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=80856.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:46:38,759 INFO [train.py:903] (2/4) Epoch 12, batch 5750, loss[loss=0.1783, simple_loss=0.2574, pruned_loss=0.04963, over 19083.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3047, pruned_loss=0.0783, over 3798853.93 frames. ], batch size: 42, lr: 6.84e-03, grad_scale: 8.0
+2023-04-01 22:46:39,952 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-01 22:46:47,878 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-01 22:46:52,478 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-01 22:46:52,772 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80870.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:47:00,404 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.450e+02 5.415e+02 6.686e+02 8.336e+02 1.819e+03, threshold=1.337e+03, percent-clipped=1.0
+2023-04-01 22:47:40,316 INFO [train.py:903] (2/4) Epoch 12, batch 5800, loss[loss=0.214, simple_loss=0.2896, pruned_loss=0.06924, over 19587.00 frames. ], tot_loss[loss=0.229, simple_loss=0.3038, pruned_loss=0.07714, over 3806264.26 frames. ], batch size: 52, lr: 6.84e-03, grad_scale: 8.0
+2023-04-01 22:48:21,628 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80940.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:48:41,886 INFO [train.py:903] (2/4) Epoch 12, batch 5850, loss[loss=0.2288, simple_loss=0.3076, pruned_loss=0.07504, over 19539.00 frames. ], tot_loss[loss=0.2293, simple_loss=0.3038, pruned_loss=0.0774, over 3810931.23 frames. ], batch size: 56, lr: 6.84e-03, grad_scale: 8.0
+2023-04-01 22:48:58,808 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=80971.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:49:06,075 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.947e+02 5.387e+02 6.409e+02 7.183e+02 1.679e+03, threshold=1.282e+03, percent-clipped=1.0
+2023-04-01 22:49:17,192 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-01 22:49:43,637 INFO [train.py:903] (2/4) Epoch 12, batch 5900, loss[loss=0.1984, simple_loss=0.2854, pruned_loss=0.05567, over 19590.00 frames. ], tot_loss[loss=0.2297, simple_loss=0.3044, pruned_loss=0.07753, over 3823482.39 frames. ], batch size: 52, lr: 6.83e-03, grad_scale: 8.0
+2023-04-01 22:49:47,115 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-01 22:49:55,089 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81016.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:49:56,195 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2977, 1.4190, 1.5406, 1.5347, 2.9205, 1.1113, 2.3141, 3.2467],
+       device='cuda:2'), covar=tensor([0.0531, 0.2459, 0.2540, 0.1773, 0.0682, 0.2354, 0.1153, 0.0306],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0341, 0.0355, 0.0323, 0.0347, 0.0332, 0.0337, 0.0361],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:50:09,732 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-01 22:50:25,043 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81041.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:50:47,170 INFO [train.py:903] (2/4) Epoch 12, batch 5950, loss[loss=0.2167, simple_loss=0.2943, pruned_loss=0.0696, over 19363.00 frames. ], tot_loss[loss=0.2296, simple_loss=0.3043, pruned_loss=0.0774, over 3824385.30 frames. ], batch size: 47, lr: 6.83e-03, grad_scale: 8.0
+2023-04-01 22:51:10,058 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.575e+02 5.377e+02 6.760e+02 8.757e+02 1.989e+03, threshold=1.352e+03, percent-clipped=8.0
+2023-04-01 22:51:36,986 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81098.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:51:49,674 INFO [train.py:903] (2/4) Epoch 12, batch 6000, loss[loss=0.1904, simple_loss=0.2622, pruned_loss=0.05928, over 19762.00 frames. ], tot_loss[loss=0.229, simple_loss=0.3037, pruned_loss=0.07721, over 3816842.97 frames. ], batch size: 46, lr: 6.83e-03, grad_scale: 8.0
+2023-04-01 22:51:49,674 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 22:52:03,360 INFO [train.py:937] (2/4) Epoch 12, validation: loss=0.1765, simple_loss=0.2774, pruned_loss=0.03779, over 944034.00 frames. 
+2023-04-01 22:52:03,360 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 22:52:25,539 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81126.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:52:34,801 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81134.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:52:35,861 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81135.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:52:57,854 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81151.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:53:05,460 INFO [train.py:903] (2/4) Epoch 12, batch 6050, loss[loss=0.2187, simple_loss=0.3047, pruned_loss=0.06639, over 19687.00 frames. ], tot_loss[loss=0.2292, simple_loss=0.3038, pruned_loss=0.07724, over 3824496.86 frames. ], batch size: 59, lr: 6.83e-03, grad_scale: 8.0
+2023-04-01 22:53:27,714 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.001e+02 5.041e+02 6.677e+02 8.260e+02 1.738e+03, threshold=1.335e+03, percent-clipped=2.0
+2023-04-01 22:53:33,654 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8563, 1.3552, 1.0581, 0.9279, 1.1585, 0.9412, 0.9117, 1.2318],
+       device='cuda:2'), covar=tensor([0.0621, 0.0716, 0.1107, 0.0611, 0.0529, 0.1180, 0.0565, 0.0433],
+       device='cuda:2'), in_proj_covar=tensor([0.0290, 0.0303, 0.0325, 0.0246, 0.0240, 0.0320, 0.0282, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 22:53:52,461 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81196.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:54:05,932 INFO [train.py:903] (2/4) Epoch 12, batch 6100, loss[loss=0.2293, simple_loss=0.3022, pruned_loss=0.07822, over 19845.00 frames. ], tot_loss[loss=0.2301, simple_loss=0.3046, pruned_loss=0.07777, over 3823173.71 frames. ], batch size: 52, lr: 6.83e-03, grad_scale: 8.0
+2023-04-01 22:54:11,816 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81213.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:54:20,976 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81221.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:54:29,493 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81227.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:54:57,859 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:55:00,239 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81252.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:55:06,758 INFO [train.py:903] (2/4) Epoch 12, batch 6150, loss[loss=0.211, simple_loss=0.2937, pruned_loss=0.06413, over 19580.00 frames. ], tot_loss[loss=0.2303, simple_loss=0.3047, pruned_loss=0.07801, over 3827350.25 frames. ], batch size: 52, lr: 6.82e-03, grad_scale: 8.0
+2023-04-01 22:55:33,023 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.393e+02 5.279e+02 6.402e+02 8.020e+02 2.167e+03, threshold=1.280e+03, percent-clipped=2.0
+2023-04-01 22:55:39,186 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-01 22:56:12,035 INFO [train.py:903] (2/4) Epoch 12, batch 6200, loss[loss=0.2422, simple_loss=0.3179, pruned_loss=0.08323, over 19701.00 frames. ], tot_loss[loss=0.2301, simple_loss=0.3046, pruned_loss=0.07779, over 3832274.19 frames. ], batch size: 59, lr: 6.82e-03, grad_scale: 8.0
+2023-04-01 22:56:22,844 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81317.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:56:25,176 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81319.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:57:11,772 INFO [train.py:903] (2/4) Epoch 12, batch 6250, loss[loss=0.2115, simple_loss=0.2852, pruned_loss=0.06895, over 19477.00 frames. ], tot_loss[loss=0.2293, simple_loss=0.3039, pruned_loss=0.07732, over 3836761.91 frames. ], batch size: 49, lr: 6.82e-03, grad_scale: 8.0
+2023-04-01 22:57:33,897 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.420e+02 5.051e+02 6.163e+02 7.297e+02 1.401e+03, threshold=1.233e+03, percent-clipped=3.0
+2023-04-01 22:57:42,512 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5058, 1.5976, 1.9807, 1.7583, 3.1397, 2.5769, 3.2836, 1.5126],
+       device='cuda:2'), covar=tensor([0.2086, 0.3576, 0.2228, 0.1635, 0.1332, 0.1728, 0.1502, 0.3449],
+       device='cuda:2'), in_proj_covar=tensor([0.0494, 0.0587, 0.0616, 0.0440, 0.0594, 0.0502, 0.0649, 0.0500],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 22:57:43,134 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-01 22:58:13,171 INFO [train.py:903] (2/4) Epoch 12, batch 6300, loss[loss=0.2711, simple_loss=0.3391, pruned_loss=0.1015, over 17250.00 frames. ], tot_loss[loss=0.2309, simple_loss=0.3051, pruned_loss=0.07836, over 3814400.36 frames. ], batch size: 100, lr: 6.82e-03, grad_scale: 8.0
+2023-04-01 22:58:32,105 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3025, 1.4171, 1.8404, 1.4596, 2.7766, 3.5735, 3.4648, 3.8015],
+       device='cuda:2'), covar=tensor([0.1535, 0.3274, 0.2880, 0.2024, 0.0539, 0.0185, 0.0184, 0.0210],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0297, 0.0327, 0.0249, 0.0218, 0.0162, 0.0205, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 22:59:02,065 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2588, 1.3321, 1.8079, 1.5227, 2.5233, 1.9675, 2.5532, 1.2237],
+       device='cuda:2'), covar=tensor([0.2588, 0.4258, 0.2539, 0.2056, 0.1654, 0.2362, 0.1723, 0.4088],
+       device='cuda:2'), in_proj_covar=tensor([0.0488, 0.0581, 0.0611, 0.0435, 0.0591, 0.0497, 0.0645, 0.0496],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 22:59:14,515 INFO [train.py:903] (2/4) Epoch 12, batch 6350, loss[loss=0.2101, simple_loss=0.2942, pruned_loss=0.06301, over 17425.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.305, pruned_loss=0.07819, over 3806199.95 frames. ], batch size: 101, lr: 6.81e-03, grad_scale: 8.0
+2023-04-01 22:59:29,324 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81469.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:59:39,339 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.788e+02 5.412e+02 6.997e+02 8.497e+02 1.750e+03, threshold=1.399e+03, percent-clipped=2.0
+2023-04-01 22:59:40,735 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 22:59:59,489 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81494.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:00:09,760 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0353, 1.7540, 1.7141, 2.1337, 1.8132, 1.8223, 1.8094, 1.9436],
+       device='cuda:2'), covar=tensor([0.0847, 0.1471, 0.1254, 0.0836, 0.1172, 0.0453, 0.1090, 0.0654],
+       device='cuda:2'), in_proj_covar=tensor([0.0251, 0.0347, 0.0290, 0.0237, 0.0293, 0.0239, 0.0276, 0.0239],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 23:00:14,196 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81506.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:00:16,025 INFO [train.py:903] (2/4) Epoch 12, batch 6400, loss[loss=0.2507, simple_loss=0.3233, pruned_loss=0.08907, over 19413.00 frames. ], tot_loss[loss=0.2311, simple_loss=0.3053, pruned_loss=0.07842, over 3807536.38 frames. ], batch size: 70, lr: 6.81e-03, grad_scale: 8.0
+2023-04-01 23:00:45,284 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81531.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:01:19,145 INFO [train.py:903] (2/4) Epoch 12, batch 6450, loss[loss=0.2698, simple_loss=0.3359, pruned_loss=0.1018, over 13223.00 frames. ], tot_loss[loss=0.2313, simple_loss=0.3056, pruned_loss=0.07853, over 3805212.21 frames. ], batch size: 136, lr: 6.81e-03, grad_scale: 8.0
+2023-04-01 23:01:41,363 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.161e+02 5.839e+02 6.972e+02 8.326e+02 2.886e+03, threshold=1.394e+03, percent-clipped=3.0
+2023-04-01 23:02:03,359 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81593.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:02:06,508 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-01 23:02:20,360 INFO [train.py:903] (2/4) Epoch 12, batch 6500, loss[loss=0.2382, simple_loss=0.3147, pruned_loss=0.08086, over 18662.00 frames. ], tot_loss[loss=0.2302, simple_loss=0.3049, pruned_loss=0.0778, over 3816244.53 frames. ], batch size: 74, lr: 6.81e-03, grad_scale: 8.0
+2023-04-01 23:02:27,386 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-01 23:03:22,581 INFO [train.py:903] (2/4) Epoch 12, batch 6550, loss[loss=0.2893, simple_loss=0.3514, pruned_loss=0.1136, over 19454.00 frames. ], tot_loss[loss=0.2297, simple_loss=0.3043, pruned_loss=0.07757, over 3811000.79 frames. ], batch size: 64, lr: 6.81e-03, grad_scale: 8.0
+2023-04-01 23:03:26,197 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81661.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:03:28,586 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=81663.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:03:47,193 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.342e+02 5.338e+02 6.617e+02 7.892e+02 1.534e+03, threshold=1.323e+03, percent-clipped=1.0
+2023-04-01 23:04:00,901 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=81688.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:04:24,215 INFO [train.py:903] (2/4) Epoch 12, batch 6600, loss[loss=0.2714, simple_loss=0.3297, pruned_loss=0.1065, over 13430.00 frames. ], tot_loss[loss=0.2293, simple_loss=0.3038, pruned_loss=0.07739, over 3810847.48 frames. ], batch size: 135, lr: 6.80e-03, grad_scale: 8.0
+2023-04-01 23:05:26,102 INFO [train.py:903] (2/4) Epoch 12, batch 6650, loss[loss=0.1957, simple_loss=0.2776, pruned_loss=0.05693, over 19616.00 frames. ], tot_loss[loss=0.2288, simple_loss=0.3036, pruned_loss=0.07699, over 3803943.60 frames. ], batch size: 50, lr: 6.80e-03, grad_scale: 8.0
+2023-04-01 23:05:46,845 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81776.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:05:47,589 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.542e+02 5.145e+02 6.461e+02 8.134e+02 1.737e+03, threshold=1.292e+03, percent-clipped=3.0
+2023-04-01 23:05:49,161 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=81778.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:06:26,738 INFO [train.py:903] (2/4) Epoch 12, batch 6700, loss[loss=0.2373, simple_loss=0.3131, pruned_loss=0.08076, over 18744.00 frames. ], tot_loss[loss=0.2283, simple_loss=0.3028, pruned_loss=0.07687, over 3811093.78 frames. ], batch size: 74, lr: 6.80e-03, grad_scale: 8.0
+2023-04-01 23:07:03,310 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-01 23:07:16,989 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=81849.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:07:26,538 INFO [train.py:903] (2/4) Epoch 12, batch 6750, loss[loss=0.2396, simple_loss=0.3179, pruned_loss=0.08064, over 19666.00 frames. ], tot_loss[loss=0.2288, simple_loss=0.3031, pruned_loss=0.07724, over 3824256.80 frames. ], batch size: 55, lr: 6.80e-03, grad_scale: 4.0
+2023-04-01 23:07:45,258 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=81874.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:07:49,445 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.155e+02 6.276e+02 7.333e+02 1.082e+03 2.540e+03, threshold=1.467e+03, percent-clipped=11.0
+2023-04-01 23:08:23,230 INFO [train.py:903] (2/4) Epoch 12, batch 6800, loss[loss=0.1924, simple_loss=0.2717, pruned_loss=0.05659, over 19609.00 frames. ], tot_loss[loss=0.2283, simple_loss=0.3021, pruned_loss=0.07721, over 3808319.97 frames. ], batch size: 50, lr: 6.80e-03, grad_scale: 8.0
+2023-04-01 23:08:40,550 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9123, 1.8614, 1.7172, 1.5528, 1.4305, 1.5771, 0.4283, 0.9651],
+       device='cuda:2'), covar=tensor([0.0454, 0.0434, 0.0276, 0.0449, 0.0750, 0.0521, 0.0821, 0.0690],
+       device='cuda:2'), in_proj_covar=tensor([0.0343, 0.0332, 0.0330, 0.0358, 0.0429, 0.0357, 0.0313, 0.0325],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 23:09:08,325 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-01 23:09:09,337 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-01 23:09:12,678 INFO [train.py:903] (2/4) Epoch 13, batch 0, loss[loss=0.2158, simple_loss=0.2888, pruned_loss=0.07142, over 19735.00 frames. ], tot_loss[loss=0.2158, simple_loss=0.2888, pruned_loss=0.07142, over 19735.00 frames. ], batch size: 51, lr: 6.53e-03, grad_scale: 8.0
+2023-04-01 23:09:12,678 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-01 23:09:23,579 INFO [train.py:937] (2/4) Epoch 13, validation: loss=0.176, simple_loss=0.2772, pruned_loss=0.03738, over 944034.00 frames. 
+2023-04-01 23:09:23,580 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-01 23:09:35,417 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-01 23:10:14,567 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.117e+02 5.222e+02 6.740e+02 8.452e+02 3.268e+03, threshold=1.348e+03, percent-clipped=4.0
+2023-04-01 23:10:23,830 INFO [train.py:903] (2/4) Epoch 13, batch 50, loss[loss=0.2069, simple_loss=0.301, pruned_loss=0.05647, over 19658.00 frames. ], tot_loss[loss=0.2312, simple_loss=0.3072, pruned_loss=0.07754, over 865517.29 frames. ], batch size: 55, lr: 6.53e-03, grad_scale: 8.0
+2023-04-01 23:10:46,581 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82005.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:10:59,192 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-01 23:11:20,799 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82032.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:11:21,065 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82032.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:11:23,310 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82034.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:11:25,073 INFO [train.py:903] (2/4) Epoch 13, batch 100, loss[loss=0.2921, simple_loss=0.3509, pruned_loss=0.1166, over 19571.00 frames. ], tot_loss[loss=0.2282, simple_loss=0.3035, pruned_loss=0.07643, over 1525559.22 frames. ], batch size: 61, lr: 6.53e-03, grad_scale: 8.0
+2023-04-01 23:11:36,600 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-01 23:11:52,586 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82057.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:11:55,635 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82059.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:12:11,463 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82073.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:12:16,819 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.549e+02 4.805e+02 6.218e+02 7.513e+02 1.266e+03, threshold=1.244e+03, percent-clipped=0.0
+2023-04-01 23:12:25,778 INFO [train.py:903] (2/4) Epoch 13, batch 150, loss[loss=0.2052, simple_loss=0.2761, pruned_loss=0.06719, over 19400.00 frames. ], tot_loss[loss=0.2267, simple_loss=0.302, pruned_loss=0.07572, over 2041505.95 frames. ], batch size: 48, lr: 6.52e-03, grad_scale: 8.0
+2023-04-01 23:13:23,617 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-01 23:13:24,756 INFO [train.py:903] (2/4) Epoch 13, batch 200, loss[loss=0.2208, simple_loss=0.2988, pruned_loss=0.07142, over 19654.00 frames. ], tot_loss[loss=0.2268, simple_loss=0.3019, pruned_loss=0.07587, over 2444356.16 frames. ], batch size: 55, lr: 6.52e-03, grad_scale: 8.0
+2023-04-01 23:13:25,538 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.67 vs. limit=5.0
+2023-04-01 23:13:37,358 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-01 23:13:40,477 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=82147.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:14:14,395 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.039e+02 5.002e+02 5.972e+02 7.403e+02 2.257e+03, threshold=1.194e+03, percent-clipped=4.0
+2023-04-01 23:14:26,895 INFO [train.py:903] (2/4) Epoch 13, batch 250, loss[loss=0.2141, simple_loss=0.2857, pruned_loss=0.07118, over 19732.00 frames. ], tot_loss[loss=0.2284, simple_loss=0.3031, pruned_loss=0.0768, over 2756910.70 frames. ], batch size: 47, lr: 6.52e-03, grad_scale: 8.0
+2023-04-01 23:15:26,890 INFO [train.py:903] (2/4) Epoch 13, batch 300, loss[loss=0.1865, simple_loss=0.2645, pruned_loss=0.05422, over 19421.00 frames. ], tot_loss[loss=0.2287, simple_loss=0.3035, pruned_loss=0.07694, over 2998730.96 frames. ], batch size: 48, lr: 6.52e-03, grad_scale: 8.0
+2023-04-01 23:15:48,489 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.48 vs. limit=2.0
+2023-04-01 23:16:18,757 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.276e+02 5.753e+02 6.815e+02 9.164e+02 1.837e+03, threshold=1.363e+03, percent-clipped=5.0
+2023-04-01 23:16:28,127 INFO [train.py:903] (2/4) Epoch 13, batch 350, loss[loss=0.2243, simple_loss=0.3003, pruned_loss=0.07415, over 19697.00 frames. ], tot_loss[loss=0.2291, simple_loss=0.3036, pruned_loss=0.07728, over 3181330.82 frames. ], batch size: 53, lr: 6.52e-03, grad_scale: 8.0
+2023-04-01 23:16:30,460 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-01 23:17:28,519 INFO [train.py:903] (2/4) Epoch 13, batch 400, loss[loss=0.1838, simple_loss=0.2578, pruned_loss=0.05496, over 19728.00 frames. ], tot_loss[loss=0.2281, simple_loss=0.3023, pruned_loss=0.07694, over 3322915.09 frames. ], batch size: 46, lr: 6.51e-03, grad_scale: 8.0
+2023-04-01 23:17:47,110 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:18:04,877 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82364.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:18:21,974 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.254e+02 5.325e+02 6.166e+02 7.720e+02 2.046e+03, threshold=1.233e+03, percent-clipped=4.0
+2023-04-01 23:18:26,266 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.62 vs. limit=5.0
+2023-04-01 23:18:31,252 INFO [train.py:903] (2/4) Epoch 13, batch 450, loss[loss=0.2143, simple_loss=0.2886, pruned_loss=0.06997, over 19479.00 frames. ], tot_loss[loss=0.2277, simple_loss=0.3021, pruned_loss=0.07664, over 3438143.00 frames. ], batch size: 49, lr: 6.51e-03, grad_scale: 8.0
+2023-04-01 23:18:53,511 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82403.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:19:01,689 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8838, 3.4894, 2.4730, 3.1307, 0.9168, 3.3903, 3.3204, 3.4102],
+       device='cuda:2'), covar=tensor([0.0924, 0.1259, 0.1983, 0.0943, 0.3999, 0.0873, 0.0875, 0.1159],
+       device='cuda:2'), in_proj_covar=tensor([0.0444, 0.0374, 0.0445, 0.0321, 0.0381, 0.0375, 0.0369, 0.0402],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 23:19:04,668 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-01 23:19:04,708 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-01 23:19:09,581 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:19:23,688 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82428.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:19:33,813 INFO [train.py:903] (2/4) Epoch 13, batch 500, loss[loss=0.187, simple_loss=0.276, pruned_loss=0.04906, over 19597.00 frames. ], tot_loss[loss=0.2275, simple_loss=0.3022, pruned_loss=0.07637, over 3511645.73 frames. ], batch size: 52, lr: 6.51e-03, grad_scale: 8.0
+2023-04-01 23:20:06,483 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=82464.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:20:24,378 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8666, 4.3189, 4.5907, 4.5745, 1.6281, 4.2637, 3.7446, 4.2234],
+       device='cuda:2'), covar=tensor([0.1520, 0.0770, 0.0550, 0.0662, 0.5630, 0.0754, 0.0633, 0.1070],
+       device='cuda:2'), in_proj_covar=tensor([0.0701, 0.0621, 0.0821, 0.0706, 0.0750, 0.0573, 0.0501, 0.0755],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-01 23:20:27,372 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.531e+02 5.153e+02 6.569e+02 8.401e+02 1.477e+03, threshold=1.314e+03, percent-clipped=3.0
+2023-04-01 23:20:35,264 INFO [train.py:903] (2/4) Epoch 13, batch 550, loss[loss=0.2237, simple_loss=0.2989, pruned_loss=0.07427, over 19768.00 frames. ], tot_loss[loss=0.2279, simple_loss=0.3026, pruned_loss=0.0766, over 3586574.34 frames. ], batch size: 56, lr: 6.51e-03, grad_scale: 8.0
+2023-04-01 23:21:05,898 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82511.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 23:21:30,830 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=82532.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:21:35,043 INFO [train.py:903] (2/4) Epoch 13, batch 600, loss[loss=0.2541, simple_loss=0.3344, pruned_loss=0.08687, over 19494.00 frames. ], tot_loss[loss=0.2287, simple_loss=0.3038, pruned_loss=0.0768, over 3633989.21 frames. ], batch size: 64, lr: 6.51e-03, grad_scale: 8.0
+2023-04-01 23:22:17,359 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-01 23:22:28,774 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.675e+02 5.313e+02 6.751e+02 8.249e+02 1.619e+03, threshold=1.350e+03, percent-clipped=3.0
+2023-04-01 23:22:36,927 INFO [train.py:903] (2/4) Epoch 13, batch 650, loss[loss=0.2169, simple_loss=0.2843, pruned_loss=0.07478, over 19410.00 frames. ], tot_loss[loss=0.2272, simple_loss=0.3023, pruned_loss=0.07604, over 3687273.00 frames. ], batch size: 48, lr: 6.50e-03, grad_scale: 8.0
+2023-04-01 23:22:38,451 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:23:40,974 INFO [train.py:903] (2/4) Epoch 13, batch 700, loss[loss=0.2119, simple_loss=0.2762, pruned_loss=0.07383, over 19316.00 frames. ], tot_loss[loss=0.2258, simple_loss=0.3015, pruned_loss=0.07507, over 3727565.83 frames. ], batch size: 44, lr: 6.50e-03, grad_scale: 8.0
+2023-04-01 23:24:01,339 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1346, 1.2710, 1.7948, 1.1478, 2.5877, 3.2928, 3.0202, 3.4571],
+       device='cuda:2'), covar=tensor([0.1528, 0.3436, 0.2815, 0.2132, 0.0500, 0.0163, 0.0220, 0.0231],
+       device='cuda:2'), in_proj_covar=tensor([0.0259, 0.0302, 0.0331, 0.0255, 0.0222, 0.0163, 0.0207, 0.0211],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 23:24:36,357 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.507e+02 5.358e+02 6.603e+02 8.553e+02 2.977e+03, threshold=1.321e+03, percent-clipped=4.0
+2023-04-01 23:24:44,577 INFO [train.py:903] (2/4) Epoch 13, batch 750, loss[loss=0.2314, simple_loss=0.3007, pruned_loss=0.08107, over 19740.00 frames. ], tot_loss[loss=0.2269, simple_loss=0.3025, pruned_loss=0.0757, over 3748367.63 frames. ], batch size: 51, lr: 6.50e-03, grad_scale: 8.0
+2023-04-01 23:25:10,152 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82708.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:25:28,829 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82720.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:25:47,331 INFO [train.py:903] (2/4) Epoch 13, batch 800, loss[loss=0.2106, simple_loss=0.2931, pruned_loss=0.06401, over 19524.00 frames. ], tot_loss[loss=0.2265, simple_loss=0.3019, pruned_loss=0.07549, over 3777554.43 frames. ], batch size: 54, lr: 6.50e-03, grad_scale: 8.0
+2023-04-01 23:25:58,381 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82745.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:26:01,439 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-01 23:26:10,301 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4934, 1.5231, 1.8099, 1.6974, 2.7952, 2.2511, 2.8993, 1.3872],
+       device='cuda:2'), covar=tensor([0.1956, 0.3583, 0.2140, 0.1593, 0.1262, 0.1754, 0.1183, 0.3475],
+       device='cuda:2'), in_proj_covar=tensor([0.0488, 0.0578, 0.0610, 0.0439, 0.0589, 0.0495, 0.0640, 0.0493],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 23:26:24,286 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2630, 1.2945, 1.1837, 1.1039, 0.9917, 1.1317, 0.3341, 0.6216],
+       device='cuda:2'), covar=tensor([0.0399, 0.0387, 0.0226, 0.0353, 0.0692, 0.0424, 0.0743, 0.0596],
+       device='cuda:2'), in_proj_covar=tensor([0.0340, 0.0333, 0.0334, 0.0359, 0.0430, 0.0357, 0.0317, 0.0325],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 23:26:42,349 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.821e+02 5.442e+02 6.436e+02 7.821e+02 1.140e+03, threshold=1.287e+03, percent-clipped=0.0
+2023-04-01 23:26:50,562 INFO [train.py:903] (2/4) Epoch 13, batch 850, loss[loss=0.2197, simple_loss=0.2977, pruned_loss=0.07084, over 19778.00 frames. ], tot_loss[loss=0.2268, simple_loss=0.3021, pruned_loss=0.07575, over 3789578.03 frames. ], batch size: 54, lr: 6.50e-03, grad_scale: 8.0
+2023-04-01 23:26:53,198 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=82788.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:27:27,011 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=82813.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:27:38,390 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=82823.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:27:44,739 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-01 23:27:52,714 INFO [train.py:903] (2/4) Epoch 13, batch 900, loss[loss=0.2946, simple_loss=0.3343, pruned_loss=0.1275, over 19784.00 frames. ], tot_loss[loss=0.228, simple_loss=0.3027, pruned_loss=0.07663, over 3792042.64 frames. ], batch size: 48, lr: 6.49e-03, grad_scale: 8.0
+2023-04-01 23:28:19,292 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82855.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 23:28:47,653 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.460e+02 5.906e+02 6.958e+02 9.103e+02 2.196e+03, threshold=1.392e+03, percent-clipped=5.0
+2023-04-01 23:28:59,851 INFO [train.py:903] (2/4) Epoch 13, batch 950, loss[loss=0.2268, simple_loss=0.304, pruned_loss=0.07483, over 19666.00 frames. ], tot_loss[loss=0.2264, simple_loss=0.3011, pruned_loss=0.07589, over 3812813.94 frames. ], batch size: 60, lr: 6.49e-03, grad_scale: 8.0
+2023-04-01 23:29:04,323 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-01 23:29:37,782 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5676, 1.6634, 1.8717, 2.1141, 1.3911, 1.8839, 1.9638, 1.7335],
+       device='cuda:2'), covar=tensor([0.3705, 0.2951, 0.1563, 0.1712, 0.3335, 0.1593, 0.4096, 0.2818],
+       device='cuda:2'), in_proj_covar=tensor([0.0816, 0.0843, 0.0665, 0.0902, 0.0807, 0.0731, 0.0806, 0.0732],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 23:29:55,942 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=82931.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:30:01,521 INFO [train.py:903] (2/4) Epoch 13, batch 1000, loss[loss=0.2048, simple_loss=0.2779, pruned_loss=0.06587, over 19086.00 frames. ], tot_loss[loss=0.2271, simple_loss=0.3018, pruned_loss=0.07625, over 3795373.18 frames. ], batch size: 42, lr: 6.49e-03, grad_scale: 8.0
+2023-04-01 23:30:44,814 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=82970.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 23:30:49,530 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6111, 1.4386, 1.4695, 2.1365, 1.6539, 1.9394, 2.0285, 1.7238],
+       device='cuda:2'), covar=tensor([0.0912, 0.0994, 0.1070, 0.0847, 0.0916, 0.0761, 0.0893, 0.0730],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0225, 0.0225, 0.0244, 0.0234, 0.0211, 0.0195, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-01 23:30:52,611 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-01 23:30:54,574 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.083e+02 5.161e+02 6.395e+02 8.326e+02 2.115e+03, threshold=1.279e+03, percent-clipped=2.0
+2023-04-01 23:30:57,014 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=82981.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:31:02,718 INFO [train.py:903] (2/4) Epoch 13, batch 1050, loss[loss=0.2388, simple_loss=0.3124, pruned_loss=0.08261, over 19591.00 frames. ], tot_loss[loss=0.2274, simple_loss=0.3021, pruned_loss=0.0763, over 3810556.75 frames. ], batch size: 57, lr: 6.49e-03, grad_scale: 8.0
+2023-04-01 23:31:34,332 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-01 23:31:51,299 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9137, 2.3193, 2.3667, 2.9791, 2.5697, 2.5413, 2.4204, 3.0568],
+       device='cuda:2'), covar=tensor([0.0722, 0.1703, 0.1311, 0.1050, 0.1373, 0.0413, 0.1063, 0.0470],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0351, 0.0297, 0.0239, 0.0296, 0.0242, 0.0280, 0.0242],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 23:32:04,663 INFO [train.py:903] (2/4) Epoch 13, batch 1100, loss[loss=0.2382, simple_loss=0.3171, pruned_loss=0.07967, over 19763.00 frames. ], tot_loss[loss=0.2271, simple_loss=0.3019, pruned_loss=0.07615, over 3814050.30 frames. ], batch size: 63, lr: 6.49e-03, grad_scale: 8.0
+2023-04-01 23:32:19,505 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83046.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:32:57,824 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.212e+02 5.014e+02 6.117e+02 7.878e+02 1.226e+03, threshold=1.223e+03, percent-clipped=0.0
+2023-04-01 23:32:58,246 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83079.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:33:08,490 INFO [train.py:903] (2/4) Epoch 13, batch 1150, loss[loss=0.275, simple_loss=0.3443, pruned_loss=0.1029, over 19670.00 frames. ], tot_loss[loss=0.2269, simple_loss=0.3018, pruned_loss=0.07597, over 3813970.87 frames. ], batch size: 58, lr: 6.48e-03, grad_scale: 8.0
+2023-04-01 23:33:30,508 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83104.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:34:10,932 INFO [train.py:903] (2/4) Epoch 13, batch 1200, loss[loss=0.2235, simple_loss=0.2986, pruned_loss=0.07421, over 19737.00 frames. ], tot_loss[loss=0.2267, simple_loss=0.3017, pruned_loss=0.07588, over 3824754.59 frames. ], batch size: 63, lr: 6.48e-03, grad_scale: 8.0
+2023-04-01 23:34:14,937 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1386, 1.2935, 1.6595, 1.1406, 2.6905, 3.6309, 3.4016, 3.8916],
+       device='cuda:2'), covar=tensor([0.1588, 0.3470, 0.3115, 0.2207, 0.0558, 0.0155, 0.0206, 0.0183],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0299, 0.0328, 0.0253, 0.0221, 0.0162, 0.0207, 0.0211],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 23:34:40,330 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-01 23:35:06,465 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.490e+02 6.101e+02 7.395e+02 1.032e+03 1.939e+03, threshold=1.479e+03, percent-clipped=13.0
+2023-04-01 23:35:12,376 INFO [train.py:903] (2/4) Epoch 13, batch 1250, loss[loss=0.2654, simple_loss=0.3401, pruned_loss=0.09539, over 19674.00 frames. ], tot_loss[loss=0.2264, simple_loss=0.3013, pruned_loss=0.07579, over 3833193.05 frames. ], batch size: 58, lr: 6.48e-03, grad_scale: 4.0
+2023-04-01 23:35:48,391 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=83214.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:36:02,591 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83226.0, num_to_drop=1, layers_to_drop={1}
+2023-04-01 23:36:13,263 INFO [train.py:903] (2/4) Epoch 13, batch 1300, loss[loss=0.2329, simple_loss=0.3077, pruned_loss=0.07906, over 19617.00 frames. ], tot_loss[loss=0.2278, simple_loss=0.3028, pruned_loss=0.0764, over 3823058.95 frames. ], batch size: 57, lr: 6.48e-03, grad_scale: 4.0
+2023-04-01 23:36:33,767 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83251.0, num_to_drop=1, layers_to_drop={0}
+2023-04-01 23:37:08,171 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.019e+02 5.042e+02 6.195e+02 7.677e+02 1.204e+03, threshold=1.239e+03, percent-clipped=0.0
+2023-04-01 23:37:17,151 INFO [train.py:903] (2/4) Epoch 13, batch 1350, loss[loss=0.2539, simple_loss=0.3302, pruned_loss=0.08878, over 19469.00 frames. ], tot_loss[loss=0.2272, simple_loss=0.3024, pruned_loss=0.07596, over 3829622.32 frames. ], batch size: 64, lr: 6.48e-03, grad_scale: 4.0
+2023-04-01 23:37:37,973 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=83302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:37:38,098 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:38:07,358 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83325.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:38:09,930 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:38:21,069 INFO [train.py:903] (2/4) Epoch 13, batch 1400, loss[loss=0.2218, simple_loss=0.29, pruned_loss=0.07681, over 19752.00 frames. ], tot_loss[loss=0.2277, simple_loss=0.3027, pruned_loss=0.07633, over 3824076.50 frames. ], batch size: 46, lr: 6.47e-03, grad_scale: 4.0
+2023-04-01 23:38:49,426 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8461, 1.9532, 2.1643, 2.7602, 1.9364, 2.7100, 2.3611, 1.9971],
+       device='cuda:2'), covar=tensor([0.3677, 0.3110, 0.1465, 0.1809, 0.3534, 0.1463, 0.3486, 0.2601],
+       device='cuda:2'), in_proj_covar=tensor([0.0809, 0.0832, 0.0659, 0.0892, 0.0796, 0.0723, 0.0797, 0.0720],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 23:39:10,613 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2685, 2.2704, 2.5885, 3.3430, 2.2195, 3.2142, 2.7969, 2.3602],
+       device='cuda:2'), covar=tensor([0.3832, 0.3377, 0.1446, 0.1991, 0.4071, 0.1593, 0.3639, 0.2792],
+       device='cuda:2'), in_proj_covar=tensor([0.0811, 0.0834, 0.0659, 0.0894, 0.0797, 0.0724, 0.0798, 0.0722],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 23:39:16,727 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.257e+02 5.533e+02 6.494e+02 7.603e+02 1.656e+03, threshold=1.299e+03, percent-clipped=2.0
+2023-04-01 23:39:20,299 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-01 23:39:22,614 INFO [train.py:903] (2/4) Epoch 13, batch 1450, loss[loss=0.2175, simple_loss=0.2799, pruned_loss=0.07754, over 19742.00 frames. ], tot_loss[loss=0.2282, simple_loss=0.3028, pruned_loss=0.07685, over 3814048.28 frames. ], batch size: 45, lr: 6.47e-03, grad_scale: 4.0
+2023-04-01 23:40:24,405 INFO [train.py:903] (2/4) Epoch 13, batch 1500, loss[loss=0.2224, simple_loss=0.3091, pruned_loss=0.06785, over 19274.00 frames. ], tot_loss[loss=0.2287, simple_loss=0.3028, pruned_loss=0.07728, over 3806494.07 frames. ], batch size: 70, lr: 6.47e-03, grad_scale: 4.0
+2023-04-01 23:40:29,241 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83440.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:41:19,832 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.552e+02 5.496e+02 6.437e+02 7.955e+02 2.023e+03, threshold=1.287e+03, percent-clipped=5.0
+2023-04-01 23:41:26,537 INFO [train.py:903] (2/4) Epoch 13, batch 1550, loss[loss=0.205, simple_loss=0.2876, pruned_loss=0.06117, over 19592.00 frames. ], tot_loss[loss=0.2274, simple_loss=0.3018, pruned_loss=0.07653, over 3819369.91 frames. ], batch size: 61, lr: 6.47e-03, grad_scale: 4.0
+2023-04-01 23:42:30,076 INFO [train.py:903] (2/4) Epoch 13, batch 1600, loss[loss=0.216, simple_loss=0.2752, pruned_loss=0.07844, over 18686.00 frames. ], tot_loss[loss=0.2277, simple_loss=0.3023, pruned_loss=0.07652, over 3822857.16 frames. ], batch size: 41, lr: 6.47e-03, grad_scale: 8.0
+2023-04-01 23:42:53,320 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-01 23:42:55,753 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83558.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:43:25,327 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.823e+02 5.445e+02 6.386e+02 7.908e+02 1.256e+03, threshold=1.277e+03, percent-clipped=0.0
+2023-04-01 23:43:31,085 INFO [train.py:903] (2/4) Epoch 13, batch 1650, loss[loss=0.2246, simple_loss=0.2884, pruned_loss=0.08043, over 19583.00 frames. ], tot_loss[loss=0.2292, simple_loss=0.3037, pruned_loss=0.07732, over 3820419.15 frames. ], batch size: 52, lr: 6.47e-03, grad_scale: 8.0
+2023-04-01 23:44:33,585 INFO [train.py:903] (2/4) Epoch 13, batch 1700, loss[loss=0.1617, simple_loss=0.2457, pruned_loss=0.03883, over 19332.00 frames. ], tot_loss[loss=0.2296, simple_loss=0.304, pruned_loss=0.07762, over 3829873.44 frames. ], batch size: 47, lr: 6.46e-03, grad_scale: 8.0
+2023-04-01 23:44:45,669 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=83646.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:45:15,475 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-01 23:45:19,369 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83673.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:45:27,803 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.234e+02 5.386e+02 6.785e+02 9.131e+02 1.645e+03, threshold=1.357e+03, percent-clipped=5.0
+2023-04-01 23:45:33,653 INFO [train.py:903] (2/4) Epoch 13, batch 1750, loss[loss=0.2434, simple_loss=0.3158, pruned_loss=0.08547, over 19667.00 frames. ], tot_loss[loss=0.2303, simple_loss=0.3047, pruned_loss=0.07797, over 3828790.51 frames. ], batch size: 58, lr: 6.46e-03, grad_scale: 8.0
+2023-04-01 23:45:48,924 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83696.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:46:19,385 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83721.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:46:37,929 INFO [train.py:903] (2/4) Epoch 13, batch 1800, loss[loss=0.179, simple_loss=0.259, pruned_loss=0.04953, over 19763.00 frames. ], tot_loss[loss=0.2296, simple_loss=0.3041, pruned_loss=0.07757, over 3818455.53 frames. ], batch size: 46, lr: 6.46e-03, grad_scale: 8.0
+2023-04-01 23:47:08,593 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=83761.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:47:29,805 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=83778.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:47:32,955 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.146e+02 5.542e+02 6.939e+02 8.095e+02 2.139e+03, threshold=1.388e+03, percent-clipped=3.0
+2023-04-01 23:47:35,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-01 23:47:39,805 INFO [train.py:903] (2/4) Epoch 13, batch 1850, loss[loss=0.2565, simple_loss=0.3301, pruned_loss=0.09146, over 19539.00 frames. ], tot_loss[loss=0.2311, simple_loss=0.3054, pruned_loss=0.07836, over 3824095.81 frames. ], batch size: 54, lr: 6.46e-03, grad_scale: 8.0
+2023-04-01 23:48:11,514 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-01 23:48:38,901 INFO [train.py:903] (2/4) Epoch 13, batch 1900, loss[loss=0.2339, simple_loss=0.2945, pruned_loss=0.08668, over 19765.00 frames. ], tot_loss[loss=0.2304, simple_loss=0.3049, pruned_loss=0.07801, over 3816129.99 frames. ], batch size: 47, lr: 6.46e-03, grad_scale: 8.0
+2023-04-01 23:48:56,187 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-01 23:49:00,755 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-01 23:49:22,965 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6631, 2.3279, 1.7602, 1.5800, 2.2708, 1.4352, 1.4221, 1.9310],
+       device='cuda:2'), covar=tensor([0.0863, 0.0600, 0.0846, 0.0666, 0.0402, 0.1011, 0.0691, 0.0478],
+       device='cuda:2'), in_proj_covar=tensor([0.0291, 0.0303, 0.0325, 0.0248, 0.0237, 0.0317, 0.0284, 0.0262],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-01 23:49:23,829 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-01 23:49:32,948 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.547e+02 5.453e+02 6.640e+02 7.751e+02 1.927e+03, threshold=1.328e+03, percent-clipped=4.0
+2023-04-01 23:49:38,628 INFO [train.py:903] (2/4) Epoch 13, batch 1950, loss[loss=0.219, simple_loss=0.2873, pruned_loss=0.07533, over 19483.00 frames. ], tot_loss[loss=0.2295, simple_loss=0.3039, pruned_loss=0.07749, over 3809481.82 frames. ], batch size: 49, lr: 6.45e-03, grad_scale: 8.0
+2023-04-01 23:50:25,359 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0914, 2.1998, 2.2883, 3.0705, 2.1213, 2.8990, 2.5433, 2.1346],
+       device='cuda:2'), covar=tensor([0.4276, 0.3596, 0.1655, 0.2223, 0.4049, 0.1797, 0.4238, 0.3035],
+       device='cuda:2'), in_proj_covar=tensor([0.0810, 0.0841, 0.0659, 0.0896, 0.0797, 0.0725, 0.0802, 0.0723],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-01 23:50:31,072 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=83929.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:50:40,979 INFO [train.py:903] (2/4) Epoch 13, batch 2000, loss[loss=0.2259, simple_loss=0.3048, pruned_loss=0.07345, over 19669.00 frames. ], tot_loss[loss=0.2294, simple_loss=0.3043, pruned_loss=0.07726, over 3823451.82 frames. ], batch size: 55, lr: 6.45e-03, grad_scale: 8.0
+2023-04-01 23:51:02,448 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=83954.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:51:17,798 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=83967.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:51:36,105 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.295e+02 5.067e+02 6.527e+02 8.467e+02 1.955e+03, threshold=1.305e+03, percent-clipped=7.0
+2023-04-01 23:51:38,312 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-01 23:51:42,657 INFO [train.py:903] (2/4) Epoch 13, batch 2050, loss[loss=0.2223, simple_loss=0.3048, pruned_loss=0.06995, over 19714.00 frames. ], tot_loss[loss=0.2295, simple_loss=0.3043, pruned_loss=0.07735, over 3812402.62 frames. ], batch size: 59, lr: 6.45e-03, grad_scale: 8.0
+2023-04-01 23:51:56,825 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-01 23:51:57,798 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-01 23:52:03,619 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84003.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:52:21,332 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-01 23:52:22,869 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84017.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:52:43,920 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4603, 2.4193, 1.9990, 1.8939, 1.8111, 2.0652, 1.2425, 1.8557],
+       device='cuda:2'), covar=tensor([0.0456, 0.0471, 0.0454, 0.0662, 0.0748, 0.0766, 0.0882, 0.0631],
+       device='cuda:2'), in_proj_covar=tensor([0.0340, 0.0333, 0.0334, 0.0356, 0.0425, 0.0357, 0.0313, 0.0324],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 23:52:44,648 INFO [train.py:903] (2/4) Epoch 13, batch 2100, loss[loss=0.2764, simple_loss=0.3427, pruned_loss=0.1051, over 13657.00 frames. ], tot_loss[loss=0.2306, simple_loss=0.3049, pruned_loss=0.07815, over 3811661.02 frames. ], batch size: 136, lr: 6.45e-03, grad_scale: 8.0
+2023-04-01 23:52:52,282 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:53:14,854 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-01 23:53:36,195 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-01 23:53:39,566 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.864e+02 5.545e+02 6.946e+02 9.457e+02 3.064e+03, threshold=1.389e+03, percent-clipped=12.0
+2023-04-01 23:53:45,272 INFO [train.py:903] (2/4) Epoch 13, batch 2150, loss[loss=0.2552, simple_loss=0.324, pruned_loss=0.09315, over 17627.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3047, pruned_loss=0.07839, over 3804095.63 frames. ], batch size: 101, lr: 6.45e-03, grad_scale: 8.0
+2023-04-01 23:54:23,396 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84115.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:54:31,389 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84122.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:54:49,422 INFO [train.py:903] (2/4) Epoch 13, batch 2200, loss[loss=0.267, simple_loss=0.3331, pruned_loss=0.1005, over 19386.00 frames. ], tot_loss[loss=0.2313, simple_loss=0.3052, pruned_loss=0.07866, over 3807640.36 frames. ], batch size: 70, lr: 6.44e-03, grad_scale: 8.0
+2023-04-01 23:55:44,487 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.166e+02 5.936e+02 7.647e+02 9.699e+02 2.302e+03, threshold=1.529e+03, percent-clipped=8.0
+2023-04-01 23:55:50,238 INFO [train.py:903] (2/4) Epoch 13, batch 2250, loss[loss=0.2079, simple_loss=0.2879, pruned_loss=0.06392, over 19739.00 frames. ], tot_loss[loss=0.2303, simple_loss=0.3043, pruned_loss=0.07816, over 3799575.52 frames. ], batch size: 51, lr: 6.44e-03, grad_scale: 8.0
+2023-04-01 23:56:28,832 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84217.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:56:51,982 INFO [train.py:903] (2/4) Epoch 13, batch 2300, loss[loss=0.2645, simple_loss=0.3359, pruned_loss=0.09656, over 19648.00 frames. ], tot_loss[loss=0.2315, simple_loss=0.3057, pruned_loss=0.07864, over 3814844.50 frames. ], batch size: 55, lr: 6.44e-03, grad_scale: 8.0
+2023-04-01 23:56:53,536 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84237.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:57:05,858 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-01 23:57:15,126 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84254.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:57:47,135 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.862e+02 5.192e+02 6.483e+02 8.696e+02 2.103e+03, threshold=1.297e+03, percent-clipped=4.0
+2023-04-01 23:57:52,879 INFO [train.py:903] (2/4) Epoch 13, batch 2350, loss[loss=0.2345, simple_loss=0.3109, pruned_loss=0.07908, over 19736.00 frames. ], tot_loss[loss=0.2329, simple_loss=0.3066, pruned_loss=0.07962, over 3790950.60 frames. ], batch size: 63, lr: 6.44e-03, grad_scale: 8.0
+2023-04-01 23:58:25,970 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84311.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:58:37,175 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-01 23:58:54,366 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-01 23:58:57,888 INFO [train.py:903] (2/4) Epoch 13, batch 2400, loss[loss=0.1984, simple_loss=0.2683, pruned_loss=0.06429, over 19299.00 frames. ], tot_loss[loss=0.2318, simple_loss=0.306, pruned_loss=0.07882, over 3804120.70 frames. ], batch size: 44, lr: 6.44e-03, grad_scale: 8.0
+2023-04-01 23:59:11,498 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:59:20,741 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84354.0, num_to_drop=0, layers_to_drop=set()
+2023-04-01 23:59:37,079 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3278, 2.1397, 1.9859, 1.8408, 1.6120, 1.8070, 0.7141, 1.3319],
+       device='cuda:2'), covar=tensor([0.0379, 0.0478, 0.0346, 0.0574, 0.0843, 0.0674, 0.0957, 0.0735],
+       device='cuda:2'), in_proj_covar=tensor([0.0343, 0.0337, 0.0338, 0.0360, 0.0431, 0.0359, 0.0318, 0.0328],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-01 23:59:48,313 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.66 vs. limit=5.0
+2023-04-01 23:59:54,313 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.264e+02 5.138e+02 6.932e+02 8.383e+02 1.660e+03, threshold=1.386e+03, percent-clipped=4.0
+2023-04-01 23:59:59,965 INFO [train.py:903] (2/4) Epoch 13, batch 2450, loss[loss=0.2625, simple_loss=0.3339, pruned_loss=0.09549, over 19785.00 frames. ], tot_loss[loss=0.2315, simple_loss=0.3059, pruned_loss=0.07861, over 3804462.51 frames. ], batch size: 56, lr: 6.43e-03, grad_scale: 8.0
+2023-04-02 00:00:51,637 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84426.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:01:03,736 INFO [train.py:903] (2/4) Epoch 13, batch 2500, loss[loss=0.2229, simple_loss=0.2942, pruned_loss=0.07576, over 19827.00 frames. ], tot_loss[loss=0.2311, simple_loss=0.3053, pruned_loss=0.07839, over 3794379.08 frames. ], batch size: 52, lr: 6.43e-03, grad_scale: 8.0
+2023-04-02 00:01:29,845 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0663, 1.9435, 1.7569, 1.5595, 1.5320, 1.5510, 0.3691, 0.8317],
+       device='cuda:2'), covar=tensor([0.0402, 0.0444, 0.0305, 0.0493, 0.0843, 0.0583, 0.0934, 0.0785],
+       device='cuda:2'), in_proj_covar=tensor([0.0341, 0.0335, 0.0337, 0.0357, 0.0430, 0.0357, 0.0316, 0.0326],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 00:01:33,203 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84459.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:01:36,881 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1081, 1.7878, 1.8499, 2.2258, 1.9872, 1.9293, 1.7745, 2.1631],
+       device='cuda:2'), covar=tensor([0.0792, 0.1504, 0.1156, 0.0698, 0.1130, 0.0445, 0.1094, 0.0536],
+       device='cuda:2'), in_proj_covar=tensor([0.0254, 0.0351, 0.0294, 0.0239, 0.0296, 0.0242, 0.0280, 0.0241],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:01:38,073 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84462.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:02:00,516 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.656e+02 5.326e+02 7.100e+02 9.098e+02 1.657e+03, threshold=1.420e+03, percent-clipped=3.0
+2023-04-02 00:02:06,422 INFO [train.py:903] (2/4) Epoch 13, batch 2550, loss[loss=0.2329, simple_loss=0.3083, pruned_loss=0.07874, over 19612.00 frames. ], tot_loss[loss=0.2321, simple_loss=0.3063, pruned_loss=0.07898, over 3809547.59 frames. ], batch size: 57, lr: 6.43e-03, grad_scale: 8.0
+2023-04-02 00:02:16,040 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84493.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:02:22,158 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3258, 2.3667, 2.5797, 3.0771, 2.4914, 3.0581, 2.7270, 2.3355],
+       device='cuda:2'), covar=tensor([0.3249, 0.2781, 0.1269, 0.1646, 0.2983, 0.1251, 0.2926, 0.2262],
+       device='cuda:2'), in_proj_covar=tensor([0.0815, 0.0843, 0.0665, 0.0902, 0.0799, 0.0728, 0.0803, 0.0726],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 00:02:48,834 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84518.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:03:04,569 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 00:03:10,385 INFO [train.py:903] (2/4) Epoch 13, batch 2600, loss[loss=0.2592, simple_loss=0.34, pruned_loss=0.08919, over 18308.00 frames. ], tot_loss[loss=0.2316, simple_loss=0.306, pruned_loss=0.07861, over 3811643.58 frames. ], batch size: 83, lr: 6.43e-03, grad_scale: 8.0
+2023-04-02 00:03:21,123 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84543.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:03:42,740 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84561.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:03:59,424 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84574.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:04:09,373 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.575e+02 5.097e+02 6.359e+02 8.045e+02 2.004e+03, threshold=1.272e+03, percent-clipped=4.0
+2023-04-02 00:04:15,154 INFO [train.py:903] (2/4) Epoch 13, batch 2650, loss[loss=0.2189, simple_loss=0.2885, pruned_loss=0.07463, over 19414.00 frames. ], tot_loss[loss=0.2308, simple_loss=0.3052, pruned_loss=0.07818, over 3807397.25 frames. ], batch size: 48, lr: 6.43e-03, grad_scale: 8.0
+2023-04-02 00:04:30,348 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84598.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:04:34,931 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 00:05:17,487 INFO [train.py:903] (2/4) Epoch 13, batch 2700, loss[loss=0.2429, simple_loss=0.3184, pruned_loss=0.0837, over 19753.00 frames. ], tot_loss[loss=0.2301, simple_loss=0.305, pruned_loss=0.07762, over 3809592.49 frames. ], batch size: 63, lr: 6.43e-03, grad_scale: 8.0
+2023-04-02 00:05:36,197 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84651.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:06:08,579 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84676.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:06:13,993 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.791e+02 5.394e+02 6.395e+02 8.456e+02 1.799e+03, threshold=1.279e+03, percent-clipped=4.0
+2023-04-02 00:06:16,797 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84682.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:06:21,011 INFO [train.py:903] (2/4) Epoch 13, batch 2750, loss[loss=0.2297, simple_loss=0.3119, pruned_loss=0.07374, over 19593.00 frames. ], tot_loss[loss=0.2312, simple_loss=0.3056, pruned_loss=0.07838, over 3806331.43 frames. ], batch size: 61, lr: 6.42e-03, grad_scale: 8.0
+2023-04-02 00:06:37,481 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:06:49,091 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84707.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:06:56,215 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84713.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:07:01,944 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84718.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:07:24,547 INFO [train.py:903] (2/4) Epoch 13, batch 2800, loss[loss=0.2047, simple_loss=0.2768, pruned_loss=0.06634, over 19582.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3048, pruned_loss=0.07803, over 3807161.54 frames. ], batch size: 52, lr: 6.42e-03, grad_scale: 8.0
+2023-04-02 00:07:34,095 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84743.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:08:22,666 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.267e+02 5.423e+02 6.884e+02 8.957e+02 1.568e+03, threshold=1.377e+03, percent-clipped=4.0
+2023-04-02 00:08:29,875 INFO [train.py:903] (2/4) Epoch 13, batch 2850, loss[loss=0.2468, simple_loss=0.3217, pruned_loss=0.08595, over 19779.00 frames. ], tot_loss[loss=0.2323, simple_loss=0.3064, pruned_loss=0.07908, over 3796970.64 frames. ], batch size: 56, lr: 6.42e-03, grad_scale: 8.0
+2023-04-02 00:08:57,585 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7469, 1.7420, 1.6073, 1.3306, 1.3375, 1.3998, 0.1918, 0.6001],
+       device='cuda:2'), covar=tensor([0.0472, 0.0479, 0.0287, 0.0464, 0.1055, 0.0537, 0.0927, 0.0835],
+       device='cuda:2'), in_proj_covar=tensor([0.0340, 0.0333, 0.0334, 0.0356, 0.0429, 0.0355, 0.0315, 0.0324],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 00:09:04,275 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=84813.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:09:11,237 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84818.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:09:26,664 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7358, 1.7179, 1.5197, 1.3293, 1.3282, 1.4002, 0.1982, 0.6263],
+       device='cuda:2'), covar=tensor([0.0449, 0.0452, 0.0320, 0.0493, 0.1000, 0.0541, 0.0935, 0.0825],
+       device='cuda:2'), in_proj_covar=tensor([0.0340, 0.0333, 0.0335, 0.0357, 0.0430, 0.0356, 0.0315, 0.0324],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 00:09:26,671 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84830.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:09:33,372 INFO [train.py:903] (2/4) Epoch 13, batch 2900, loss[loss=0.2462, simple_loss=0.3186, pruned_loss=0.08687, over 18107.00 frames. ], tot_loss[loss=0.2327, simple_loss=0.3071, pruned_loss=0.07917, over 3792749.71 frames. ], batch size: 83, lr: 6.42e-03, grad_scale: 8.0
+2023-04-02 00:09:33,421 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 00:09:58,757 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84855.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:10:06,442 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-02 00:10:15,854 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9398, 1.7160, 1.6966, 2.3220, 1.8425, 2.2060, 2.2137, 2.0145],
+       device='cuda:2'), covar=tensor([0.0709, 0.0873, 0.0952, 0.0736, 0.0788, 0.0640, 0.0734, 0.0602],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0226, 0.0225, 0.0246, 0.0233, 0.0212, 0.0195, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 00:10:31,985 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.833e+02 5.191e+02 6.710e+02 8.572e+02 2.238e+03, threshold=1.342e+03, percent-clipped=4.0
+2023-04-02 00:10:38,025 INFO [train.py:903] (2/4) Epoch 13, batch 2950, loss[loss=0.2162, simple_loss=0.2932, pruned_loss=0.06963, over 19526.00 frames. ], tot_loss[loss=0.2312, simple_loss=0.3059, pruned_loss=0.07822, over 3794586.36 frames. ], batch size: 56, lr: 6.42e-03, grad_scale: 8.0
+2023-04-02 00:10:40,471 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84887.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:11:39,641 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84932.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:11:45,180 INFO [train.py:903] (2/4) Epoch 13, batch 3000, loss[loss=0.205, simple_loss=0.293, pruned_loss=0.05853, over 19338.00 frames. ], tot_loss[loss=0.2306, simple_loss=0.3058, pruned_loss=0.07765, over 3811001.96 frames. ], batch size: 66, lr: 6.41e-03, grad_scale: 8.0
+2023-04-02 00:11:45,181 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 00:12:00,847 INFO [train.py:937] (2/4) Epoch 13, validation: loss=0.1754, simple_loss=0.276, pruned_loss=0.03742, over 944034.00 frames. 
+2023-04-02 00:12:00,850 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 00:12:06,833 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 00:12:13,231 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5787, 1.2885, 1.4891, 1.6099, 3.1379, 1.0793, 2.1433, 3.5142],
+       device='cuda:2'), covar=tensor([0.0454, 0.2902, 0.2712, 0.1698, 0.0724, 0.2533, 0.1351, 0.0276],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0349, 0.0358, 0.0326, 0.0349, 0.0335, 0.0344, 0.0369],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:12:29,866 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84957.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:12:38,232 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5357, 1.2847, 1.3236, 2.0466, 1.6030, 1.9284, 1.9921, 1.5878],
+       device='cuda:2'), covar=tensor([0.0890, 0.1086, 0.1156, 0.0941, 0.0969, 0.0777, 0.0890, 0.0728],
+       device='cuda:2'), in_proj_covar=tensor([0.0207, 0.0224, 0.0223, 0.0243, 0.0231, 0.0210, 0.0193, 0.0201],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 00:12:43,916 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=84969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:12:44,073 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=84969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:12:59,476 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.728e+02 4.901e+02 6.331e+02 8.447e+02 1.208e+03, threshold=1.266e+03, percent-clipped=0.0
+2023-04-02 00:13:05,461 INFO [train.py:903] (2/4) Epoch 13, batch 3050, loss[loss=0.2321, simple_loss=0.3148, pruned_loss=0.07475, over 19669.00 frames. ], tot_loss[loss=0.2301, simple_loss=0.3053, pruned_loss=0.07743, over 3818612.06 frames. ], batch size: 59, lr: 6.41e-03, grad_scale: 8.0
+2023-04-02 00:13:17,215 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=84994.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:13:18,172 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=84995.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:13:26,478 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85002.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:14:09,082 INFO [train.py:903] (2/4) Epoch 13, batch 3100, loss[loss=0.3271, simple_loss=0.3764, pruned_loss=0.1389, over 12906.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3053, pruned_loss=0.078, over 3813339.61 frames. ], batch size: 136, lr: 6.41e-03, grad_scale: 8.0
+2023-04-02 00:14:34,308 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.34 vs. limit=2.0
+2023-04-02 00:14:50,675 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85069.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:15:05,351 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.206e+02 5.118e+02 6.727e+02 8.323e+02 1.616e+03, threshold=1.345e+03, percent-clipped=6.0
+2023-04-02 00:15:11,226 INFO [train.py:903] (2/4) Epoch 13, batch 3150, loss[loss=0.2704, simple_loss=0.3479, pruned_loss=0.09648, over 19314.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.3053, pruned_loss=0.07787, over 3808831.66 frames. ], batch size: 66, lr: 6.41e-03, grad_scale: 8.0
+2023-04-02 00:15:20,648 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:15:30,603 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7897, 1.5243, 1.6239, 1.6759, 3.3891, 1.3011, 2.3889, 3.6725],
+       device='cuda:2'), covar=tensor([0.0408, 0.2627, 0.2701, 0.1792, 0.0689, 0.2316, 0.1201, 0.0272],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0348, 0.0357, 0.0326, 0.0349, 0.0334, 0.0342, 0.0367],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:15:37,412 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 00:15:40,142 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-02 00:15:41,873 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85110.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:15:52,625 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.56 vs. limit=2.0
+2023-04-02 00:16:00,171 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85125.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:16:09,438 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85133.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:16:12,575 INFO [train.py:903] (2/4) Epoch 13, batch 3200, loss[loss=0.2378, simple_loss=0.3173, pruned_loss=0.07917, over 19750.00 frames. ], tot_loss[loss=0.2315, simple_loss=0.3063, pruned_loss=0.07839, over 3812910.99 frames. ], batch size: 63, lr: 6.41e-03, grad_scale: 8.0
+2023-04-02 00:16:46,269 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85162.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:17:10,848 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.817e+02 5.513e+02 6.647e+02 8.266e+02 1.326e+03, threshold=1.329e+03, percent-clipped=0.0
+2023-04-02 00:17:11,355 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4905, 2.3435, 1.6886, 1.5961, 2.1673, 1.2875, 1.2883, 1.8381],
+       device='cuda:2'), covar=tensor([0.0953, 0.0665, 0.0983, 0.0767, 0.0456, 0.1190, 0.0690, 0.0454],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0304, 0.0329, 0.0250, 0.0238, 0.0322, 0.0288, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:17:16,619 INFO [train.py:903] (2/4) Epoch 13, batch 3250, loss[loss=0.2395, simple_loss=0.319, pruned_loss=0.08003, over 19657.00 frames. ], tot_loss[loss=0.2313, simple_loss=0.3058, pruned_loss=0.0784, over 3810332.41 frames. ], batch size: 58, lr: 6.40e-03, grad_scale: 8.0
+2023-04-02 00:17:25,604 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.86 vs. limit=5.0
+2023-04-02 00:18:20,666 INFO [train.py:903] (2/4) Epoch 13, batch 3300, loss[loss=0.2042, simple_loss=0.2768, pruned_loss=0.06582, over 19773.00 frames. ], tot_loss[loss=0.2313, simple_loss=0.306, pruned_loss=0.07828, over 3811384.11 frames. ], batch size: 48, lr: 6.40e-03, grad_scale: 8.0
+2023-04-02 00:18:21,937 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 00:18:47,646 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85258.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:19:12,469 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85277.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:19:17,832 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.152e+02 5.269e+02 6.447e+02 8.165e+02 1.494e+03, threshold=1.289e+03, percent-clipped=3.0
+2023-04-02 00:19:19,519 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85283.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:19:22,473 INFO [train.py:903] (2/4) Epoch 13, batch 3350, loss[loss=0.2302, simple_loss=0.3083, pruned_loss=0.07601, over 19610.00 frames. ], tot_loss[loss=0.231, simple_loss=0.3058, pruned_loss=0.07813, over 3825341.13 frames. ], batch size: 57, lr: 6.40e-03, grad_scale: 8.0
+2023-04-02 00:19:57,322 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85313.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:20:24,675 INFO [train.py:903] (2/4) Epoch 13, batch 3400, loss[loss=0.2036, simple_loss=0.2804, pruned_loss=0.06337, over 19680.00 frames. ], tot_loss[loss=0.2281, simple_loss=0.3029, pruned_loss=0.07663, over 3828183.20 frames. ], batch size: 53, lr: 6.40e-03, grad_scale: 8.0
+2023-04-02 00:21:03,094 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85366.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:21:22,540 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.171e+02 5.371e+02 6.826e+02 8.500e+02 2.504e+03, threshold=1.365e+03, percent-clipped=9.0
+2023-04-02 00:21:27,166 INFO [train.py:903] (2/4) Epoch 13, batch 3450, loss[loss=0.1679, simple_loss=0.2449, pruned_loss=0.04541, over 19774.00 frames. ], tot_loss[loss=0.2284, simple_loss=0.3031, pruned_loss=0.07691, over 3823775.76 frames. ], batch size: 47, lr: 6.40e-03, grad_scale: 8.0
+2023-04-02 00:21:30,625 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 00:21:34,241 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85391.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:21:37,722 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7628, 1.7095, 1.5888, 1.4073, 1.2957, 1.3939, 0.2320, 0.6931],
+       device='cuda:2'), covar=tensor([0.0429, 0.0432, 0.0291, 0.0426, 0.0900, 0.0490, 0.0867, 0.0780],
+       device='cuda:2'), in_proj_covar=tensor([0.0339, 0.0334, 0.0335, 0.0357, 0.0427, 0.0357, 0.0313, 0.0325],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 00:21:59,012 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4515, 1.8392, 1.4842, 1.4550, 1.7270, 1.2983, 1.3473, 1.5852],
+       device='cuda:2'), covar=tensor([0.0696, 0.0603, 0.0728, 0.0555, 0.0445, 0.0915, 0.0491, 0.0395],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0305, 0.0328, 0.0250, 0.0240, 0.0322, 0.0288, 0.0262],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:22:15,803 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9876, 3.6395, 2.3402, 3.2309, 1.0723, 3.4655, 3.4258, 3.5238],
+       device='cuda:2'), covar=tensor([0.0706, 0.1000, 0.1873, 0.0804, 0.3347, 0.0745, 0.0803, 0.1069],
+       device='cuda:2'), in_proj_covar=tensor([0.0448, 0.0375, 0.0451, 0.0323, 0.0391, 0.0384, 0.0373, 0.0405],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:22:19,416 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85428.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:22:25,646 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3161, 3.0626, 2.0880, 2.7775, 0.8514, 2.9291, 2.8784, 2.9247],
+       device='cuda:2'), covar=tensor([0.1075, 0.1243, 0.2117, 0.0946, 0.3559, 0.0930, 0.0969, 0.1313],
+       device='cuda:2'), in_proj_covar=tensor([0.0448, 0.0375, 0.0451, 0.0323, 0.0391, 0.0384, 0.0373, 0.0405],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:22:28,798 INFO [train.py:903] (2/4) Epoch 13, batch 3500, loss[loss=0.2311, simple_loss=0.3128, pruned_loss=0.07468, over 19653.00 frames. ], tot_loss[loss=0.2293, simple_loss=0.3035, pruned_loss=0.07753, over 3818566.76 frames. ], batch size: 55, lr: 6.40e-03, grad_scale: 8.0
+2023-04-02 00:22:42,128 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85446.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:23:10,405 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85469.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:23:20,663 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85477.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:23:27,196 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.349e+02 5.339e+02 6.675e+02 8.042e+02 1.644e+03, threshold=1.335e+03, percent-clipped=3.0
+2023-04-02 00:23:31,543 INFO [train.py:903] (2/4) Epoch 13, batch 3550, loss[loss=0.2926, simple_loss=0.3539, pruned_loss=0.1157, over 19673.00 frames. ], tot_loss[loss=0.2293, simple_loss=0.3038, pruned_loss=0.07745, over 3823244.59 frames. ], batch size: 60, lr: 6.39e-03, grad_scale: 8.0
+2023-04-02 00:23:50,603 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85501.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:24:31,259 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85533.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:24:34,224 INFO [train.py:903] (2/4) Epoch 13, batch 3600, loss[loss=0.2446, simple_loss=0.3204, pruned_loss=0.08438, over 19572.00 frames. ], tot_loss[loss=0.229, simple_loss=0.3033, pruned_loss=0.07736, over 3818751.25 frames. ], batch size: 61, lr: 6.39e-03, grad_scale: 8.0
+2023-04-02 00:24:50,329 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:25:03,601 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85558.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:25:33,194 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.573e+02 5.969e+02 7.367e+02 9.197e+02 1.857e+03, threshold=1.473e+03, percent-clipped=2.0
+2023-04-02 00:25:36,799 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85584.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:25:38,629 INFO [train.py:903] (2/4) Epoch 13, batch 3650, loss[loss=0.2181, simple_loss=0.2938, pruned_loss=0.0712, over 19676.00 frames. ], tot_loss[loss=0.2291, simple_loss=0.3032, pruned_loss=0.07756, over 3803884.48 frames. ], batch size: 53, lr: 6.39e-03, grad_scale: 8.0
+2023-04-02 00:25:46,148 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85592.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:26:41,857 INFO [train.py:903] (2/4) Epoch 13, batch 3700, loss[loss=0.2725, simple_loss=0.3408, pruned_loss=0.1021, over 19835.00 frames. ], tot_loss[loss=0.2296, simple_loss=0.3039, pruned_loss=0.0777, over 3799247.00 frames. ], batch size: 52, lr: 6.39e-03, grad_scale: 8.0
+2023-04-02 00:26:51,286 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85643.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:27:26,090 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8281, 1.8692, 2.1483, 2.3898, 1.6059, 2.1718, 2.2959, 2.0322],
+       device='cuda:2'), covar=tensor([0.3611, 0.3154, 0.1459, 0.1853, 0.3398, 0.1687, 0.3790, 0.2763],
+       device='cuda:2'), in_proj_covar=tensor([0.0806, 0.0838, 0.0658, 0.0892, 0.0791, 0.0717, 0.0794, 0.0718],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 00:27:41,790 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.698e+02 5.337e+02 6.385e+02 1.025e+03 1.989e+03, threshold=1.277e+03, percent-clipped=4.0
+2023-04-02 00:27:44,656 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85684.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:27:46,553 INFO [train.py:903] (2/4) Epoch 13, batch 3750, loss[loss=0.3209, simple_loss=0.3676, pruned_loss=0.1371, over 12941.00 frames. ], tot_loss[loss=0.2298, simple_loss=0.3044, pruned_loss=0.07759, over 3786896.57 frames. ], batch size: 136, lr: 6.39e-03, grad_scale: 8.0
+2023-04-02 00:28:14,971 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85709.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:28:48,147 INFO [train.py:903] (2/4) Epoch 13, batch 3800, loss[loss=0.1813, simple_loss=0.2685, pruned_loss=0.04707, over 19575.00 frames. ], tot_loss[loss=0.2289, simple_loss=0.304, pruned_loss=0.07692, over 3792020.53 frames. ], batch size: 52, lr: 6.38e-03, grad_scale: 8.0
+2023-04-02 00:29:20,847 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 00:29:44,879 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.310e+02 5.587e+02 7.205e+02 9.194e+02 2.888e+03, threshold=1.441e+03, percent-clipped=8.0
+2023-04-02 00:29:50,627 INFO [train.py:903] (2/4) Epoch 13, batch 3850, loss[loss=0.2088, simple_loss=0.275, pruned_loss=0.07132, over 19764.00 frames. ], tot_loss[loss=0.2291, simple_loss=0.3042, pruned_loss=0.077, over 3805351.62 frames. ], batch size: 46, lr: 6.38e-03, grad_scale: 8.0
+2023-04-02 00:29:56,232 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85790.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:30:53,507 INFO [train.py:903] (2/4) Epoch 13, batch 3900, loss[loss=0.1951, simple_loss=0.2889, pruned_loss=0.05063, over 19669.00 frames. ], tot_loss[loss=0.2294, simple_loss=0.3045, pruned_loss=0.07718, over 3786240.62 frames. ], batch size: 55, lr: 6.38e-03, grad_scale: 8.0
+2023-04-02 00:30:55,150 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8151, 3.2337, 3.2963, 3.3151, 1.3934, 3.1767, 2.7647, 3.0014],
+       device='cuda:2'), covar=tensor([0.1501, 0.0910, 0.0745, 0.0782, 0.4686, 0.0860, 0.0798, 0.1178],
+       device='cuda:2'), in_proj_covar=tensor([0.0701, 0.0623, 0.0835, 0.0705, 0.0753, 0.0578, 0.0502, 0.0765],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 00:31:00,129 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85840.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:31:06,827 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85845.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:31:10,520 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=85848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:31:30,232 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:31:40,480 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=85873.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:31:51,441 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.894e+02 5.450e+02 6.738e+02 8.252e+02 2.044e+03, threshold=1.348e+03, percent-clipped=4.0
+2023-04-02 00:31:57,033 INFO [train.py:903] (2/4) Epoch 13, batch 3950, loss[loss=0.2462, simple_loss=0.3259, pruned_loss=0.08322, over 19665.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3056, pruned_loss=0.07793, over 3795426.06 frames. ], batch size: 59, lr: 6.38e-03, grad_scale: 8.0
+2023-04-02 00:32:00,534 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 00:32:04,167 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85892.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:32:05,586 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85893.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:32:20,776 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85905.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:32:55,336 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2599, 1.1275, 1.1512, 1.5526, 1.3660, 1.3921, 1.4530, 1.2887],
+       device='cuda:2'), covar=tensor([0.0684, 0.0776, 0.0833, 0.0569, 0.0749, 0.0669, 0.0771, 0.0589],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0224, 0.0224, 0.0244, 0.0232, 0.0210, 0.0192, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 00:32:59,796 INFO [train.py:903] (2/4) Epoch 13, batch 4000, loss[loss=0.2175, simple_loss=0.2994, pruned_loss=0.06784, over 19613.00 frames. ], tot_loss[loss=0.2292, simple_loss=0.3042, pruned_loss=0.07708, over 3806826.31 frames. ], batch size: 57, lr: 6.38e-03, grad_scale: 8.0
+2023-04-02 00:33:14,781 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85948.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 00:33:30,815 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=85960.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:33:45,371 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2486, 1.9172, 2.0218, 2.8883, 2.1315, 2.4875, 2.5291, 2.2717],
+       device='cuda:2'), covar=tensor([0.0741, 0.0902, 0.0948, 0.0821, 0.0912, 0.0701, 0.0911, 0.0617],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0225, 0.0225, 0.0245, 0.0233, 0.0210, 0.0192, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 00:33:46,163 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 00:33:48,593 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=85975.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:33:56,487 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.510e+02 5.280e+02 6.258e+02 8.022e+02 1.377e+03, threshold=1.252e+03, percent-clipped=2.0
+2023-04-02 00:34:02,168 INFO [train.py:903] (2/4) Epoch 13, batch 4050, loss[loss=0.2309, simple_loss=0.3143, pruned_loss=0.07375, over 19771.00 frames. ], tot_loss[loss=0.2279, simple_loss=0.3032, pruned_loss=0.07632, over 3820533.64 frames. ], batch size: 56, lr: 6.37e-03, grad_scale: 8.0
+2023-04-02 00:34:03,495 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=85987.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:34:30,830 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86007.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:34:46,121 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86020.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:35:05,748 INFO [train.py:903] (2/4) Epoch 13, batch 4100, loss[loss=0.2465, simple_loss=0.3273, pruned_loss=0.08284, over 19582.00 frames. ], tot_loss[loss=0.227, simple_loss=0.3022, pruned_loss=0.07588, over 3826230.82 frames. ], batch size: 61, lr: 6.37e-03, grad_scale: 8.0
+2023-04-02 00:35:42,479 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 00:35:48,453 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86070.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:36:04,014 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.212e+02 4.943e+02 6.094e+02 7.890e+02 1.986e+03, threshold=1.219e+03, percent-clipped=5.0
+2023-04-02 00:36:08,788 INFO [train.py:903] (2/4) Epoch 13, batch 4150, loss[loss=0.274, simple_loss=0.3339, pruned_loss=0.1071, over 13777.00 frames. ], tot_loss[loss=0.2261, simple_loss=0.3018, pruned_loss=0.07523, over 3820219.77 frames. ], batch size: 135, lr: 6.37e-03, grad_scale: 8.0
+2023-04-02 00:36:11,032 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86087.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:36:28,548 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86102.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:36:58,038 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3240, 1.3780, 1.7171, 1.5624, 2.6245, 2.2447, 2.7127, 0.9650],
+       device='cuda:2'), covar=tensor([0.2077, 0.3671, 0.2162, 0.1599, 0.1260, 0.1772, 0.1239, 0.3755],
+       device='cuda:2'), in_proj_covar=tensor([0.0498, 0.0589, 0.0627, 0.0441, 0.0599, 0.0503, 0.0651, 0.0506],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 00:37:11,317 INFO [train.py:903] (2/4) Epoch 13, batch 4200, loss[loss=0.233, simple_loss=0.3132, pruned_loss=0.0764, over 19449.00 frames. ], tot_loss[loss=0.2262, simple_loss=0.302, pruned_loss=0.07524, over 3824895.73 frames. ], batch size: 64, lr: 6.37e-03, grad_scale: 8.0
+2023-04-02 00:37:14,927 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 00:37:42,897 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86161.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:37:47,530 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2567, 1.2690, 1.5917, 1.4653, 2.1954, 1.9880, 2.1843, 0.8055],
+       device='cuda:2'), covar=tensor([0.2249, 0.4008, 0.2389, 0.1833, 0.1434, 0.2042, 0.1418, 0.3995],
+       device='cuda:2'), in_proj_covar=tensor([0.0497, 0.0586, 0.0625, 0.0440, 0.0598, 0.0501, 0.0649, 0.0503],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 00:38:08,159 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.547e+02 5.506e+02 6.651e+02 9.015e+02 1.898e+03, threshold=1.330e+03, percent-clipped=8.0
+2023-04-02 00:38:12,739 INFO [train.py:903] (2/4) Epoch 13, batch 4250, loss[loss=0.2553, simple_loss=0.3179, pruned_loss=0.09636, over 19477.00 frames. ], tot_loss[loss=0.2268, simple_loss=0.3025, pruned_loss=0.07551, over 3828494.69 frames. ], batch size: 49, lr: 6.37e-03, grad_scale: 8.0
+2023-04-02 00:38:13,209 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86186.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:38:31,017 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 00:38:43,584 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 00:38:51,473 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.75 vs. limit=2.0
+2023-04-02 00:38:52,311 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86216.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:39:15,637 INFO [train.py:903] (2/4) Epoch 13, batch 4300, loss[loss=0.2598, simple_loss=0.3352, pruned_loss=0.09218, over 19268.00 frames. ], tot_loss[loss=0.2273, simple_loss=0.303, pruned_loss=0.07585, over 3826547.66 frames. ], batch size: 66, lr: 6.37e-03, grad_scale: 8.0
+2023-04-02 00:39:17,014 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86237.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:39:17,298 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4064, 2.2279, 1.9267, 1.8564, 1.6394, 1.8366, 0.4875, 1.3373],
+       device='cuda:2'), covar=tensor([0.0427, 0.0449, 0.0375, 0.0646, 0.0901, 0.0693, 0.1019, 0.0776],
+       device='cuda:2'), in_proj_covar=tensor([0.0340, 0.0332, 0.0333, 0.0357, 0.0431, 0.0356, 0.0314, 0.0323],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 00:39:19,934 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.54 vs. limit=2.0
+2023-04-02 00:39:23,011 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86241.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:39:50,470 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86263.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:39:51,559 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86264.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:40:13,249 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.647e+02 5.244e+02 6.314e+02 8.271e+02 2.210e+03, threshold=1.263e+03, percent-clipped=7.0
+2023-04-02 00:40:15,188 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 00:40:19,667 INFO [train.py:903] (2/4) Epoch 13, batch 4350, loss[loss=0.2498, simple_loss=0.3348, pruned_loss=0.08243, over 19779.00 frames. ], tot_loss[loss=0.2291, simple_loss=0.3044, pruned_loss=0.07696, over 3839023.67 frames. ], batch size: 56, lr: 6.36e-03, grad_scale: 8.0
+2023-04-02 00:40:22,481 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86288.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:40:27,962 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86292.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 00:41:00,078 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86319.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:41:22,565 INFO [train.py:903] (2/4) Epoch 13, batch 4400, loss[loss=0.2846, simple_loss=0.3348, pruned_loss=0.1172, over 19716.00 frames. ], tot_loss[loss=0.2294, simple_loss=0.3047, pruned_loss=0.07699, over 3831415.07 frames. ], batch size: 51, lr: 6.36e-03, grad_scale: 8.0
+2023-04-02 00:41:42,051 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86352.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:41:49,356 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86358.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:41:50,094 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 00:41:58,607 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86364.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:42:00,819 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 00:42:17,237 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4066, 1.7083, 2.1043, 1.7414, 3.2383, 2.7704, 3.7201, 1.7972],
+       device='cuda:2'), covar=tensor([0.2285, 0.3736, 0.2353, 0.1753, 0.1417, 0.1876, 0.1342, 0.3439],
+       device='cuda:2'), in_proj_covar=tensor([0.0495, 0.0585, 0.0624, 0.0440, 0.0596, 0.0500, 0.0646, 0.0501],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 00:42:20,373 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.626e+02 5.303e+02 6.614e+02 7.903e+02 1.976e+03, threshold=1.323e+03, percent-clipped=7.0
+2023-04-02 00:42:22,050 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86383.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:42:25,152 INFO [train.py:903] (2/4) Epoch 13, batch 4450, loss[loss=0.203, simple_loss=0.295, pruned_loss=0.05547, over 19703.00 frames. ], tot_loss[loss=0.2285, simple_loss=0.3039, pruned_loss=0.07651, over 3832453.30 frames. ], batch size: 59, lr: 6.36e-03, grad_scale: 8.0
+2023-04-02 00:42:52,172 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86407.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 00:43:00,998 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86414.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:43:21,667 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86431.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:43:25,443 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86434.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:43:27,352 INFO [train.py:903] (2/4) Epoch 13, batch 4500, loss[loss=0.2549, simple_loss=0.3229, pruned_loss=0.09348, over 13393.00 frames. ], tot_loss[loss=0.2284, simple_loss=0.3035, pruned_loss=0.07666, over 3827602.82 frames. ], batch size: 136, lr: 6.36e-03, grad_scale: 8.0
+2023-04-02 00:43:55,652 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86458.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:44:01,568 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86463.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:44:21,271 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:44:24,464 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.347e+02 5.430e+02 6.459e+02 7.870e+02 1.871e+03, threshold=1.292e+03, percent-clipped=3.0
+2023-04-02 00:44:29,966 INFO [train.py:903] (2/4) Epoch 13, batch 4550, loss[loss=0.2139, simple_loss=0.2967, pruned_loss=0.06555, over 19535.00 frames. ], tot_loss[loss=0.2292, simple_loss=0.3041, pruned_loss=0.07715, over 3809681.33 frames. ], batch size: 54, lr: 6.36e-03, grad_scale: 8.0
+2023-04-02 00:44:39,225 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 00:45:02,114 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 00:45:03,933 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-02 00:45:24,991 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86529.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:45:33,593 INFO [train.py:903] (2/4) Epoch 13, batch 4600, loss[loss=0.2281, simple_loss=0.3038, pruned_loss=0.07622, over 19742.00 frames. ], tot_loss[loss=0.2279, simple_loss=0.303, pruned_loss=0.07639, over 3810473.29 frames. ], batch size: 54, lr: 6.35e-03, grad_scale: 8.0
+2023-04-02 00:45:33,936 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8212, 1.4752, 1.6430, 1.5117, 2.5595, 1.2766, 2.1432, 2.7312],
+       device='cuda:2'), covar=tensor([0.0452, 0.1950, 0.1880, 0.1474, 0.0542, 0.1785, 0.1436, 0.0399],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0342, 0.0352, 0.0322, 0.0349, 0.0327, 0.0343, 0.0363],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:45:35,096 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3924, 1.1084, 1.2763, 1.2553, 2.1277, 1.0275, 1.7853, 2.2762],
+       device='cuda:2'), covar=tensor([0.0481, 0.2134, 0.2091, 0.1464, 0.0601, 0.1852, 0.1447, 0.0506],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0342, 0.0352, 0.0322, 0.0349, 0.0327, 0.0343, 0.0363],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:45:39,803 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2259, 1.2187, 1.4451, 1.3322, 1.9795, 1.7437, 1.9888, 1.0307],
+       device='cuda:2'), covar=tensor([0.1836, 0.3231, 0.1913, 0.1505, 0.1128, 0.1648, 0.1043, 0.3505],
+       device='cuda:2'), in_proj_covar=tensor([0.0495, 0.0587, 0.0625, 0.0443, 0.0598, 0.0501, 0.0647, 0.0504],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 00:45:46,418 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86546.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:46:24,005 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 00:46:31,575 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.083e+02 5.452e+02 6.634e+02 8.020e+02 1.693e+03, threshold=1.327e+03, percent-clipped=1.0
+2023-04-02 00:46:35,924 INFO [train.py:903] (2/4) Epoch 13, batch 4650, loss[loss=0.2188, simple_loss=0.2936, pruned_loss=0.07201, over 19745.00 frames. ], tot_loss[loss=0.2276, simple_loss=0.3025, pruned_loss=0.07634, over 3799358.45 frames. ], batch size: 51, lr: 6.35e-03, grad_scale: 8.0
+2023-04-02 00:46:51,374 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86598.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:46:52,252 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 00:47:03,872 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 00:47:04,000 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86608.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:47:04,276 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86608.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:47:07,703 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.09 vs. limit=2.0
+2023-04-02 00:47:35,075 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86633.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:47:38,172 INFO [train.py:903] (2/4) Epoch 13, batch 4700, loss[loss=0.2198, simple_loss=0.2993, pruned_loss=0.07013, over 19764.00 frames. ], tot_loss[loss=0.2273, simple_loss=0.3026, pruned_loss=0.07604, over 3809427.79 frames. ], batch size: 54, lr: 6.35e-03, grad_scale: 8.0
+2023-04-02 00:48:04,334 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 00:48:13,305 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86663.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 00:48:35,956 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.257e+02 5.083e+02 5.953e+02 7.054e+02 1.649e+03, threshold=1.191e+03, percent-clipped=1.0
+2023-04-02 00:48:42,058 INFO [train.py:903] (2/4) Epoch 13, batch 4750, loss[loss=0.2103, simple_loss=0.2832, pruned_loss=0.06872, over 19664.00 frames. ], tot_loss[loss=0.2287, simple_loss=0.3039, pruned_loss=0.07675, over 3810537.97 frames. ], batch size: 53, lr: 6.35e-03, grad_scale: 8.0
+2023-04-02 00:48:45,746 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86688.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 00:48:48,118 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86690.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:49:18,505 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86715.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:49:27,260 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86723.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:49:43,043 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86735.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:49:43,758 INFO [train.py:903] (2/4) Epoch 13, batch 4800, loss[loss=0.3169, simple_loss=0.3728, pruned_loss=0.1305, over 19297.00 frames. ], tot_loss[loss=0.2307, simple_loss=0.3054, pruned_loss=0.07805, over 3798624.55 frames. ], batch size: 66, lr: 6.35e-03, grad_scale: 8.0
+2023-04-02 00:49:52,401 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3129, 3.0118, 2.2634, 2.7290, 0.9227, 2.9612, 2.8405, 2.9166],
+       device='cuda:2'), covar=tensor([0.1099, 0.1402, 0.2143, 0.1130, 0.3871, 0.1037, 0.1144, 0.1445],
+       device='cuda:2'), in_proj_covar=tensor([0.0447, 0.0373, 0.0450, 0.0325, 0.0386, 0.0383, 0.0373, 0.0409],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:50:12,893 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:50:41,008 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.218e+02 5.270e+02 6.552e+02 8.488e+02 1.715e+03, threshold=1.310e+03, percent-clipped=7.0
+2023-04-02 00:50:45,033 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86785.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:50:45,836 INFO [train.py:903] (2/4) Epoch 13, batch 4850, loss[loss=0.2801, simple_loss=0.3354, pruned_loss=0.1124, over 13358.00 frames. ], tot_loss[loss=0.2305, simple_loss=0.305, pruned_loss=0.07802, over 3804397.79 frames. ], batch size: 135, lr: 6.35e-03, grad_scale: 8.0
+2023-04-02 00:51:06,440 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:51:06,741 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:51:08,602 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 00:51:14,229 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86807.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:51:18,150 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86810.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:51:31,679 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 00:51:37,281 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 00:51:37,314 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 00:51:38,847 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=86827.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:51:45,327 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86832.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:51:47,424 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 00:51:49,805 INFO [train.py:903] (2/4) Epoch 13, batch 4900, loss[loss=0.2832, simple_loss=0.34, pruned_loss=0.1132, over 13892.00 frames. ], tot_loss[loss=0.229, simple_loss=0.3039, pruned_loss=0.07711, over 3818824.61 frames. ], batch size: 136, lr: 6.34e-03, grad_scale: 8.0
+2023-04-02 00:52:07,083 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 00:52:46,044 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.083e+02 5.393e+02 6.845e+02 8.725e+02 1.892e+03, threshold=1.369e+03, percent-clipped=5.0
+2023-04-02 00:52:50,742 INFO [train.py:903] (2/4) Epoch 13, batch 4950, loss[loss=0.2696, simple_loss=0.3376, pruned_loss=0.1007, over 19703.00 frames. ], tot_loss[loss=0.2284, simple_loss=0.3032, pruned_loss=0.07686, over 3817272.67 frames. ], batch size: 63, lr: 6.34e-03, grad_scale: 8.0
+2023-04-02 00:53:05,845 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=86896.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:53:08,074 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 00:53:10,746 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7099, 1.5112, 1.3850, 1.9934, 1.6886, 1.9314, 2.0287, 1.7904],
+       device='cuda:2'), covar=tensor([0.0766, 0.0925, 0.1031, 0.0798, 0.0830, 0.0719, 0.0814, 0.0637],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0225, 0.0224, 0.0244, 0.0230, 0.0211, 0.0193, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 00:53:31,786 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86917.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:53:32,653 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 00:53:37,681 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=86922.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:53:56,228 INFO [train.py:903] (2/4) Epoch 13, batch 5000, loss[loss=0.2426, simple_loss=0.3223, pruned_loss=0.08142, over 19673.00 frames. ], tot_loss[loss=0.228, simple_loss=0.3029, pruned_loss=0.07656, over 3811052.32 frames. ], batch size: 53, lr: 6.34e-03, grad_scale: 8.0
+2023-04-02 00:54:03,386 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 00:54:03,566 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=86942.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:54:14,000 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 00:54:49,342 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=86979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:54:52,321 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.998e+02 5.650e+02 6.679e+02 8.615e+02 1.943e+03, threshold=1.336e+03, percent-clipped=4.0
+2023-04-02 00:54:56,911 INFO [train.py:903] (2/4) Epoch 13, batch 5050, loss[loss=0.2527, simple_loss=0.3256, pruned_loss=0.08992, over 19694.00 frames. ], tot_loss[loss=0.2279, simple_loss=0.303, pruned_loss=0.07641, over 3815404.41 frames. ], batch size: 60, lr: 6.34e-03, grad_scale: 8.0
+2023-04-02 00:55:19,935 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87004.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:55:32,406 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 00:55:41,765 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87020.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 00:56:01,013 INFO [train.py:903] (2/4) Epoch 13, batch 5100, loss[loss=0.2268, simple_loss=0.2878, pruned_loss=0.08287, over 19716.00 frames. ], tot_loss[loss=0.2267, simple_loss=0.3019, pruned_loss=0.07575, over 3827756.81 frames. ], batch size: 46, lr: 6.34e-03, grad_scale: 8.0
+2023-04-02 00:56:01,555 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1398, 3.7022, 2.0630, 2.2292, 3.2789, 1.8949, 1.5121, 2.1638],
+       device='cuda:2'), covar=tensor([0.1151, 0.0501, 0.0974, 0.0686, 0.0379, 0.1034, 0.0831, 0.0621],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0305, 0.0331, 0.0252, 0.0240, 0.0321, 0.0291, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:56:07,897 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 00:56:11,378 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 00:56:18,089 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 00:56:28,873 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87057.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:56:58,517 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.198e+02 5.089e+02 6.519e+02 8.713e+02 1.677e+03, threshold=1.304e+03, percent-clipped=2.0
+2023-04-02 00:57:03,274 INFO [train.py:903] (2/4) Epoch 13, batch 5150, loss[loss=0.2546, simple_loss=0.317, pruned_loss=0.09612, over 13405.00 frames. ], tot_loss[loss=0.2266, simple_loss=0.3015, pruned_loss=0.07583, over 3800276.45 frames. ], batch size: 136, lr: 6.33e-03, grad_scale: 8.0
+2023-04-02 00:57:15,153 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 00:57:48,512 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 00:58:07,738 INFO [train.py:903] (2/4) Epoch 13, batch 5200, loss[loss=0.1956, simple_loss=0.2673, pruned_loss=0.06198, over 19823.00 frames. ], tot_loss[loss=0.2286, simple_loss=0.3032, pruned_loss=0.07697, over 3801986.37 frames. ], batch size: 48, lr: 6.33e-03, grad_scale: 8.0
+2023-04-02 00:58:18,406 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 00:58:46,533 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2151, 1.5914, 1.2699, 1.2228, 1.4598, 1.0792, 1.2383, 1.4395],
+       device='cuda:2'), covar=tensor([0.0640, 0.0666, 0.0715, 0.0546, 0.0422, 0.0906, 0.0441, 0.0356],
+       device='cuda:2'), in_proj_covar=tensor([0.0294, 0.0306, 0.0332, 0.0253, 0.0241, 0.0324, 0.0292, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:58:54,639 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87173.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:58:57,970 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87176.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:59:01,515 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87178.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:59:04,689 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 00:59:05,685 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.198e+02 5.751e+02 6.794e+02 9.141e+02 2.147e+03, threshold=1.359e+03, percent-clipped=10.0
+2023-04-02 00:59:10,450 INFO [train.py:903] (2/4) Epoch 13, batch 5250, loss[loss=0.2159, simple_loss=0.2986, pruned_loss=0.06659, over 19757.00 frames. ], tot_loss[loss=0.2276, simple_loss=0.3023, pruned_loss=0.0764, over 3796361.56 frames. ], batch size: 54, lr: 6.33e-03, grad_scale: 16.0
+2023-04-02 00:59:20,118 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9415, 3.5502, 2.4197, 3.1907, 0.8857, 3.4023, 3.3856, 3.4803],
+       device='cuda:2'), covar=tensor([0.0893, 0.1314, 0.2082, 0.0938, 0.3861, 0.0889, 0.0943, 0.1281],
+       device='cuda:2'), in_proj_covar=tensor([0.0445, 0.0372, 0.0450, 0.0321, 0.0383, 0.0382, 0.0371, 0.0408],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 00:59:25,815 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87198.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 00:59:31,684 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87203.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:00:13,788 INFO [train.py:903] (2/4) Epoch 13, batch 5300, loss[loss=0.2203, simple_loss=0.2904, pruned_loss=0.07506, over 19772.00 frames. ], tot_loss[loss=0.2264, simple_loss=0.3017, pruned_loss=0.07555, over 3815289.37 frames. ], batch size: 54, lr: 6.33e-03, grad_scale: 16.0
+2023-04-02 01:00:18,348 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87240.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:00:27,901 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87248.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:00:28,086 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4478, 1.4919, 1.7511, 1.6969, 2.4856, 2.2437, 2.5631, 1.0243],
+       device='cuda:2'), covar=tensor([0.2082, 0.3818, 0.2266, 0.1692, 0.1308, 0.1834, 0.1282, 0.3836],
+       device='cuda:2'), in_proj_covar=tensor([0.0496, 0.0589, 0.0625, 0.0445, 0.0602, 0.0499, 0.0645, 0.0506],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 01:00:28,731 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 01:01:10,965 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.140e+02 5.034e+02 6.226e+02 7.840e+02 1.929e+03, threshold=1.245e+03, percent-clipped=3.0
+2023-04-02 01:01:15,795 INFO [train.py:903] (2/4) Epoch 13, batch 5350, loss[loss=0.2088, simple_loss=0.2852, pruned_loss=0.06621, over 19727.00 frames. ], tot_loss[loss=0.2265, simple_loss=0.3019, pruned_loss=0.07552, over 3810696.88 frames. ], batch size: 51, lr: 6.33e-03, grad_scale: 16.0
+2023-04-02 01:01:24,151 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87291.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:01:49,539 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 01:01:51,120 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87313.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:02:03,654 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8842, 1.1421, 1.5004, 0.5642, 1.9679, 2.3055, 2.0120, 2.4803],
+       device='cuda:2'), covar=tensor([0.1588, 0.3535, 0.3136, 0.2482, 0.0595, 0.0330, 0.0360, 0.0328],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0303, 0.0333, 0.0253, 0.0224, 0.0164, 0.0209, 0.0217],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 01:02:21,302 INFO [train.py:903] (2/4) Epoch 13, batch 5400, loss[loss=0.2176, simple_loss=0.2965, pruned_loss=0.0693, over 19601.00 frames. ], tot_loss[loss=0.2272, simple_loss=0.3025, pruned_loss=0.07596, over 3790461.19 frames. ], batch size: 50, lr: 6.33e-03, grad_scale: 8.0
+2023-04-02 01:02:24,126 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:02:44,288 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87355.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:02:55,498 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87364.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 01:03:16,637 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87380.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:03:19,989 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.794e+02 4.952e+02 6.479e+02 7.900e+02 1.578e+03, threshold=1.296e+03, percent-clipped=3.0
+2023-04-02 01:03:21,954 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.82 vs. limit=5.0
+2023-04-02 01:03:23,439 INFO [train.py:903] (2/4) Epoch 13, batch 5450, loss[loss=0.2171, simple_loss=0.2986, pruned_loss=0.06778, over 19604.00 frames. ], tot_loss[loss=0.2263, simple_loss=0.3018, pruned_loss=0.07542, over 3798287.99 frames. ], batch size: 57, lr: 6.32e-03, grad_scale: 8.0
+2023-04-02 01:03:33,515 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4740, 2.3326, 1.7137, 1.2184, 2.2468, 1.1497, 1.2631, 1.9414],
+       device='cuda:2'), covar=tensor([0.1039, 0.0711, 0.0964, 0.0982, 0.0490, 0.1294, 0.0780, 0.0417],
+       device='cuda:2'), in_proj_covar=tensor([0.0290, 0.0303, 0.0326, 0.0248, 0.0238, 0.0319, 0.0289, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:03:45,364 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
+2023-04-02 01:04:10,984 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0621, 1.8715, 2.0164, 2.6981, 2.1150, 2.6242, 2.5704, 2.1847],
+       device='cuda:2'), covar=tensor([0.0779, 0.0853, 0.0900, 0.0856, 0.0805, 0.0656, 0.0845, 0.0632],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0225, 0.0224, 0.0244, 0.0228, 0.0211, 0.0193, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 01:04:25,744 INFO [train.py:903] (2/4) Epoch 13, batch 5500, loss[loss=0.2232, simple_loss=0.2881, pruned_loss=0.07917, over 15164.00 frames. ], tot_loss[loss=0.226, simple_loss=0.3017, pruned_loss=0.07513, over 3797362.50 frames. ], batch size: 33, lr: 6.32e-03, grad_scale: 8.0
+2023-04-02 01:04:47,834 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 01:05:21,381 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:05:21,447 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87479.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 01:05:25,839 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.829e+02 5.041e+02 6.443e+02 8.590e+02 2.643e+03, threshold=1.289e+03, percent-clipped=7.0
+2023-04-02 01:05:29,323 INFO [train.py:903] (2/4) Epoch 13, batch 5550, loss[loss=0.2134, simple_loss=0.2787, pruned_loss=0.07406, over 19266.00 frames. ], tot_loss[loss=0.2259, simple_loss=0.3014, pruned_loss=0.07516, over 3802937.49 frames. ], batch size: 44, lr: 6.32e-03, grad_scale: 8.0
+2023-04-02 01:05:33,831 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 01:06:16,504 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87523.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:06:23,050 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 01:06:33,781 INFO [train.py:903] (2/4) Epoch 13, batch 5600, loss[loss=0.2019, simple_loss=0.285, pruned_loss=0.05939, over 19725.00 frames. ], tot_loss[loss=0.2252, simple_loss=0.3007, pruned_loss=0.07484, over 3810952.95 frames. ], batch size: 51, lr: 6.32e-03, grad_scale: 8.0
+2023-04-02 01:06:44,185 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8851, 1.3556, 1.0728, 0.9682, 1.1650, 0.9575, 1.0201, 1.2610],
+       device='cuda:2'), covar=tensor([0.0552, 0.0679, 0.1019, 0.0590, 0.0481, 0.1128, 0.0460, 0.0375],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0306, 0.0331, 0.0251, 0.0241, 0.0324, 0.0293, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:06:47,652 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87547.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:07:17,532 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87572.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:07:32,977 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.526e+02 5.023e+02 6.222e+02 8.051e+02 1.328e+03, threshold=1.244e+03, percent-clipped=2.0
+2023-04-02 01:07:36,345 INFO [train.py:903] (2/4) Epoch 13, batch 5650, loss[loss=0.219, simple_loss=0.3027, pruned_loss=0.06759, over 19468.00 frames. ], tot_loss[loss=0.2259, simple_loss=0.3011, pruned_loss=0.07539, over 3817487.62 frames. ], batch size: 64, lr: 6.32e-03, grad_scale: 8.0
+2023-04-02 01:07:43,446 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87592.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:07:56,287 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87602.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:08:01,799 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87607.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:08:06,362 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87611.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:08:23,577 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=87623.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:08:24,446 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 01:08:24,686 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3590, 3.9476, 2.5139, 3.4977, 1.1078, 3.8198, 3.7686, 3.8463],
+       device='cuda:2'), covar=tensor([0.0698, 0.1082, 0.2179, 0.0937, 0.4035, 0.0850, 0.0869, 0.1087],
+       device='cuda:2'), in_proj_covar=tensor([0.0446, 0.0375, 0.0452, 0.0325, 0.0387, 0.0385, 0.0376, 0.0411],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:08:38,515 INFO [train.py:903] (2/4) Epoch 13, batch 5700, loss[loss=0.2059, simple_loss=0.2861, pruned_loss=0.0628, over 19391.00 frames. ], tot_loss[loss=0.2257, simple_loss=0.3011, pruned_loss=0.07518, over 3818626.41 frames. ], batch size: 48, lr: 6.31e-03, grad_scale: 8.0
+2023-04-02 01:08:38,969 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:09:36,749 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.413e+02 4.997e+02 6.690e+02 8.841e+02 1.921e+03, threshold=1.338e+03, percent-clipped=6.0
+2023-04-02 01:09:40,125 INFO [train.py:903] (2/4) Epoch 13, batch 5750, loss[loss=0.2232, simple_loss=0.3035, pruned_loss=0.07145, over 19776.00 frames. ], tot_loss[loss=0.2272, simple_loss=0.3022, pruned_loss=0.07607, over 3821936.74 frames. ], batch size: 54, lr: 6.31e-03, grad_scale: 8.0
+2023-04-02 01:09:41,276 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 01:09:49,516 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 01:09:55,215 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 01:10:07,760 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87707.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:10:27,831 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87724.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:10:41,876 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87735.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 01:10:42,500 INFO [train.py:903] (2/4) Epoch 13, batch 5800, loss[loss=0.2315, simple_loss=0.3084, pruned_loss=0.07728, over 19796.00 frames. ], tot_loss[loss=0.2275, simple_loss=0.3029, pruned_loss=0.07611, over 3835177.81 frames. ], batch size: 48, lr: 6.31e-03, grad_scale: 8.0
+2023-04-02 01:11:13,887 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87760.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 01:11:43,246 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.294e+02 5.041e+02 6.242e+02 7.928e+02 1.581e+03, threshold=1.248e+03, percent-clipped=4.0
+2023-04-02 01:11:46,961 INFO [train.py:903] (2/4) Epoch 13, batch 5850, loss[loss=0.1917, simple_loss=0.2679, pruned_loss=0.05772, over 19375.00 frames. ], tot_loss[loss=0.2288, simple_loss=0.3043, pruned_loss=0.07665, over 3823487.69 frames. ], batch size: 47, lr: 6.31e-03, grad_scale: 8.0
+2023-04-02 01:12:33,217 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87823.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:12:47,990 INFO [train.py:903] (2/4) Epoch 13, batch 5900, loss[loss=0.2205, simple_loss=0.2957, pruned_loss=0.07264, over 19577.00 frames. ], tot_loss[loss=0.2288, simple_loss=0.3042, pruned_loss=0.07668, over 3816657.07 frames. ], batch size: 52, lr: 6.31e-03, grad_scale: 8.0
+2023-04-02 01:12:49,026 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 01:12:51,609 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87839.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:13:10,516 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 01:13:27,502 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87867.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:13:47,005 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.002e+02 5.447e+02 6.662e+02 8.353e+02 2.279e+03, threshold=1.332e+03, percent-clipped=6.0
+2023-04-02 01:13:50,399 INFO [train.py:903] (2/4) Epoch 13, batch 5950, loss[loss=0.2181, simple_loss=0.2872, pruned_loss=0.07451, over 19462.00 frames. ], tot_loss[loss=0.2283, simple_loss=0.3035, pruned_loss=0.07654, over 3813577.87 frames. ], batch size: 49, lr: 6.31e-03, grad_scale: 8.0
+2023-04-02 01:14:44,702 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.56 vs. limit=5.0
+2023-04-02 01:14:53,065 INFO [train.py:903] (2/4) Epoch 13, batch 6000, loss[loss=0.2178, simple_loss=0.2829, pruned_loss=0.07636, over 19765.00 frames. ], tot_loss[loss=0.2273, simple_loss=0.3029, pruned_loss=0.07592, over 3825150.63 frames. ], batch size: 47, lr: 6.30e-03, grad_scale: 8.0
+2023-04-02 01:14:53,065 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 01:15:06,424 INFO [train.py:937] (2/4) Epoch 13, validation: loss=0.175, simple_loss=0.2755, pruned_loss=0.03726, over 944034.00 frames. 
+2023-04-02 01:15:06,425 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 01:15:09,220 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87938.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:15:19,420 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87946.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:15:25,215 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87951.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:15:41,021 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=87963.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:15:45,514 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=87967.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:16:02,158 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-02 01:16:04,017 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=87982.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:16:04,756 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.636e+02 5.142e+02 6.649e+02 8.424e+02 2.027e+03, threshold=1.330e+03, percent-clipped=9.0
+2023-04-02 01:16:08,320 INFO [train.py:903] (2/4) Epoch 13, batch 6050, loss[loss=0.2184, simple_loss=0.3003, pruned_loss=0.06827, over 19523.00 frames. ], tot_loss[loss=0.227, simple_loss=0.3026, pruned_loss=0.07573, over 3828846.35 frames. ], batch size: 54, lr: 6.30e-03, grad_scale: 8.0
+2023-04-02 01:16:12,392 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=87988.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:17:12,304 INFO [train.py:903] (2/4) Epoch 13, batch 6100, loss[loss=0.2826, simple_loss=0.3488, pruned_loss=0.1082, over 18011.00 frames. ], tot_loss[loss=0.2273, simple_loss=0.3027, pruned_loss=0.07592, over 3833917.15 frames. ], batch size: 83, lr: 6.30e-03, grad_scale: 8.0
+2023-04-02 01:17:20,991 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2129, 1.2599, 1.7505, 1.1969, 2.6533, 3.5863, 3.3196, 3.8180],
+       device='cuda:2'), covar=tensor([0.1502, 0.3580, 0.2955, 0.2160, 0.0517, 0.0157, 0.0205, 0.0197],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0302, 0.0332, 0.0253, 0.0222, 0.0164, 0.0208, 0.0215],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 01:17:42,745 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88061.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:17:49,483 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88066.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:17:54,545 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-02 01:18:09,974 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:18:10,748 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.507e+02 5.311e+02 6.775e+02 8.712e+02 1.953e+03, threshold=1.355e+03, percent-clipped=3.0
+2023-04-02 01:18:14,177 INFO [train.py:903] (2/4) Epoch 13, batch 6150, loss[loss=0.216, simple_loss=0.2822, pruned_loss=0.07494, over 19390.00 frames. ], tot_loss[loss=0.2275, simple_loss=0.3029, pruned_loss=0.07604, over 3844290.69 frames. ], batch size: 47, lr: 6.30e-03, grad_scale: 8.0
+2023-04-02 01:18:24,886 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88095.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:18:38,372 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 01:18:54,530 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=88118.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:18:56,866 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88120.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:19:15,196 INFO [train.py:903] (2/4) Epoch 13, batch 6200, loss[loss=0.2311, simple_loss=0.2863, pruned_loss=0.08795, over 19753.00 frames. ], tot_loss[loss=0.2275, simple_loss=0.3026, pruned_loss=0.07617, over 3841386.95 frames. ], batch size: 45, lr: 6.30e-03, grad_scale: 8.0
+2023-04-02 01:19:50,754 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3130, 3.0318, 2.1755, 2.7327, 1.0064, 2.9300, 2.8714, 2.9270],
+       device='cuda:2'), covar=tensor([0.1203, 0.1504, 0.2126, 0.0984, 0.3531, 0.1020, 0.1030, 0.1379],
+       device='cuda:2'), in_proj_covar=tensor([0.0442, 0.0372, 0.0445, 0.0319, 0.0384, 0.0380, 0.0370, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:20:13,327 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.409e+02 5.304e+02 6.722e+02 8.627e+02 2.252e+03, threshold=1.344e+03, percent-clipped=3.0
+2023-04-02 01:20:16,891 INFO [train.py:903] (2/4) Epoch 13, batch 6250, loss[loss=0.2182, simple_loss=0.2972, pruned_loss=0.06957, over 19593.00 frames. ], tot_loss[loss=0.2267, simple_loss=0.3021, pruned_loss=0.0757, over 3832643.66 frames. ], batch size: 52, lr: 6.29e-03, grad_scale: 8.0
+2023-04-02 01:20:29,098 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88194.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:20:44,718 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 01:20:58,226 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88219.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:21:20,741 INFO [train.py:903] (2/4) Epoch 13, batch 6300, loss[loss=0.2485, simple_loss=0.3244, pruned_loss=0.08632, over 19669.00 frames. ], tot_loss[loss=0.227, simple_loss=0.3022, pruned_loss=0.07593, over 3830615.10 frames. ], batch size: 55, lr: 6.29e-03, grad_scale: 8.0
+2023-04-02 01:21:22,386 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5284, 1.4298, 1.3495, 1.9240, 1.5961, 1.8324, 1.8477, 1.7329],
+       device='cuda:2'), covar=tensor([0.0812, 0.0893, 0.0998, 0.0739, 0.0789, 0.0678, 0.0835, 0.0611],
+       device='cuda:2'), in_proj_covar=tensor([0.0208, 0.0223, 0.0222, 0.0240, 0.0226, 0.0207, 0.0190, 0.0200],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 01:21:23,580 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88238.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:21:52,934 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88263.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:22:18,334 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.601e+02 5.052e+02 6.199e+02 7.712e+02 1.989e+03, threshold=1.240e+03, percent-clipped=5.0
+2023-04-02 01:22:21,896 INFO [train.py:903] (2/4) Epoch 13, batch 6350, loss[loss=0.2169, simple_loss=0.2987, pruned_loss=0.06755, over 19540.00 frames. ], tot_loss[loss=0.2272, simple_loss=0.3024, pruned_loss=0.07602, over 3832556.08 frames. ], batch size: 64, lr: 6.29e-03, grad_scale: 8.0
+2023-04-02 01:22:31,600 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8694, 1.9142, 2.1006, 2.5738, 1.8566, 2.4728, 2.2693, 1.9202],
+       device='cuda:2'), covar=tensor([0.3782, 0.3367, 0.1675, 0.2140, 0.3670, 0.1751, 0.3860, 0.2960],
+       device='cuda:2'), in_proj_covar=tensor([0.0816, 0.0848, 0.0661, 0.0899, 0.0797, 0.0730, 0.0796, 0.0724],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 01:22:38,094 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-02 01:22:50,124 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=88309.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 01:23:02,588 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88317.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:23:08,222 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:23:24,610 INFO [train.py:903] (2/4) Epoch 13, batch 6400, loss[loss=0.256, simple_loss=0.3275, pruned_loss=0.09231, over 19608.00 frames. ], tot_loss[loss=0.2272, simple_loss=0.3026, pruned_loss=0.0759, over 3825158.44 frames. ], batch size: 57, lr: 6.29e-03, grad_scale: 8.0
+2023-04-02 01:23:27,240 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:23:32,523 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88342.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:23:38,205 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:23:58,502 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88363.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:24:22,191 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.590e+02 5.639e+02 6.967e+02 8.699e+02 1.659e+03, threshold=1.393e+03, percent-clipped=7.0
+2023-04-02 01:24:25,791 INFO [train.py:903] (2/4) Epoch 13, batch 6450, loss[loss=0.2376, simple_loss=0.3142, pruned_loss=0.08046, over 19674.00 frames. ], tot_loss[loss=0.2265, simple_loss=0.3019, pruned_loss=0.07554, over 3816031.31 frames. ], batch size: 58, lr: 6.29e-03, grad_scale: 8.0
+2023-04-02 01:24:41,552 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8717, 1.8931, 2.1664, 2.6207, 1.7425, 2.4359, 2.3631, 1.9733],
+       device='cuda:2'), covar=tensor([0.3769, 0.3396, 0.1671, 0.1949, 0.3690, 0.1746, 0.3927, 0.3108],
+       device='cuda:2'), in_proj_covar=tensor([0.0816, 0.0849, 0.0662, 0.0902, 0.0799, 0.0733, 0.0801, 0.0725],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 01:25:05,084 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 01:25:28,931 INFO [train.py:903] (2/4) Epoch 13, batch 6500, loss[loss=0.1783, simple_loss=0.2556, pruned_loss=0.05047, over 19304.00 frames. ], tot_loss[loss=0.2267, simple_loss=0.3022, pruned_loss=0.07558, over 3812796.24 frames. ], batch size: 44, lr: 6.29e-03, grad_scale: 8.0
+2023-04-02 01:25:30,966 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 01:26:00,494 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88462.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:26:26,785 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.125e+02 5.190e+02 6.145e+02 7.751e+02 1.614e+03, threshold=1.229e+03, percent-clipped=4.0
+2023-04-02 01:26:30,113 INFO [train.py:903] (2/4) Epoch 13, batch 6550, loss[loss=0.2581, simple_loss=0.3302, pruned_loss=0.09302, over 17406.00 frames. ], tot_loss[loss=0.2269, simple_loss=0.3023, pruned_loss=0.07574, over 3827818.09 frames. ], batch size: 101, lr: 6.28e-03, grad_scale: 8.0
+2023-04-02 01:27:31,536 INFO [train.py:903] (2/4) Epoch 13, batch 6600, loss[loss=0.2187, simple_loss=0.3012, pruned_loss=0.06814, over 19581.00 frames. ], tot_loss[loss=0.2278, simple_loss=0.3032, pruned_loss=0.07613, over 3816859.79 frames. ], batch size: 61, lr: 6.28e-03, grad_scale: 8.0
+2023-04-02 01:27:57,271 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.43 vs. limit=2.0
+2023-04-02 01:28:21,383 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88577.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:28:28,439 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.648e+02 5.175e+02 6.632e+02 9.239e+02 1.861e+03, threshold=1.326e+03, percent-clipped=7.0
+2023-04-02 01:28:32,110 INFO [train.py:903] (2/4) Epoch 13, batch 6650, loss[loss=0.2569, simple_loss=0.3352, pruned_loss=0.0893, over 19512.00 frames. ], tot_loss[loss=0.2282, simple_loss=0.3032, pruned_loss=0.07658, over 3809831.88 frames. ], batch size: 64, lr: 6.28e-03, grad_scale: 8.0
+2023-04-02 01:29:34,638 INFO [train.py:903] (2/4) Epoch 13, batch 6700, loss[loss=0.2776, simple_loss=0.3369, pruned_loss=0.1091, over 13238.00 frames. ], tot_loss[loss=0.2281, simple_loss=0.3028, pruned_loss=0.07669, over 3807211.66 frames. ], batch size: 136, lr: 6.28e-03, grad_scale: 8.0
+2023-04-02 01:29:55,532 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=88653.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 01:30:29,671 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.623e+02 5.222e+02 6.682e+02 8.627e+02 1.913e+03, threshold=1.336e+03, percent-clipped=6.0
+2023-04-02 01:30:33,159 INFO [train.py:903] (2/4) Epoch 13, batch 6750, loss[loss=0.2168, simple_loss=0.2994, pruned_loss=0.06705, over 19665.00 frames. ], tot_loss[loss=0.2289, simple_loss=0.3035, pruned_loss=0.07713, over 3802662.97 frames. ], batch size: 58, lr: 6.28e-03, grad_scale: 8.0
+2023-04-02 01:31:31,231 INFO [train.py:903] (2/4) Epoch 13, batch 6800, loss[loss=0.2433, simple_loss=0.3181, pruned_loss=0.08422, over 18283.00 frames. ], tot_loss[loss=0.2281, simple_loss=0.303, pruned_loss=0.07666, over 3810108.59 frames. ], batch size: 83, lr: 6.28e-03, grad_scale: 8.0
+2023-04-02 01:31:37,787 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3387, 2.1155, 1.6246, 1.3502, 1.9005, 1.2604, 1.3101, 1.9371],
+       device='cuda:2'), covar=tensor([0.0823, 0.0708, 0.1031, 0.0707, 0.0493, 0.1193, 0.0601, 0.0337],
+       device='cuda:2'), in_proj_covar=tensor([0.0292, 0.0303, 0.0326, 0.0248, 0.0239, 0.0322, 0.0295, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:32:17,054 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 01:32:17,505 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 01:32:21,843 INFO [train.py:903] (2/4) Epoch 14, batch 0, loss[loss=0.3035, simple_loss=0.3539, pruned_loss=0.1265, over 19740.00 frames. ], tot_loss[loss=0.3035, simple_loss=0.3539, pruned_loss=0.1265, over 19740.00 frames. ], batch size: 51, lr: 6.05e-03, grad_scale: 8.0
+2023-04-02 01:32:21,844 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 01:32:33,652 INFO [train.py:937] (2/4) Epoch 14, validation: loss=0.1763, simple_loss=0.2772, pruned_loss=0.03773, over 944034.00 frames. 
+2023-04-02 01:32:33,653 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 01:32:41,812 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=88768.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 01:32:49,780 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 01:32:59,166 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.227e+02 4.998e+02 6.377e+02 7.989e+02 1.719e+03, threshold=1.275e+03, percent-clipped=2.0
+2023-04-02 01:33:40,054 INFO [train.py:903] (2/4) Epoch 14, batch 50, loss[loss=0.1905, simple_loss=0.2737, pruned_loss=0.05361, over 19604.00 frames. ], tot_loss[loss=0.2248, simple_loss=0.3012, pruned_loss=0.07413, over 877774.59 frames. ], batch size: 50, lr: 6.04e-03, grad_scale: 8.0
+2023-04-02 01:34:01,737 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=88833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:34:15,354 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 01:34:34,200 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=88858.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:34:40,600 INFO [train.py:903] (2/4) Epoch 14, batch 100, loss[loss=0.1955, simple_loss=0.2866, pruned_loss=0.05222, over 19700.00 frames. ], tot_loss[loss=0.2276, simple_loss=0.3039, pruned_loss=0.07569, over 1535117.28 frames. ], batch size: 59, lr: 6.04e-03, grad_scale: 8.0
+2023-04-02 01:34:51,069 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 01:35:02,777 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.971e+02 5.271e+02 6.621e+02 8.700e+02 2.391e+03, threshold=1.324e+03, percent-clipped=10.0
+2023-04-02 01:35:41,058 INFO [train.py:903] (2/4) Epoch 14, batch 150, loss[loss=0.2105, simple_loss=0.3011, pruned_loss=0.05993, over 19677.00 frames. ], tot_loss[loss=0.2254, simple_loss=0.3019, pruned_loss=0.07446, over 2045621.06 frames. ], batch size: 58, lr: 6.04e-03, grad_scale: 8.0
+2023-04-02 01:36:38,761 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 01:36:39,938 INFO [train.py:903] (2/4) Epoch 14, batch 200, loss[loss=0.1872, simple_loss=0.2564, pruned_loss=0.05903, over 19790.00 frames. ], tot_loss[loss=0.2248, simple_loss=0.3009, pruned_loss=0.07429, over 2443339.23 frames. ], batch size: 47, lr: 6.04e-03, grad_scale: 8.0
+2023-04-02 01:37:03,949 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.747e+02 5.170e+02 6.545e+02 8.695e+02 1.666e+03, threshold=1.309e+03, percent-clipped=4.0
+2023-04-02 01:37:37,780 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7450, 4.2424, 4.4502, 4.4308, 1.4438, 4.1243, 3.5965, 4.1284],
+       device='cuda:2'), covar=tensor([0.1459, 0.0678, 0.0581, 0.0630, 0.5875, 0.0683, 0.0665, 0.1185],
+       device='cuda:2'), in_proj_covar=tensor([0.0707, 0.0631, 0.0835, 0.0715, 0.0755, 0.0583, 0.0503, 0.0765],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 01:37:41,106 INFO [train.py:903] (2/4) Epoch 14, batch 250, loss[loss=0.2144, simple_loss=0.2944, pruned_loss=0.06721, over 19776.00 frames. ], tot_loss[loss=0.2233, simple_loss=0.2987, pruned_loss=0.0739, over 2756383.31 frames. ], batch size: 56, lr: 6.04e-03, grad_scale: 8.0
+2023-04-02 01:37:53,603 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89024.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 01:38:17,662 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:38:22,435 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89049.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 01:38:43,481 INFO [train.py:903] (2/4) Epoch 14, batch 300, loss[loss=0.2133, simple_loss=0.2781, pruned_loss=0.07421, over 19755.00 frames. ], tot_loss[loss=0.2224, simple_loss=0.2976, pruned_loss=0.07357, over 2999393.40 frames. ], batch size: 45, lr: 6.04e-03, grad_scale: 8.0
+2023-04-02 01:39:05,434 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.258e+02 4.830e+02 5.923e+02 7.544e+02 2.111e+03, threshold=1.185e+03, percent-clipped=1.0
+2023-04-02 01:39:45,145 INFO [train.py:903] (2/4) Epoch 14, batch 350, loss[loss=0.2147, simple_loss=0.2943, pruned_loss=0.06752, over 19539.00 frames. ], tot_loss[loss=0.2235, simple_loss=0.2988, pruned_loss=0.07411, over 3189177.21 frames. ], batch size: 54, lr: 6.03e-03, grad_scale: 8.0
+2023-04-02 01:39:47,489 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 01:40:46,827 INFO [train.py:903] (2/4) Epoch 14, batch 400, loss[loss=0.1912, simple_loss=0.2762, pruned_loss=0.0531, over 19735.00 frames. ], tot_loss[loss=0.2233, simple_loss=0.2991, pruned_loss=0.0737, over 3336380.02 frames. ], batch size: 51, lr: 6.03e-03, grad_scale: 8.0
+2023-04-02 01:41:11,934 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.999e+02 4.893e+02 5.942e+02 7.582e+02 1.529e+03, threshold=1.188e+03, percent-clipped=4.0
+2023-04-02 01:41:16,759 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89187.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:41:33,890 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5687, 1.3680, 1.4983, 1.7152, 3.1626, 1.1307, 2.2999, 3.5112],
+       device='cuda:2'), covar=tensor([0.0472, 0.2458, 0.2470, 0.1560, 0.0679, 0.2282, 0.1186, 0.0261],
+       device='cuda:2'), in_proj_covar=tensor([0.0370, 0.0345, 0.0358, 0.0326, 0.0353, 0.0332, 0.0345, 0.0368],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:41:36,337 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.7871, 1.2377, 0.9796, 0.8736, 1.0864, 0.8954, 0.8262, 1.1526],
+       device='cuda:2'), covar=tensor([0.0576, 0.0771, 0.0970, 0.0634, 0.0472, 0.1145, 0.0572, 0.0426],
+       device='cuda:2'), in_proj_covar=tensor([0.0295, 0.0305, 0.0328, 0.0251, 0.0241, 0.0326, 0.0296, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:41:47,619 INFO [train.py:903] (2/4) Epoch 14, batch 450, loss[loss=0.2965, simple_loss=0.3489, pruned_loss=0.122, over 13492.00 frames. ], tot_loss[loss=0.2243, simple_loss=0.3001, pruned_loss=0.07428, over 3444925.01 frames. ], batch size: 135, lr: 6.03e-03, grad_scale: 8.0
+2023-04-02 01:42:19,959 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 01:42:20,929 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 01:42:51,704 INFO [train.py:903] (2/4) Epoch 14, batch 500, loss[loss=0.2195, simple_loss=0.3068, pruned_loss=0.0661, over 19621.00 frames. ], tot_loss[loss=0.2244, simple_loss=0.3, pruned_loss=0.07441, over 3538994.57 frames. ], batch size: 57, lr: 6.03e-03, grad_scale: 8.0
+2023-04-02 01:43:13,291 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.040e+02 5.086e+02 6.501e+02 8.394e+02 1.936e+03, threshold=1.300e+03, percent-clipped=6.0
+2023-04-02 01:43:38,137 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.55 vs. limit=2.0
+2023-04-02 01:43:51,229 INFO [train.py:903] (2/4) Epoch 14, batch 550, loss[loss=0.21, simple_loss=0.2954, pruned_loss=0.06235, over 19625.00 frames. ], tot_loss[loss=0.2244, simple_loss=0.3004, pruned_loss=0.07423, over 3611806.16 frames. ], batch size: 57, lr: 6.03e-03, grad_scale: 8.0
+2023-04-02 01:44:50,889 INFO [train.py:903] (2/4) Epoch 14, batch 600, loss[loss=0.2322, simple_loss=0.3037, pruned_loss=0.08032, over 19475.00 frames. ], tot_loss[loss=0.2255, simple_loss=0.3013, pruned_loss=0.07481, over 3654015.34 frames. ], batch size: 49, lr: 6.03e-03, grad_scale: 8.0
+2023-04-02 01:45:14,769 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.733e+02 5.437e+02 6.463e+02 8.394e+02 1.645e+03, threshold=1.293e+03, percent-clipped=4.0
+2023-04-02 01:45:23,620 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=89389.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:45:27,405 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:45:32,889 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 01:45:52,146 INFO [train.py:903] (2/4) Epoch 14, batch 650, loss[loss=0.2087, simple_loss=0.2967, pruned_loss=0.06037, over 19543.00 frames. ], tot_loss[loss=0.2261, simple_loss=0.3021, pruned_loss=0.07507, over 3699211.24 frames. ], batch size: 56, lr: 6.02e-03, grad_scale: 8.0
+2023-04-02 01:46:25,962 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2898, 3.0071, 2.2024, 2.7477, 0.7413, 2.8906, 2.8017, 2.9213],
+       device='cuda:2'), covar=tensor([0.1105, 0.1460, 0.2092, 0.1027, 0.4036, 0.1048, 0.1097, 0.1294],
+       device='cuda:2'), in_proj_covar=tensor([0.0446, 0.0375, 0.0450, 0.0328, 0.0390, 0.0382, 0.0379, 0.0409],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:46:29,568 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89443.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:46:33,491 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
+2023-04-02 01:46:34,598 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-02 01:46:45,770 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89457.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 01:46:53,913 INFO [train.py:903] (2/4) Epoch 14, batch 700, loss[loss=0.2467, simple_loss=0.32, pruned_loss=0.08669, over 19483.00 frames. ], tot_loss[loss=0.2271, simple_loss=0.3023, pruned_loss=0.07592, over 3729468.25 frames. ], batch size: 64, lr: 6.02e-03, grad_scale: 8.0
+2023-04-02 01:47:21,078 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.092e+02 5.132e+02 6.716e+02 8.076e+02 1.293e+03, threshold=1.343e+03, percent-clipped=1.0
+2023-04-02 01:47:44,495 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=89504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:47:59,827 INFO [train.py:903] (2/4) Epoch 14, batch 750, loss[loss=0.2135, simple_loss=0.2756, pruned_loss=0.07573, over 19733.00 frames. ], tot_loss[loss=0.2262, simple_loss=0.3014, pruned_loss=0.07545, over 3745151.09 frames. ], batch size: 45, lr: 6.02e-03, grad_scale: 8.0
+2023-04-02 01:48:14,774 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89527.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:48:19,169 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=89531.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:49:01,540 INFO [train.py:903] (2/4) Epoch 14, batch 800, loss[loss=0.221, simple_loss=0.2867, pruned_loss=0.07763, over 19416.00 frames. ], tot_loss[loss=0.2268, simple_loss=0.3018, pruned_loss=0.0759, over 3755880.88 frames. ], batch size: 48, lr: 6.02e-03, grad_scale: 8.0
+2023-04-02 01:49:16,448 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 01:49:23,242 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.81 vs. limit=2.0
+2023-04-02 01:49:24,441 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.547e+02 5.343e+02 6.523e+02 8.164e+02 1.688e+03, threshold=1.305e+03, percent-clipped=4.0
+2023-04-02 01:50:01,788 INFO [train.py:903] (2/4) Epoch 14, batch 850, loss[loss=0.1946, simple_loss=0.2691, pruned_loss=0.06007, over 19587.00 frames. ], tot_loss[loss=0.2254, simple_loss=0.3006, pruned_loss=0.07511, over 3782187.65 frames. ], batch size: 52, lr: 6.02e-03, grad_scale: 8.0
+2023-04-02 01:50:11,430 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5365, 2.1961, 2.4178, 3.1096, 2.4452, 2.7585, 2.6784, 2.7749],
+       device='cuda:2'), covar=tensor([0.0707, 0.0863, 0.0848, 0.0744, 0.0792, 0.0662, 0.0837, 0.0572],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0223, 0.0224, 0.0243, 0.0229, 0.0210, 0.0194, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 01:50:26,631 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2108, 1.1426, 1.1704, 1.3050, 1.0302, 1.3270, 1.3178, 1.2720],
+       device='cuda:2'), covar=tensor([0.0912, 0.1044, 0.1114, 0.0700, 0.0865, 0.0853, 0.0828, 0.0773],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0223, 0.0224, 0.0243, 0.0230, 0.0210, 0.0193, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 01:50:42,898 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=89646.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:50:55,569 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 01:51:03,556 INFO [train.py:903] (2/4) Epoch 14, batch 900, loss[loss=0.2168, simple_loss=0.2947, pruned_loss=0.06949, over 19750.00 frames. ], tot_loss[loss=0.2265, simple_loss=0.3015, pruned_loss=0.07579, over 3777121.35 frames. ], batch size: 63, lr: 6.02e-03, grad_scale: 8.0
+2023-04-02 01:51:29,677 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.240e+02 4.983e+02 6.131e+02 7.467e+02 1.791e+03, threshold=1.226e+03, percent-clipped=3.0
+2023-04-02 01:51:46,399 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:51:49,222 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.16 vs. limit=5.0
+2023-04-02 01:51:58,103 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3616, 2.1142, 1.5816, 1.5004, 2.0098, 1.3207, 1.2555, 1.7853],
+       device='cuda:2'), covar=tensor([0.0928, 0.0770, 0.0937, 0.0699, 0.0428, 0.1066, 0.0690, 0.0434],
+       device='cuda:2'), in_proj_covar=tensor([0.0296, 0.0307, 0.0329, 0.0250, 0.0240, 0.0328, 0.0297, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:52:07,444 INFO [train.py:903] (2/4) Epoch 14, batch 950, loss[loss=0.2294, simple_loss=0.3044, pruned_loss=0.07724, over 19572.00 frames. ], tot_loss[loss=0.2286, simple_loss=0.3033, pruned_loss=0.07701, over 3769456.10 frames. ], batch size: 52, lr: 6.01e-03, grad_scale: 8.0
+2023-04-02 01:52:07,477 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 01:52:33,960 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=89736.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:53:06,418 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:53:10,813 INFO [train.py:903] (2/4) Epoch 14, batch 1000, loss[loss=0.1883, simple_loss=0.2678, pruned_loss=0.05437, over 19851.00 frames. ], tot_loss[loss=0.2291, simple_loss=0.3039, pruned_loss=0.07717, over 3785013.60 frames. ], batch size: 52, lr: 6.01e-03, grad_scale: 8.0
+2023-04-02 01:53:34,644 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.523e+02 5.300e+02 6.720e+02 8.420e+02 1.635e+03, threshold=1.344e+03, percent-clipped=5.0
+2023-04-02 01:53:36,395 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89785.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:53:38,573 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=89787.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:53:59,172 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=89801.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 01:54:02,270 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 01:54:13,796 INFO [train.py:903] (2/4) Epoch 14, batch 1050, loss[loss=0.2067, simple_loss=0.2854, pruned_loss=0.06405, over 19660.00 frames. ], tot_loss[loss=0.2281, simple_loss=0.3032, pruned_loss=0.07653, over 3797217.01 frames. ], batch size: 53, lr: 6.01e-03, grad_scale: 8.0
+2023-04-02 01:54:46,500 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 01:55:02,287 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=89851.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:55:15,726 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0476, 1.7871, 1.8593, 2.1352, 1.9543, 1.8699, 1.7900, 2.0791],
+       device='cuda:2'), covar=tensor([0.0908, 0.1506, 0.1174, 0.0844, 0.1139, 0.0458, 0.1150, 0.0597],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0351, 0.0295, 0.0240, 0.0296, 0.0241, 0.0286, 0.0241],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 01:55:16,487 INFO [train.py:903] (2/4) Epoch 14, batch 1100, loss[loss=0.2102, simple_loss=0.2911, pruned_loss=0.06467, over 18268.00 frames. ], tot_loss[loss=0.2283, simple_loss=0.3035, pruned_loss=0.07656, over 3816425.33 frames. ], batch size: 84, lr: 6.01e-03, grad_scale: 8.0
+2023-04-02 01:55:24,745 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=89871.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:55:43,009 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=89883.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:55:43,840 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.219e+02 5.450e+02 6.738e+02 9.006e+02 2.173e+03, threshold=1.348e+03, percent-clipped=6.0
+2023-04-02 01:56:05,595 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=89902.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:56:05,664 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=89902.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:56:19,144 INFO [train.py:903] (2/4) Epoch 14, batch 1150, loss[loss=0.22, simple_loss=0.2894, pruned_loss=0.07528, over 19421.00 frames. ], tot_loss[loss=0.2271, simple_loss=0.3027, pruned_loss=0.0758, over 3828592.92 frames. ], batch size: 48, lr: 6.01e-03, grad_scale: 8.0
+2023-04-02 01:56:21,939 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-02 01:56:24,113 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=89916.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 01:56:39,121 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=89927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:57:25,194 INFO [train.py:903] (2/4) Epoch 14, batch 1200, loss[loss=0.2409, simple_loss=0.3188, pruned_loss=0.08147, over 19690.00 frames. ], tot_loss[loss=0.2267, simple_loss=0.3021, pruned_loss=0.07571, over 3828691.13 frames. ], batch size: 58, lr: 6.01e-03, grad_scale: 8.0
+2023-04-02 01:57:49,395 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.071e+02 4.889e+02 5.798e+02 7.146e+02 1.027e+03, threshold=1.160e+03, percent-clipped=0.0
+2023-04-02 01:57:51,955 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=89986.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:57:55,108 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 01:58:28,848 INFO [train.py:903] (2/4) Epoch 14, batch 1250, loss[loss=0.2125, simple_loss=0.2945, pruned_loss=0.06528, over 19543.00 frames. ], tot_loss[loss=0.2269, simple_loss=0.3022, pruned_loss=0.07577, over 3825657.75 frames. ], batch size: 56, lr: 6.00e-03, grad_scale: 8.0
+2023-04-02 01:58:47,026 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.19 vs. limit=5.0
+2023-04-02 01:59:04,881 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 01:59:31,266 INFO [train.py:903] (2/4) Epoch 14, batch 1300, loss[loss=0.2788, simple_loss=0.3441, pruned_loss=0.1067, over 19310.00 frames. ], tot_loss[loss=0.2263, simple_loss=0.3016, pruned_loss=0.07548, over 3826595.48 frames. ], batch size: 66, lr: 6.00e-03, grad_scale: 8.0
+2023-04-02 01:59:57,908 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.456e+02 5.410e+02 6.769e+02 7.813e+02 2.183e+03, threshold=1.354e+03, percent-clipped=2.0
+2023-04-02 02:00:25,768 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90107.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:00:33,600 INFO [train.py:903] (2/4) Epoch 14, batch 1350, loss[loss=0.2271, simple_loss=0.3082, pruned_loss=0.07296, over 19681.00 frames. ], tot_loss[loss=0.2275, simple_loss=0.3027, pruned_loss=0.07613, over 3816222.97 frames. ], batch size: 58, lr: 6.00e-03, grad_scale: 8.0
+2023-04-02 02:00:58,163 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:01:16,431 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90148.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:01:28,093 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90157.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:01:29,350 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90158.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:01:35,848 INFO [train.py:903] (2/4) Epoch 14, batch 1400, loss[loss=0.2154, simple_loss=0.2999, pruned_loss=0.06541, over 19342.00 frames. ], tot_loss[loss=0.2266, simple_loss=0.3022, pruned_loss=0.07549, over 3818828.98 frames. ], batch size: 66, lr: 6.00e-03, grad_scale: 8.0
+2023-04-02 02:01:40,607 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1114, 2.7522, 2.2078, 2.2351, 1.9155, 2.3224, 1.0353, 2.0423],
+       device='cuda:2'), covar=tensor([0.0537, 0.0514, 0.0549, 0.0949, 0.0987, 0.0971, 0.1071, 0.0904],
+       device='cuda:2'), in_proj_covar=tensor([0.0342, 0.0336, 0.0333, 0.0363, 0.0437, 0.0359, 0.0317, 0.0327],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 02:01:46,570 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90172.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:01:59,393 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90183.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:02:00,111 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.442e+02 5.450e+02 7.234e+02 1.006e+03 2.886e+03, threshold=1.447e+03, percent-clipped=11.0
+2023-04-02 02:02:17,640 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90197.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 02:02:34,962 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 02:02:38,351 INFO [train.py:903] (2/4) Epoch 14, batch 1450, loss[loss=0.2541, simple_loss=0.3271, pruned_loss=0.09053, over 19116.00 frames. ], tot_loss[loss=0.2264, simple_loss=0.3021, pruned_loss=0.07532, over 3819051.43 frames. ], batch size: 69, lr: 6.00e-03, grad_scale: 8.0
+2023-04-02 02:02:53,326 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90227.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:03:12,040 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90242.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:03:22,227 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:03:38,188 INFO [train.py:903] (2/4) Epoch 14, batch 1500, loss[loss=0.244, simple_loss=0.3148, pruned_loss=0.08657, over 19660.00 frames. ], tot_loss[loss=0.2251, simple_loss=0.3011, pruned_loss=0.07454, over 3830162.31 frames. ], batch size: 55, lr: 6.00e-03, grad_scale: 8.0
+2023-04-02 02:03:42,135 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90267.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:04:03,123 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.947e+02 5.072e+02 6.110e+02 7.921e+02 2.000e+03, threshold=1.222e+03, percent-clipped=2.0
+2023-04-02 02:04:39,089 INFO [train.py:903] (2/4) Epoch 14, batch 1550, loss[loss=0.245, simple_loss=0.3211, pruned_loss=0.08443, over 17366.00 frames. ], tot_loss[loss=0.2249, simple_loss=0.301, pruned_loss=0.07439, over 3838178.98 frames. ], batch size: 101, lr: 5.99e-03, grad_scale: 8.0
+2023-04-02 02:05:16,343 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90342.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:05:44,740 INFO [train.py:903] (2/4) Epoch 14, batch 1600, loss[loss=0.2462, simple_loss=0.3165, pruned_loss=0.08795, over 17013.00 frames. ], tot_loss[loss=0.2261, simple_loss=0.3019, pruned_loss=0.07518, over 3824185.69 frames. ], batch size: 101, lr: 5.99e-03, grad_scale: 8.0
+2023-04-02 02:05:51,730 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90369.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:06:02,643 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 02:06:08,371 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.055e+02 5.288e+02 6.387e+02 7.705e+02 1.564e+03, threshold=1.277e+03, percent-clipped=2.0
+2023-04-02 02:06:46,562 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90413.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:06:47,299 INFO [train.py:903] (2/4) Epoch 14, batch 1650, loss[loss=0.1877, simple_loss=0.2593, pruned_loss=0.05804, over 19749.00 frames. ], tot_loss[loss=0.2266, simple_loss=0.3022, pruned_loss=0.07544, over 3824661.73 frames. ], batch size: 46, lr: 5.99e-03, grad_scale: 8.0
+2023-04-02 02:07:15,857 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90438.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:07:47,909 INFO [train.py:903] (2/4) Epoch 14, batch 1700, loss[loss=0.1921, simple_loss=0.2776, pruned_loss=0.05329, over 19595.00 frames. ], tot_loss[loss=0.2265, simple_loss=0.302, pruned_loss=0.07549, over 3833347.50 frames. ], batch size: 52, lr: 5.99e-03, grad_scale: 8.0
+2023-04-02 02:08:03,306 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90477.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:08:13,890 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.443e+02 5.354e+02 6.441e+02 8.114e+02 1.316e+03, threshold=1.288e+03, percent-clipped=1.0
+2023-04-02 02:08:23,209 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90492.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:08:25,352 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 02:08:49,500 INFO [train.py:903] (2/4) Epoch 14, batch 1750, loss[loss=0.2486, simple_loss=0.3201, pruned_loss=0.08851, over 19661.00 frames. ], tot_loss[loss=0.2239, simple_loss=0.2997, pruned_loss=0.07409, over 3844529.99 frames. ], batch size: 55, lr: 5.99e-03, grad_scale: 8.0
+2023-04-02 02:08:49,804 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90514.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:09:51,909 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9441, 4.4658, 3.0650, 3.9664, 1.0852, 4.3340, 4.2948, 4.4701],
+       device='cuda:2'), covar=tensor([0.0492, 0.1026, 0.1693, 0.0819, 0.4307, 0.0644, 0.0718, 0.0920],
+       device='cuda:2'), in_proj_covar=tensor([0.0449, 0.0375, 0.0450, 0.0326, 0.0392, 0.0384, 0.0376, 0.0410],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 02:09:54,006 INFO [train.py:903] (2/4) Epoch 14, batch 1800, loss[loss=0.2564, simple_loss=0.3159, pruned_loss=0.09842, over 19653.00 frames. ], tot_loss[loss=0.2235, simple_loss=0.2993, pruned_loss=0.07389, over 3833462.41 frames. ], batch size: 53, lr: 5.99e-03, grad_scale: 8.0
+2023-04-02 02:10:18,179 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.749e+02 5.076e+02 6.157e+02 8.007e+02 1.318e+03, threshold=1.231e+03, percent-clipped=1.0
+2023-04-02 02:10:29,855 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90594.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:10:34,920 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90598.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:10:47,863 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90607.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:10:48,791 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 02:10:55,672 INFO [train.py:903] (2/4) Epoch 14, batch 1850, loss[loss=0.2455, simple_loss=0.3216, pruned_loss=0.08466, over 19582.00 frames. ], tot_loss[loss=0.2236, simple_loss=0.2994, pruned_loss=0.07388, over 3838751.08 frames. ], batch size: 61, lr: 5.98e-03, grad_scale: 8.0
+2023-04-02 02:11:07,289 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90623.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:11:15,700 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.48 vs. limit=2.0
+2023-04-02 02:11:24,430 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 02:11:58,545 INFO [train.py:903] (2/4) Epoch 14, batch 1900, loss[loss=0.1626, simple_loss=0.2395, pruned_loss=0.0428, over 19760.00 frames. ], tot_loss[loss=0.2236, simple_loss=0.2996, pruned_loss=0.07385, over 3837613.66 frames. ], batch size: 46, lr: 5.98e-03, grad_scale: 8.0
+2023-04-02 02:12:12,347 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 02:12:15,963 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 02:12:24,248 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.000e+02 5.065e+02 6.349e+02 7.558e+02 1.663e+03, threshold=1.270e+03, percent-clipped=1.0
+2023-04-02 02:12:43,819 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 02:12:54,519 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90709.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:12:59,233 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90713.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:13:00,237 INFO [train.py:903] (2/4) Epoch 14, batch 1950, loss[loss=0.2386, simple_loss=0.3166, pruned_loss=0.08026, over 19764.00 frames. ], tot_loss[loss=0.2245, simple_loss=0.3002, pruned_loss=0.07446, over 3832600.38 frames. ], batch size: 63, lr: 5.98e-03, grad_scale: 8.0
+2023-04-02 02:13:05,577 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.94 vs. limit=5.0
+2023-04-02 02:14:03,119 INFO [train.py:903] (2/4) Epoch 14, batch 2000, loss[loss=0.2351, simple_loss=0.3046, pruned_loss=0.08276, over 19682.00 frames. ], tot_loss[loss=0.224, simple_loss=0.2996, pruned_loss=0.0742, over 3828405.06 frames. ], batch size: 53, lr: 5.98e-03, grad_scale: 8.0
+2023-04-02 02:14:27,797 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.086e+02 5.207e+02 5.999e+02 7.179e+02 1.269e+03, threshold=1.200e+03, percent-clipped=0.0
+2023-04-02 02:14:30,499 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0890, 1.8213, 1.4135, 1.1970, 1.6434, 1.0493, 1.0899, 1.5970],
+       device='cuda:2'), covar=tensor([0.0777, 0.0753, 0.1009, 0.0715, 0.0550, 0.1309, 0.0622, 0.0401],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0309, 0.0330, 0.0251, 0.0241, 0.0328, 0.0297, 0.0269],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 02:14:59,937 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 02:15:05,785 INFO [train.py:903] (2/4) Epoch 14, batch 2050, loss[loss=0.2279, simple_loss=0.3107, pruned_loss=0.07258, over 19769.00 frames. ], tot_loss[loss=0.2242, simple_loss=0.2996, pruned_loss=0.07443, over 3823303.38 frames. ], batch size: 63, lr: 5.98e-03, grad_scale: 8.0
+2023-04-02 02:15:14,217 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90821.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:15:18,954 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 02:15:20,136 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 02:15:24,024 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90828.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:15:42,062 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 02:16:01,127 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
+2023-04-02 02:16:01,449 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=90858.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:16:07,317 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90863.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:16:08,093 INFO [train.py:903] (2/4) Epoch 14, batch 2100, loss[loss=0.2626, simple_loss=0.3306, pruned_loss=0.09736, over 18811.00 frames. ], tot_loss[loss=0.2231, simple_loss=0.2983, pruned_loss=0.07395, over 3833075.83 frames. ], batch size: 74, lr: 5.98e-03, grad_scale: 8.0
+2023-04-02 02:16:12,811 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=90867.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:16:32,690 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.435e+02 5.132e+02 6.276e+02 7.348e+02 1.970e+03, threshold=1.255e+03, percent-clipped=2.0
+2023-04-02 02:16:37,024 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 02:16:39,401 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90888.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:16:58,536 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 02:17:09,969 INFO [train.py:903] (2/4) Epoch 14, batch 2150, loss[loss=0.2232, simple_loss=0.3081, pruned_loss=0.06909, over 19391.00 frames. ], tot_loss[loss=0.2234, simple_loss=0.2988, pruned_loss=0.074, over 3818935.54 frames. ], batch size: 70, lr: 5.97e-03, grad_scale: 8.0
+2023-04-02 02:17:38,850 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90936.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:17:53,046 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.74 vs. limit=2.0
+2023-04-02 02:18:10,991 INFO [train.py:903] (2/4) Epoch 14, batch 2200, loss[loss=0.2179, simple_loss=0.2865, pruned_loss=0.07465, over 19618.00 frames. ], tot_loss[loss=0.2241, simple_loss=0.2995, pruned_loss=0.07432, over 3831965.31 frames. ], batch size: 50, lr: 5.97e-03, grad_scale: 8.0
+2023-04-02 02:18:12,480 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=90965.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:18:19,854 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9763, 1.1271, 1.6574, 0.9576, 2.2854, 3.0137, 2.7265, 3.2144],
+       device='cuda:2'), covar=tensor([0.1742, 0.3771, 0.3155, 0.2385, 0.0589, 0.0203, 0.0261, 0.0254],
+       device='cuda:2'), in_proj_covar=tensor([0.0262, 0.0302, 0.0332, 0.0254, 0.0225, 0.0166, 0.0206, 0.0218],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 02:18:23,316 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=90973.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:18:35,015 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.68 vs. limit=5.0
+2023-04-02 02:18:35,326 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.217e+02 5.132e+02 5.971e+02 7.684e+02 1.888e+03, threshold=1.194e+03, percent-clipped=2.0
+2023-04-02 02:18:43,484 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=90990.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:19:13,353 INFO [train.py:903] (2/4) Epoch 14, batch 2250, loss[loss=0.1945, simple_loss=0.2851, pruned_loss=0.05191, over 19689.00 frames. ], tot_loss[loss=0.2248, simple_loss=0.3006, pruned_loss=0.07444, over 3824300.24 frames. ], batch size: 59, lr: 5.97e-03, grad_scale: 8.0
+2023-04-02 02:20:14,202 INFO [train.py:903] (2/4) Epoch 14, batch 2300, loss[loss=0.2179, simple_loss=0.3035, pruned_loss=0.06612, over 19595.00 frames. ], tot_loss[loss=0.2252, simple_loss=0.3009, pruned_loss=0.07473, over 3817071.03 frames. ], batch size: 57, lr: 5.97e-03, grad_scale: 8.0
+2023-04-02 02:20:26,827 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 02:20:38,187 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.297e+02 5.417e+02 6.829e+02 8.730e+02 1.535e+03, threshold=1.366e+03, percent-clipped=12.0
+2023-04-02 02:20:38,672 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=91084.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:20:47,634 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9478, 1.7169, 1.6859, 2.0050, 1.8143, 1.8168, 1.7455, 2.0034],
+       device='cuda:2'), covar=tensor([0.0985, 0.1568, 0.1375, 0.0982, 0.1230, 0.0472, 0.1128, 0.0618],
+       device='cuda:2'), in_proj_covar=tensor([0.0256, 0.0350, 0.0294, 0.0239, 0.0293, 0.0239, 0.0285, 0.0239],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 02:21:11,079 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91109.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:21:16,438 INFO [train.py:903] (2/4) Epoch 14, batch 2350, loss[loss=0.2281, simple_loss=0.3104, pruned_loss=0.07291, over 19709.00 frames. ], tot_loss[loss=0.2248, simple_loss=0.3006, pruned_loss=0.0745, over 3823530.19 frames. ], batch size: 60, lr: 5.97e-03, grad_scale: 8.0
+2023-04-02 02:21:57,696 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 02:22:13,120 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 02:22:14,984 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.80 vs. limit=5.0
+2023-04-02 02:22:17,784 INFO [train.py:903] (2/4) Epoch 14, batch 2400, loss[loss=0.1993, simple_loss=0.2692, pruned_loss=0.06472, over 19696.00 frames. ], tot_loss[loss=0.2243, simple_loss=0.3002, pruned_loss=0.07416, over 3834782.51 frames. ], batch size: 45, lr: 5.97e-03, grad_scale: 8.0
+2023-04-02 02:22:42,188 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.550e+02 5.466e+02 6.599e+02 8.174e+02 1.804e+03, threshold=1.320e+03, percent-clipped=5.0
+2023-04-02 02:22:52,552 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7514, 4.1696, 4.3848, 4.3807, 1.7021, 4.0785, 3.6650, 4.0341],
+       device='cuda:2'), covar=tensor([0.1378, 0.0962, 0.0596, 0.0607, 0.5186, 0.0838, 0.0616, 0.1240],
+       device='cuda:2'), in_proj_covar=tensor([0.0708, 0.0636, 0.0839, 0.0724, 0.0756, 0.0586, 0.0504, 0.0777],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 02:22:52,707 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=91192.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:23:15,506 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=91211.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:23:19,603 INFO [train.py:903] (2/4) Epoch 14, batch 2450, loss[loss=0.1963, simple_loss=0.2706, pruned_loss=0.06097, over 19770.00 frames. ], tot_loss[loss=0.2237, simple_loss=0.2997, pruned_loss=0.07385, over 3828697.43 frames. ], batch size: 47, lr: 5.96e-03, grad_scale: 8.0
+2023-04-02 02:23:23,103 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91217.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:23:37,737 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=91229.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:24:08,239 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91254.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:24:19,341 INFO [train.py:903] (2/4) Epoch 14, batch 2500, loss[loss=0.2494, simple_loss=0.3253, pruned_loss=0.08673, over 19669.00 frames. ], tot_loss[loss=0.2236, simple_loss=0.2996, pruned_loss=0.07376, over 3822814.86 frames. ], batch size: 58, lr: 5.96e-03, grad_scale: 8.0
+2023-04-02 02:24:32,867 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5786, 1.4431, 1.3972, 1.9401, 1.5218, 1.7229, 1.9946, 1.6427],
+       device='cuda:2'), covar=tensor([0.0832, 0.0924, 0.1060, 0.0689, 0.0777, 0.0761, 0.0757, 0.0691],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0223, 0.0224, 0.0241, 0.0228, 0.0209, 0.0191, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 02:24:35,616 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.77 vs. limit=2.0
+2023-04-02 02:24:39,628 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3559, 3.9602, 2.5786, 3.5794, 0.9773, 3.7605, 3.7554, 3.8211],
+       device='cuda:2'), covar=tensor([0.0712, 0.1180, 0.2100, 0.0884, 0.4127, 0.0822, 0.0814, 0.1114],
+       device='cuda:2'), in_proj_covar=tensor([0.0452, 0.0380, 0.0454, 0.0330, 0.0392, 0.0386, 0.0378, 0.0413],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 02:24:42,800 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.074e+02 5.867e+02 6.968e+02 8.618e+02 1.617e+03, threshold=1.394e+03, percent-clipped=2.0
+2023-04-02 02:24:45,414 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0306, 1.1883, 1.5829, 0.8519, 2.3570, 3.0112, 2.7475, 3.2098],
+       device='cuda:2'), covar=tensor([0.1613, 0.3666, 0.3243, 0.2449, 0.0523, 0.0190, 0.0248, 0.0246],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0301, 0.0330, 0.0253, 0.0223, 0.0166, 0.0206, 0.0217],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 02:24:58,173 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0026, 1.9554, 1.8956, 2.6329, 1.9979, 2.5738, 2.5837, 2.2949],
+       device='cuda:2'), covar=tensor([0.0845, 0.0873, 0.1033, 0.0891, 0.0881, 0.0658, 0.0856, 0.0649],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0223, 0.0225, 0.0242, 0.0228, 0.0209, 0.0192, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 02:25:06,891 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=91303.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:25:19,880 INFO [train.py:903] (2/4) Epoch 14, batch 2550, loss[loss=0.192, simple_loss=0.2762, pruned_loss=0.05384, over 19681.00 frames. ], tot_loss[loss=0.2243, simple_loss=0.3001, pruned_loss=0.07422, over 3816082.61 frames. ], batch size: 53, lr: 5.96e-03, grad_scale: 8.0
+2023-04-02 02:25:33,168 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=91326.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:26:12,377 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 02:26:19,143 INFO [train.py:903] (2/4) Epoch 14, batch 2600, loss[loss=0.2095, simple_loss=0.2833, pruned_loss=0.06785, over 19735.00 frames. ], tot_loss[loss=0.224, simple_loss=0.2999, pruned_loss=0.07409, over 3820196.69 frames. ], batch size: 51, lr: 5.96e-03, grad_scale: 8.0
+2023-04-02 02:26:44,915 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.041e+02 5.557e+02 7.203e+02 9.059e+02 1.995e+03, threshold=1.441e+03, percent-clipped=7.0
+2023-04-02 02:27:21,526 INFO [train.py:903] (2/4) Epoch 14, batch 2650, loss[loss=0.1846, simple_loss=0.2678, pruned_loss=0.05073, over 19592.00 frames. ], tot_loss[loss=0.2248, simple_loss=0.3006, pruned_loss=0.07445, over 3820821.63 frames. ], batch size: 52, lr: 5.96e-03, grad_scale: 8.0
+2023-04-02 02:27:41,098 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 02:28:11,805 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5814, 1.1990, 1.4432, 1.2659, 2.2066, 1.0405, 2.0539, 2.4081],
+       device='cuda:2'), covar=tensor([0.0661, 0.2591, 0.2680, 0.1595, 0.0865, 0.1978, 0.0949, 0.0466],
+       device='cuda:2'), in_proj_covar=tensor([0.0371, 0.0346, 0.0363, 0.0327, 0.0355, 0.0338, 0.0347, 0.0369],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 02:28:18,975 INFO [train.py:903] (2/4) Epoch 14, batch 2700, loss[loss=0.188, simple_loss=0.2674, pruned_loss=0.05429, over 19708.00 frames. ], tot_loss[loss=0.2262, simple_loss=0.3016, pruned_loss=0.07541, over 3827058.07 frames. ], batch size: 51, lr: 5.96e-03, grad_scale: 8.0
+2023-04-02 02:28:43,676 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.192e+02 5.145e+02 6.524e+02 8.606e+02 2.089e+03, threshold=1.305e+03, percent-clipped=4.0
+2023-04-02 02:29:13,060 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.40 vs. limit=5.0
+2023-04-02 02:29:20,024 INFO [train.py:903] (2/4) Epoch 14, batch 2750, loss[loss=0.2276, simple_loss=0.3044, pruned_loss=0.07544, over 17701.00 frames. ], tot_loss[loss=0.2253, simple_loss=0.3008, pruned_loss=0.07492, over 3822307.65 frames. ], batch size: 101, lr: 5.95e-03, grad_scale: 8.0
+2023-04-02 02:29:44,615 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.85 vs. limit=2.0
+2023-04-02 02:30:14,318 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=91560.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:30:18,379 INFO [train.py:903] (2/4) Epoch 14, batch 2800, loss[loss=0.223, simple_loss=0.2999, pruned_loss=0.07307, over 19668.00 frames. ], tot_loss[loss=0.2262, simple_loss=0.3017, pruned_loss=0.07533, over 3839747.93 frames. ], batch size: 53, lr: 5.95e-03, grad_scale: 8.0
+2023-04-02 02:30:41,238 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=91582.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:30:44,141 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.583e+02 4.991e+02 6.176e+02 8.428e+02 2.269e+03, threshold=1.235e+03, percent-clipped=6.0
+2023-04-02 02:31:10,031 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=91607.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:31:19,257 INFO [train.py:903] (2/4) Epoch 14, batch 2850, loss[loss=0.2481, simple_loss=0.3195, pruned_loss=0.08831, over 19601.00 frames. ], tot_loss[loss=0.2245, simple_loss=0.3, pruned_loss=0.07455, over 3842974.74 frames. ], batch size: 61, lr: 5.95e-03, grad_scale: 8.0
+2023-04-02 02:31:55,212 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6539, 4.0218, 4.2204, 4.2374, 1.5959, 3.8974, 3.4919, 3.9166],
+       device='cuda:2'), covar=tensor([0.1310, 0.0877, 0.0578, 0.0631, 0.5371, 0.0855, 0.0666, 0.1107],
+       device='cuda:2'), in_proj_covar=tensor([0.0708, 0.0634, 0.0846, 0.0728, 0.0762, 0.0593, 0.0509, 0.0774],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 02:31:58,526 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=91647.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:32:20,013 INFO [train.py:903] (2/4) Epoch 14, batch 2900, loss[loss=0.2041, simple_loss=0.276, pruned_loss=0.06604, over 19274.00 frames. ], tot_loss[loss=0.2232, simple_loss=0.2988, pruned_loss=0.07385, over 3845762.71 frames. ], batch size: 44, lr: 5.95e-03, grad_scale: 8.0
+2023-04-02 02:32:20,835 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 02:32:44,081 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.659e+02 5.126e+02 6.310e+02 7.919e+02 2.445e+03, threshold=1.262e+03, percent-clipped=4.0
+2023-04-02 02:33:19,570 INFO [train.py:903] (2/4) Epoch 14, batch 2950, loss[loss=0.2046, simple_loss=0.288, pruned_loss=0.06061, over 19766.00 frames. ], tot_loss[loss=0.2247, simple_loss=0.3004, pruned_loss=0.07451, over 3830936.49 frames. ], batch size: 54, lr: 5.95e-03, grad_scale: 8.0
+2023-04-02 02:34:17,857 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=91762.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:34:19,640 INFO [train.py:903] (2/4) Epoch 14, batch 3000, loss[loss=0.2267, simple_loss=0.3036, pruned_loss=0.07488, over 18697.00 frames. ], tot_loss[loss=0.2258, simple_loss=0.3011, pruned_loss=0.07521, over 3813734.15 frames. ], batch size: 74, lr: 5.95e-03, grad_scale: 8.0
+2023-04-02 02:34:19,640 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 02:34:36,649 INFO [train.py:937] (2/4) Epoch 14, validation: loss=0.1742, simple_loss=0.2751, pruned_loss=0.03671, over 944034.00 frames. 
+2023-04-02 02:34:36,649 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 02:34:42,037 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 02:35:02,709 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.309e+02 5.261e+02 6.370e+02 8.625e+02 1.479e+03, threshold=1.274e+03, percent-clipped=4.0
+2023-04-02 02:35:07,907 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 02:35:37,796 INFO [train.py:903] (2/4) Epoch 14, batch 3050, loss[loss=0.1803, simple_loss=0.2642, pruned_loss=0.04824, over 19858.00 frames. ], tot_loss[loss=0.223, simple_loss=0.2989, pruned_loss=0.07354, over 3823498.29 frames. ], batch size: 52, lr: 5.94e-03, grad_scale: 8.0
+2023-04-02 02:36:37,011 INFO [train.py:903] (2/4) Epoch 14, batch 3100, loss[loss=0.2393, simple_loss=0.3151, pruned_loss=0.08172, over 19697.00 frames. ], tot_loss[loss=0.2236, simple_loss=0.2996, pruned_loss=0.07384, over 3829429.74 frames. ], batch size: 60, lr: 5.94e-03, grad_scale: 8.0
+2023-04-02 02:37:02,384 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.205e+02 5.361e+02 6.622e+02 8.860e+02 2.580e+03, threshold=1.324e+03, percent-clipped=11.0
+2023-04-02 02:37:24,382 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=91904.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:37:31,750 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=91909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:37:37,890 INFO [train.py:903] (2/4) Epoch 14, batch 3150, loss[loss=0.2397, simple_loss=0.3186, pruned_loss=0.08036, over 19665.00 frames. ], tot_loss[loss=0.2255, simple_loss=0.3013, pruned_loss=0.07484, over 3839498.20 frames. ], batch size: 60, lr: 5.94e-03, grad_scale: 8.0
+2023-04-02 02:38:04,260 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 02:38:37,358 INFO [train.py:903] (2/4) Epoch 14, batch 3200, loss[loss=0.3125, simple_loss=0.3684, pruned_loss=0.1283, over 13074.00 frames. ], tot_loss[loss=0.2257, simple_loss=0.3011, pruned_loss=0.07512, over 3818928.82 frames. ], batch size: 135, lr: 5.94e-03, grad_scale: 8.0
+2023-04-02 02:38:48,711 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=91973.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:39:02,841 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.458e+02 5.150e+02 6.206e+02 7.874e+02 1.849e+03, threshold=1.241e+03, percent-clipped=5.0
+2023-04-02 02:39:12,907 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9653, 1.6114, 1.9504, 1.8052, 4.4167, 1.0303, 2.4151, 4.7825],
+       device='cuda:2'), covar=tensor([0.0367, 0.2766, 0.2718, 0.1843, 0.0734, 0.2738, 0.1485, 0.0191],
+       device='cuda:2'), in_proj_covar=tensor([0.0373, 0.0347, 0.0364, 0.0328, 0.0358, 0.0338, 0.0350, 0.0372],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 02:39:20,939 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=91999.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:39:39,708 INFO [train.py:903] (2/4) Epoch 14, batch 3250, loss[loss=0.2726, simple_loss=0.3358, pruned_loss=0.1047, over 19687.00 frames. ], tot_loss[loss=0.2262, simple_loss=0.3014, pruned_loss=0.07553, over 3797876.22 frames. ], batch size: 60, lr: 5.94e-03, grad_scale: 8.0
+2023-04-02 02:39:44,747 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92018.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:39:45,908 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=92019.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:40:05,440 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1297, 1.8006, 1.4016, 1.2324, 1.5826, 1.1800, 1.2258, 1.5198],
+       device='cuda:2'), covar=tensor([0.0717, 0.0664, 0.0978, 0.0666, 0.0469, 0.1120, 0.0537, 0.0401],
+       device='cuda:2'), in_proj_covar=tensor([0.0298, 0.0309, 0.0329, 0.0252, 0.0241, 0.0329, 0.0297, 0.0268],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 02:40:15,631 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92043.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:40:39,293 INFO [train.py:903] (2/4) Epoch 14, batch 3300, loss[loss=0.2072, simple_loss=0.2768, pruned_loss=0.06873, over 19053.00 frames. ], tot_loss[loss=0.2269, simple_loss=0.3019, pruned_loss=0.07591, over 3793561.45 frames. ], batch size: 42, lr: 5.94e-03, grad_scale: 8.0
+2023-04-02 02:40:45,689 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 02:41:04,997 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.031e+02 4.974e+02 6.176e+02 7.406e+02 2.018e+03, threshold=1.235e+03, percent-clipped=5.0
+2023-04-02 02:41:41,642 INFO [train.py:903] (2/4) Epoch 14, batch 3350, loss[loss=0.2278, simple_loss=0.3062, pruned_loss=0.07469, over 19536.00 frames. ], tot_loss[loss=0.2265, simple_loss=0.3018, pruned_loss=0.07559, over 3804344.52 frames. ], batch size: 56, lr: 5.94e-03, grad_scale: 8.0
+2023-04-02 02:42:19,487 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2038, 1.2906, 1.6017, 1.3325, 2.8620, 3.8111, 3.5222, 4.0044],
+       device='cuda:2'), covar=tensor([0.1551, 0.3498, 0.3089, 0.2112, 0.0493, 0.0146, 0.0185, 0.0191],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0299, 0.0328, 0.0252, 0.0221, 0.0165, 0.0205, 0.0217],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 02:42:40,601 INFO [train.py:903] (2/4) Epoch 14, batch 3400, loss[loss=0.2148, simple_loss=0.3001, pruned_loss=0.06473, over 19665.00 frames. ], tot_loss[loss=0.2265, simple_loss=0.3017, pruned_loss=0.07568, over 3803762.16 frames. ], batch size: 58, lr: 5.93e-03, grad_scale: 8.0
+2023-04-02 02:43:05,849 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.972e+02 4.934e+02 6.017e+02 7.496e+02 1.650e+03, threshold=1.203e+03, percent-clipped=3.0
+2023-04-02 02:43:42,223 INFO [train.py:903] (2/4) Epoch 14, batch 3450, loss[loss=0.2363, simple_loss=0.3142, pruned_loss=0.07919, over 19659.00 frames. ], tot_loss[loss=0.2269, simple_loss=0.3021, pruned_loss=0.07587, over 3798546.35 frames. ], batch size: 58, lr: 5.93e-03, grad_scale: 8.0
+2023-04-02 02:43:44,673 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 02:44:28,720 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=92253.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:44:40,671 INFO [train.py:903] (2/4) Epoch 14, batch 3500, loss[loss=0.1803, simple_loss=0.2651, pruned_loss=0.04776, over 19861.00 frames. ], tot_loss[loss=0.2262, simple_loss=0.3015, pruned_loss=0.0754, over 3809815.56 frames. ], batch size: 52, lr: 5.93e-03, grad_scale: 8.0
+2023-04-02 02:44:54,894 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92275.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:45:05,731 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.029e+02 5.239e+02 6.377e+02 7.871e+02 1.606e+03, threshold=1.275e+03, percent-clipped=5.0
+2023-04-02 02:45:24,240 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92300.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 02:45:41,111 INFO [train.py:903] (2/4) Epoch 14, batch 3550, loss[loss=0.2254, simple_loss=0.3093, pruned_loss=0.07075, over 18823.00 frames. ], tot_loss[loss=0.2269, simple_loss=0.3025, pruned_loss=0.07565, over 3823602.38 frames. ], batch size: 74, lr: 5.93e-03, grad_scale: 8.0
+2023-04-02 02:45:44,527 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=92317.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:46:15,220 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=92343.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:46:39,899 INFO [train.py:903] (2/4) Epoch 14, batch 3600, loss[loss=0.2148, simple_loss=0.3015, pruned_loss=0.06402, over 19729.00 frames. ], tot_loss[loss=0.2249, simple_loss=0.3011, pruned_loss=0.07441, over 3832990.66 frames. ], batch size: 63, lr: 5.93e-03, grad_scale: 8.0
+2023-04-02 02:46:44,953 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=92368.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:47:04,638 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.193e+02 5.209e+02 6.321e+02 7.842e+02 1.520e+03, threshold=1.264e+03, percent-clipped=2.0
+2023-04-02 02:47:40,754 INFO [train.py:903] (2/4) Epoch 14, batch 3650, loss[loss=0.2127, simple_loss=0.3007, pruned_loss=0.06237, over 19530.00 frames. ], tot_loss[loss=0.224, simple_loss=0.3, pruned_loss=0.07405, over 3824248.68 frames. ], batch size: 56, lr: 5.93e-03, grad_scale: 8.0
+2023-04-02 02:47:42,673 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.57 vs. limit=2.0
+2023-04-02 02:48:03,005 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=92432.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:48:34,111 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=92458.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:48:40,409 INFO [train.py:903] (2/4) Epoch 14, batch 3700, loss[loss=0.2857, simple_loss=0.3482, pruned_loss=0.1116, over 13147.00 frames. ], tot_loss[loss=0.2238, simple_loss=0.2996, pruned_loss=0.07398, over 3824213.87 frames. ], batch size: 136, lr: 5.92e-03, grad_scale: 8.0
+2023-04-02 02:49:01,666 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0232, 1.9238, 1.8852, 2.1981, 1.9620, 1.7615, 1.8281, 2.0066],
+       device='cuda:2'), covar=tensor([0.0816, 0.1344, 0.1118, 0.0749, 0.1051, 0.0499, 0.1094, 0.0586],
+       device='cuda:2'), in_proj_covar=tensor([0.0259, 0.0350, 0.0294, 0.0241, 0.0296, 0.0243, 0.0288, 0.0242],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 02:49:05,826 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.433e+02 4.888e+02 6.023e+02 8.004e+02 1.682e+03, threshold=1.205e+03, percent-clipped=3.0
+2023-04-02 02:49:23,513 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-02 02:49:41,654 INFO [train.py:903] (2/4) Epoch 14, batch 3750, loss[loss=0.1923, simple_loss=0.2704, pruned_loss=0.0571, over 19736.00 frames. ], tot_loss[loss=0.2233, simple_loss=0.2993, pruned_loss=0.07362, over 3815138.24 frames. ], batch size: 51, lr: 5.92e-03, grad_scale: 8.0
+2023-04-02 02:50:42,054 INFO [train.py:903] (2/4) Epoch 14, batch 3800, loss[loss=0.2016, simple_loss=0.2805, pruned_loss=0.06135, over 19682.00 frames. ], tot_loss[loss=0.2239, simple_loss=0.2998, pruned_loss=0.07406, over 3810924.80 frames. ], batch size: 53, lr: 5.92e-03, grad_scale: 8.0
+2023-04-02 02:51:06,370 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.816e+02 4.992e+02 6.384e+02 8.353e+02 1.667e+03, threshold=1.277e+03, percent-clipped=5.0
+2023-04-02 02:51:07,052 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.31 vs. limit=5.0
+2023-04-02 02:51:10,992 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 02:51:16,781 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7990, 3.2607, 3.3365, 3.3140, 1.2026, 3.1485, 2.7895, 3.1110],
+       device='cuda:2'), covar=tensor([0.1719, 0.0888, 0.0781, 0.0916, 0.5348, 0.0868, 0.0747, 0.1294],
+       device='cuda:2'), in_proj_covar=tensor([0.0715, 0.0638, 0.0846, 0.0727, 0.0759, 0.0591, 0.0511, 0.0779],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 02:51:42,072 INFO [train.py:903] (2/4) Epoch 14, batch 3850, loss[loss=0.2654, simple_loss=0.3405, pruned_loss=0.09519, over 19360.00 frames. ], tot_loss[loss=0.2251, simple_loss=0.3006, pruned_loss=0.07484, over 3819600.53 frames. ], batch size: 70, lr: 5.92e-03, grad_scale: 8.0
+2023-04-02 02:51:54,764 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92624.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:51:59,471 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3951, 1.3389, 1.5759, 1.5660, 2.4074, 2.1015, 2.3372, 0.7064],
+       device='cuda:2'), covar=tensor([0.2268, 0.3936, 0.2424, 0.1763, 0.1246, 0.1954, 0.1275, 0.4040],
+       device='cuda:2'), in_proj_covar=tensor([0.0509, 0.0599, 0.0644, 0.0455, 0.0608, 0.0507, 0.0657, 0.0513],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 02:52:19,032 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92643.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:52:26,120 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92649.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:52:30,092 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.44 vs. limit=2.0
+2023-04-02 02:52:43,617 INFO [train.py:903] (2/4) Epoch 14, batch 3900, loss[loss=0.2224, simple_loss=0.2986, pruned_loss=0.0731, over 19478.00 frames. ], tot_loss[loss=0.2244, simple_loss=0.3, pruned_loss=0.07435, over 3811687.60 frames. ], batch size: 64, lr: 5.92e-03, grad_scale: 4.0
+2023-04-02 02:53:10,396 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.910e+02 5.705e+02 7.277e+02 9.203e+02 2.913e+03, threshold=1.455e+03, percent-clipped=9.0
+2023-04-02 02:53:13,182 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92688.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:53:43,652 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92713.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:53:44,350 INFO [train.py:903] (2/4) Epoch 14, batch 3950, loss[loss=0.2408, simple_loss=0.3192, pruned_loss=0.08118, over 19607.00 frames. ], tot_loss[loss=0.2243, simple_loss=0.2998, pruned_loss=0.07444, over 3801476.38 frames. ], batch size: 57, lr: 5.92e-03, grad_scale: 4.0
+2023-04-02 02:53:44,779 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=92714.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 02:53:48,545 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 02:54:13,015 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92738.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:54:14,283 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=92739.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 02:54:45,461 INFO [train.py:903] (2/4) Epoch 14, batch 4000, loss[loss=0.1961, simple_loss=0.267, pruned_loss=0.06257, over 19743.00 frames. ], tot_loss[loss=0.2227, simple_loss=0.2988, pruned_loss=0.07337, over 3816016.98 frames. ], batch size: 46, lr: 5.91e-03, grad_scale: 8.0
+2023-04-02 02:54:48,412 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.70 vs. limit=2.0
+2023-04-02 02:54:50,740 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.57 vs. limit=2.0
+2023-04-02 02:55:11,213 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.263e+02 4.983e+02 6.436e+02 8.255e+02 1.908e+03, threshold=1.287e+03, percent-clipped=2.0
+2023-04-02 02:55:33,047 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 02:55:33,672 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.81 vs. limit=2.0
+2023-04-02 02:55:45,564 INFO [train.py:903] (2/4) Epoch 14, batch 4050, loss[loss=0.209, simple_loss=0.2937, pruned_loss=0.06219, over 19661.00 frames. ], tot_loss[loss=0.2232, simple_loss=0.2993, pruned_loss=0.07355, over 3807313.01 frames. ], batch size: 55, lr: 5.91e-03, grad_scale: 4.0
+2023-04-02 02:56:29,006 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92849.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:56:31,605 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.55 vs. limit=2.0
+2023-04-02 02:56:45,592 INFO [train.py:903] (2/4) Epoch 14, batch 4100, loss[loss=0.2147, simple_loss=0.2888, pruned_loss=0.07027, over 17729.00 frames. ], tot_loss[loss=0.2247, simple_loss=0.3006, pruned_loss=0.07437, over 3808608.17 frames. ], batch size: 39, lr: 5.91e-03, grad_scale: 4.0
+2023-04-02 02:57:13,887 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.303e+02 5.414e+02 6.604e+02 8.302e+02 1.654e+03, threshold=1.321e+03, percent-clipped=7.0
+2023-04-02 02:57:21,833 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 02:57:34,180 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
+2023-04-02 02:57:45,529 INFO [train.py:903] (2/4) Epoch 14, batch 4150, loss[loss=0.2182, simple_loss=0.2763, pruned_loss=0.08005, over 19736.00 frames. ], tot_loss[loss=0.2235, simple_loss=0.2992, pruned_loss=0.07387, over 3824575.83 frames. ], batch size: 46, lr: 5.91e-03, grad_scale: 4.0
+2023-04-02 02:57:51,055 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92917.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:58:28,840 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92949.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:58:30,583 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-02 02:58:34,559 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7426, 1.5191, 1.5233, 2.2046, 1.7352, 1.9772, 1.9741, 1.8324],
+       device='cuda:2'), covar=tensor([0.0742, 0.0916, 0.0983, 0.0712, 0.0777, 0.0721, 0.0843, 0.0626],
+       device='cuda:2'), in_proj_covar=tensor([0.0208, 0.0220, 0.0223, 0.0241, 0.0226, 0.0207, 0.0188, 0.0199],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 02:58:48,463 INFO [train.py:903] (2/4) Epoch 14, batch 4200, loss[loss=0.2206, simple_loss=0.2947, pruned_loss=0.07322, over 19530.00 frames. ], tot_loss[loss=0.2246, simple_loss=0.3001, pruned_loss=0.07449, over 3818716.04 frames. ], batch size: 54, lr: 5.91e-03, grad_scale: 4.0
+2023-04-02 02:58:51,713 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 02:59:15,433 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.424e+02 5.036e+02 6.286e+02 7.807e+02 1.684e+03, threshold=1.257e+03, percent-clipped=4.0
+2023-04-02 02:59:15,610 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=92987.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:59:22,680 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=92993.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 02:59:48,127 INFO [train.py:903] (2/4) Epoch 14, batch 4250, loss[loss=0.2667, simple_loss=0.3268, pruned_loss=0.1033, over 12575.00 frames. ], tot_loss[loss=0.2255, simple_loss=0.3007, pruned_loss=0.0751, over 3791792.02 frames. ], batch size: 136, lr: 5.91e-03, grad_scale: 4.0
+2023-04-02 02:59:55,515 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6137, 2.1524, 2.3281, 2.8371, 2.5600, 2.4150, 2.2934, 2.7973],
+       device='cuda:2'), covar=tensor([0.0915, 0.1729, 0.1334, 0.0961, 0.1304, 0.0440, 0.1126, 0.0555],
+       device='cuda:2'), in_proj_covar=tensor([0.0259, 0.0351, 0.0296, 0.0242, 0.0297, 0.0245, 0.0287, 0.0243],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:00:01,601 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-02 03:00:02,436 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6304, 1.7006, 1.9370, 2.1082, 1.4578, 1.9496, 2.0453, 1.8295],
+       device='cuda:2'), covar=tensor([0.3767, 0.3138, 0.1559, 0.1808, 0.3278, 0.1746, 0.4283, 0.2915],
+       device='cuda:2'), in_proj_covar=tensor([0.0824, 0.0859, 0.0666, 0.0898, 0.0810, 0.0741, 0.0802, 0.0731],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 03:00:03,116 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 03:00:05,158 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93028.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:00:15,028 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 03:00:26,879 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-02 03:00:37,790 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93054.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:00:47,528 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.03 vs. limit=5.0
+2023-04-02 03:00:48,966 INFO [train.py:903] (2/4) Epoch 14, batch 4300, loss[loss=0.2325, simple_loss=0.3069, pruned_loss=0.07903, over 19765.00 frames. ], tot_loss[loss=0.2254, simple_loss=0.301, pruned_loss=0.07488, over 3797287.69 frames. ], batch size: 54, lr: 5.90e-03, grad_scale: 4.0
+2023-04-02 03:01:12,686 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:01:18,347 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.279e+02 5.152e+02 6.308e+02 8.497e+02 2.668e+03, threshold=1.262e+03, percent-clipped=7.0
+2023-04-02 03:01:36,190 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93102.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:01:42,508 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 03:01:50,403 INFO [train.py:903] (2/4) Epoch 14, batch 4350, loss[loss=0.2318, simple_loss=0.3088, pruned_loss=0.07738, over 19526.00 frames. ], tot_loss[loss=0.2249, simple_loss=0.3007, pruned_loss=0.07451, over 3799245.90 frames. ], batch size: 54, lr: 5.90e-03, grad_scale: 4.0
+2023-04-02 03:02:14,529 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93133.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:02:52,477 INFO [train.py:903] (2/4) Epoch 14, batch 4400, loss[loss=0.2679, simple_loss=0.335, pruned_loss=0.1004, over 19346.00 frames. ], tot_loss[loss=0.225, simple_loss=0.3007, pruned_loss=0.07461, over 3789372.87 frames. ], batch size: 66, lr: 5.90e-03, grad_scale: 8.0
+2023-04-02 03:03:02,485 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-02 03:03:15,286 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 03:03:18,719 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.086e+02 5.134e+02 6.154e+02 7.916e+02 2.681e+03, threshold=1.231e+03, percent-clipped=4.0
+2023-04-02 03:03:25,262 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 03:03:26,660 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93193.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:03:32,737 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93197.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:03:52,932 INFO [train.py:903] (2/4) Epoch 14, batch 4450, loss[loss=0.2488, simple_loss=0.3224, pruned_loss=0.08759, over 18310.00 frames. ], tot_loss[loss=0.2257, simple_loss=0.301, pruned_loss=0.07517, over 3802351.02 frames. ], batch size: 83, lr: 5.90e-03, grad_scale: 8.0
+2023-04-02 03:04:49,432 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93261.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:04:52,746 INFO [train.py:903] (2/4) Epoch 14, batch 4500, loss[loss=0.2419, simple_loss=0.3156, pruned_loss=0.08416, over 19673.00 frames. ], tot_loss[loss=0.2249, simple_loss=0.3005, pruned_loss=0.07468, over 3808504.36 frames. ], batch size: 55, lr: 5.90e-03, grad_scale: 8.0
+2023-04-02 03:05:21,652 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.340e+02 5.314e+02 6.344e+02 7.896e+02 1.749e+03, threshold=1.269e+03, percent-clipped=5.0
+2023-04-02 03:05:28,480 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93293.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:05:45,617 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93308.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:05:52,299 INFO [train.py:903] (2/4) Epoch 14, batch 4550, loss[loss=0.2118, simple_loss=0.2822, pruned_loss=0.0707, over 19396.00 frames. ], tot_loss[loss=0.2254, simple_loss=0.3009, pruned_loss=0.07499, over 3793194.46 frames. ], batch size: 48, lr: 5.90e-03, grad_scale: 8.0
+2023-04-02 03:06:06,165 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 03:06:18,795 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0413, 1.3090, 1.5958, 1.1208, 2.5668, 3.3376, 3.1103, 3.5506],
+       device='cuda:2'), covar=tensor([0.1652, 0.3440, 0.3222, 0.2291, 0.0500, 0.0182, 0.0208, 0.0199],
+       device='cuda:2'), in_proj_covar=tensor([0.0259, 0.0299, 0.0328, 0.0252, 0.0220, 0.0164, 0.0205, 0.0216],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 03:06:21,907 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93337.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:06:27,652 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 03:06:46,931 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93358.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:06:55,975 INFO [train.py:903] (2/4) Epoch 14, batch 4600, loss[loss=0.1897, simple_loss=0.2677, pruned_loss=0.05588, over 19839.00 frames. ], tot_loss[loss=0.2258, simple_loss=0.3013, pruned_loss=0.07521, over 3791730.22 frames. ], batch size: 52, lr: 5.90e-03, grad_scale: 8.0
+2023-04-02 03:07:05,028 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93372.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:07:09,512 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93376.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:07:17,772 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93383.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:07:22,001 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.600e+02 5.339e+02 6.388e+02 8.227e+02 2.509e+03, threshold=1.278e+03, percent-clipped=2.0
+2023-04-02 03:07:35,567 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93398.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:07:49,460 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93408.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:07:50,577 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5359, 1.1537, 1.3509, 1.2893, 2.1508, 1.0249, 2.0308, 2.4043],
+       device='cuda:2'), covar=tensor([0.0589, 0.2518, 0.2673, 0.1540, 0.0874, 0.1982, 0.0903, 0.0464],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0341, 0.0361, 0.0321, 0.0351, 0.0330, 0.0341, 0.0367],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:07:56,014 INFO [train.py:903] (2/4) Epoch 14, batch 4650, loss[loss=0.1959, simple_loss=0.2841, pruned_loss=0.05381, over 19530.00 frames. ], tot_loss[loss=0.2253, simple_loss=0.301, pruned_loss=0.07476, over 3808900.68 frames. ], batch size: 56, lr: 5.89e-03, grad_scale: 8.0
+2023-04-02 03:08:12,032 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 03:08:23,193 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 03:08:43,074 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93452.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:08:44,295 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93453.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:08:56,302 INFO [train.py:903] (2/4) Epoch 14, batch 4700, loss[loss=0.2314, simple_loss=0.31, pruned_loss=0.07642, over 19593.00 frames. ], tot_loss[loss=0.2252, simple_loss=0.3007, pruned_loss=0.07484, over 3814455.83 frames. ], batch size: 61, lr: 5.89e-03, grad_scale: 8.0
+2023-04-02 03:09:06,638 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0454, 2.8083, 2.0261, 2.5071, 1.0727, 2.7052, 2.6044, 2.6957],
+       device='cuda:2'), covar=tensor([0.1208, 0.1358, 0.2019, 0.0989, 0.3294, 0.1023, 0.1078, 0.1228],
+       device='cuda:2'), in_proj_covar=tensor([0.0450, 0.0380, 0.0452, 0.0327, 0.0390, 0.0388, 0.0378, 0.0410],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:09:11,835 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=93477.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:09:13,342 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:09:20,339 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 03:09:25,718 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.143e+02 5.199e+02 6.337e+02 7.857e+02 1.524e+03, threshold=1.267e+03, percent-clipped=2.0
+2023-04-02 03:09:26,067 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93487.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:09:46,400 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5846, 1.6369, 2.0860, 1.7507, 3.1502, 2.4451, 3.2211, 1.7466],
+       device='cuda:2'), covar=tensor([0.2216, 0.3828, 0.2314, 0.1827, 0.1420, 0.1990, 0.1583, 0.3492],
+       device='cuda:2'), in_proj_covar=tensor([0.0501, 0.0592, 0.0638, 0.0453, 0.0602, 0.0504, 0.0648, 0.0507],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 03:09:55,142 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93513.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:09:55,940 INFO [train.py:903] (2/4) Epoch 14, batch 4750, loss[loss=0.216, simple_loss=0.3021, pruned_loss=0.06493, over 19615.00 frames. ], tot_loss[loss=0.2233, simple_loss=0.2995, pruned_loss=0.07358, over 3825781.99 frames. ], batch size: 57, lr: 5.89e-03, grad_scale: 8.0
+2023-04-02 03:10:55,742 INFO [train.py:903] (2/4) Epoch 14, batch 4800, loss[loss=0.2861, simple_loss=0.3548, pruned_loss=0.1088, over 18152.00 frames. ], tot_loss[loss=0.223, simple_loss=0.299, pruned_loss=0.0735, over 3824621.41 frames. ], batch size: 83, lr: 5.89e-03, grad_scale: 8.0
+2023-04-02 03:10:56,184 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93564.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:11:22,952 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.531e+02 5.541e+02 6.642e+02 8.296e+02 2.320e+03, threshold=1.328e+03, percent-clipped=4.0
+2023-04-02 03:11:25,731 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93589.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:11:29,082 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=93592.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:11:57,055 INFO [train.py:903] (2/4) Epoch 14, batch 4850, loss[loss=0.2408, simple_loss=0.3159, pruned_loss=0.08289, over 19618.00 frames. ], tot_loss[loss=0.2238, simple_loss=0.2998, pruned_loss=0.07396, over 3811480.49 frames. ], batch size: 57, lr: 5.89e-03, grad_scale: 8.0
+2023-04-02 03:12:15,544 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7350, 1.5132, 1.5096, 2.2799, 1.8673, 2.2274, 2.1639, 1.8820],
+       device='cuda:2'), covar=tensor([0.0790, 0.0947, 0.1006, 0.0757, 0.0796, 0.0599, 0.0790, 0.0616],
+       device='cuda:2'), in_proj_covar=tensor([0.0208, 0.0219, 0.0220, 0.0241, 0.0225, 0.0206, 0.0189, 0.0199],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 03:12:17,847 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93632.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:12:23,246 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 03:12:42,756 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 03:12:47,282 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 03:12:48,586 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 03:12:48,974 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93657.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:12:56,529 INFO [train.py:903] (2/4) Epoch 14, batch 4900, loss[loss=0.2386, simple_loss=0.3143, pruned_loss=0.0815, over 17553.00 frames. ], tot_loss[loss=0.2233, simple_loss=0.2996, pruned_loss=0.07353, over 3827056.06 frames. ], batch size: 101, lr: 5.89e-03, grad_scale: 8.0
+2023-04-02 03:12:56,927 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93664.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:12:57,698 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 03:13:18,091 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 03:13:25,555 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.007e+02 4.842e+02 5.818e+02 7.123e+02 1.786e+03, threshold=1.164e+03, percent-clipped=2.0
+2023-04-02 03:13:28,147 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93689.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:13:35,386 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
+2023-04-02 03:13:49,613 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93708.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:13:55,988 INFO [train.py:903] (2/4) Epoch 14, batch 4950, loss[loss=0.2555, simple_loss=0.3185, pruned_loss=0.09629, over 19373.00 frames. ], tot_loss[loss=0.2229, simple_loss=0.2991, pruned_loss=0.07335, over 3824838.67 frames. ], batch size: 48, lr: 5.88e-03, grad_scale: 8.0
+2023-04-02 03:14:16,304 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 03:14:21,108 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93733.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:14:32,417 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93743.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:14:36,697 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 03:14:53,753 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-02 03:14:58,219 INFO [train.py:903] (2/4) Epoch 14, batch 5000, loss[loss=0.2739, simple_loss=0.3492, pruned_loss=0.0993, over 19564.00 frames. ], tot_loss[loss=0.2241, simple_loss=0.3001, pruned_loss=0.07411, over 3823218.91 frames. ], batch size: 56, lr: 5.88e-03, grad_scale: 8.0
+2023-04-02 03:15:04,143 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93768.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:15:05,332 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93769.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:15:07,263 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 03:15:17,370 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 03:15:25,227 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 4.057e+02 5.347e+02 6.962e+02 9.103e+02 2.417e+03, threshold=1.392e+03, percent-clipped=9.0
+2023-04-02 03:15:26,654 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93788.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:15:33,821 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93794.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:15:59,313 INFO [train.py:903] (2/4) Epoch 14, batch 5050, loss[loss=0.2112, simple_loss=0.2971, pruned_loss=0.0627, over 18289.00 frames. ], tot_loss[loss=0.2246, simple_loss=0.3008, pruned_loss=0.07421, over 3826535.47 frames. ], batch size: 83, lr: 5.88e-03, grad_scale: 8.0
+2023-04-02 03:16:16,690 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-02 03:16:20,965 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8465, 1.9321, 2.0502, 2.4032, 1.8809, 2.3303, 2.1766, 1.9714],
+       device='cuda:2'), covar=tensor([0.2959, 0.2485, 0.1282, 0.1459, 0.2587, 0.1262, 0.2849, 0.2159],
+       device='cuda:2'), in_proj_covar=tensor([0.0824, 0.0860, 0.0668, 0.0900, 0.0810, 0.0746, 0.0807, 0.0735],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 03:16:35,021 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 03:16:40,858 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=93848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:16:59,042 INFO [train.py:903] (2/4) Epoch 14, batch 5100, loss[loss=0.2649, simple_loss=0.3401, pruned_loss=0.0948, over 18811.00 frames. ], tot_loss[loss=0.2244, simple_loss=0.3004, pruned_loss=0.07424, over 3814305.51 frames. ], batch size: 74, lr: 5.88e-03, grad_scale: 8.0
+2023-04-02 03:17:09,128 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=93873.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:17:09,884 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 03:17:13,173 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 03:17:16,709 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 03:17:26,262 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.008e+02 4.904e+02 5.934e+02 7.645e+02 1.361e+03, threshold=1.187e+03, percent-clipped=0.0
+2023-04-02 03:17:56,877 INFO [train.py:903] (2/4) Epoch 14, batch 5150, loss[loss=0.2014, simple_loss=0.2792, pruned_loss=0.06174, over 19482.00 frames. ], tot_loss[loss=0.2257, simple_loss=0.3018, pruned_loss=0.07486, over 3807683.00 frames. ], batch size: 49, lr: 5.88e-03, grad_scale: 8.0
+2023-04-02 03:18:09,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 03:18:43,212 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 03:18:58,017 INFO [train.py:903] (2/4) Epoch 14, batch 5200, loss[loss=0.3036, simple_loss=0.3515, pruned_loss=0.1279, over 19675.00 frames. ], tot_loss[loss=0.226, simple_loss=0.3019, pruned_loss=0.07503, over 3801156.16 frames. ], batch size: 59, lr: 5.88e-03, grad_scale: 8.0
+2023-04-02 03:19:13,852 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 03:19:25,470 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.052e+02 5.268e+02 6.485e+02 8.631e+02 2.638e+03, threshold=1.297e+03, percent-clipped=7.0
+2023-04-02 03:19:32,901 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-02 03:19:39,234 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=93999.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:19:57,310 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 03:19:59,381 INFO [train.py:903] (2/4) Epoch 14, batch 5250, loss[loss=0.2332, simple_loss=0.3055, pruned_loss=0.08042, over 19493.00 frames. ], tot_loss[loss=0.225, simple_loss=0.3009, pruned_loss=0.07452, over 3814510.27 frames. ], batch size: 49, lr: 5.88e-03, grad_scale: 8.0
+2023-04-02 03:20:02,058 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6154, 1.5475, 1.7161, 1.9414, 4.1231, 1.2412, 2.4115, 4.4181],
+       device='cuda:2'), covar=tensor([0.0366, 0.2700, 0.2695, 0.1595, 0.0715, 0.2541, 0.1445, 0.0203],
+       device='cuda:2'), in_proj_covar=tensor([0.0372, 0.0345, 0.0364, 0.0323, 0.0351, 0.0334, 0.0343, 0.0369],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:20:59,237 INFO [train.py:903] (2/4) Epoch 14, batch 5300, loss[loss=0.2771, simple_loss=0.3374, pruned_loss=0.1084, over 12975.00 frames. ], tot_loss[loss=0.2243, simple_loss=0.2999, pruned_loss=0.07438, over 3796662.19 frames. ], batch size: 136, lr: 5.87e-03, grad_scale: 8.0
+2023-04-02 03:21:16,452 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 03:21:27,962 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.389e+02 5.368e+02 7.020e+02 9.283e+02 2.840e+03, threshold=1.404e+03, percent-clipped=4.0
+2023-04-02 03:21:59,006 INFO [train.py:903] (2/4) Epoch 14, batch 5350, loss[loss=0.2105, simple_loss=0.2978, pruned_loss=0.06156, over 19697.00 frames. ], tot_loss[loss=0.2237, simple_loss=0.2995, pruned_loss=0.07388, over 3820677.48 frames. ], batch size: 59, lr: 5.87e-03, grad_scale: 8.0
+2023-04-02 03:22:23,142 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=94132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:22:34,755 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 03:22:59,600 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8717, 1.9638, 2.1730, 2.5079, 1.8062, 2.4886, 2.3287, 2.0940],
+       device='cuda:2'), covar=tensor([0.3768, 0.3233, 0.1572, 0.1972, 0.3605, 0.1627, 0.3868, 0.2746],
+       device='cuda:2'), in_proj_covar=tensor([0.0821, 0.0859, 0.0664, 0.0894, 0.0808, 0.0742, 0.0803, 0.0729],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 03:23:01,401 INFO [train.py:903] (2/4) Epoch 14, batch 5400, loss[loss=0.1821, simple_loss=0.2557, pruned_loss=0.0542, over 19407.00 frames. ], tot_loss[loss=0.2233, simple_loss=0.2989, pruned_loss=0.07384, over 3810428.34 frames. ], batch size: 48, lr: 5.87e-03, grad_scale: 8.0
+2023-04-02 03:23:29,188 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.364e+02 5.537e+02 7.248e+02 8.700e+02 2.021e+03, threshold=1.450e+03, percent-clipped=3.0
+2023-04-02 03:24:03,212 INFO [train.py:903] (2/4) Epoch 14, batch 5450, loss[loss=0.1813, simple_loss=0.2541, pruned_loss=0.05423, over 19766.00 frames. ], tot_loss[loss=0.2232, simple_loss=0.2989, pruned_loss=0.07374, over 3805877.35 frames. ], batch size: 46, lr: 5.87e-03, grad_scale: 8.0
+2023-04-02 03:24:04,644 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5005, 4.0330, 4.2104, 4.1884, 1.6954, 3.9693, 3.4078, 3.8593],
+       device='cuda:2'), covar=tensor([0.1532, 0.0850, 0.0604, 0.0650, 0.5341, 0.0718, 0.0699, 0.1203],
+       device='cuda:2'), in_proj_covar=tensor([0.0713, 0.0642, 0.0855, 0.0727, 0.0760, 0.0594, 0.0511, 0.0784],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 03:24:33,968 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=94241.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 03:24:43,537 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=94247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:25:02,870 INFO [train.py:903] (2/4) Epoch 14, batch 5500, loss[loss=0.2482, simple_loss=0.3246, pruned_loss=0.08591, over 19691.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2977, pruned_loss=0.07285, over 3820870.07 frames. ], batch size: 60, lr: 5.87e-03, grad_scale: 8.0
+2023-04-02 03:25:09,715 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9926, 2.8334, 1.8171, 1.9246, 1.6762, 2.1209, 0.9788, 2.0076],
+       device='cuda:2'), covar=tensor([0.0771, 0.0648, 0.0794, 0.1253, 0.1421, 0.1281, 0.1239, 0.1141],
+       device='cuda:2'), in_proj_covar=tensor([0.0345, 0.0342, 0.0337, 0.0364, 0.0438, 0.0363, 0.0317, 0.0328],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 03:25:25,702 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 03:25:30,872 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.158e+02 4.805e+02 5.794e+02 7.462e+02 1.465e+03, threshold=1.159e+03, percent-clipped=1.0
+2023-04-02 03:26:01,459 INFO [train.py:903] (2/4) Epoch 14, batch 5550, loss[loss=0.2274, simple_loss=0.3071, pruned_loss=0.07386, over 17377.00 frames. ], tot_loss[loss=0.2228, simple_loss=0.2991, pruned_loss=0.07329, over 3822499.82 frames. ], batch size: 101, lr: 5.87e-03, grad_scale: 8.0
+2023-04-02 03:26:08,354 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 03:26:37,721 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=94343.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:26:57,893 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 03:27:01,443 INFO [train.py:903] (2/4) Epoch 14, batch 5600, loss[loss=0.2307, simple_loss=0.3102, pruned_loss=0.07562, over 19334.00 frames. ], tot_loss[loss=0.2234, simple_loss=0.2993, pruned_loss=0.07379, over 3829374.51 frames. ], batch size: 66, lr: 5.86e-03, grad_scale: 8.0
+2023-04-02 03:27:05,702 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=94366.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:27:06,236 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 03:27:30,031 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.083e+02 5.188e+02 6.005e+02 7.911e+02 1.925e+03, threshold=1.201e+03, percent-clipped=8.0
+2023-04-02 03:28:03,376 INFO [train.py:903] (2/4) Epoch 14, batch 5650, loss[loss=0.2295, simple_loss=0.301, pruned_loss=0.07898, over 19674.00 frames. ], tot_loss[loss=0.2236, simple_loss=0.2995, pruned_loss=0.07388, over 3817542.18 frames. ], batch size: 55, lr: 5.86e-03, grad_scale: 8.0
+2023-04-02 03:28:36,441 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.99 vs. limit=5.0
+2023-04-02 03:28:49,690 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 03:28:55,927 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=94458.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:29:02,024 INFO [train.py:903] (2/4) Epoch 14, batch 5700, loss[loss=0.2447, simple_loss=0.3018, pruned_loss=0.09377, over 19750.00 frames. ], tot_loss[loss=0.224, simple_loss=0.2994, pruned_loss=0.07424, over 3810818.05 frames. ], batch size: 47, lr: 5.86e-03, grad_scale: 8.0
+2023-04-02 03:29:19,510 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5854, 2.3548, 1.7376, 1.4479, 2.2347, 1.2016, 1.2307, 2.0094],
+       device='cuda:2'), covar=tensor([0.1058, 0.0641, 0.0975, 0.0863, 0.0506, 0.1258, 0.0831, 0.0444],
+       device='cuda:2'), in_proj_covar=tensor([0.0294, 0.0301, 0.0324, 0.0245, 0.0235, 0.0324, 0.0290, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:29:29,830 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.310e+02 4.949e+02 6.008e+02 7.817e+02 2.884e+03, threshold=1.202e+03, percent-clipped=11.0
+2023-04-02 03:29:50,193 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=94503.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:30:02,384 INFO [train.py:903] (2/4) Epoch 14, batch 5750, loss[loss=0.2269, simple_loss=0.313, pruned_loss=0.07041, over 19615.00 frames. ], tot_loss[loss=0.2239, simple_loss=0.2998, pruned_loss=0.07399, over 3819451.50 frames. ], batch size: 57, lr: 5.86e-03, grad_scale: 8.0
+2023-04-02 03:30:04,714 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 03:30:11,533 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 03:30:17,744 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 03:30:21,250 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=94528.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:31:04,686 INFO [train.py:903] (2/4) Epoch 14, batch 5800, loss[loss=0.2401, simple_loss=0.3193, pruned_loss=0.08041, over 19687.00 frames. ], tot_loss[loss=0.2237, simple_loss=0.2996, pruned_loss=0.07387, over 3804899.82 frames. ], batch size: 59, lr: 5.86e-03, grad_scale: 8.0
+2023-04-02 03:31:09,548 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4882, 1.6287, 1.8594, 1.7423, 2.7460, 2.3716, 2.9699, 1.2340],
+       device='cuda:2'), covar=tensor([0.2177, 0.3655, 0.2313, 0.1734, 0.1358, 0.1825, 0.1291, 0.3747],
+       device='cuda:2'), in_proj_covar=tensor([0.0500, 0.0587, 0.0637, 0.0448, 0.0600, 0.0503, 0.0646, 0.0507],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 03:31:13,715 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3341, 3.9288, 2.3899, 3.5679, 0.9538, 3.7358, 3.7471, 3.7821],
+       device='cuda:2'), covar=tensor([0.0722, 0.1078, 0.2293, 0.0863, 0.4046, 0.0867, 0.0939, 0.1103],
+       device='cuda:2'), in_proj_covar=tensor([0.0455, 0.0380, 0.0456, 0.0327, 0.0393, 0.0387, 0.0380, 0.0411],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:31:30,534 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=94585.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 03:31:32,537 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.175e+02 5.430e+02 7.155e+02 9.192e+02 1.752e+03, threshold=1.431e+03, percent-clipped=10.0
+2023-04-02 03:31:44,321 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9595, 4.3763, 4.6482, 4.6279, 1.6781, 4.3344, 3.7631, 4.3278],
+       device='cuda:2'), covar=tensor([0.1473, 0.0788, 0.0538, 0.0561, 0.5663, 0.0631, 0.0581, 0.1067],
+       device='cuda:2'), in_proj_covar=tensor([0.0726, 0.0655, 0.0867, 0.0741, 0.0774, 0.0604, 0.0520, 0.0796],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 03:32:06,963 INFO [train.py:903] (2/4) Epoch 14, batch 5850, loss[loss=0.2108, simple_loss=0.2893, pruned_loss=0.06618, over 19577.00 frames. ], tot_loss[loss=0.2238, simple_loss=0.3001, pruned_loss=0.07372, over 3811086.56 frames. ], batch size: 52, lr: 5.86e-03, grad_scale: 8.0
+2023-04-02 03:33:06,744 INFO [train.py:903] (2/4) Epoch 14, batch 5900, loss[loss=0.2152, simple_loss=0.2815, pruned_loss=0.07442, over 19792.00 frames. ], tot_loss[loss=0.2243, simple_loss=0.3001, pruned_loss=0.07424, over 3810189.15 frames. ], batch size: 48, lr: 5.85e-03, grad_scale: 8.0
+2023-04-02 03:33:07,936 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 03:33:21,887 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-02 03:33:27,833 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 03:33:33,165 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.177e+02 5.122e+02 5.971e+02 8.409e+02 2.018e+03, threshold=1.194e+03, percent-clipped=4.0
+2023-04-02 03:33:50,043 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=94700.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 03:34:01,332 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=94710.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:34:05,821 INFO [train.py:903] (2/4) Epoch 14, batch 5950, loss[loss=0.2426, simple_loss=0.3005, pruned_loss=0.09232, over 19403.00 frames. ], tot_loss[loss=0.2248, simple_loss=0.3005, pruned_loss=0.07458, over 3815304.08 frames. ], batch size: 48, lr: 5.85e-03, grad_scale: 8.0
+2023-04-02 03:34:06,247 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=94714.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:34:37,303 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=94739.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:35:04,621 INFO [train.py:903] (2/4) Epoch 14, batch 6000, loss[loss=0.262, simple_loss=0.331, pruned_loss=0.09649, over 19346.00 frames. ], tot_loss[loss=0.2254, simple_loss=0.3011, pruned_loss=0.07488, over 3808658.15 frames. ], batch size: 70, lr: 5.85e-03, grad_scale: 8.0
+2023-04-02 03:35:04,622 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 03:35:17,175 INFO [train.py:937] (2/4) Epoch 14, validation: loss=0.1744, simple_loss=0.2748, pruned_loss=0.03705, over 944034.00 frames. 
+2023-04-02 03:35:17,176 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 03:35:33,069 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
+2023-04-02 03:35:38,762 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6089, 1.3690, 1.3903, 1.6277, 3.1662, 1.1748, 2.3144, 3.5420],
+       device='cuda:2'), covar=tensor([0.0461, 0.2733, 0.2844, 0.1708, 0.0717, 0.2392, 0.1149, 0.0254],
+       device='cuda:2'), in_proj_covar=tensor([0.0372, 0.0346, 0.0366, 0.0325, 0.0354, 0.0335, 0.0344, 0.0369],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:35:47,198 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.285e+02 5.018e+02 6.191e+02 7.483e+02 1.325e+03, threshold=1.238e+03, percent-clipped=2.0
+2023-04-02 03:36:13,898 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-02 03:36:15,032 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-02 03:36:17,849 INFO [train.py:903] (2/4) Epoch 14, batch 6050, loss[loss=0.2361, simple_loss=0.3158, pruned_loss=0.07824, over 19358.00 frames. ], tot_loss[loss=0.2258, simple_loss=0.3013, pruned_loss=0.07512, over 3798112.50 frames. ], batch size: 70, lr: 5.85e-03, grad_scale: 8.0
+2023-04-02 03:36:33,207 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=94825.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:36:54,380 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7831, 3.2440, 3.2754, 3.3130, 1.2945, 3.1261, 2.7430, 3.0406],
+       device='cuda:2'), covar=tensor([0.1557, 0.0963, 0.0790, 0.0826, 0.5141, 0.0868, 0.0784, 0.1281],
+       device='cuda:2'), in_proj_covar=tensor([0.0711, 0.0640, 0.0849, 0.0725, 0.0755, 0.0594, 0.0510, 0.0781],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 03:37:20,911 INFO [train.py:903] (2/4) Epoch 14, batch 6100, loss[loss=0.2415, simple_loss=0.3192, pruned_loss=0.0819, over 19641.00 frames. ], tot_loss[loss=0.2264, simple_loss=0.3018, pruned_loss=0.0755, over 3803322.20 frames. ], batch size: 60, lr: 5.85e-03, grad_scale: 8.0
+2023-04-02 03:37:48,987 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.227e+02 5.260e+02 6.294e+02 8.137e+02 1.551e+03, threshold=1.259e+03, percent-clipped=3.0
+2023-04-02 03:38:00,759 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
+2023-04-02 03:38:21,674 INFO [train.py:903] (2/4) Epoch 14, batch 6150, loss[loss=0.2594, simple_loss=0.3323, pruned_loss=0.0933, over 19293.00 frames. ], tot_loss[loss=0.2267, simple_loss=0.3025, pruned_loss=0.0755, over 3778541.35 frames. ], batch size: 70, lr: 5.85e-03, grad_scale: 8.0
+2023-04-02 03:38:48,801 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 03:39:13,134 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=94956.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 03:39:14,541 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.71 vs. limit=5.0
+2023-04-02 03:39:21,882 INFO [train.py:903] (2/4) Epoch 14, batch 6200, loss[loss=0.2372, simple_loss=0.3164, pruned_loss=0.07898, over 19111.00 frames. ], tot_loss[loss=0.2239, simple_loss=0.3001, pruned_loss=0.07387, over 3797457.29 frames. ], batch size: 69, lr: 5.85e-03, grad_scale: 8.0
+2023-04-02 03:39:44,483 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=94981.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 03:39:51,886 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.111e+02 5.470e+02 6.385e+02 8.085e+02 2.296e+03, threshold=1.277e+03, percent-clipped=5.0
+2023-04-02 03:40:22,505 INFO [train.py:903] (2/4) Epoch 14, batch 6250, loss[loss=0.2378, simple_loss=0.315, pruned_loss=0.08029, over 18818.00 frames. ], tot_loss[loss=0.224, simple_loss=0.2999, pruned_loss=0.07402, over 3796018.86 frames. ], batch size: 74, lr: 5.84e-03, grad_scale: 8.0
+2023-04-02 03:40:55,023 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 03:41:24,164 INFO [train.py:903] (2/4) Epoch 14, batch 6300, loss[loss=0.2316, simple_loss=0.3179, pruned_loss=0.07267, over 19659.00 frames. ], tot_loss[loss=0.224, simple_loss=0.2999, pruned_loss=0.07404, over 3813597.94 frames. ], batch size: 55, lr: 5.84e-03, grad_scale: 8.0
+2023-04-02 03:41:44,543 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95081.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:41:51,887 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.537e+02 5.238e+02 6.215e+02 7.195e+02 1.642e+03, threshold=1.243e+03, percent-clipped=4.0
+2023-04-02 03:42:15,058 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95106.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:42:23,459 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8918, 1.9930, 2.1431, 2.7474, 1.9447, 2.5817, 2.3527, 1.9545],
+       device='cuda:2'), covar=tensor([0.3914, 0.3433, 0.1659, 0.2014, 0.3675, 0.1747, 0.3919, 0.3023],
+       device='cuda:2'), in_proj_covar=tensor([0.0826, 0.0863, 0.0667, 0.0902, 0.0812, 0.0752, 0.0808, 0.0735],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 03:42:24,134 INFO [train.py:903] (2/4) Epoch 14, batch 6350, loss[loss=0.224, simple_loss=0.3051, pruned_loss=0.07149, over 19783.00 frames. ], tot_loss[loss=0.2252, simple_loss=0.3008, pruned_loss=0.07482, over 3814737.23 frames. ], batch size: 56, lr: 5.84e-03, grad_scale: 8.0
+2023-04-02 03:42:34,694 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95123.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 03:43:23,508 INFO [train.py:903] (2/4) Epoch 14, batch 6400, loss[loss=0.2062, simple_loss=0.2892, pruned_loss=0.06157, over 19610.00 frames. ], tot_loss[loss=0.2251, simple_loss=0.301, pruned_loss=0.07464, over 3818859.37 frames. ], batch size: 61, lr: 5.84e-03, grad_scale: 8.0
+2023-04-02 03:43:52,813 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.332e+02 5.689e+02 7.116e+02 8.755e+02 2.889e+03, threshold=1.423e+03, percent-clipped=3.0
+2023-04-02 03:44:23,636 INFO [train.py:903] (2/4) Epoch 14, batch 6450, loss[loss=0.2386, simple_loss=0.3169, pruned_loss=0.0802, over 18982.00 frames. ], tot_loss[loss=0.2256, simple_loss=0.3015, pruned_loss=0.07485, over 3820138.33 frames. ], batch size: 75, lr: 5.84e-03, grad_scale: 8.0
+2023-04-02 03:44:51,721 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7136, 1.4645, 1.5811, 1.8327, 3.2784, 1.1662, 2.3274, 3.7467],
+       device='cuda:2'), covar=tensor([0.0440, 0.2529, 0.2537, 0.1536, 0.0680, 0.2391, 0.1232, 0.0221],
+       device='cuda:2'), in_proj_covar=tensor([0.0374, 0.0348, 0.0366, 0.0328, 0.0355, 0.0336, 0.0346, 0.0371],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:45:09,459 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 03:45:25,847 INFO [train.py:903] (2/4) Epoch 14, batch 6500, loss[loss=0.2323, simple_loss=0.3108, pruned_loss=0.07694, over 19291.00 frames. ], tot_loss[loss=0.223, simple_loss=0.2992, pruned_loss=0.07342, over 3820926.17 frames. ], batch size: 66, lr: 5.84e-03, grad_scale: 8.0
+2023-04-02 03:45:32,333 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 03:45:43,524 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95278.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:45:52,717 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95286.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:45:54,575 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.481e+02 5.245e+02 6.559e+02 8.783e+02 2.152e+03, threshold=1.312e+03, percent-clipped=6.0
+2023-04-02 03:45:57,565 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.52 vs. limit=2.0
+2023-04-02 03:46:27,867 INFO [train.py:903] (2/4) Epoch 14, batch 6550, loss[loss=0.2194, simple_loss=0.3034, pruned_loss=0.06767, over 19505.00 frames. ], tot_loss[loss=0.222, simple_loss=0.2986, pruned_loss=0.07274, over 3821843.45 frames. ], batch size: 64, lr: 5.84e-03, grad_scale: 8.0
+2023-04-02 03:47:20,339 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95357.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:47:27,252 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8022, 1.3149, 1.4148, 1.6383, 3.3584, 1.1510, 2.2133, 3.7527],
+       device='cuda:2'), covar=tensor([0.0452, 0.2774, 0.2967, 0.1728, 0.0734, 0.2528, 0.1392, 0.0240],
+       device='cuda:2'), in_proj_covar=tensor([0.0376, 0.0348, 0.0368, 0.0328, 0.0359, 0.0338, 0.0347, 0.0373],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:47:28,135 INFO [train.py:903] (2/4) Epoch 14, batch 6600, loss[loss=0.2141, simple_loss=0.3022, pruned_loss=0.06299, over 19782.00 frames. ], tot_loss[loss=0.2228, simple_loss=0.2993, pruned_loss=0.07319, over 3827429.60 frames. ], batch size: 56, lr: 5.83e-03, grad_scale: 8.0
+2023-04-02 03:47:57,393 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.401e+02 5.166e+02 6.061e+02 7.266e+02 1.890e+03, threshold=1.212e+03, percent-clipped=2.0
+2023-04-02 03:48:17,690 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9438, 2.0463, 2.2383, 2.6845, 1.9169, 2.5988, 2.4445, 2.0613],
+       device='cuda:2'), covar=tensor([0.4215, 0.3838, 0.1805, 0.2236, 0.4226, 0.1902, 0.4311, 0.3271],
+       device='cuda:2'), in_proj_covar=tensor([0.0824, 0.0865, 0.0665, 0.0901, 0.0813, 0.0748, 0.0808, 0.0733],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 03:48:28,438 INFO [train.py:903] (2/4) Epoch 14, batch 6650, loss[loss=0.2282, simple_loss=0.321, pruned_loss=0.0677, over 19680.00 frames. ], tot_loss[loss=0.2235, simple_loss=0.2999, pruned_loss=0.07359, over 3822775.38 frames. ], batch size: 58, lr: 5.83e-03, grad_scale: 8.0
+2023-04-02 03:49:29,375 INFO [train.py:903] (2/4) Epoch 14, batch 6700, loss[loss=0.2209, simple_loss=0.3046, pruned_loss=0.06858, over 19674.00 frames. ], tot_loss[loss=0.2246, simple_loss=0.3008, pruned_loss=0.07423, over 3822437.56 frames. ], batch size: 55, lr: 5.83e-03, grad_scale: 8.0
+2023-04-02 03:49:33,797 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95467.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 03:49:57,461 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.175e+02 5.267e+02 5.901e+02 8.158e+02 1.902e+03, threshold=1.180e+03, percent-clipped=6.0
+2023-04-02 03:50:25,745 INFO [train.py:903] (2/4) Epoch 14, batch 6750, loss[loss=0.2385, simple_loss=0.315, pruned_loss=0.08104, over 19644.00 frames. ], tot_loss[loss=0.2261, simple_loss=0.3019, pruned_loss=0.07516, over 3821735.92 frames. ], batch size: 55, lr: 5.83e-03, grad_scale: 8.0
+2023-04-02 03:51:21,228 INFO [train.py:903] (2/4) Epoch 14, batch 6800, loss[loss=0.2041, simple_loss=0.2852, pruned_loss=0.06149, over 19672.00 frames. ], tot_loss[loss=0.2261, simple_loss=0.3018, pruned_loss=0.07524, over 3830039.43 frames. ], batch size: 53, lr: 5.83e-03, grad_scale: 8.0
+2023-04-02 03:51:36,066 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2977, 2.8984, 2.2954, 2.3274, 2.0467, 2.5138, 1.0509, 2.0484],
+       device='cuda:2'), covar=tensor([0.0562, 0.0513, 0.0572, 0.0899, 0.1017, 0.0992, 0.1090, 0.0944],
+       device='cuda:2'), in_proj_covar=tensor([0.0347, 0.0343, 0.0336, 0.0366, 0.0439, 0.0365, 0.0318, 0.0325],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 03:51:41,549 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95582.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 03:51:46,735 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.931e+02 5.198e+02 6.166e+02 8.008e+02 1.508e+03, threshold=1.233e+03, percent-clipped=6.0
+2023-04-02 03:52:06,443 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 03:52:06,881 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 03:52:10,201 INFO [train.py:903] (2/4) Epoch 15, batch 0, loss[loss=0.2096, simple_loss=0.2835, pruned_loss=0.06791, over 19595.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2835, pruned_loss=0.06791, over 19595.00 frames. ], batch size: 50, lr: 5.63e-03, grad_scale: 8.0
+2023-04-02 03:52:10,202 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 03:52:21,745 INFO [train.py:937] (2/4) Epoch 15, validation: loss=0.1744, simple_loss=0.2751, pruned_loss=0.03681, over 944034.00 frames. 
+2023-04-02 03:52:21,745 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 03:52:28,921 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2830, 1.3202, 1.4618, 1.4695, 2.2455, 2.0430, 2.2522, 0.8050],
+       device='cuda:2'), covar=tensor([0.2411, 0.4112, 0.2555, 0.1899, 0.1398, 0.2018, 0.1404, 0.4203],
+       device='cuda:2'), in_proj_covar=tensor([0.0503, 0.0592, 0.0642, 0.0452, 0.0602, 0.0507, 0.0650, 0.0510],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 03:52:33,143 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 03:52:58,945 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95622.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:53:08,242 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:53:14,679 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95635.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:53:22,148 INFO [train.py:903] (2/4) Epoch 15, batch 50, loss[loss=0.194, simple_loss=0.2653, pruned_loss=0.06136, over 19368.00 frames. ], tot_loss[loss=0.2282, simple_loss=0.3026, pruned_loss=0.07686, over 851528.46 frames. ], batch size: 47, lr: 5.63e-03, grad_scale: 8.0
+2023-04-02 03:53:25,967 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1014, 1.2434, 1.4606, 1.3669, 2.7110, 1.0330, 2.0848, 2.9813],
+       device='cuda:2'), covar=tensor([0.0537, 0.2729, 0.2708, 0.1768, 0.0769, 0.2275, 0.1102, 0.0344],
+       device='cuda:2'), in_proj_covar=tensor([0.0376, 0.0349, 0.0369, 0.0328, 0.0358, 0.0337, 0.0346, 0.0372],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:53:58,782 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 03:54:20,259 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.439e+02 5.472e+02 6.461e+02 8.212e+02 1.912e+03, threshold=1.292e+03, percent-clipped=7.0
+2023-04-02 03:54:26,853 INFO [train.py:903] (2/4) Epoch 15, batch 100, loss[loss=0.2395, simple_loss=0.3213, pruned_loss=0.0789, over 18329.00 frames. ], tot_loss[loss=0.2238, simple_loss=0.2996, pruned_loss=0.07401, over 1508601.30 frames. ], batch size: 83, lr: 5.62e-03, grad_scale: 8.0
+2023-04-02 03:54:29,769 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1899, 1.8613, 1.7180, 2.1548, 1.9977, 1.8782, 1.6436, 2.0916],
+       device='cuda:2'), covar=tensor([0.0901, 0.1596, 0.1497, 0.1018, 0.1311, 0.0485, 0.1379, 0.0678],
+       device='cuda:2'), in_proj_covar=tensor([0.0259, 0.0355, 0.0299, 0.0246, 0.0299, 0.0247, 0.0289, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:54:37,480 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 03:54:37,595 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95701.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:55:22,860 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95737.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:55:28,254 INFO [train.py:903] (2/4) Epoch 15, batch 150, loss[loss=0.2, simple_loss=0.2827, pruned_loss=0.0586, over 19848.00 frames. ], tot_loss[loss=0.2236, simple_loss=0.2992, pruned_loss=0.07406, over 2027510.11 frames. ], batch size: 52, lr: 5.62e-03, grad_scale: 8.0
+2023-04-02 03:55:32,092 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95745.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:56:23,976 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.923e+02 5.351e+02 6.322e+02 7.452e+02 1.833e+03, threshold=1.264e+03, percent-clipped=1.0
+2023-04-02 03:56:27,292 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 03:56:28,493 INFO [train.py:903] (2/4) Epoch 15, batch 200, loss[loss=0.2749, simple_loss=0.3402, pruned_loss=0.1048, over 17124.00 frames. ], tot_loss[loss=0.2252, simple_loss=0.3005, pruned_loss=0.07496, over 2422042.59 frames. ], batch size: 101, lr: 5.62e-03, grad_scale: 8.0
+2023-04-02 03:56:51,125 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8776, 1.2158, 1.5250, 0.4813, 1.9340, 2.4342, 2.1187, 2.6187],
+       device='cuda:2'), covar=tensor([0.1521, 0.3426, 0.3009, 0.2463, 0.0586, 0.0261, 0.0308, 0.0286],
+       device='cuda:2'), in_proj_covar=tensor([0.0260, 0.0302, 0.0328, 0.0252, 0.0223, 0.0166, 0.0205, 0.0218],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 03:56:59,705 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=95816.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:57:15,625 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95830.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 03:57:24,910 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95838.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 03:57:29,640 INFO [train.py:903] (2/4) Epoch 15, batch 250, loss[loss=0.2861, simple_loss=0.3383, pruned_loss=0.117, over 13589.00 frames. ], tot_loss[loss=0.2248, simple_loss=0.3001, pruned_loss=0.07476, over 2717563.30 frames. ], batch size: 136, lr: 5.62e-03, grad_scale: 8.0
+2023-04-02 03:57:39,965 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7559, 4.3093, 2.5357, 3.7351, 1.1552, 4.0925, 4.0600, 4.1440],
+       device='cuda:2'), covar=tensor([0.0602, 0.0997, 0.2314, 0.0891, 0.4017, 0.0749, 0.0909, 0.1206],
+       device='cuda:2'), in_proj_covar=tensor([0.0454, 0.0377, 0.0457, 0.0322, 0.0391, 0.0387, 0.0381, 0.0409],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 03:57:56,093 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=95863.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 03:57:58,220 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 03:58:24,516 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.450e+02 5.277e+02 6.948e+02 9.039e+02 3.101e+03, threshold=1.390e+03, percent-clipped=9.0
+2023-04-02 03:58:30,111 INFO [train.py:903] (2/4) Epoch 15, batch 300, loss[loss=0.215, simple_loss=0.2959, pruned_loss=0.06707, over 19736.00 frames. ], tot_loss[loss=0.2256, simple_loss=0.3015, pruned_loss=0.07484, over 2974829.61 frames. ], batch size: 63, lr: 5.62e-03, grad_scale: 8.0
+2023-04-02 03:59:11,953 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2679, 1.2507, 1.3873, 1.3883, 1.8041, 1.7705, 1.7191, 0.5363],
+       device='cuda:2'), covar=tensor([0.2001, 0.3621, 0.2188, 0.1654, 0.1316, 0.1908, 0.1217, 0.4027],
+       device='cuda:2'), in_proj_covar=tensor([0.0498, 0.0587, 0.0636, 0.0448, 0.0598, 0.0503, 0.0643, 0.0506],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 03:59:32,841 INFO [train.py:903] (2/4) Epoch 15, batch 350, loss[loss=0.2199, simple_loss=0.2811, pruned_loss=0.07932, over 19091.00 frames. ], tot_loss[loss=0.2262, simple_loss=0.302, pruned_loss=0.07522, over 3147844.00 frames. ], batch size: 42, lr: 5.62e-03, grad_scale: 8.0
+2023-04-02 03:59:33,868 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 04:00:17,459 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=95979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:00:24,009 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0569, 1.1221, 1.5732, 0.8517, 2.2491, 3.0240, 2.7543, 3.2417],
+       device='cuda:2'), covar=tensor([0.1620, 0.3678, 0.3160, 0.2495, 0.0564, 0.0181, 0.0228, 0.0223],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0304, 0.0332, 0.0254, 0.0224, 0.0168, 0.0207, 0.0220],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 04:00:28,190 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.384e+02 5.018e+02 5.906e+02 6.897e+02 1.495e+03, threshold=1.181e+03, percent-clipped=1.0
+2023-04-02 04:00:32,778 INFO [train.py:903] (2/4) Epoch 15, batch 400, loss[loss=0.2514, simple_loss=0.3307, pruned_loss=0.08605, over 19605.00 frames. ], tot_loss[loss=0.224, simple_loss=0.2999, pruned_loss=0.07402, over 3313893.23 frames. ], batch size: 61, lr: 5.62e-03, grad_scale: 8.0
+2023-04-02 04:00:34,360 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=95993.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:00:39,914 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=95998.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:00:44,445 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96001.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:00:53,875 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9123, 1.1752, 1.6638, 1.1328, 2.5070, 3.4887, 3.2587, 3.7175],
+       device='cuda:2'), covar=tensor([0.1843, 0.3787, 0.3232, 0.2331, 0.0585, 0.0179, 0.0199, 0.0196],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0305, 0.0332, 0.0255, 0.0225, 0.0168, 0.0207, 0.0221],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 04:01:04,809 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96018.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:01:16,051 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96026.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:01:33,844 INFO [train.py:903] (2/4) Epoch 15, batch 450, loss[loss=0.255, simple_loss=0.3324, pruned_loss=0.08878, over 19322.00 frames. ], tot_loss[loss=0.2236, simple_loss=0.2999, pruned_loss=0.07371, over 3426987.99 frames. ], batch size: 66, lr: 5.61e-03, grad_scale: 8.0
+2023-04-02 04:02:07,791 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 04:02:07,832 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 04:02:12,897 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96072.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:02:31,243 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.196e+02 4.837e+02 5.995e+02 7.453e+02 1.580e+03, threshold=1.199e+03, percent-clipped=6.0
+2023-04-02 04:02:36,671 INFO [train.py:903] (2/4) Epoch 15, batch 500, loss[loss=0.218, simple_loss=0.301, pruned_loss=0.06752, over 19457.00 frames. ], tot_loss[loss=0.2228, simple_loss=0.2992, pruned_loss=0.07326, over 3502646.42 frames. ], batch size: 64, lr: 5.61e-03, grad_scale: 8.0
+2023-04-02 04:02:39,347 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:02:43,800 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96097.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:02:44,837 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96098.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:03:38,924 INFO [train.py:903] (2/4) Epoch 15, batch 550, loss[loss=0.2614, simple_loss=0.3348, pruned_loss=0.09401, over 19597.00 frames. ], tot_loss[loss=0.2229, simple_loss=0.2987, pruned_loss=0.07352, over 3563828.34 frames. ], batch size: 61, lr: 5.61e-03, grad_scale: 8.0
+2023-04-02 04:04:18,079 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96174.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 04:04:29,224 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96183.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:04:35,630 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.160e+02 5.342e+02 6.491e+02 8.104e+02 1.503e+03, threshold=1.298e+03, percent-clipped=3.0
+2023-04-02 04:04:40,041 INFO [train.py:903] (2/4) Epoch 15, batch 600, loss[loss=0.2285, simple_loss=0.3129, pruned_loss=0.07205, over 19607.00 frames. ], tot_loss[loss=0.2234, simple_loss=0.299, pruned_loss=0.07395, over 3622391.18 frames. ], batch size: 57, lr: 5.61e-03, grad_scale: 8.0
+2023-04-02 04:05:00,821 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96209.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:05:20,406 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 04:05:35,570 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3046, 2.4069, 2.5124, 3.2451, 2.3305, 3.1533, 2.7597, 2.3287],
+       device='cuda:2'), covar=tensor([0.3834, 0.3293, 0.1477, 0.2053, 0.3786, 0.1621, 0.3716, 0.2769],
+       device='cuda:2'), in_proj_covar=tensor([0.0828, 0.0867, 0.0667, 0.0899, 0.0814, 0.0747, 0.0806, 0.0731],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 04:05:43,313 INFO [train.py:903] (2/4) Epoch 15, batch 650, loss[loss=0.1968, simple_loss=0.2719, pruned_loss=0.06082, over 19423.00 frames. ], tot_loss[loss=0.2228, simple_loss=0.2982, pruned_loss=0.07377, over 3667109.46 frames. ], batch size: 48, lr: 5.61e-03, grad_scale: 8.0
+2023-04-02 04:06:41,557 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.029e+02 5.105e+02 6.385e+02 8.770e+02 1.706e+03, threshold=1.277e+03, percent-clipped=3.0
+2023-04-02 04:06:42,958 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96289.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 04:06:46,048 INFO [train.py:903] (2/4) Epoch 15, batch 700, loss[loss=0.2322, simple_loss=0.2975, pruned_loss=0.08345, over 19767.00 frames. ], tot_loss[loss=0.2228, simple_loss=0.2979, pruned_loss=0.07379, over 3708710.45 frames. ], batch size: 47, lr: 5.61e-03, grad_scale: 8.0
+2023-04-02 04:07:12,181 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.47 vs. limit=5.0
+2023-04-02 04:07:19,746 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7148, 1.8101, 2.0180, 2.4035, 1.6688, 2.2653, 2.1691, 1.8668],
+       device='cuda:2'), covar=tensor([0.3795, 0.3393, 0.1656, 0.1911, 0.3573, 0.1705, 0.4105, 0.3043],
+       device='cuda:2'), in_proj_covar=tensor([0.0830, 0.0868, 0.0668, 0.0902, 0.0816, 0.0749, 0.0807, 0.0732],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 04:07:26,414 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96324.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:07:47,392 INFO [train.py:903] (2/4) Epoch 15, batch 750, loss[loss=0.2089, simple_loss=0.2923, pruned_loss=0.06279, over 19683.00 frames. ], tot_loss[loss=0.2229, simple_loss=0.2986, pruned_loss=0.07361, over 3739888.24 frames. ], batch size: 60, lr: 5.61e-03, grad_scale: 8.0
+2023-04-02 04:07:47,545 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96342.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:07:47,657 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96342.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:07:57,749 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96350.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:08:13,626 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.85 vs. limit=2.0
+2023-04-02 04:08:29,483 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96375.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:08:44,439 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.337e+02 5.276e+02 6.207e+02 7.536e+02 1.572e+03, threshold=1.241e+03, percent-clipped=2.0
+2023-04-02 04:08:49,801 INFO [train.py:903] (2/4) Epoch 15, batch 800, loss[loss=0.2272, simple_loss=0.3013, pruned_loss=0.07657, over 17433.00 frames. ], tot_loss[loss=0.2232, simple_loss=0.2992, pruned_loss=0.07362, over 3746467.98 frames. ], batch size: 101, lr: 5.60e-03, grad_scale: 8.0
+2023-04-02 04:09:04,723 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 04:09:09,594 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96408.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:09:17,617 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5204, 4.0266, 4.1910, 4.1837, 1.4974, 3.9676, 3.4342, 3.8899],
+       device='cuda:2'), covar=tensor([0.1523, 0.0841, 0.0577, 0.0625, 0.5796, 0.0724, 0.0636, 0.1082],
+       device='cuda:2'), in_proj_covar=tensor([0.0728, 0.0651, 0.0866, 0.0743, 0.0769, 0.0603, 0.0521, 0.0795],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 04:09:50,616 INFO [train.py:903] (2/4) Epoch 15, batch 850, loss[loss=0.1998, simple_loss=0.2818, pruned_loss=0.05893, over 19667.00 frames. ], tot_loss[loss=0.2246, simple_loss=0.3004, pruned_loss=0.07433, over 3749271.07 frames. ], batch size: 53, lr: 5.60e-03, grad_scale: 8.0
+2023-04-02 04:09:51,934 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96442.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:10:10,291 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96457.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:10:41,191 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 04:10:47,718 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.001e+02 5.238e+02 6.465e+02 7.879e+02 1.664e+03, threshold=1.293e+03, percent-clipped=4.0
+2023-04-02 04:10:52,495 INFO [train.py:903] (2/4) Epoch 15, batch 900, loss[loss=0.2989, simple_loss=0.3537, pruned_loss=0.1221, over 13481.00 frames. ], tot_loss[loss=0.225, simple_loss=0.3007, pruned_loss=0.07466, over 3762521.58 frames. ], batch size: 136, lr: 5.60e-03, grad_scale: 8.0
+2023-04-02 04:11:36,541 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96527.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:11:55,052 INFO [train.py:903] (2/4) Epoch 15, batch 950, loss[loss=0.2072, simple_loss=0.3013, pruned_loss=0.0565, over 19672.00 frames. ], tot_loss[loss=0.2223, simple_loss=0.2984, pruned_loss=0.07306, over 3785432.49 frames. ], batch size: 58, lr: 5.60e-03, grad_scale: 8.0
+2023-04-02 04:11:56,226 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 04:11:59,947 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96545.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 04:12:06,712 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0422, 1.9676, 1.7361, 1.6344, 1.5115, 1.6159, 0.3394, 0.8371],
+       device='cuda:2'), covar=tensor([0.0453, 0.0470, 0.0322, 0.0467, 0.0957, 0.0576, 0.0970, 0.0825],
+       device='cuda:2'), in_proj_covar=tensor([0.0344, 0.0342, 0.0336, 0.0365, 0.0440, 0.0365, 0.0320, 0.0327],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 04:12:14,157 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96557.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:12:30,405 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96570.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 04:12:41,734 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96580.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:12:52,446 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.674e+02 5.225e+02 6.143e+02 7.839e+02 1.754e+03, threshold=1.229e+03, percent-clipped=1.0
+2023-04-02 04:12:57,217 INFO [train.py:903] (2/4) Epoch 15, batch 1000, loss[loss=0.2162, simple_loss=0.2819, pruned_loss=0.07521, over 19774.00 frames. ], tot_loss[loss=0.2225, simple_loss=0.2986, pruned_loss=0.07317, over 3801220.05 frames. ], batch size: 48, lr: 5.60e-03, grad_scale: 8.0
+2023-04-02 04:13:13,538 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96605.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:13:51,326 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 04:13:59,278 INFO [train.py:903] (2/4) Epoch 15, batch 1050, loss[loss=0.211, simple_loss=0.2948, pruned_loss=0.06358, over 19646.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.298, pruned_loss=0.07267, over 3809712.13 frames. ], batch size: 58, lr: 5.60e-03, grad_scale: 8.0
+2023-04-02 04:13:59,660 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96642.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:14:28,094 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.9381, 5.3594, 2.8283, 4.5819, 1.1111, 5.3919, 5.2963, 5.4299],
+       device='cuda:2'), covar=tensor([0.0406, 0.0907, 0.2085, 0.0647, 0.3895, 0.0514, 0.0635, 0.0856],
+       device='cuda:2'), in_proj_covar=tensor([0.0453, 0.0380, 0.0456, 0.0323, 0.0389, 0.0388, 0.0381, 0.0413],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 04:14:31,318 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 04:14:53,804 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96686.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:14:57,022 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.831e+02 5.170e+02 6.505e+02 8.376e+02 1.590e+03, threshold=1.301e+03, percent-clipped=4.0
+2023-04-02 04:15:01,344 INFO [train.py:903] (2/4) Epoch 15, batch 1100, loss[loss=0.1908, simple_loss=0.2737, pruned_loss=0.05391, over 19721.00 frames. ], tot_loss[loss=0.2213, simple_loss=0.2975, pruned_loss=0.07258, over 3811906.16 frames. ], batch size: 51, lr: 5.60e-03, grad_scale: 4.0
+2023-04-02 04:15:28,129 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96713.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:15:58,791 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96738.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:16:02,837 INFO [train.py:903] (2/4) Epoch 15, batch 1150, loss[loss=0.2493, simple_loss=0.3205, pruned_loss=0.08903, over 19526.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2971, pruned_loss=0.07229, over 3821683.41 frames. ], batch size: 54, lr: 5.59e-03, grad_scale: 4.0
+2023-04-02 04:16:08,676 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8021, 4.0858, 4.5728, 4.6161, 1.7200, 4.2988, 3.6175, 3.9624],
+       device='cuda:2'), covar=tensor([0.2269, 0.1362, 0.0938, 0.1100, 0.7007, 0.1304, 0.1075, 0.2054],
+       device='cuda:2'), in_proj_covar=tensor([0.0726, 0.0656, 0.0861, 0.0738, 0.0773, 0.0604, 0.0520, 0.0795],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 04:16:16,222 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=96752.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:16:57,089 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.54 vs. limit=2.0
+2023-04-02 04:17:00,106 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-02 04:17:01,611 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.369e+02 5.122e+02 6.460e+02 8.216e+02 1.619e+03, threshold=1.292e+03, percent-clipped=5.0
+2023-04-02 04:17:06,204 INFO [train.py:903] (2/4) Epoch 15, batch 1200, loss[loss=0.2459, simple_loss=0.3179, pruned_loss=0.08692, over 19681.00 frames. ], tot_loss[loss=0.2221, simple_loss=0.2983, pruned_loss=0.07297, over 3818243.36 frames. ], batch size: 60, lr: 5.59e-03, grad_scale: 8.0
+2023-04-02 04:17:08,679 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=96794.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:17:17,127 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96801.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:17:32,653 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96813.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:17:39,085 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 04:18:03,087 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96838.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:18:08,013 INFO [train.py:903] (2/4) Epoch 15, batch 1250, loss[loss=0.2483, simple_loss=0.3189, pruned_loss=0.08885, over 19730.00 frames. ], tot_loss[loss=0.2225, simple_loss=0.2984, pruned_loss=0.07329, over 3815457.78 frames. ], batch size: 63, lr: 5.59e-03, grad_scale: 8.0
+2023-04-02 04:18:38,336 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=96867.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:19:05,686 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.585e+02 5.442e+02 6.897e+02 8.528e+02 1.967e+03, threshold=1.379e+03, percent-clipped=7.0
+2023-04-02 04:19:09,079 INFO [train.py:903] (2/4) Epoch 15, batch 1300, loss[loss=0.2142, simple_loss=0.2956, pruned_loss=0.06639, over 19600.00 frames. ], tot_loss[loss=0.224, simple_loss=0.3, pruned_loss=0.074, over 3819135.16 frames. ], batch size: 57, lr: 5.59e-03, grad_scale: 8.0
+2023-04-02 04:19:17,709 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=96898.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:19:48,595 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=96923.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:20:12,488 INFO [train.py:903] (2/4) Epoch 15, batch 1350, loss[loss=0.1955, simple_loss=0.2704, pruned_loss=0.06029, over 19588.00 frames. ], tot_loss[loss=0.2238, simple_loss=0.2994, pruned_loss=0.07406, over 3822075.82 frames. ], batch size: 52, lr: 5.59e-03, grad_scale: 8.0
+2023-04-02 04:21:11,447 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.829e+02 4.520e+02 5.515e+02 7.272e+02 1.782e+03, threshold=1.103e+03, percent-clipped=1.0
+2023-04-02 04:21:15,868 INFO [train.py:903] (2/4) Epoch 15, batch 1400, loss[loss=0.2206, simple_loss=0.2816, pruned_loss=0.07986, over 19750.00 frames. ], tot_loss[loss=0.2226, simple_loss=0.2983, pruned_loss=0.07343, over 3822931.15 frames. ], batch size: 46, lr: 5.59e-03, grad_scale: 8.0
+2023-04-02 04:21:49,721 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97018.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:22:19,075 INFO [train.py:903] (2/4) Epoch 15, batch 1450, loss[loss=0.2171, simple_loss=0.3102, pruned_loss=0.06203, over 19301.00 frames. ], tot_loss[loss=0.2227, simple_loss=0.2988, pruned_loss=0.07334, over 3830414.01 frames. ], batch size: 66, lr: 5.59e-03, grad_scale: 8.0
+2023-04-02 04:22:20,273 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 04:22:38,955 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97057.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:23:09,856 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:23:18,578 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.200e+02 5.198e+02 6.417e+02 9.294e+02 1.968e+03, threshold=1.283e+03, percent-clipped=11.0
+2023-04-02 04:23:21,935 INFO [train.py:903] (2/4) Epoch 15, batch 1500, loss[loss=0.1859, simple_loss=0.2648, pruned_loss=0.05345, over 19738.00 frames. ], tot_loss[loss=0.2234, simple_loss=0.2991, pruned_loss=0.07384, over 3805991.12 frames. ], batch size: 51, lr: 5.58e-03, grad_scale: 8.0
+2023-04-02 04:23:32,793 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.1387, 4.1721, 4.7470, 4.7604, 2.6912, 4.4253, 4.0691, 4.4467],
+       device='cuda:2'), covar=tensor([0.1174, 0.3225, 0.0559, 0.0522, 0.4164, 0.0818, 0.0519, 0.0998],
+       device='cuda:2'), in_proj_covar=tensor([0.0714, 0.0644, 0.0853, 0.0731, 0.0763, 0.0597, 0.0512, 0.0786],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 04:24:01,285 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97123.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:24:20,466 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97138.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:24:24,794 INFO [train.py:903] (2/4) Epoch 15, batch 1550, loss[loss=0.2503, simple_loss=0.3144, pruned_loss=0.0931, over 19591.00 frames. ], tot_loss[loss=0.2238, simple_loss=0.2995, pruned_loss=0.07405, over 3802906.45 frames. ], batch size: 52, lr: 5.58e-03, grad_scale: 8.0
+2023-04-02 04:24:31,910 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97148.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:25:16,320 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-02 04:25:22,061 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.61 vs. limit=2.0
+2023-04-02 04:25:22,553 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.982e+02 5.223e+02 6.490e+02 8.468e+02 1.572e+03, threshold=1.298e+03, percent-clipped=7.0
+2023-04-02 04:25:26,787 INFO [train.py:903] (2/4) Epoch 15, batch 1600, loss[loss=0.2368, simple_loss=0.3138, pruned_loss=0.07991, over 18070.00 frames. ], tot_loss[loss=0.225, simple_loss=0.3009, pruned_loss=0.07453, over 3810140.21 frames. ], batch size: 83, lr: 5.58e-03, grad_scale: 8.0
+2023-04-02 04:25:31,638 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3057, 1.3225, 1.5215, 1.4616, 2.1449, 2.0348, 2.2275, 0.7985],
+       device='cuda:2'), covar=tensor([0.2287, 0.4078, 0.2541, 0.1941, 0.1527, 0.2027, 0.1408, 0.4084],
+       device='cuda:2'), in_proj_covar=tensor([0.0507, 0.0592, 0.0644, 0.0451, 0.0604, 0.0506, 0.0648, 0.0509],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 04:25:40,870 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2688, 2.3631, 2.5670, 3.1562, 2.2548, 3.0347, 2.8637, 2.4344],
+       device='cuda:2'), covar=tensor([0.3990, 0.3633, 0.1519, 0.2169, 0.4125, 0.1772, 0.3691, 0.2768],
+       device='cuda:2'), in_proj_covar=tensor([0.0838, 0.0874, 0.0676, 0.0908, 0.0822, 0.0756, 0.0810, 0.0740],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 04:25:51,599 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 04:26:06,971 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
+2023-04-02 04:26:28,830 INFO [train.py:903] (2/4) Epoch 15, batch 1650, loss[loss=0.2057, simple_loss=0.2892, pruned_loss=0.06114, over 19382.00 frames. ], tot_loss[loss=0.2238, simple_loss=0.3001, pruned_loss=0.07369, over 3829608.76 frames. ], batch size: 48, lr: 5.58e-03, grad_scale: 8.0
+2023-04-02 04:26:42,613 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97253.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:27:03,897 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1908, 1.2822, 1.2442, 1.0811, 1.0913, 1.1098, 0.1076, 0.4541],
+       device='cuda:2'), covar=tensor([0.0561, 0.0526, 0.0345, 0.0408, 0.1073, 0.0468, 0.1014, 0.0867],
+       device='cuda:2'), in_proj_covar=tensor([0.0349, 0.0347, 0.0344, 0.0373, 0.0447, 0.0374, 0.0325, 0.0332],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 04:27:14,805 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97278.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:27:22,948 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8209, 3.9703, 4.3743, 4.3995, 2.5204, 4.0835, 3.7399, 4.1115],
+       device='cuda:2'), covar=tensor([0.1227, 0.2528, 0.0572, 0.0563, 0.4203, 0.0982, 0.0559, 0.0918],
+       device='cuda:2'), in_proj_covar=tensor([0.0717, 0.0647, 0.0855, 0.0735, 0.0763, 0.0599, 0.0516, 0.0788],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 04:27:27,488 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.574e+02 5.168e+02 6.563e+02 8.938e+02 1.305e+03, threshold=1.313e+03, percent-clipped=1.0
+2023-04-02 04:27:30,914 INFO [train.py:903] (2/4) Epoch 15, batch 1700, loss[loss=0.2557, simple_loss=0.3234, pruned_loss=0.09402, over 19350.00 frames. ], tot_loss[loss=0.2244, simple_loss=0.3005, pruned_loss=0.07417, over 3819666.18 frames. ], batch size: 66, lr: 5.58e-03, grad_scale: 8.0
+2023-04-02 04:27:39,845 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3785, 1.5105, 1.7442, 1.6345, 2.5481, 2.1925, 2.5870, 0.9550],
+       device='cuda:2'), covar=tensor([0.2488, 0.4126, 0.2630, 0.1948, 0.1371, 0.2119, 0.1331, 0.4231],
+       device='cuda:2'), in_proj_covar=tensor([0.0505, 0.0590, 0.0641, 0.0451, 0.0601, 0.0505, 0.0645, 0.0507],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 04:28:11,283 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 04:28:32,701 INFO [train.py:903] (2/4) Epoch 15, batch 1750, loss[loss=0.2113, simple_loss=0.2953, pruned_loss=0.06361, over 19669.00 frames. ], tot_loss[loss=0.2223, simple_loss=0.2988, pruned_loss=0.07288, over 3816881.13 frames. ], batch size: 55, lr: 5.58e-03, grad_scale: 8.0
+2023-04-02 04:28:55,635 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97360.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:28:57,859 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97362.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:29:01,626 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97365.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:29:30,673 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.259e+02 5.096e+02 6.393e+02 8.037e+02 1.428e+03, threshold=1.279e+03, percent-clipped=5.0
+2023-04-02 04:29:33,909 INFO [train.py:903] (2/4) Epoch 15, batch 1800, loss[loss=0.2257, simple_loss=0.3042, pruned_loss=0.07362, over 19611.00 frames. ], tot_loss[loss=0.2233, simple_loss=0.2994, pruned_loss=0.07355, over 3809720.11 frames. ], batch size: 57, lr: 5.58e-03, grad_scale: 8.0
+2023-04-02 04:29:34,222 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:30:32,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 04:30:36,842 INFO [train.py:903] (2/4) Epoch 15, batch 1850, loss[loss=0.2425, simple_loss=0.3212, pruned_loss=0.08195, over 18765.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2979, pruned_loss=0.0728, over 3801377.60 frames. ], batch size: 74, lr: 5.57e-03, grad_scale: 8.0
+2023-04-02 04:31:10,813 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 04:31:21,359 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97477.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:31:21,397 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8845, 2.2155, 2.1191, 2.7555, 2.4550, 2.3415, 2.1584, 2.8656],
+       device='cuda:2'), covar=tensor([0.0768, 0.1597, 0.1350, 0.0900, 0.1227, 0.0447, 0.1204, 0.0573],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0350, 0.0297, 0.0243, 0.0294, 0.0245, 0.0287, 0.0244],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 04:31:35,889 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.266e+02 4.535e+02 5.674e+02 7.772e+02 1.771e+03, threshold=1.135e+03, percent-clipped=3.0
+2023-04-02 04:31:39,239 INFO [train.py:903] (2/4) Epoch 15, batch 1900, loss[loss=0.2457, simple_loss=0.3279, pruned_loss=0.08174, over 19410.00 frames. ], tot_loss[loss=0.221, simple_loss=0.2978, pruned_loss=0.07214, over 3818102.94 frames. ], batch size: 70, lr: 5.57e-03, grad_scale: 8.0
+2023-04-02 04:31:46,070 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-02 04:31:58,015 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 04:32:00,968 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97509.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:32:02,873 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 04:32:28,318 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 04:32:32,270 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97534.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:32:40,697 INFO [train.py:903] (2/4) Epoch 15, batch 1950, loss[loss=0.2433, simple_loss=0.3188, pruned_loss=0.0839, over 19780.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2967, pruned_loss=0.07133, over 3819118.63 frames. ], batch size: 56, lr: 5.57e-03, grad_scale: 8.0
+2023-04-02 04:33:19,864 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97573.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:33:28,685 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-02 04:33:39,668 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.621e+02 4.980e+02 6.456e+02 8.636e+02 2.349e+03, threshold=1.291e+03, percent-clipped=8.0
+2023-04-02 04:33:43,285 INFO [train.py:903] (2/4) Epoch 15, batch 2000, loss[loss=0.2195, simple_loss=0.3057, pruned_loss=0.06664, over 19718.00 frames. ], tot_loss[loss=0.221, simple_loss=0.2978, pruned_loss=0.07206, over 3824126.39 frames. ], batch size: 59, lr: 5.57e-03, grad_scale: 8.0
+2023-04-02 04:34:03,649 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.71 vs. limit=5.0
+2023-04-02 04:34:20,866 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97622.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:34:42,340 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 04:34:47,029 INFO [train.py:903] (2/4) Epoch 15, batch 2050, loss[loss=0.2157, simple_loss=0.3065, pruned_loss=0.06249, over 19639.00 frames. ], tot_loss[loss=0.2219, simple_loss=0.2986, pruned_loss=0.07256, over 3801397.10 frames. ], batch size: 57, lr: 5.57e-03, grad_scale: 8.0
+2023-04-02 04:35:01,881 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 04:35:03,047 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 04:35:23,956 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 04:35:47,024 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.214e+02 4.998e+02 6.604e+02 7.928e+02 1.987e+03, threshold=1.321e+03, percent-clipped=5.0
+2023-04-02 04:35:50,612 INFO [train.py:903] (2/4) Epoch 15, batch 2100, loss[loss=0.1857, simple_loss=0.2736, pruned_loss=0.04888, over 19523.00 frames. ], tot_loss[loss=0.2204, simple_loss=0.2972, pruned_loss=0.07179, over 3818521.64 frames. ], batch size: 54, lr: 5.57e-03, grad_scale: 8.0
+2023-04-02 04:35:50,924 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97692.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 04:36:04,938 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97704.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:36:10,965 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
+2023-04-02 04:36:11,609 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97709.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:36:20,756 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 04:36:41,936 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9138, 2.4355, 2.5193, 2.7596, 2.5971, 2.5001, 2.1139, 3.0337],
+       device='cuda:2'), covar=tensor([0.0726, 0.1575, 0.1159, 0.1010, 0.1257, 0.0420, 0.1273, 0.0525],
+       device='cuda:2'), in_proj_covar=tensor([0.0259, 0.0353, 0.0298, 0.0245, 0.0296, 0.0247, 0.0290, 0.0248],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 04:36:41,976 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97733.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:36:43,975 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 04:36:45,264 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97736.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:36:46,635 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97737.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:36:51,856 INFO [train.py:903] (2/4) Epoch 15, batch 2150, loss[loss=0.2039, simple_loss=0.294, pruned_loss=0.05691, over 19794.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2967, pruned_loss=0.07179, over 3836097.73 frames. ], batch size: 56, lr: 5.57e-03, grad_scale: 8.0
+2023-04-02 04:36:53,797 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
+2023-04-02 04:37:12,264 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=97758.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:37:49,743 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.357e+02 4.862e+02 6.186e+02 7.185e+02 1.323e+03, threshold=1.237e+03, percent-clipped=1.0
+2023-04-02 04:37:54,004 INFO [train.py:903] (2/4) Epoch 15, batch 2200, loss[loss=0.2879, simple_loss=0.3443, pruned_loss=0.1158, over 14233.00 frames. ], tot_loss[loss=0.2206, simple_loss=0.2973, pruned_loss=0.07201, over 3827234.92 frames. ], batch size: 136, lr: 5.56e-03, grad_scale: 8.0
+2023-04-02 04:38:28,061 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97819.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:38:33,727 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97824.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:38:36,555 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-02 04:38:57,680 INFO [train.py:903] (2/4) Epoch 15, batch 2250, loss[loss=0.3027, simple_loss=0.3583, pruned_loss=0.1236, over 19650.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2966, pruned_loss=0.07173, over 3837642.00 frames. ], batch size: 60, lr: 5.56e-03, grad_scale: 8.0
+2023-04-02 04:39:09,193 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=97851.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:39:09,870 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.19 vs. limit=5.0
+2023-04-02 04:39:56,867 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.382e+02 4.977e+02 6.292e+02 8.077e+02 1.831e+03, threshold=1.258e+03, percent-clipped=5.0
+2023-04-02 04:40:00,318 INFO [train.py:903] (2/4) Epoch 15, batch 2300, loss[loss=0.2053, simple_loss=0.2724, pruned_loss=0.06906, over 19750.00 frames. ], tot_loss[loss=0.2203, simple_loss=0.2968, pruned_loss=0.07188, over 3820939.95 frames. ], batch size: 46, lr: 5.56e-03, grad_scale: 8.0
+2023-04-02 04:40:12,672 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 04:40:16,302 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=97906.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:40:21,311 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.35 vs. limit=5.0
+2023-04-02 04:40:29,878 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=97917.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:41:01,538 INFO [train.py:903] (2/4) Epoch 15, batch 2350, loss[loss=0.1984, simple_loss=0.2673, pruned_loss=0.06478, over 19291.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2964, pruned_loss=0.07151, over 3818188.45 frames. ], batch size: 44, lr: 5.56e-03, grad_scale: 8.0
+2023-04-02 04:41:11,491 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-02 04:41:44,924 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 04:41:58,279 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.032e+02 5.416e+02 6.244e+02 7.823e+02 1.587e+03, threshold=1.249e+03, percent-clipped=4.0
+2023-04-02 04:41:58,343 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 04:42:02,754 INFO [train.py:903] (2/4) Epoch 15, batch 2400, loss[loss=0.2273, simple_loss=0.3066, pruned_loss=0.07401, over 19500.00 frames. ], tot_loss[loss=0.2193, simple_loss=0.2962, pruned_loss=0.07119, over 3824276.07 frames. ], batch size: 64, lr: 5.56e-03, grad_scale: 8.0
+2023-04-02 04:42:04,434 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=97993.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:42:36,264 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98018.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:42:53,735 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98032.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:42:58,104 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98036.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 04:43:05,613 INFO [train.py:903] (2/4) Epoch 15, batch 2450, loss[loss=0.2042, simple_loss=0.291, pruned_loss=0.05874, over 19300.00 frames. ], tot_loss[loss=0.2203, simple_loss=0.297, pruned_loss=0.07179, over 3824504.45 frames. ], batch size: 66, lr: 5.56e-03, grad_scale: 8.0
+2023-04-02 04:43:47,619 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6548, 1.5390, 1.5175, 2.0844, 1.6107, 2.1099, 2.0149, 1.8606],
+       device='cuda:2'), covar=tensor([0.0838, 0.0932, 0.0980, 0.0778, 0.0872, 0.0647, 0.0837, 0.0617],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0220, 0.0222, 0.0241, 0.0226, 0.0206, 0.0190, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 04:43:47,678 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98075.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:43:55,098 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98080.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:44:05,271 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.133e+02 5.305e+02 6.204e+02 8.091e+02 1.870e+03, threshold=1.241e+03, percent-clipped=5.0
+2023-04-02 04:44:09,725 INFO [train.py:903] (2/4) Epoch 15, batch 2500, loss[loss=0.1672, simple_loss=0.2444, pruned_loss=0.04502, over 19785.00 frames. ], tot_loss[loss=0.2202, simple_loss=0.2969, pruned_loss=0.07172, over 3816996.18 frames. ], batch size: 48, lr: 5.56e-03, grad_scale: 8.0
+2023-04-02 04:44:19,662 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98100.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:44:25,542 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98105.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:44:28,003 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98107.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:44:51,232 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98124.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:45:00,674 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:45:01,673 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 04:45:02,554 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9858, 4.3696, 4.7480, 4.6842, 1.6432, 4.4394, 3.7712, 4.3918],
+       device='cuda:2'), covar=tensor([0.1581, 0.0809, 0.0555, 0.0599, 0.5696, 0.0726, 0.0693, 0.1042],
+       device='cuda:2'), in_proj_covar=tensor([0.0724, 0.0654, 0.0862, 0.0742, 0.0770, 0.0608, 0.0520, 0.0787],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 04:45:12,196 INFO [train.py:903] (2/4) Epoch 15, batch 2550, loss[loss=0.2503, simple_loss=0.3363, pruned_loss=0.08216, over 18275.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2966, pruned_loss=0.0718, over 3817580.81 frames. ], batch size: 83, lr: 5.55e-03, grad_scale: 8.0
+2023-04-02 04:45:23,219 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98151.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 04:46:07,151 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 04:46:10,535 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.981e+02 5.247e+02 6.339e+02 8.638e+02 2.352e+03, threshold=1.268e+03, percent-clipped=5.0
+2023-04-02 04:46:14,034 INFO [train.py:903] (2/4) Epoch 15, batch 2600, loss[loss=0.2178, simple_loss=0.3015, pruned_loss=0.06701, over 19680.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2974, pruned_loss=0.07186, over 3821469.36 frames. ], batch size: 58, lr: 5.55e-03, grad_scale: 8.0
+2023-04-02 04:47:18,025 INFO [train.py:903] (2/4) Epoch 15, batch 2650, loss[loss=0.2019, simple_loss=0.2801, pruned_loss=0.06183, over 19763.00 frames. ], tot_loss[loss=0.2196, simple_loss=0.2963, pruned_loss=0.07152, over 3818211.67 frames. ], batch size: 47, lr: 5.55e-03, grad_scale: 8.0
+2023-04-02 04:47:28,828 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:47:39,877 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 04:48:17,329 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98288.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:48:18,016 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.302e+02 4.990e+02 6.118e+02 7.575e+02 1.335e+03, threshold=1.224e+03, percent-clipped=1.0
+2023-04-02 04:48:21,601 INFO [train.py:903] (2/4) Epoch 15, batch 2700, loss[loss=0.2271, simple_loss=0.3007, pruned_loss=0.07679, over 19545.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2974, pruned_loss=0.07217, over 3824475.71 frames. ], batch size: 54, lr: 5.55e-03, grad_scale: 8.0
+2023-04-02 04:48:40,301 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3756, 1.3256, 1.3003, 1.7430, 1.4039, 1.6311, 1.7824, 1.4739],
+       device='cuda:2'), covar=tensor([0.0898, 0.0980, 0.1113, 0.0771, 0.0802, 0.0818, 0.0787, 0.0766],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0221, 0.0224, 0.0242, 0.0229, 0.0208, 0.0190, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 04:48:47,473 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98313.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:49:24,163 INFO [train.py:903] (2/4) Epoch 15, batch 2750, loss[loss=0.2655, simple_loss=0.3249, pruned_loss=0.1031, over 13582.00 frames. ], tot_loss[loss=0.2216, simple_loss=0.2979, pruned_loss=0.0726, over 3818182.02 frames. ], batch size: 136, lr: 5.55e-03, grad_scale: 8.0
+2023-04-02 04:49:54,772 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98365.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:50:04,428 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0880, 3.2344, 1.7678, 1.5336, 2.8988, 1.3757, 1.3630, 2.0736],
+       device='cuda:2'), covar=tensor([0.1261, 0.0580, 0.1088, 0.0982, 0.0576, 0.1321, 0.0973, 0.0677],
+       device='cuda:2'), in_proj_covar=tensor([0.0290, 0.0304, 0.0322, 0.0248, 0.0238, 0.0325, 0.0290, 0.0265],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 04:50:23,804 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.213e+02 5.173e+02 6.107e+02 7.991e+02 1.431e+03, threshold=1.221e+03, percent-clipped=3.0
+2023-04-02 04:50:27,286 INFO [train.py:903] (2/4) Epoch 15, batch 2800, loss[loss=0.2132, simple_loss=0.2997, pruned_loss=0.06334, over 17915.00 frames. ], tot_loss[loss=0.2208, simple_loss=0.2976, pruned_loss=0.07196, over 3825683.80 frames. ], batch size: 83, lr: 5.55e-03, grad_scale: 8.0
+2023-04-02 04:50:48,872 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98407.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 04:51:13,900 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98428.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:51:18,584 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98432.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 04:51:30,816 INFO [train.py:903] (2/4) Epoch 15, batch 2850, loss[loss=0.243, simple_loss=0.3198, pruned_loss=0.08307, over 17045.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2969, pruned_loss=0.07152, over 3831891.03 frames. ], batch size: 101, lr: 5.55e-03, grad_scale: 8.0
+2023-04-02 04:52:03,923 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98468.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:52:27,592 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8282, 1.8834, 2.1282, 2.4363, 1.7277, 2.3308, 2.2715, 1.9932],
+       device='cuda:2'), covar=tensor([0.3406, 0.3073, 0.1505, 0.1797, 0.3329, 0.1634, 0.3759, 0.2679],
+       device='cuda:2'), in_proj_covar=tensor([0.0828, 0.0874, 0.0670, 0.0900, 0.0814, 0.0748, 0.0807, 0.0736],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 04:52:28,798 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2067, 1.1999, 1.4337, 1.3599, 1.7784, 1.7578, 1.7517, 0.5284],
+       device='cuda:2'), covar=tensor([0.2381, 0.4094, 0.2427, 0.1845, 0.1477, 0.2189, 0.1355, 0.4105],
+       device='cuda:2'), in_proj_covar=tensor([0.0505, 0.0594, 0.0645, 0.0451, 0.0604, 0.0508, 0.0648, 0.0508],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 04:52:30,661 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.993e+02 5.164e+02 6.295e+02 8.927e+02 2.262e+03, threshold=1.259e+03, percent-clipped=4.0
+2023-04-02 04:52:34,168 INFO [train.py:903] (2/4) Epoch 15, batch 2900, loss[loss=0.2096, simple_loss=0.2887, pruned_loss=0.06521, over 19336.00 frames. ], tot_loss[loss=0.2207, simple_loss=0.2975, pruned_loss=0.0719, over 3825779.54 frames. ], batch size: 66, lr: 5.54e-03, grad_scale: 8.0
+2023-04-02 04:52:35,440 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 04:53:36,707 INFO [train.py:903] (2/4) Epoch 15, batch 2950, loss[loss=0.1975, simple_loss=0.2794, pruned_loss=0.05779, over 19769.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2968, pruned_loss=0.07173, over 3803172.54 frames. ], batch size: 56, lr: 5.54e-03, grad_scale: 8.0
+2023-04-02 04:54:00,604 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98561.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:54:29,194 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:54:35,382 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.243e+02 5.043e+02 6.244e+02 8.249e+02 2.456e+03, threshold=1.249e+03, percent-clipped=2.0
+2023-04-02 04:54:38,824 INFO [train.py:903] (2/4) Epoch 15, batch 3000, loss[loss=0.227, simple_loss=0.3046, pruned_loss=0.07468, over 19759.00 frames. ], tot_loss[loss=0.2216, simple_loss=0.2978, pruned_loss=0.07272, over 3793382.75 frames. ], batch size: 54, lr: 5.54e-03, grad_scale: 8.0
+2023-04-02 04:54:38,824 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 04:54:51,354 INFO [train.py:937] (2/4) Epoch 15, validation: loss=0.1735, simple_loss=0.2738, pruned_loss=0.0366, over 944034.00 frames. 
+2023-04-02 04:54:51,355 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 04:54:53,546 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 04:55:08,287 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0959, 1.7790, 1.3888, 1.1322, 1.5877, 1.0972, 1.0522, 1.5524],
+       device='cuda:2'), covar=tensor([0.0776, 0.0802, 0.0968, 0.0746, 0.0494, 0.1230, 0.0661, 0.0431],
+       device='cuda:2'), in_proj_covar=tensor([0.0292, 0.0305, 0.0325, 0.0249, 0.0238, 0.0329, 0.0292, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 04:55:28,689 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98621.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:55:52,976 INFO [train.py:903] (2/4) Epoch 15, batch 3050, loss[loss=0.2065, simple_loss=0.2936, pruned_loss=0.05971, over 19674.00 frames. ], tot_loss[loss=0.222, simple_loss=0.2981, pruned_loss=0.07292, over 3776585.57 frames. ], batch size: 55, lr: 5.54e-03, grad_scale: 8.0
+2023-04-02 04:55:57,907 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98646.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:56:51,966 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.865e+02 5.607e+02 7.054e+02 9.171e+02 2.046e+03, threshold=1.411e+03, percent-clipped=6.0
+2023-04-02 04:56:54,315 INFO [train.py:903] (2/4) Epoch 15, batch 3100, loss[loss=0.2385, simple_loss=0.3189, pruned_loss=0.07908, over 19572.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2973, pruned_loss=0.07218, over 3796681.64 frames. ], batch size: 52, lr: 5.54e-03, grad_scale: 8.0
+2023-04-02 04:57:58,290 INFO [train.py:903] (2/4) Epoch 15, batch 3150, loss[loss=0.2105, simple_loss=0.2954, pruned_loss=0.06286, over 19647.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2973, pruned_loss=0.07228, over 3810985.68 frames. ], batch size: 58, lr: 5.54e-03, grad_scale: 8.0
+2023-04-02 04:58:26,303 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 04:58:31,704 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
+2023-04-02 04:58:34,633 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98772.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 04:58:39,669 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3480, 3.0815, 2.2187, 2.2228, 2.0947, 2.5810, 1.0872, 2.1550],
+       device='cuda:2'), covar=tensor([0.0570, 0.0490, 0.0660, 0.1014, 0.1044, 0.1083, 0.1198, 0.0894],
+       device='cuda:2'), in_proj_covar=tensor([0.0342, 0.0340, 0.0337, 0.0369, 0.0441, 0.0365, 0.0319, 0.0327],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 04:58:58,670 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.173e+02 5.220e+02 6.366e+02 8.908e+02 1.802e+03, threshold=1.273e+03, percent-clipped=4.0
+2023-04-02 04:59:01,103 INFO [train.py:903] (2/4) Epoch 15, batch 3200, loss[loss=0.2062, simple_loss=0.2833, pruned_loss=0.06459, over 19741.00 frames. ], tot_loss[loss=0.2198, simple_loss=0.2969, pruned_loss=0.07135, over 3822369.80 frames. ], batch size: 51, lr: 5.54e-03, grad_scale: 8.0
+2023-04-02 04:59:59,409 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=98839.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:00:02,402 INFO [train.py:903] (2/4) Epoch 15, batch 3250, loss[loss=0.219, simple_loss=0.3029, pruned_loss=0.06748, over 19488.00 frames. ], tot_loss[loss=0.221, simple_loss=0.2978, pruned_loss=0.07207, over 3798079.82 frames. ], batch size: 49, lr: 5.53e-03, grad_scale: 8.0
+2023-04-02 05:00:29,961 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=98864.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:00:56,793 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=98887.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:00:59,973 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.355e+02 4.885e+02 6.090e+02 7.322e+02 1.846e+03, threshold=1.218e+03, percent-clipped=3.0
+2023-04-02 05:01:02,395 INFO [train.py:903] (2/4) Epoch 15, batch 3300, loss[loss=0.1957, simple_loss=0.285, pruned_loss=0.05323, over 18009.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2973, pruned_loss=0.07221, over 3802000.99 frames. ], batch size: 83, lr: 5.53e-03, grad_scale: 8.0
+2023-04-02 05:01:08,207 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 05:01:20,962 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=98905.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:01:25,250 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98908.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:01:30,600 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98913.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:01:41,431 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9916, 2.0956, 2.2823, 2.6458, 1.8587, 2.5004, 2.5073, 2.1934],
+       device='cuda:2'), covar=tensor([0.3840, 0.3462, 0.1637, 0.1970, 0.3742, 0.1771, 0.3702, 0.2745],
+       device='cuda:2'), in_proj_covar=tensor([0.0831, 0.0873, 0.0669, 0.0903, 0.0815, 0.0748, 0.0807, 0.0735],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 05:02:07,325 INFO [train.py:903] (2/4) Epoch 15, batch 3350, loss[loss=0.1917, simple_loss=0.2738, pruned_loss=0.0548, over 19695.00 frames. ], tot_loss[loss=0.2203, simple_loss=0.2969, pruned_loss=0.07188, over 3822660.86 frames. ], batch size: 53, lr: 5.53e-03, grad_scale: 8.0
+2023-04-02 05:02:09,382 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-02 05:03:06,853 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=98989.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:03:07,569 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.074e+02 5.628e+02 7.317e+02 9.748e+02 2.071e+03, threshold=1.463e+03, percent-clipped=8.0
+2023-04-02 05:03:09,829 INFO [train.py:903] (2/4) Epoch 15, batch 3400, loss[loss=0.2231, simple_loss=0.3023, pruned_loss=0.07194, over 18113.00 frames. ], tot_loss[loss=0.2214, simple_loss=0.2982, pruned_loss=0.07233, over 3819010.14 frames. ], batch size: 83, lr: 5.53e-03, grad_scale: 8.0
+2023-04-02 05:03:44,106 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99020.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:04:10,183 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4606, 2.3316, 1.7237, 1.5992, 2.1547, 1.4444, 1.3802, 1.9038],
+       device='cuda:2'), covar=tensor([0.1065, 0.0732, 0.0988, 0.0705, 0.0482, 0.1080, 0.0727, 0.0534],
+       device='cuda:2'), in_proj_covar=tensor([0.0296, 0.0307, 0.0324, 0.0251, 0.0239, 0.0327, 0.0293, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:04:10,829 INFO [train.py:903] (2/4) Epoch 15, batch 3450, loss[loss=0.213, simple_loss=0.2877, pruned_loss=0.0692, over 19855.00 frames. ], tot_loss[loss=0.2216, simple_loss=0.2986, pruned_loss=0.07224, over 3834222.54 frames. ], batch size: 52, lr: 5.53e-03, grad_scale: 4.0
+2023-04-02 05:04:14,088 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 05:04:34,759 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2271, 1.1334, 1.1905, 1.3446, 1.0560, 1.3271, 1.3376, 1.2683],
+       device='cuda:2'), covar=tensor([0.0933, 0.1057, 0.1102, 0.0706, 0.0862, 0.0842, 0.0853, 0.0768],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0221, 0.0221, 0.0240, 0.0225, 0.0207, 0.0189, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 05:04:45,788 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99069.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:05:11,153 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.718e+02 4.946e+02 5.886e+02 7.201e+02 1.354e+03, threshold=1.177e+03, percent-clipped=0.0
+2023-04-02 05:05:12,321 INFO [train.py:903] (2/4) Epoch 15, batch 3500, loss[loss=0.2163, simple_loss=0.2955, pruned_loss=0.06855, over 19535.00 frames. ], tot_loss[loss=0.2219, simple_loss=0.2987, pruned_loss=0.07256, over 3844313.24 frames. ], batch size: 56, lr: 5.53e-03, grad_scale: 4.0
+2023-04-02 05:06:15,626 INFO [train.py:903] (2/4) Epoch 15, batch 3550, loss[loss=0.1879, simple_loss=0.2635, pruned_loss=0.05613, over 19349.00 frames. ], tot_loss[loss=0.2218, simple_loss=0.2988, pruned_loss=0.07237, over 3844457.12 frames. ], batch size: 47, lr: 5.53e-03, grad_scale: 4.0
+2023-04-02 05:06:18,406 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99143.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:06:48,284 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99168.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:06:53,014 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7808, 1.5868, 1.5210, 2.0274, 1.5619, 2.1351, 2.0398, 1.8879],
+       device='cuda:2'), covar=tensor([0.0756, 0.0874, 0.0945, 0.0794, 0.0860, 0.0630, 0.0792, 0.0602],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0221, 0.0221, 0.0240, 0.0226, 0.0208, 0.0189, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 05:07:18,042 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.289e+02 4.734e+02 6.110e+02 7.809e+02 1.736e+03, threshold=1.222e+03, percent-clipped=8.0
+2023-04-02 05:07:19,080 INFO [train.py:903] (2/4) Epoch 15, batch 3600, loss[loss=0.225, simple_loss=0.2965, pruned_loss=0.07671, over 19775.00 frames. ], tot_loss[loss=0.2221, simple_loss=0.2991, pruned_loss=0.0726, over 3836011.52 frames. ], batch size: 54, lr: 5.52e-03, grad_scale: 8.0
+2023-04-02 05:08:20,339 INFO [train.py:903] (2/4) Epoch 15, batch 3650, loss[loss=0.2401, simple_loss=0.3123, pruned_loss=0.08397, over 19561.00 frames. ], tot_loss[loss=0.2225, simple_loss=0.2993, pruned_loss=0.07284, over 3842694.19 frames. ], batch size: 64, lr: 5.52e-03, grad_scale: 8.0
+2023-04-02 05:08:26,446 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:08:32,082 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99252.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:08:37,705 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99257.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:09:03,839 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99276.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:09:15,287 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99286.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:09:20,758 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.641e+02 5.562e+02 6.527e+02 8.007e+02 1.277e+03, threshold=1.305e+03, percent-clipped=3.0
+2023-04-02 05:09:21,909 INFO [train.py:903] (2/4) Epoch 15, batch 3700, loss[loss=0.2469, simple_loss=0.3211, pruned_loss=0.08634, over 18046.00 frames. ], tot_loss[loss=0.2224, simple_loss=0.299, pruned_loss=0.07288, over 3839729.74 frames. ], batch size: 83, lr: 5.52e-03, grad_scale: 8.0
+2023-04-02 05:09:34,099 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:10:13,728 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99333.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:10:24,822 INFO [train.py:903] (2/4) Epoch 15, batch 3750, loss[loss=0.199, simple_loss=0.2871, pruned_loss=0.05544, over 18176.00 frames. ], tot_loss[loss=0.2227, simple_loss=0.2989, pruned_loss=0.07321, over 3835095.76 frames. ], batch size: 83, lr: 5.52e-03, grad_scale: 8.0
+2023-04-02 05:10:25,094 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99342.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:10:40,407 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1390, 1.9008, 1.8134, 2.1528, 1.9394, 1.8626, 1.7338, 2.0918],
+       device='cuda:2'), covar=tensor([0.0923, 0.1544, 0.1351, 0.1010, 0.1300, 0.0530, 0.1261, 0.0663],
+       device='cuda:2'), in_proj_covar=tensor([0.0262, 0.0354, 0.0297, 0.0244, 0.0298, 0.0249, 0.0292, 0.0248],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:10:56,151 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99367.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:11:01,985 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99372.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:11:26,382 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.684e+02 5.640e+02 6.861e+02 8.808e+02 1.909e+03, threshold=1.372e+03, percent-clipped=3.0
+2023-04-02 05:11:28,561 INFO [train.py:903] (2/4) Epoch 15, batch 3800, loss[loss=0.1986, simple_loss=0.2806, pruned_loss=0.05826, over 19489.00 frames. ], tot_loss[loss=0.2228, simple_loss=0.2989, pruned_loss=0.07337, over 3840916.24 frames. ], batch size: 49, lr: 5.52e-03, grad_scale: 8.0
+2023-04-02 05:11:41,848 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4702, 3.1192, 2.2709, 2.3725, 2.4594, 2.6634, 0.8241, 2.1443],
+       device='cuda:2'), covar=tensor([0.0533, 0.0485, 0.0610, 0.0927, 0.0785, 0.0791, 0.1225, 0.0920],
+       device='cuda:2'), in_proj_covar=tensor([0.0346, 0.0346, 0.0341, 0.0373, 0.0444, 0.0369, 0.0322, 0.0330],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 05:11:53,195 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99413.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:11:58,891 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 05:12:26,314 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99438.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:12:30,511 INFO [train.py:903] (2/4) Epoch 15, batch 3850, loss[loss=0.2013, simple_loss=0.2696, pruned_loss=0.06647, over 18195.00 frames. ], tot_loss[loss=0.2231, simple_loss=0.2991, pruned_loss=0.07357, over 3819996.76 frames. ], batch size: 40, lr: 5.52e-03, grad_scale: 4.0
+2023-04-02 05:12:37,708 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99448.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:12:44,258 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
+2023-04-02 05:13:25,913 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99486.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 05:13:32,483 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.342e+02 4.923e+02 6.054e+02 7.410e+02 1.518e+03, threshold=1.211e+03, percent-clipped=1.0
+2023-04-02 05:13:32,502 INFO [train.py:903] (2/4) Epoch 15, batch 3900, loss[loss=0.2158, simple_loss=0.294, pruned_loss=0.0688, over 19533.00 frames. ], tot_loss[loss=0.2224, simple_loss=0.2985, pruned_loss=0.07311, over 3830165.05 frames. ], batch size: 54, lr: 5.52e-03, grad_scale: 4.0
+2023-04-02 05:14:18,187 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99528.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:14:33,479 INFO [train.py:903] (2/4) Epoch 15, batch 3950, loss[loss=0.2136, simple_loss=0.2827, pruned_loss=0.07224, over 19415.00 frames. ], tot_loss[loss=0.2222, simple_loss=0.2984, pruned_loss=0.07306, over 3838184.04 frames. ], batch size: 48, lr: 5.52e-03, grad_scale: 4.0
+2023-04-02 05:14:41,169 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 05:15:28,345 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99586.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:15:35,966 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99591.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:15:36,870 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.680e+02 5.329e+02 6.331e+02 8.679e+02 1.427e+03, threshold=1.266e+03, percent-clipped=6.0
+2023-04-02 05:15:36,888 INFO [train.py:903] (2/4) Epoch 15, batch 4000, loss[loss=0.2628, simple_loss=0.3303, pruned_loss=0.09771, over 19525.00 frames. ], tot_loss[loss=0.2218, simple_loss=0.2977, pruned_loss=0.07298, over 3830485.91 frames. ], batch size: 54, lr: 5.51e-03, grad_scale: 8.0
+2023-04-02 05:15:54,675 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99607.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:16:14,221 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99623.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:16:20,950 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99628.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:16:23,029 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 05:16:23,147 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:16:38,158 INFO [train.py:903] (2/4) Epoch 15, batch 4050, loss[loss=0.2331, simple_loss=0.3107, pruned_loss=0.07771, over 17556.00 frames. ], tot_loss[loss=0.2219, simple_loss=0.2979, pruned_loss=0.07293, over 3821872.74 frames. ], batch size: 101, lr: 5.51e-03, grad_scale: 4.0
+2023-04-02 05:16:45,352 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99648.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:16:50,825 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99653.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:17:17,267 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.11 vs. limit=2.0
+2023-04-02 05:17:20,384 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7575, 1.7729, 1.5811, 1.4040, 1.3222, 1.4068, 0.1724, 0.7235],
+       device='cuda:2'), covar=tensor([0.0466, 0.0470, 0.0340, 0.0514, 0.1146, 0.0615, 0.1079, 0.0904],
+       device='cuda:2'), in_proj_covar=tensor([0.0343, 0.0342, 0.0338, 0.0369, 0.0441, 0.0366, 0.0319, 0.0327],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 05:17:32,700 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99686.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:17:39,410 INFO [train.py:903] (2/4) Epoch 15, batch 4100, loss[loss=0.2423, simple_loss=0.3158, pruned_loss=0.08438, over 19601.00 frames. ], tot_loss[loss=0.2226, simple_loss=0.2988, pruned_loss=0.07326, over 3826123.56 frames. ], batch size: 57, lr: 5.51e-03, grad_scale: 4.0
+2023-04-02 05:17:40,554 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.802e+02 5.566e+02 7.429e+02 9.161e+02 2.166e+03, threshold=1.486e+03, percent-clipped=8.0
+2023-04-02 05:17:46,972 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=99698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:17:55,012 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99704.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:17:58,064 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99706.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:18:14,919 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 05:18:27,062 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99729.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:18:43,272 INFO [train.py:903] (2/4) Epoch 15, batch 4150, loss[loss=0.1911, simple_loss=0.2761, pruned_loss=0.05302, over 19465.00 frames. ], tot_loss[loss=0.2212, simple_loss=0.2973, pruned_loss=0.07255, over 3821752.92 frames. ], batch size: 64, lr: 5.51e-03, grad_scale: 4.0
+2023-04-02 05:18:47,072 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99745.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:19:31,726 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99782.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:19:35,407 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99784.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:19:45,183 INFO [train.py:903] (2/4) Epoch 15, batch 4200, loss[loss=0.2039, simple_loss=0.274, pruned_loss=0.06691, over 19382.00 frames. ], tot_loss[loss=0.2208, simple_loss=0.297, pruned_loss=0.07235, over 3826605.79 frames. ], batch size: 47, lr: 5.51e-03, grad_scale: 4.0
+2023-04-02 05:19:47,437 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.476e+02 5.549e+02 6.772e+02 8.720e+02 1.402e+03, threshold=1.354e+03, percent-clipped=0.0
+2023-04-02 05:19:50,953 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 05:19:57,170 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99801.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:20:06,275 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8984, 4.4157, 2.7948, 3.8652, 0.8591, 4.2773, 4.1627, 4.3491],
+       device='cuda:2'), covar=tensor([0.0556, 0.0935, 0.1956, 0.0774, 0.4267, 0.0744, 0.0888, 0.0997],
+       device='cuda:2'), in_proj_covar=tensor([0.0464, 0.0387, 0.0460, 0.0327, 0.0394, 0.0395, 0.0389, 0.0423],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:20:06,469 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99809.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:20:31,005 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-02 05:20:32,495 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99830.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 05:20:47,373 INFO [train.py:903] (2/4) Epoch 15, batch 4250, loss[loss=0.2137, simple_loss=0.275, pruned_loss=0.07619, over 19739.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2972, pruned_loss=0.07303, over 3823341.76 frames. ], batch size: 46, lr: 5.51e-03, grad_scale: 4.0
+2023-04-02 05:21:03,955 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 05:21:15,075 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 05:21:47,825 INFO [train.py:903] (2/4) Epoch 15, batch 4300, loss[loss=0.217, simple_loss=0.2957, pruned_loss=0.06917, over 19669.00 frames. ], tot_loss[loss=0.2216, simple_loss=0.2975, pruned_loss=0.07279, over 3825923.73 frames. ], batch size: 53, lr: 5.51e-03, grad_scale: 4.0
+2023-04-02 05:21:48,970 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.369e+02 5.517e+02 6.494e+02 8.260e+02 1.741e+03, threshold=1.299e+03, percent-clipped=4.0
+2023-04-02 05:21:53,799 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99897.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:22:35,373 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99930.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:22:41,691 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 05:22:48,543 INFO [train.py:903] (2/4) Epoch 15, batch 4350, loss[loss=0.2327, simple_loss=0.3101, pruned_loss=0.07767, over 19157.00 frames. ], tot_loss[loss=0.2222, simple_loss=0.2983, pruned_loss=0.07303, over 3829749.01 frames. ], batch size: 69, lr: 5.50e-03, grad_scale: 4.0
+2023-04-02 05:22:53,549 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=99945.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 05:23:01,034 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=99951.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:23:15,960 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=99962.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:23:46,369 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=99987.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:23:51,928 INFO [train.py:903] (2/4) Epoch 15, batch 4400, loss[loss=0.1846, simple_loss=0.2645, pruned_loss=0.05236, over 16849.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2971, pruned_loss=0.07228, over 3832677.68 frames. ], batch size: 37, lr: 5.50e-03, grad_scale: 8.0
+2023-04-02 05:23:53,159 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.223e+02 4.844e+02 5.787e+02 7.470e+02 1.170e+03, threshold=1.157e+03, percent-clipped=0.0
+2023-04-02 05:23:56,445 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4039, 0.9513, 1.3954, 1.3950, 2.7525, 1.0009, 2.2275, 3.2834],
+       device='cuda:2'), covar=tensor([0.0755, 0.3861, 0.3342, 0.2247, 0.1246, 0.3093, 0.1484, 0.0455],
+       device='cuda:2'), in_proj_covar=tensor([0.0379, 0.0349, 0.0370, 0.0329, 0.0356, 0.0339, 0.0350, 0.0372],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:24:06,741 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100001.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:24:23,727 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 05:24:31,880 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 05:24:34,581 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=100025.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 05:24:35,752 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100026.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:24:47,764 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.90 vs. limit=5.0
+2023-04-02 05:24:57,064 INFO [train.py:903] (2/4) Epoch 15, batch 4450, loss[loss=0.1863, simple_loss=0.2716, pruned_loss=0.05057, over 19867.00 frames. ], tot_loss[loss=0.2204, simple_loss=0.2969, pruned_loss=0.07197, over 3829045.68 frames. ], batch size: 52, lr: 5.50e-03, grad_scale: 8.0
+2023-04-02 05:24:57,236 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:25:00,917 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:25:07,820 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4021, 1.3912, 1.5312, 1.6776, 2.9598, 1.2155, 2.2324, 3.2977],
+       device='cuda:2'), covar=tensor([0.0522, 0.2660, 0.2708, 0.1564, 0.0755, 0.2379, 0.1184, 0.0321],
+       device='cuda:2'), in_proj_covar=tensor([0.0379, 0.0350, 0.0369, 0.0330, 0.0357, 0.0339, 0.0350, 0.0372],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:25:14,942 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100057.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:25:25,303 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100066.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:25:47,693 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:25:59,167 INFO [train.py:903] (2/4) Epoch 15, batch 4500, loss[loss=0.1914, simple_loss=0.2664, pruned_loss=0.05815, over 17380.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2963, pruned_loss=0.07179, over 3820442.52 frames. ], batch size: 38, lr: 5.50e-03, grad_scale: 8.0
+2023-04-02 05:25:59,560 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3620, 1.5519, 2.0303, 1.5978, 3.1241, 2.3781, 3.3391, 1.5028],
+       device='cuda:2'), covar=tensor([0.2318, 0.3886, 0.2325, 0.1834, 0.1492, 0.2091, 0.1620, 0.3857],
+       device='cuda:2'), in_proj_covar=tensor([0.0508, 0.0600, 0.0651, 0.0456, 0.0606, 0.0508, 0.0646, 0.0515],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 05:26:00,181 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.254e+02 5.166e+02 6.659e+02 8.670e+02 1.796e+03, threshold=1.332e+03, percent-clipped=6.0
+2023-04-02 05:27:01,360 INFO [train.py:903] (2/4) Epoch 15, batch 4550, loss[loss=0.256, simple_loss=0.3369, pruned_loss=0.08758, over 19677.00 frames. ], tot_loss[loss=0.2199, simple_loss=0.2961, pruned_loss=0.07184, over 3798819.20 frames. ], batch size: 55, lr: 5.50e-03, grad_scale: 8.0
+2023-04-02 05:27:10,395 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 05:27:16,327 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100153.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:27:21,766 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100157.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:27:38,131 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 05:27:47,845 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100178.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:28:04,926 INFO [train.py:903] (2/4) Epoch 15, batch 4600, loss[loss=0.2194, simple_loss=0.3066, pruned_loss=0.06613, over 19479.00 frames. ], tot_loss[loss=0.2208, simple_loss=0.2974, pruned_loss=0.07212, over 3804624.11 frames. ], batch size: 64, lr: 5.50e-03, grad_scale: 8.0
+2023-04-02 05:28:06,058 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.047e+02 4.707e+02 5.654e+02 7.541e+02 1.184e+03, threshold=1.131e+03, percent-clipped=0.0
+2023-04-02 05:28:19,081 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100201.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 05:28:30,986 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7733, 4.2579, 4.4892, 4.4831, 1.6230, 4.2331, 3.6490, 4.2101],
+       device='cuda:2'), covar=tensor([0.1457, 0.0739, 0.0498, 0.0560, 0.5438, 0.0710, 0.0671, 0.0943],
+       device='cuda:2'), in_proj_covar=tensor([0.0728, 0.0664, 0.0865, 0.0744, 0.0771, 0.0612, 0.0522, 0.0799],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 05:28:47,093 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100226.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 05:29:08,985 INFO [train.py:903] (2/4) Epoch 15, batch 4650, loss[loss=0.2423, simple_loss=0.3279, pruned_loss=0.07836, over 19694.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2981, pruned_loss=0.07262, over 3800925.82 frames. ], batch size: 59, lr: 5.50e-03, grad_scale: 8.0
+2023-04-02 05:29:25,491 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 05:29:25,728 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=100256.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:29:36,799 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 05:29:44,900 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0196, 1.1589, 1.5388, 1.2186, 2.6270, 3.7034, 3.4649, 3.9578],
+       device='cuda:2'), covar=tensor([0.1722, 0.3884, 0.3444, 0.2313, 0.0588, 0.0161, 0.0208, 0.0215],
+       device='cuda:2'), in_proj_covar=tensor([0.0260, 0.0305, 0.0334, 0.0252, 0.0225, 0.0170, 0.0208, 0.0225],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 05:30:11,079 INFO [train.py:903] (2/4) Epoch 15, batch 4700, loss[loss=0.1833, simple_loss=0.2606, pruned_loss=0.05301, over 19411.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2981, pruned_loss=0.07267, over 3801404.88 frames. ], batch size: 48, lr: 5.49e-03, grad_scale: 8.0
+2023-04-02 05:30:12,228 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.373e+02 5.601e+02 6.328e+02 8.331e+02 3.311e+03, threshold=1.266e+03, percent-clipped=13.0
+2023-04-02 05:30:22,201 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:30:33,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 05:30:50,895 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:30:55,443 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100326.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:31:13,907 INFO [train.py:903] (2/4) Epoch 15, batch 4750, loss[loss=0.2451, simple_loss=0.3238, pruned_loss=0.08317, over 19629.00 frames. ], tot_loss[loss=0.2215, simple_loss=0.2982, pruned_loss=0.07233, over 3799129.77 frames. ], batch size: 57, lr: 5.49e-03, grad_scale: 8.0
+2023-04-02 05:31:21,200 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:31:49,658 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100369.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 05:32:16,838 INFO [train.py:903] (2/4) Epoch 15, batch 4800, loss[loss=0.2409, simple_loss=0.3194, pruned_loss=0.08117, over 19600.00 frames. ], tot_loss[loss=0.2203, simple_loss=0.2969, pruned_loss=0.07186, over 3810348.76 frames. ], batch size: 61, lr: 5.49e-03, grad_scale: 8.0
+2023-04-02 05:32:18,024 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.926e+02 4.713e+02 6.387e+02 8.455e+02 2.006e+03, threshold=1.277e+03, percent-clipped=3.0
+2023-04-02 05:32:44,477 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100413.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:32:52,647 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=100420.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:33:17,209 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100438.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:33:21,577 INFO [train.py:903] (2/4) Epoch 15, batch 4850, loss[loss=0.2061, simple_loss=0.2888, pruned_loss=0.0617, over 18239.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2971, pruned_loss=0.07149, over 3824054.24 frames. ], batch size: 83, lr: 5.49e-03, grad_scale: 8.0
+2023-04-02 05:33:48,703 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 05:34:10,992 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 05:34:14,899 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100484.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 05:34:15,728 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 05:34:17,772 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 05:34:24,800 INFO [train.py:903] (2/4) Epoch 15, batch 4900, loss[loss=0.2035, simple_loss=0.2903, pruned_loss=0.0584, over 19308.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2967, pruned_loss=0.07141, over 3831757.54 frames. ], batch size: 66, lr: 5.49e-03, grad_scale: 8.0
+2023-04-02 05:34:25,928 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.390e+02 5.042e+02 5.846e+02 7.925e+02 1.600e+03, threshold=1.169e+03, percent-clipped=3.0
+2023-04-02 05:34:26,005 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 05:34:46,435 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 05:35:19,185 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9105, 1.6568, 1.4984, 1.9033, 1.6166, 1.6539, 1.4481, 1.8197],
+       device='cuda:2'), covar=tensor([0.0930, 0.1366, 0.1408, 0.0928, 0.1270, 0.0519, 0.1357, 0.0698],
+       device='cuda:2'), in_proj_covar=tensor([0.0260, 0.0355, 0.0297, 0.0242, 0.0298, 0.0245, 0.0292, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:35:27,073 INFO [train.py:903] (2/4) Epoch 15, batch 4950, loss[loss=0.2072, simple_loss=0.2914, pruned_loss=0.06153, over 19107.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2968, pruned_loss=0.07162, over 3833052.35 frames. ], batch size: 69, lr: 5.49e-03, grad_scale: 8.0
+2023-04-02 05:35:45,824 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 05:36:05,324 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7173, 4.1914, 4.4514, 4.4370, 1.6969, 4.1483, 3.6325, 4.1299],
+       device='cuda:2'), covar=tensor([0.1597, 0.0847, 0.0573, 0.0640, 0.5390, 0.0741, 0.0675, 0.1127],
+       device='cuda:2'), in_proj_covar=tensor([0.0735, 0.0669, 0.0873, 0.0750, 0.0778, 0.0619, 0.0528, 0.0808],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 05:36:09,665 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 05:36:29,688 INFO [train.py:903] (2/4) Epoch 15, batch 5000, loss[loss=0.191, simple_loss=0.2647, pruned_loss=0.0586, over 19735.00 frames. ], tot_loss[loss=0.2206, simple_loss=0.2973, pruned_loss=0.07192, over 3809601.06 frames. ], batch size: 45, lr: 5.49e-03, grad_scale: 4.0
+2023-04-02 05:36:31,854 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.571e+02 5.199e+02 6.623e+02 8.418e+02 1.165e+03, threshold=1.325e+03, percent-clipped=0.0
+2023-04-02 05:36:40,514 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 05:36:40,819 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100600.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:36:52,298 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 05:37:33,607 INFO [train.py:903] (2/4) Epoch 15, batch 5050, loss[loss=0.2369, simple_loss=0.3221, pruned_loss=0.07582, over 19658.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2977, pruned_loss=0.0721, over 3815721.98 frames. ], batch size: 60, lr: 5.49e-03, grad_scale: 4.0
+2023-04-02 05:38:09,676 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 05:38:37,496 INFO [train.py:903] (2/4) Epoch 15, batch 5100, loss[loss=0.2184, simple_loss=0.2907, pruned_loss=0.07305, over 19737.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2968, pruned_loss=0.07174, over 3809315.31 frames. ], batch size: 48, lr: 5.48e-03, grad_scale: 4.0
+2023-04-02 05:38:39,900 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.188e+02 5.134e+02 6.124e+02 7.830e+02 1.941e+03, threshold=1.225e+03, percent-clipped=4.0
+2023-04-02 05:38:49,385 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 05:38:51,807 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 05:38:57,362 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 05:39:05,776 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100715.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:39:29,415 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.10 vs. limit=2.0
+2023-04-02 05:39:37,139 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100740.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 05:39:38,888 INFO [train.py:903] (2/4) Epoch 15, batch 5150, loss[loss=0.2455, simple_loss=0.3326, pruned_loss=0.07916, over 18796.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2967, pruned_loss=0.07161, over 3811231.80 frames. ], batch size: 74, lr: 5.48e-03, grad_scale: 4.0
+2023-04-02 05:39:39,309 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2065, 1.2932, 1.2176, 1.0270, 0.9621, 1.0430, 0.0864, 0.3470],
+       device='cuda:2'), covar=tensor([0.0591, 0.0599, 0.0362, 0.0506, 0.1217, 0.0619, 0.1126, 0.0976],
+       device='cuda:2'), in_proj_covar=tensor([0.0347, 0.0342, 0.0340, 0.0369, 0.0442, 0.0370, 0.0322, 0.0328],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 05:39:47,020 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=100748.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 05:39:51,334 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 05:40:07,667 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=100764.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:40:09,140 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100765.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 05:40:28,230 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 05:40:41,943 INFO [train.py:903] (2/4) Epoch 15, batch 5200, loss[loss=0.2552, simple_loss=0.3285, pruned_loss=0.09097, over 19660.00 frames. ], tot_loss[loss=0.2218, simple_loss=0.2982, pruned_loss=0.07266, over 3818692.68 frames. ], batch size: 60, lr: 5.48e-03, grad_scale: 8.0
+2023-04-02 05:40:44,523 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.350e+02 5.325e+02 6.515e+02 8.501e+02 1.618e+03, threshold=1.303e+03, percent-clipped=5.0
+2023-04-02 05:40:58,667 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 05:41:43,054 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 05:41:47,605 INFO [train.py:903] (2/4) Epoch 15, batch 5250, loss[loss=0.1863, simple_loss=0.2752, pruned_loss=0.04877, over 19521.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2972, pruned_loss=0.07188, over 3825323.76 frames. ], batch size: 54, lr: 5.48e-03, grad_scale: 8.0
+2023-04-02 05:42:20,940 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1890, 2.2166, 2.4891, 3.1556, 2.2408, 2.9671, 2.6950, 2.2646],
+       device='cuda:2'), covar=tensor([0.4118, 0.3833, 0.1621, 0.2271, 0.4195, 0.1861, 0.4144, 0.3094],
+       device='cuda:2'), in_proj_covar=tensor([0.0835, 0.0877, 0.0675, 0.0906, 0.0817, 0.0752, 0.0812, 0.0739],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 05:42:25,534 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2118, 1.3328, 1.9957, 1.6509, 3.1630, 4.5945, 4.4636, 4.9954],
+       device='cuda:2'), covar=tensor([0.1754, 0.3795, 0.3147, 0.2153, 0.0524, 0.0203, 0.0172, 0.0157],
+       device='cuda:2'), in_proj_covar=tensor([0.0260, 0.0304, 0.0333, 0.0252, 0.0225, 0.0170, 0.0208, 0.0224],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 05:42:33,415 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=100879.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:42:50,419 INFO [train.py:903] (2/4) Epoch 15, batch 5300, loss[loss=0.2136, simple_loss=0.2981, pruned_loss=0.06459, over 18120.00 frames. ], tot_loss[loss=0.2208, simple_loss=0.2973, pruned_loss=0.07214, over 3822378.70 frames. ], batch size: 83, lr: 5.48e-03, grad_scale: 8.0
+2023-04-02 05:42:52,722 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.288e+02 5.131e+02 6.120e+02 8.353e+02 1.768e+03, threshold=1.224e+03, percent-clipped=4.0
+2023-04-02 05:43:08,007 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 05:43:52,929 INFO [train.py:903] (2/4) Epoch 15, batch 5350, loss[loss=0.1792, simple_loss=0.2556, pruned_loss=0.05137, over 19729.00 frames. ], tot_loss[loss=0.2211, simple_loss=0.2976, pruned_loss=0.07226, over 3821702.94 frames. ], batch size: 46, lr: 5.48e-03, grad_scale: 8.0
+2023-04-02 05:44:29,359 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 05:44:30,883 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=100971.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:44:51,634 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5763, 1.4377, 1.3397, 1.9451, 1.5541, 1.9570, 1.8597, 1.6453],
+       device='cuda:2'), covar=tensor([0.0802, 0.0907, 0.1074, 0.0746, 0.0832, 0.0672, 0.0818, 0.0700],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0220, 0.0221, 0.0242, 0.0226, 0.0209, 0.0189, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 05:44:56,010 INFO [train.py:903] (2/4) Epoch 15, batch 5400, loss[loss=0.1995, simple_loss=0.2729, pruned_loss=0.06303, over 19613.00 frames. ], tot_loss[loss=0.2203, simple_loss=0.297, pruned_loss=0.07184, over 3822527.08 frames. ], batch size: 50, lr: 5.48e-03, grad_scale: 8.0
+2023-04-02 05:44:58,258 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.408e+02 5.355e+02 6.832e+02 8.412e+02 2.240e+03, threshold=1.366e+03, percent-clipped=7.0
+2023-04-02 05:45:01,707 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=100996.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:46:00,092 INFO [train.py:903] (2/4) Epoch 15, batch 5450, loss[loss=0.2136, simple_loss=0.2983, pruned_loss=0.06448, over 19674.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2985, pruned_loss=0.07252, over 3808766.41 frames. ], batch size: 55, lr: 5.47e-03, grad_scale: 8.0
+2023-04-02 05:46:30,079 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6444, 2.4022, 1.8291, 1.6758, 2.2862, 1.4401, 1.4126, 1.9353],
+       device='cuda:2'), covar=tensor([0.0967, 0.0739, 0.0898, 0.0786, 0.0423, 0.1114, 0.0709, 0.0451],
+       device='cuda:2'), in_proj_covar=tensor([0.0296, 0.0307, 0.0326, 0.0252, 0.0240, 0.0330, 0.0294, 0.0269],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:47:04,590 INFO [train.py:903] (2/4) Epoch 15, batch 5500, loss[loss=0.2231, simple_loss=0.3043, pruned_loss=0.07094, over 19536.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2974, pruned_loss=0.07179, over 3805623.24 frames. ], batch size: 54, lr: 5.47e-03, grad_scale: 8.0
+2023-04-02 05:47:04,764 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=101092.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 05:47:06,827 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.049e+02 5.715e+02 6.860e+02 8.623e+02 1.531e+03, threshold=1.372e+03, percent-clipped=1.0
+2023-04-02 05:47:27,335 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 05:47:45,292 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=101125.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:47:45,818 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
+2023-04-02 05:47:58,065 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=101135.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:48:05,671 INFO [train.py:903] (2/4) Epoch 15, batch 5550, loss[loss=0.2696, simple_loss=0.3477, pruned_loss=0.09579, over 19522.00 frames. ], tot_loss[loss=0.2206, simple_loss=0.2971, pruned_loss=0.07209, over 3808239.95 frames. ], batch size: 56, lr: 5.47e-03, grad_scale: 8.0
+2023-04-02 05:48:12,791 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 05:48:28,900 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=101160.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:49:04,237 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 05:49:08,930 INFO [train.py:903] (2/4) Epoch 15, batch 5600, loss[loss=0.2561, simple_loss=0.3199, pruned_loss=0.09614, over 19084.00 frames. ], tot_loss[loss=0.2206, simple_loss=0.297, pruned_loss=0.07204, over 3813899.92 frames. ], batch size: 69, lr: 5.47e-03, grad_scale: 8.0
+2023-04-02 05:49:11,016 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.323e+02 5.272e+02 6.555e+02 8.017e+02 1.573e+03, threshold=1.311e+03, percent-clipped=2.0
+2023-04-02 05:49:28,282 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=101207.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 05:50:11,400 INFO [train.py:903] (2/4) Epoch 15, batch 5650, loss[loss=0.265, simple_loss=0.33, pruned_loss=0.09994, over 19672.00 frames. ], tot_loss[loss=0.2208, simple_loss=0.2968, pruned_loss=0.07243, over 3812405.52 frames. ], batch size: 58, lr: 5.47e-03, grad_scale: 8.0
+2023-04-02 05:50:59,653 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 05:51:14,079 INFO [train.py:903] (2/4) Epoch 15, batch 5700, loss[loss=0.1843, simple_loss=0.2526, pruned_loss=0.05798, over 19729.00 frames. ], tot_loss[loss=0.2218, simple_loss=0.2976, pruned_loss=0.07302, over 3800039.80 frames. ], batch size: 45, lr: 5.47e-03, grad_scale: 8.0
+2023-04-02 05:51:17,701 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.786e+02 5.651e+02 6.610e+02 8.419e+02 1.957e+03, threshold=1.322e+03, percent-clipped=7.0
+2023-04-02 05:51:48,359 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5402, 1.1768, 1.2248, 1.4673, 1.1360, 1.3690, 1.2112, 1.3972],
+       device='cuda:2'), covar=tensor([0.1040, 0.1196, 0.1500, 0.0966, 0.1237, 0.0555, 0.1390, 0.0802],
+       device='cuda:2'), in_proj_covar=tensor([0.0258, 0.0351, 0.0296, 0.0244, 0.0297, 0.0244, 0.0291, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:52:17,922 INFO [train.py:903] (2/4) Epoch 15, batch 5750, loss[loss=0.2346, simple_loss=0.3117, pruned_loss=0.07876, over 19162.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2969, pruned_loss=0.07251, over 3791269.06 frames. ], batch size: 69, lr: 5.47e-03, grad_scale: 8.0
+2023-04-02 05:52:20,181 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 05:52:29,547 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 05:52:33,000 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 05:52:51,683 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8357, 1.2306, 1.4937, 0.5703, 2.0047, 2.4387, 2.1470, 2.5908],
+       device='cuda:2'), covar=tensor([0.1574, 0.3600, 0.3224, 0.2551, 0.0589, 0.0245, 0.0321, 0.0322],
+       device='cuda:2'), in_proj_covar=tensor([0.0259, 0.0304, 0.0334, 0.0253, 0.0225, 0.0170, 0.0208, 0.0224],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 05:53:10,198 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0952, 1.1030, 1.4458, 1.4773, 2.6439, 1.0653, 2.0397, 2.8875],
+       device='cuda:2'), covar=tensor([0.0568, 0.2902, 0.2779, 0.1740, 0.0799, 0.2414, 0.1228, 0.0379],
+       device='cuda:2'), in_proj_covar=tensor([0.0382, 0.0353, 0.0370, 0.0336, 0.0362, 0.0341, 0.0354, 0.0374],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:53:21,273 INFO [train.py:903] (2/4) Epoch 15, batch 5800, loss[loss=0.2343, simple_loss=0.3167, pruned_loss=0.07598, over 19664.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2977, pruned_loss=0.07291, over 3787646.86 frames. ], batch size: 60, lr: 5.46e-03, grad_scale: 8.0
+2023-04-02 05:53:23,486 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.554e+02 5.132e+02 6.075e+02 7.663e+02 2.298e+03, threshold=1.215e+03, percent-clipped=3.0
+2023-04-02 05:54:24,297 INFO [train.py:903] (2/4) Epoch 15, batch 5850, loss[loss=0.2002, simple_loss=0.2896, pruned_loss=0.05541, over 19610.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2977, pruned_loss=0.07279, over 3791339.58 frames. ], batch size: 57, lr: 5.46e-03, grad_scale: 8.0
+2023-04-02 05:54:37,897 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8961, 1.9717, 2.1919, 2.5542, 1.8713, 2.5351, 2.2671, 1.9205],
+       device='cuda:2'), covar=tensor([0.4076, 0.3423, 0.1722, 0.2066, 0.3757, 0.1746, 0.4553, 0.3194],
+       device='cuda:2'), in_proj_covar=tensor([0.0836, 0.0882, 0.0679, 0.0910, 0.0823, 0.0756, 0.0815, 0.0744],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 05:54:52,524 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=101463.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 05:54:58,854 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=101469.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:55:24,201 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=101488.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 05:55:28,446 INFO [train.py:903] (2/4) Epoch 15, batch 5900, loss[loss=0.2185, simple_loss=0.3015, pruned_loss=0.06777, over 19525.00 frames. ], tot_loss[loss=0.222, simple_loss=0.2982, pruned_loss=0.07293, over 3794284.27 frames. ], batch size: 54, lr: 5.46e-03, grad_scale: 8.0
+2023-04-02 05:55:30,755 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.093e+02 5.163e+02 6.557e+02 7.983e+02 1.612e+03, threshold=1.311e+03, percent-clipped=3.0
+2023-04-02 05:55:30,810 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 05:55:52,884 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 05:56:03,834 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8135, 1.4864, 1.4485, 1.7838, 1.4899, 1.5795, 1.5416, 1.7681],
+       device='cuda:2'), covar=tensor([0.1002, 0.1376, 0.1522, 0.0912, 0.1244, 0.0552, 0.1265, 0.0732],
+       device='cuda:2'), in_proj_covar=tensor([0.0259, 0.0352, 0.0296, 0.0245, 0.0297, 0.0244, 0.0291, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 05:56:20,858 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5323, 1.8174, 2.2154, 1.8395, 3.3425, 2.8932, 3.7126, 1.6807],
+       device='cuda:2'), covar=tensor([0.2223, 0.3858, 0.2340, 0.1695, 0.1369, 0.1700, 0.1424, 0.3651],
+       device='cuda:2'), in_proj_covar=tensor([0.0508, 0.0608, 0.0654, 0.0457, 0.0609, 0.0513, 0.0650, 0.0516],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 05:56:30,792 INFO [train.py:903] (2/4) Epoch 15, batch 5950, loss[loss=0.2207, simple_loss=0.2986, pruned_loss=0.07139, over 19469.00 frames. ], tot_loss[loss=0.2229, simple_loss=0.2986, pruned_loss=0.07354, over 3793682.08 frames. ], batch size: 64, lr: 5.46e-03, grad_scale: 8.0
+2023-04-02 05:57:24,057 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=101584.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 05:57:34,460 INFO [train.py:903] (2/4) Epoch 15, batch 6000, loss[loss=0.2264, simple_loss=0.3057, pruned_loss=0.07359, over 19778.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2977, pruned_loss=0.07286, over 3799996.90 frames. ], batch size: 56, lr: 5.46e-03, grad_scale: 8.0
+2023-04-02 05:57:34,460 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 05:57:47,192 INFO [train.py:937] (2/4) Epoch 15, validation: loss=0.1729, simple_loss=0.2735, pruned_loss=0.0362, over 944034.00 frames. 
+2023-04-02 05:57:47,193 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 05:57:49,631 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.269e+02 5.208e+02 6.128e+02 8.316e+02 1.573e+03, threshold=1.226e+03, percent-clipped=3.0
+2023-04-02 05:58:03,656 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.53 vs. limit=5.0
+2023-04-02 05:58:49,959 INFO [train.py:903] (2/4) Epoch 15, batch 6050, loss[loss=0.177, simple_loss=0.2577, pruned_loss=0.04813, over 19750.00 frames. ], tot_loss[loss=0.2212, simple_loss=0.2974, pruned_loss=0.07256, over 3807204.20 frames. ], batch size: 46, lr: 5.46e-03, grad_scale: 8.0
+2023-04-02 05:59:52,012 INFO [train.py:903] (2/4) Epoch 15, batch 6100, loss[loss=0.2003, simple_loss=0.2784, pruned_loss=0.06106, over 19855.00 frames. ], tot_loss[loss=0.2211, simple_loss=0.2971, pruned_loss=0.07256, over 3796480.65 frames. ], batch size: 52, lr: 5.46e-03, grad_scale: 8.0
+2023-04-02 05:59:55,078 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.053e+02 5.047e+02 6.326e+02 7.867e+02 1.574e+03, threshold=1.265e+03, percent-clipped=9.0
+2023-04-02 06:00:05,542 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=101702.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:00:56,516 INFO [train.py:903] (2/4) Epoch 15, batch 6150, loss[loss=0.2114, simple_loss=0.2838, pruned_loss=0.06955, over 19730.00 frames. ], tot_loss[loss=0.222, simple_loss=0.2984, pruned_loss=0.07282, over 3813898.87 frames. ], batch size: 51, lr: 5.46e-03, grad_scale: 8.0
+2023-04-02 06:01:23,856 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 06:01:59,355 INFO [train.py:903] (2/4) Epoch 15, batch 6200, loss[loss=0.251, simple_loss=0.3277, pruned_loss=0.08718, over 17334.00 frames. ], tot_loss[loss=0.2223, simple_loss=0.2985, pruned_loss=0.07304, over 3803127.36 frames. ], batch size: 101, lr: 5.45e-03, grad_scale: 8.0
+2023-04-02 06:02:01,561 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.367e+02 4.959e+02 6.303e+02 7.991e+02 1.526e+03, threshold=1.261e+03, percent-clipped=1.0
+2023-04-02 06:02:57,092 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6463, 1.5032, 1.5155, 2.1548, 1.6845, 2.0568, 2.0275, 1.8344],
+       device='cuda:2'), covar=tensor([0.0817, 0.0910, 0.1019, 0.0795, 0.0868, 0.0689, 0.0829, 0.0637],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0222, 0.0223, 0.0243, 0.0228, 0.0209, 0.0189, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 06:03:00,198 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=101840.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:03:02,065 INFO [train.py:903] (2/4) Epoch 15, batch 6250, loss[loss=0.2329, simple_loss=0.3048, pruned_loss=0.08048, over 19623.00 frames. ], tot_loss[loss=0.2221, simple_loss=0.2986, pruned_loss=0.07274, over 3794555.93 frames. ], batch size: 57, lr: 5.45e-03, grad_scale: 8.0
+2023-04-02 06:03:16,050 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0765, 1.9935, 1.7076, 1.6241, 1.3616, 1.5038, 0.5895, 0.9589],
+       device='cuda:2'), covar=tensor([0.0609, 0.0582, 0.0482, 0.0788, 0.1201, 0.0922, 0.1161, 0.1097],
+       device='cuda:2'), in_proj_covar=tensor([0.0349, 0.0340, 0.0339, 0.0369, 0.0443, 0.0368, 0.0322, 0.0331],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 06:03:30,486 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 06:03:30,826 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=101865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:03:34,284 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7244, 1.8525, 1.6597, 2.6504, 1.9370, 2.5879, 1.9520, 1.4960],
+       device='cuda:2'), covar=tensor([0.4541, 0.4124, 0.2746, 0.2762, 0.4049, 0.2088, 0.5561, 0.4712],
+       device='cuda:2'), in_proj_covar=tensor([0.0829, 0.0875, 0.0674, 0.0903, 0.0816, 0.0751, 0.0807, 0.0740],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 06:04:04,521 INFO [train.py:903] (2/4) Epoch 15, batch 6300, loss[loss=0.2524, simple_loss=0.3208, pruned_loss=0.09196, over 19676.00 frames. ], tot_loss[loss=0.2227, simple_loss=0.2994, pruned_loss=0.07306, over 3797846.98 frames. ], batch size: 60, lr: 5.45e-03, grad_scale: 4.0
+2023-04-02 06:04:08,000 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.483e+02 5.666e+02 6.616e+02 7.934e+02 1.912e+03, threshold=1.323e+03, percent-clipped=2.0
+2023-04-02 06:05:03,703 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=101938.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 06:05:08,246 INFO [train.py:903] (2/4) Epoch 15, batch 6350, loss[loss=0.2063, simple_loss=0.2841, pruned_loss=0.06429, over 19830.00 frames. ], tot_loss[loss=0.2207, simple_loss=0.2975, pruned_loss=0.072, over 3794046.69 frames. ], batch size: 52, lr: 5.45e-03, grad_scale: 2.0
+2023-04-02 06:05:50,371 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
+2023-04-02 06:06:11,823 INFO [train.py:903] (2/4) Epoch 15, batch 6400, loss[loss=0.2078, simple_loss=0.2791, pruned_loss=0.06824, over 19348.00 frames. ], tot_loss[loss=0.2212, simple_loss=0.298, pruned_loss=0.07219, over 3788894.62 frames. ], batch size: 47, lr: 5.45e-03, grad_scale: 4.0
+2023-04-02 06:06:13,933 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-02 06:06:16,593 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.303e+02 4.874e+02 5.936e+02 7.490e+02 2.019e+03, threshold=1.187e+03, percent-clipped=4.0
+2023-04-02 06:06:30,759 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=102005.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:06:52,974 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-02 06:07:17,097 INFO [train.py:903] (2/4) Epoch 15, batch 6450, loss[loss=0.241, simple_loss=0.3227, pruned_loss=0.07972, over 19676.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2972, pruned_loss=0.07193, over 3796538.34 frames. ], batch size: 60, lr: 5.45e-03, grad_scale: 4.0
+2023-04-02 06:07:23,170 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=102046.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:07:47,712 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3302, 1.1493, 1.5702, 1.4185, 2.5770, 3.5999, 3.3022, 3.8668],
+       device='cuda:2'), covar=tensor([0.1598, 0.4801, 0.4163, 0.2113, 0.0675, 0.0234, 0.0325, 0.0262],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0309, 0.0337, 0.0256, 0.0228, 0.0172, 0.0210, 0.0226],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 06:08:03,622 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 06:08:20,697 INFO [train.py:903] (2/4) Epoch 15, batch 6500, loss[loss=0.2206, simple_loss=0.3013, pruned_loss=0.06998, over 19330.00 frames. ], tot_loss[loss=0.2207, simple_loss=0.297, pruned_loss=0.0722, over 3795287.17 frames. ], batch size: 66, lr: 5.45e-03, grad_scale: 4.0
+2023-04-02 06:08:25,526 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.034e+02 4.860e+02 6.100e+02 7.866e+02 2.286e+03, threshold=1.220e+03, percent-clipped=9.0
+2023-04-02 06:08:26,641 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 06:09:23,525 INFO [train.py:903] (2/4) Epoch 15, batch 6550, loss[loss=0.2035, simple_loss=0.279, pruned_loss=0.06401, over 19736.00 frames. ], tot_loss[loss=0.2206, simple_loss=0.2971, pruned_loss=0.07203, over 3794837.71 frames. ], batch size: 51, lr: 5.44e-03, grad_scale: 4.0
+2023-04-02 06:09:47,216 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=102161.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:10:26,474 INFO [train.py:903] (2/4) Epoch 15, batch 6600, loss[loss=0.1889, simple_loss=0.2709, pruned_loss=0.05343, over 19736.00 frames. ], tot_loss[loss=0.2211, simple_loss=0.2973, pruned_loss=0.07244, over 3804025.36 frames. ], batch size: 51, lr: 5.44e-03, grad_scale: 4.0
+2023-04-02 06:10:31,177 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.095e+02 4.937e+02 6.611e+02 8.175e+02 1.787e+03, threshold=1.322e+03, percent-clipped=6.0
+2023-04-02 06:10:43,365 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7492, 4.8222, 5.5048, 5.4947, 1.9754, 5.1150, 4.4902, 5.1682],
+       device='cuda:2'), covar=tensor([0.1376, 0.1244, 0.0560, 0.0528, 0.5784, 0.0699, 0.0544, 0.1005],
+       device='cuda:2'), in_proj_covar=tensor([0.0737, 0.0671, 0.0880, 0.0756, 0.0785, 0.0628, 0.0528, 0.0816],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 06:11:29,869 INFO [train.py:903] (2/4) Epoch 15, batch 6650, loss[loss=0.1849, simple_loss=0.259, pruned_loss=0.05538, over 19759.00 frames. ], tot_loss[loss=0.2208, simple_loss=0.297, pruned_loss=0.07231, over 3795503.65 frames. ], batch size: 45, lr: 5.44e-03, grad_scale: 4.0
+2023-04-02 06:11:44,401 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-02 06:12:20,500 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=102282.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 06:12:33,709 INFO [train.py:903] (2/4) Epoch 15, batch 6700, loss[loss=0.2082, simple_loss=0.2892, pruned_loss=0.06356, over 19761.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.297, pruned_loss=0.07235, over 3807670.45 frames. ], batch size: 54, lr: 5.44e-03, grad_scale: 4.0
+2023-04-02 06:12:38,443 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.247e+02 5.015e+02 6.423e+02 7.841e+02 1.581e+03, threshold=1.285e+03, percent-clipped=1.0
+2023-04-02 06:13:32,265 INFO [train.py:903] (2/4) Epoch 15, batch 6750, loss[loss=0.2101, simple_loss=0.2837, pruned_loss=0.06829, over 19813.00 frames. ], tot_loss[loss=0.2192, simple_loss=0.2959, pruned_loss=0.07126, over 3806348.90 frames. ], batch size: 49, lr: 5.44e-03, grad_scale: 4.0
+2023-04-02 06:13:40,349 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=102349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:14:30,407 INFO [train.py:903] (2/4) Epoch 15, batch 6800, loss[loss=0.2272, simple_loss=0.2932, pruned_loss=0.08058, over 19735.00 frames. ], tot_loss[loss=0.2196, simple_loss=0.2959, pruned_loss=0.07159, over 3806850.54 frames. ], batch size: 51, lr: 5.44e-03, grad_scale: 8.0
+2023-04-02 06:14:35,330 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.506e+02 4.944e+02 6.022e+02 7.665e+02 3.022e+03, threshold=1.204e+03, percent-clipped=5.0
+2023-04-02 06:14:37,034 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=102397.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 06:14:57,423 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=102417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:15:15,731 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 06:15:16,203 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 06:15:19,097 INFO [train.py:903] (2/4) Epoch 16, batch 0, loss[loss=0.2415, simple_loss=0.3142, pruned_loss=0.08437, over 19511.00 frames. ], tot_loss[loss=0.2415, simple_loss=0.3142, pruned_loss=0.08437, over 19511.00 frames. ], batch size: 54, lr: 5.26e-03, grad_scale: 8.0
+2023-04-02 06:15:19,097 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 06:15:29,721 INFO [train.py:937] (2/4) Epoch 16, validation: loss=0.1737, simple_loss=0.2745, pruned_loss=0.03646, over 944034.00 frames. 
+2023-04-02 06:15:29,722 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 06:15:45,603 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 06:15:58,388 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=102442.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:16:06,655 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7048, 1.5262, 1.5866, 2.1933, 1.7533, 2.0744, 2.1462, 1.8974],
+       device='cuda:2'), covar=tensor([0.0795, 0.0946, 0.0992, 0.0754, 0.0835, 0.0719, 0.0841, 0.0649],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0222, 0.0222, 0.0243, 0.0226, 0.0209, 0.0189, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 06:16:24,721 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=102464.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:16:33,067 INFO [train.py:903] (2/4) Epoch 16, batch 50, loss[loss=0.2787, simple_loss=0.3363, pruned_loss=0.1106, over 13477.00 frames. ], tot_loss[loss=0.2227, simple_loss=0.3004, pruned_loss=0.07244, over 858652.12 frames. ], batch size: 136, lr: 5.26e-03, grad_scale: 8.0
+2023-04-02 06:17:04,310 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.709e+02 4.865e+02 6.426e+02 8.395e+02 1.744e+03, threshold=1.285e+03, percent-clipped=5.0
+2023-04-02 06:17:08,775 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 06:17:29,605 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5563, 1.1902, 1.4500, 1.4836, 3.0761, 1.0113, 2.3315, 3.4500],
+       device='cuda:2'), covar=tensor([0.0496, 0.3133, 0.3047, 0.1937, 0.0769, 0.2663, 0.1282, 0.0293],
+       device='cuda:2'), in_proj_covar=tensor([0.0382, 0.0350, 0.0369, 0.0334, 0.0359, 0.0338, 0.0350, 0.0374],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:17:33,685 INFO [train.py:903] (2/4) Epoch 16, batch 100, loss[loss=0.2443, simple_loss=0.318, pruned_loss=0.08531, over 19652.00 frames. ], tot_loss[loss=0.2221, simple_loss=0.3002, pruned_loss=0.07195, over 1525010.89 frames. ], batch size: 53, lr: 5.26e-03, grad_scale: 8.0
+2023-04-02 06:17:47,707 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 06:18:13,836 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2388, 2.2822, 2.4291, 3.1913, 2.2440, 3.0126, 2.6164, 2.2779],
+       device='cuda:2'), covar=tensor([0.4083, 0.3748, 0.1692, 0.2195, 0.4087, 0.1849, 0.4258, 0.2990],
+       device='cuda:2'), in_proj_covar=tensor([0.0833, 0.0881, 0.0678, 0.0903, 0.0821, 0.0756, 0.0811, 0.0743],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 06:18:34,760 INFO [train.py:903] (2/4) Epoch 16, batch 150, loss[loss=0.2211, simple_loss=0.3048, pruned_loss=0.06868, over 19343.00 frames. ], tot_loss[loss=0.2217, simple_loss=0.2996, pruned_loss=0.07189, over 2048375.21 frames. ], batch size: 66, lr: 5.26e-03, grad_scale: 8.0
+2023-04-02 06:19:06,752 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9355, 1.7069, 1.5762, 2.0225, 1.7652, 1.7064, 1.6173, 1.9334],
+       device='cuda:2'), covar=tensor([0.1016, 0.1524, 0.1490, 0.0981, 0.1322, 0.0557, 0.1311, 0.0730],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0352, 0.0298, 0.0246, 0.0299, 0.0246, 0.0292, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:19:07,437 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.312e+02 5.578e+02 6.638e+02 8.298e+02 1.665e+03, threshold=1.328e+03, percent-clipped=4.0
+2023-04-02 06:19:36,774 INFO [train.py:903] (2/4) Epoch 16, batch 200, loss[loss=0.2156, simple_loss=0.2936, pruned_loss=0.06876, over 19847.00 frames. ], tot_loss[loss=0.2202, simple_loss=0.2985, pruned_loss=0.07092, over 2452933.65 frames. ], batch size: 52, lr: 5.26e-03, grad_scale: 8.0
+2023-04-02 06:19:38,845 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 06:20:18,514 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=102653.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 06:20:29,351 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3699, 3.1082, 2.4850, 2.4063, 2.2167, 2.6959, 1.1824, 2.3014],
+       device='cuda:2'), covar=tensor([0.0522, 0.0476, 0.0500, 0.0847, 0.0861, 0.0901, 0.1082, 0.0812],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0342, 0.0339, 0.0371, 0.0444, 0.0371, 0.0324, 0.0333],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 06:20:38,288 INFO [train.py:903] (2/4) Epoch 16, batch 250, loss[loss=0.219, simple_loss=0.2804, pruned_loss=0.07886, over 18252.00 frames. ], tot_loss[loss=0.2194, simple_loss=0.2972, pruned_loss=0.07078, over 2769721.58 frames. ], batch size: 40, lr: 5.26e-03, grad_scale: 8.0
+2023-04-02 06:20:43,974 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
+2023-04-02 06:20:51,646 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=102678.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 06:21:12,173 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.486e+02 5.293e+02 5.976e+02 7.347e+02 1.638e+03, threshold=1.195e+03, percent-clipped=3.0
+2023-04-02 06:21:43,452 INFO [train.py:903] (2/4) Epoch 16, batch 300, loss[loss=0.2194, simple_loss=0.2961, pruned_loss=0.07138, over 19731.00 frames. ], tot_loss[loss=0.2177, simple_loss=0.2956, pruned_loss=0.06993, over 3012856.53 frames. ], batch size: 51, lr: 5.26e-03, grad_scale: 8.0
+2023-04-02 06:21:43,887 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=102720.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:22:13,614 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=102745.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:22:21,910 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8861, 1.9701, 2.1393, 2.6361, 1.8805, 2.4449, 2.2806, 2.0073],
+       device='cuda:2'), covar=tensor([0.4012, 0.3492, 0.1770, 0.2186, 0.3749, 0.1927, 0.4260, 0.3054],
+       device='cuda:2'), in_proj_covar=tensor([0.0840, 0.0887, 0.0680, 0.0909, 0.0826, 0.0759, 0.0816, 0.0745],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 06:22:44,947 INFO [train.py:903] (2/4) Epoch 16, batch 350, loss[loss=0.221, simple_loss=0.2997, pruned_loss=0.07112, over 19689.00 frames. ], tot_loss[loss=0.2169, simple_loss=0.2948, pruned_loss=0.06952, over 3204964.96 frames. ], batch size: 59, lr: 5.25e-03, grad_scale: 8.0
+2023-04-02 06:22:47,911 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4207, 1.4914, 1.7394, 1.5961, 2.5016, 2.2174, 2.5310, 1.1407],
+       device='cuda:2'), covar=tensor([0.2264, 0.4040, 0.2391, 0.1858, 0.1413, 0.1967, 0.1376, 0.3920],
+       device='cuda:2'), in_proj_covar=tensor([0.0500, 0.0597, 0.0650, 0.0453, 0.0602, 0.0509, 0.0648, 0.0511],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 06:22:50,835 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 06:23:16,122 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.122e+02 5.254e+02 6.186e+02 7.503e+02 2.205e+03, threshold=1.237e+03, percent-clipped=4.0
+2023-04-02 06:23:39,984 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
+2023-04-02 06:23:47,563 INFO [train.py:903] (2/4) Epoch 16, batch 400, loss[loss=0.1982, simple_loss=0.2881, pruned_loss=0.05418, over 19676.00 frames. ], tot_loss[loss=0.2178, simple_loss=0.2952, pruned_loss=0.07019, over 3333996.28 frames. ], batch size: 55, lr: 5.25e-03, grad_scale: 8.0
+2023-04-02 06:24:49,425 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=102869.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:24:50,278 INFO [train.py:903] (2/4) Epoch 16, batch 450, loss[loss=0.2398, simple_loss=0.321, pruned_loss=0.07929, over 19553.00 frames. ], tot_loss[loss=0.2194, simple_loss=0.2969, pruned_loss=0.07099, over 3447149.72 frames. ], batch size: 61, lr: 5.25e-03, grad_scale: 8.0
+2023-04-02 06:25:11,599 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 06:25:22,282 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.385e+02 4.837e+02 5.955e+02 8.003e+02 1.401e+03, threshold=1.191e+03, percent-clipped=4.0
+2023-04-02 06:25:24,671 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 06:25:25,907 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 06:25:30,911 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2599, 1.3213, 1.2839, 1.0992, 1.0491, 1.1668, 0.1142, 0.4574],
+       device='cuda:2'), covar=tensor([0.0516, 0.0498, 0.0304, 0.0423, 0.0962, 0.0469, 0.0959, 0.0826],
+       device='cuda:2'), in_proj_covar=tensor([0.0347, 0.0338, 0.0335, 0.0367, 0.0438, 0.0368, 0.0321, 0.0330],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 06:25:32,993 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=102905.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:25:52,012 INFO [train.py:903] (2/4) Epoch 16, batch 500, loss[loss=0.2595, simple_loss=0.3341, pruned_loss=0.09243, over 18127.00 frames. ], tot_loss[loss=0.2208, simple_loss=0.2982, pruned_loss=0.07174, over 3525457.72 frames. ], batch size: 83, lr: 5.25e-03, grad_scale: 8.0
+2023-04-02 06:26:54,162 INFO [train.py:903] (2/4) Epoch 16, batch 550, loss[loss=0.1803, simple_loss=0.2549, pruned_loss=0.05284, over 19300.00 frames. ], tot_loss[loss=0.2213, simple_loss=0.2982, pruned_loss=0.07216, over 3589776.17 frames. ], batch size: 44, lr: 5.25e-03, grad_scale: 8.0
+2023-04-02 06:27:24,959 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.789e+02 5.227e+02 6.443e+02 7.702e+02 1.436e+03, threshold=1.289e+03, percent-clipped=3.0
+2023-04-02 06:27:54,425 INFO [train.py:903] (2/4) Epoch 16, batch 600, loss[loss=0.2015, simple_loss=0.2876, pruned_loss=0.05772, over 19659.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2977, pruned_loss=0.07166, over 3647887.60 frames. ], batch size: 55, lr: 5.25e-03, grad_scale: 8.0
+2023-04-02 06:28:37,060 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 06:28:55,607 INFO [train.py:903] (2/4) Epoch 16, batch 650, loss[loss=0.2318, simple_loss=0.305, pruned_loss=0.07935, over 19068.00 frames. ], tot_loss[loss=0.2199, simple_loss=0.2969, pruned_loss=0.0714, over 3681784.44 frames. ], batch size: 69, lr: 5.25e-03, grad_scale: 8.0
+2023-04-02 06:29:28,783 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.210e+02 4.715e+02 6.008e+02 7.942e+02 1.451e+03, threshold=1.202e+03, percent-clipped=1.0
+2023-04-02 06:29:53,925 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103116.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:29:57,401 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6454, 4.1294, 4.2956, 4.3000, 1.5914, 4.0203, 3.5786, 4.0125],
+       device='cuda:2'), covar=tensor([0.1408, 0.0704, 0.0566, 0.0589, 0.5267, 0.0641, 0.0611, 0.1051],
+       device='cuda:2'), in_proj_covar=tensor([0.0733, 0.0666, 0.0876, 0.0749, 0.0775, 0.0619, 0.0523, 0.0804],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 06:29:58,299 INFO [train.py:903] (2/4) Epoch 16, batch 700, loss[loss=0.2282, simple_loss=0.2924, pruned_loss=0.08201, over 19757.00 frames. ], tot_loss[loss=0.2204, simple_loss=0.2975, pruned_loss=0.07161, over 3721633.08 frames. ], batch size: 47, lr: 5.25e-03, grad_scale: 8.0
+2023-04-02 06:30:35,144 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103150.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:31:00,301 INFO [train.py:903] (2/4) Epoch 16, batch 750, loss[loss=0.2139, simple_loss=0.2744, pruned_loss=0.07663, over 19761.00 frames. ], tot_loss[loss=0.2212, simple_loss=0.298, pruned_loss=0.0722, over 3758341.93 frames. ], batch size: 47, lr: 5.24e-03, grad_scale: 8.0
+2023-04-02 06:31:33,684 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.142e+02 5.236e+02 6.262e+02 8.063e+02 1.865e+03, threshold=1.252e+03, percent-clipped=5.0
+2023-04-02 06:31:55,091 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103213.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:32:03,181 INFO [train.py:903] (2/4) Epoch 16, batch 800, loss[loss=0.2275, simple_loss=0.3043, pruned_loss=0.07538, over 19788.00 frames. ], tot_loss[loss=0.2214, simple_loss=0.2983, pruned_loss=0.07229, over 3778708.40 frames. ], batch size: 56, lr: 5.24e-03, grad_scale: 8.0
+2023-04-02 06:32:18,133 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 06:32:36,481 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4466, 2.2355, 2.1005, 2.7715, 2.2866, 2.0863, 2.3870, 2.5724],
+       device='cuda:2'), covar=tensor([0.0904, 0.1625, 0.1387, 0.0860, 0.1313, 0.0525, 0.1099, 0.0618],
+       device='cuda:2'), in_proj_covar=tensor([0.0260, 0.0352, 0.0296, 0.0244, 0.0298, 0.0245, 0.0292, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:32:38,482 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103249.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:33:04,747 INFO [train.py:903] (2/4) Epoch 16, batch 850, loss[loss=0.2525, simple_loss=0.3198, pruned_loss=0.09258, over 13539.00 frames. ], tot_loss[loss=0.2203, simple_loss=0.2974, pruned_loss=0.0716, over 3788435.50 frames. ], batch size: 136, lr: 5.24e-03, grad_scale: 8.0
+2023-04-02 06:33:38,413 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.826e+02 4.865e+02 6.263e+02 7.829e+02 1.710e+03, threshold=1.253e+03, percent-clipped=2.0
+2023-04-02 06:33:57,932 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 06:34:06,716 INFO [train.py:903] (2/4) Epoch 16, batch 900, loss[loss=0.2213, simple_loss=0.3053, pruned_loss=0.06868, over 19524.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2974, pruned_loss=0.07143, over 3792416.37 frames. ], batch size: 56, lr: 5.24e-03, grad_scale: 8.0
+2023-04-02 06:34:17,418 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103328.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:34:52,813 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.2122, 2.2397, 2.2602, 2.0110, 4.6552, 1.3277, 2.7745, 5.1287],
+       device='cuda:2'), covar=tensor([0.0338, 0.2231, 0.2290, 0.1745, 0.0685, 0.2434, 0.1174, 0.0131],
+       device='cuda:2'), in_proj_covar=tensor([0.0385, 0.0351, 0.0370, 0.0334, 0.0361, 0.0340, 0.0349, 0.0376],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:35:01,526 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103364.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:35:08,171 INFO [train.py:903] (2/4) Epoch 16, batch 950, loss[loss=0.2114, simple_loss=0.2961, pruned_loss=0.06339, over 19680.00 frames. ], tot_loss[loss=0.2195, simple_loss=0.2971, pruned_loss=0.07096, over 3800934.98 frames. ], batch size: 58, lr: 5.24e-03, grad_scale: 8.0
+2023-04-02 06:35:13,559 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 06:35:27,478 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103384.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 06:35:34,310 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9041, 1.5109, 1.6103, 1.7099, 3.3544, 1.2818, 2.4839, 3.9041],
+       device='cuda:2'), covar=tensor([0.0458, 0.2662, 0.2629, 0.1817, 0.0784, 0.2309, 0.1154, 0.0217],
+       device='cuda:2'), in_proj_covar=tensor([0.0385, 0.0352, 0.0370, 0.0334, 0.0361, 0.0339, 0.0350, 0.0376],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:35:40,826 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.146e+02 5.367e+02 6.234e+02 7.823e+02 2.113e+03, threshold=1.247e+03, percent-clipped=3.0
+2023-04-02 06:36:12,138 INFO [train.py:903] (2/4) Epoch 16, batch 1000, loss[loss=0.315, simple_loss=0.3642, pruned_loss=0.1329, over 14087.00 frames. ], tot_loss[loss=0.2204, simple_loss=0.2976, pruned_loss=0.07159, over 3791883.02 frames. ], batch size: 136, lr: 5.24e-03, grad_scale: 8.0
+2023-04-02 06:37:03,129 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103460.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:37:07,756 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 06:37:14,593 INFO [train.py:903] (2/4) Epoch 16, batch 1050, loss[loss=0.1932, simple_loss=0.2766, pruned_loss=0.05494, over 19844.00 frames. ], tot_loss[loss=0.2195, simple_loss=0.2967, pruned_loss=0.07117, over 3800052.11 frames. ], batch size: 52, lr: 5.24e-03, grad_scale: 8.0
+2023-04-02 06:37:43,711 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103494.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:37:45,894 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.718e+02 5.497e+02 6.450e+02 8.583e+02 2.663e+03, threshold=1.290e+03, percent-clipped=6.0
+2023-04-02 06:37:49,197 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 06:38:15,969 INFO [train.py:903] (2/4) Epoch 16, batch 1100, loss[loss=0.2456, simple_loss=0.3204, pruned_loss=0.08536, over 19288.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2969, pruned_loss=0.07161, over 3805107.54 frames. ], batch size: 66, lr: 5.24e-03, grad_scale: 8.0
+2023-04-02 06:38:54,823 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3020, 2.1321, 2.0425, 2.5458, 2.3133, 2.0710, 2.1968, 2.3578],
+       device='cuda:2'), covar=tensor([0.0949, 0.1606, 0.1297, 0.0881, 0.1241, 0.0505, 0.1128, 0.0612],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0355, 0.0298, 0.0247, 0.0301, 0.0247, 0.0294, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:39:18,052 INFO [train.py:903] (2/4) Epoch 16, batch 1150, loss[loss=0.2257, simple_loss=0.2959, pruned_loss=0.07777, over 19655.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2974, pruned_loss=0.07177, over 3790778.33 frames. ], batch size: 53, lr: 5.23e-03, grad_scale: 8.0
+2023-04-02 06:39:25,964 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103575.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:39:37,331 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103584.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:39:50,619 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.809e+02 5.106e+02 6.190e+02 8.719e+02 1.567e+03, threshold=1.238e+03, percent-clipped=4.0
+2023-04-02 06:40:06,763 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103609.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:40:06,805 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103609.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:40:21,175 INFO [train.py:903] (2/4) Epoch 16, batch 1200, loss[loss=0.2118, simple_loss=0.2913, pruned_loss=0.06611, over 17257.00 frames. ], tot_loss[loss=0.2204, simple_loss=0.2975, pruned_loss=0.07165, over 3797116.38 frames. ], batch size: 101, lr: 5.23e-03, grad_scale: 8.0
+2023-04-02 06:40:21,633 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103620.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:40:52,887 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103645.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:40:54,976 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 06:41:24,585 INFO [train.py:903] (2/4) Epoch 16, batch 1250, loss[loss=0.2238, simple_loss=0.302, pruned_loss=0.07273, over 19309.00 frames. ], tot_loss[loss=0.2194, simple_loss=0.2964, pruned_loss=0.07118, over 3804879.29 frames. ], batch size: 66, lr: 5.23e-03, grad_scale: 8.0
+2023-04-02 06:41:56,590 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.406e+02 4.955e+02 6.144e+02 7.729e+02 1.641e+03, threshold=1.229e+03, percent-clipped=4.0
+2023-04-02 06:42:00,277 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8046, 1.9559, 2.0713, 1.7538, 4.3084, 1.2044, 2.5096, 4.8310],
+       device='cuda:2'), covar=tensor([0.0389, 0.2385, 0.2300, 0.1829, 0.0731, 0.2412, 0.1299, 0.0142],
+       device='cuda:2'), in_proj_covar=tensor([0.0383, 0.0351, 0.0368, 0.0333, 0.0359, 0.0339, 0.0348, 0.0375],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:42:24,682 INFO [train.py:903] (2/4) Epoch 16, batch 1300, loss[loss=0.2003, simple_loss=0.2739, pruned_loss=0.06337, over 19408.00 frames. ], tot_loss[loss=0.22, simple_loss=0.297, pruned_loss=0.0715, over 3815105.23 frames. ], batch size: 48, lr: 5.23e-03, grad_scale: 8.0
+2023-04-02 06:42:34,232 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0652, 3.5914, 1.9998, 2.1685, 3.1922, 1.7706, 1.5713, 2.1677],
+       device='cuda:2'), covar=tensor([0.1241, 0.0484, 0.1022, 0.0774, 0.0499, 0.1096, 0.0920, 0.0636],
+       device='cuda:2'), in_proj_covar=tensor([0.0297, 0.0309, 0.0329, 0.0255, 0.0243, 0.0329, 0.0296, 0.0269],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:42:35,157 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=103728.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 06:43:12,195 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103758.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:43:26,062 INFO [train.py:903] (2/4) Epoch 16, batch 1350, loss[loss=0.2368, simple_loss=0.3136, pruned_loss=0.08005, over 19775.00 frames. ], tot_loss[loss=0.2218, simple_loss=0.2982, pruned_loss=0.07273, over 3801022.26 frames. ], batch size: 56, lr: 5.23e-03, grad_scale: 8.0
+2023-04-02 06:43:43,840 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103783.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:43:59,438 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.194e+02 5.214e+02 6.633e+02 9.392e+02 2.118e+03, threshold=1.327e+03, percent-clipped=8.0
+2023-04-02 06:44:30,118 INFO [train.py:903] (2/4) Epoch 16, batch 1400, loss[loss=0.2125, simple_loss=0.2865, pruned_loss=0.06923, over 19601.00 frames. ], tot_loss[loss=0.2208, simple_loss=0.2972, pruned_loss=0.07224, over 3816625.66 frames. ], batch size: 52, lr: 5.23e-03, grad_scale: 8.0
+2023-04-02 06:44:42,081 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.03 vs. limit=5.0
+2023-04-02 06:44:43,975 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103831.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:44:57,957 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=103843.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 06:45:14,484 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103856.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:45:26,690 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=103865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:45:32,154 INFO [train.py:903] (2/4) Epoch 16, batch 1450, loss[loss=0.2277, simple_loss=0.3059, pruned_loss=0.07476, over 19765.00 frames. ], tot_loss[loss=0.2223, simple_loss=0.2985, pruned_loss=0.07307, over 3807191.91 frames. ], batch size: 54, lr: 5.23e-03, grad_scale: 8.0
+2023-04-02 06:45:32,187 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 06:45:56,427 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=103890.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:46:01,021 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=103894.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:46:03,877 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.072e+02 4.634e+02 5.962e+02 7.073e+02 1.523e+03, threshold=1.192e+03, percent-clipped=2.0
+2023-04-02 06:46:33,191 INFO [train.py:903] (2/4) Epoch 16, batch 1500, loss[loss=0.2783, simple_loss=0.3456, pruned_loss=0.1055, over 18054.00 frames. ], tot_loss[loss=0.2211, simple_loss=0.2978, pruned_loss=0.07218, over 3826286.87 frames. ], batch size: 83, lr: 5.23e-03, grad_scale: 16.0
+2023-04-02 06:47:35,228 INFO [train.py:903] (2/4) Epoch 16, batch 1550, loss[loss=0.2302, simple_loss=0.3124, pruned_loss=0.07396, over 19673.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.297, pruned_loss=0.07238, over 3828739.81 frames. ], batch size: 58, lr: 5.22e-03, grad_scale: 8.0
+2023-04-02 06:48:05,232 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8393, 1.3064, 1.0362, 0.9294, 1.1695, 0.9691, 0.8806, 1.2370],
+       device='cuda:2'), covar=tensor([0.0621, 0.0832, 0.1072, 0.0704, 0.0514, 0.1198, 0.0606, 0.0430],
+       device='cuda:2'), in_proj_covar=tensor([0.0299, 0.0310, 0.0331, 0.0255, 0.0244, 0.0333, 0.0297, 0.0268],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:48:09,262 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.399e+02 5.500e+02 6.727e+02 8.636e+02 1.580e+03, threshold=1.345e+03, percent-clipped=8.0
+2023-04-02 06:48:24,304 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104008.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:48:32,648 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104015.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:48:39,347 INFO [train.py:903] (2/4) Epoch 16, batch 1600, loss[loss=0.2344, simple_loss=0.3068, pruned_loss=0.08106, over 18346.00 frames. ], tot_loss[loss=0.2219, simple_loss=0.2985, pruned_loss=0.0727, over 3814234.59 frames. ], batch size: 83, lr: 5.22e-03, grad_scale: 8.0
+2023-04-02 06:49:05,532 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 06:49:38,452 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=104067.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:49:41,613 INFO [train.py:903] (2/4) Epoch 16, batch 1650, loss[loss=0.1864, simple_loss=0.2654, pruned_loss=0.0537, over 19476.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.297, pruned_loss=0.07196, over 3821698.13 frames. ], batch size: 49, lr: 5.22e-03, grad_scale: 8.0
+2023-04-02 06:50:14,817 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.025e+02 5.150e+02 6.179e+02 7.587e+02 1.568e+03, threshold=1.236e+03, percent-clipped=4.0
+2023-04-02 06:50:18,605 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104099.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 06:50:20,720 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8520, 4.9277, 5.6298, 5.5925, 2.1224, 5.2485, 4.4966, 5.2617],
+       device='cuda:2'), covar=tensor([0.1428, 0.0936, 0.0513, 0.0517, 0.5490, 0.0595, 0.0558, 0.1088],
+       device='cuda:2'), in_proj_covar=tensor([0.0737, 0.0673, 0.0876, 0.0751, 0.0779, 0.0623, 0.0524, 0.0805],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 06:50:22,746 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104102.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:50:43,586 INFO [train.py:903] (2/4) Epoch 16, batch 1700, loss[loss=0.2535, simple_loss=0.3234, pruned_loss=0.09181, over 19536.00 frames. ], tot_loss[loss=0.2202, simple_loss=0.2965, pruned_loss=0.07201, over 3816705.88 frames. ], batch size: 54, lr: 5.22e-03, grad_scale: 8.0
+2023-04-02 06:50:48,597 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=104124.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 06:50:51,813 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104127.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:51:25,789 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 06:51:44,974 INFO [train.py:903] (2/4) Epoch 16, batch 1750, loss[loss=0.1832, simple_loss=0.2565, pruned_loss=0.05494, over 19746.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2963, pruned_loss=0.07231, over 3799667.74 frames. ], batch size: 45, lr: 5.22e-03, grad_scale: 8.0
+2023-04-02 06:52:19,020 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.135e+02 4.884e+02 5.867e+02 6.930e+02 2.034e+03, threshold=1.173e+03, percent-clipped=2.0
+2023-04-02 06:52:43,901 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.47 vs. limit=2.0
+2023-04-02 06:52:45,577 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104217.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:52:48,730 INFO [train.py:903] (2/4) Epoch 16, batch 1800, loss[loss=0.1894, simple_loss=0.2772, pruned_loss=0.05079, over 19776.00 frames. ], tot_loss[loss=0.2219, simple_loss=0.2979, pruned_loss=0.07298, over 3770166.08 frames. ], batch size: 54, lr: 5.22e-03, grad_scale: 8.0
+2023-04-02 06:53:09,935 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104238.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:53:14,847 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104242.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:53:46,271 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 06:53:49,826 INFO [train.py:903] (2/4) Epoch 16, batch 1850, loss[loss=0.2026, simple_loss=0.2882, pruned_loss=0.05852, over 19396.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2967, pruned_loss=0.0721, over 3784749.38 frames. ], batch size: 70, lr: 5.22e-03, grad_scale: 8.0
+2023-04-02 06:53:56,750 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7595, 4.3671, 2.7268, 3.8004, 0.9659, 4.2187, 4.1509, 4.2594],
+       device='cuda:2'), covar=tensor([0.0548, 0.0890, 0.1898, 0.0775, 0.3947, 0.0663, 0.0787, 0.0994],
+       device='cuda:2'), in_proj_covar=tensor([0.0469, 0.0383, 0.0461, 0.0331, 0.0391, 0.0397, 0.0393, 0.0429],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 06:54:21,805 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 06:54:22,921 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.793e+02 5.248e+02 6.749e+02 7.716e+02 1.558e+03, threshold=1.350e+03, percent-clipped=5.0
+2023-04-02 06:54:51,925 INFO [train.py:903] (2/4) Epoch 16, batch 1900, loss[loss=0.2402, simple_loss=0.3154, pruned_loss=0.08246, over 19321.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2969, pruned_loss=0.07203, over 3791327.20 frames. ], batch size: 70, lr: 5.22e-03, grad_scale: 4.0
+2023-04-02 06:55:09,087 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 06:55:15,659 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 06:55:31,879 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104352.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:55:34,088 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104353.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:55:39,886 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 06:55:41,202 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104359.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:55:53,980 INFO [train.py:903] (2/4) Epoch 16, batch 1950, loss[loss=0.2307, simple_loss=0.3122, pruned_loss=0.07463, over 19012.00 frames. ], tot_loss[loss=0.2202, simple_loss=0.2972, pruned_loss=0.07162, over 3807097.19 frames. ], batch size: 69, lr: 5.21e-03, grad_scale: 4.0
+2023-04-02 06:56:30,731 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.975e+02 4.688e+02 6.377e+02 8.120e+02 1.703e+03, threshold=1.275e+03, percent-clipped=4.0
+2023-04-02 06:56:38,151 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.44 vs. limit=5.0
+2023-04-02 06:56:46,831 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=104411.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:56:58,261 INFO [train.py:903] (2/4) Epoch 16, batch 2000, loss[loss=0.2001, simple_loss=0.2719, pruned_loss=0.06413, over 19608.00 frames. ], tot_loss[loss=0.2187, simple_loss=0.2958, pruned_loss=0.0708, over 3811120.50 frames. ], batch size: 50, lr: 5.21e-03, grad_scale: 8.0
+2023-04-02 06:57:56,617 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1892, 2.2407, 2.4142, 3.0827, 2.2338, 3.0031, 2.6277, 2.1224],
+       device='cuda:2'), covar=tensor([0.3802, 0.3707, 0.1674, 0.2213, 0.3987, 0.1763, 0.3883, 0.3128],
+       device='cuda:2'), in_proj_covar=tensor([0.0840, 0.0889, 0.0680, 0.0907, 0.0823, 0.0759, 0.0812, 0.0743],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 06:57:57,342 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 06:57:57,650 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104467.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:58:00,766 INFO [train.py:903] (2/4) Epoch 16, batch 2050, loss[loss=0.1744, simple_loss=0.2494, pruned_loss=0.04969, over 19759.00 frames. ], tot_loss[loss=0.2196, simple_loss=0.2969, pruned_loss=0.07121, over 3798240.36 frames. ], batch size: 46, lr: 5.21e-03, grad_scale: 8.0
+2023-04-02 06:58:04,668 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104473.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:58:05,671 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104474.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:58:09,735 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7764, 3.2505, 3.3011, 3.3018, 1.3407, 3.1859, 2.7329, 3.0748],
+       device='cuda:2'), covar=tensor([0.1648, 0.1008, 0.0849, 0.0897, 0.5229, 0.0964, 0.0802, 0.1337],
+       device='cuda:2'), in_proj_covar=tensor([0.0733, 0.0675, 0.0876, 0.0753, 0.0780, 0.0623, 0.0523, 0.0807],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 06:58:14,144 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 06:58:15,344 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 06:58:35,725 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.098e+02 4.885e+02 6.080e+02 8.555e+02 1.693e+03, threshold=1.216e+03, percent-clipped=6.0
+2023-04-02 06:58:36,151 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=104498.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:58:36,181 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104498.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:58:40,140 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 06:59:02,740 INFO [train.py:903] (2/4) Epoch 16, batch 2100, loss[loss=0.2153, simple_loss=0.2883, pruned_loss=0.07116, over 19403.00 frames. ], tot_loss[loss=0.2199, simple_loss=0.297, pruned_loss=0.07141, over 3796454.07 frames. ], batch size: 48, lr: 5.21e-03, grad_scale: 8.0
+2023-04-02 06:59:06,393 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=104523.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:59:09,979 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=104526.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 06:59:33,819 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 06:59:55,540 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 07:00:04,689 INFO [train.py:903] (2/4) Epoch 16, batch 2150, loss[loss=0.2379, simple_loss=0.308, pruned_loss=0.08392, over 19651.00 frames. ], tot_loss[loss=0.2215, simple_loss=0.2985, pruned_loss=0.07228, over 3806430.25 frames. ], batch size: 53, lr: 5.21e-03, grad_scale: 8.0
+2023-04-02 07:00:39,764 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.712e+02 5.547e+02 6.907e+02 8.298e+02 2.194e+03, threshold=1.381e+03, percent-clipped=3.0
+2023-04-02 07:00:53,828 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104609.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:01:08,294 INFO [train.py:903] (2/4) Epoch 16, batch 2200, loss[loss=0.2802, simple_loss=0.3375, pruned_loss=0.1115, over 12956.00 frames. ], tot_loss[loss=0.2215, simple_loss=0.2981, pruned_loss=0.07242, over 3817109.97 frames. ], batch size: 135, lr: 5.21e-03, grad_scale: 8.0
+2023-04-02 07:01:26,362 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=104634.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:02:09,406 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0239, 3.3747, 1.8600, 1.9413, 2.8691, 1.4948, 1.3958, 2.2549],
+       device='cuda:2'), covar=tensor([0.1348, 0.0638, 0.1187, 0.0855, 0.0666, 0.1364, 0.1002, 0.0703],
+       device='cuda:2'), in_proj_covar=tensor([0.0295, 0.0309, 0.0328, 0.0255, 0.0244, 0.0332, 0.0292, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 07:02:12,259 INFO [train.py:903] (2/4) Epoch 16, batch 2250, loss[loss=0.1707, simple_loss=0.2462, pruned_loss=0.04762, over 19711.00 frames. ], tot_loss[loss=0.2211, simple_loss=0.2978, pruned_loss=0.07223, over 3815782.96 frames. ], batch size: 46, lr: 5.21e-03, grad_scale: 8.0
+2023-04-02 07:02:46,757 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.071e+02 4.921e+02 5.898e+02 6.952e+02 1.646e+03, threshold=1.180e+03, percent-clipped=1.0
+2023-04-02 07:03:15,187 INFO [train.py:903] (2/4) Epoch 16, batch 2300, loss[loss=0.2099, simple_loss=0.2966, pruned_loss=0.06165, over 19550.00 frames. ], tot_loss[loss=0.221, simple_loss=0.2978, pruned_loss=0.07205, over 3806299.08 frames. ], batch size: 54, lr: 5.21e-03, grad_scale: 8.0
+2023-04-02 07:03:19,212 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104723.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:03:27,434 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104730.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:03:29,353 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 07:03:51,567 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=104748.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:03:59,129 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.52 vs. limit=2.0
+2023-04-02 07:03:59,881 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=104755.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:04:11,302 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5645, 2.2847, 2.1712, 2.7093, 2.3158, 2.3450, 2.1239, 2.5928],
+       device='cuda:2'), covar=tensor([0.0889, 0.1622, 0.1274, 0.0965, 0.1404, 0.0462, 0.1199, 0.0592],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0350, 0.0297, 0.0246, 0.0298, 0.0247, 0.0292, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 07:04:17,945 INFO [train.py:903] (2/4) Epoch 16, batch 2350, loss[loss=0.2426, simple_loss=0.3253, pruned_loss=0.07992, over 19612.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.2977, pruned_loss=0.07169, over 3815526.43 frames. ], batch size: 57, lr: 5.20e-03, grad_scale: 8.0
+2023-04-02 07:04:34,949 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=104782.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:04:53,850 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.557e+02 5.048e+02 6.738e+02 8.844e+02 1.580e+03, threshold=1.348e+03, percent-clipped=5.0
+2023-04-02 07:05:00,920 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 07:05:05,729 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=104807.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:05:18,372 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 07:05:22,501 INFO [train.py:903] (2/4) Epoch 16, batch 2400, loss[loss=0.2205, simple_loss=0.3068, pruned_loss=0.06709, over 19572.00 frames. ], tot_loss[loss=0.2199, simple_loss=0.2973, pruned_loss=0.07125, over 3818065.39 frames. ], batch size: 61, lr: 5.20e-03, grad_scale: 8.0
+2023-04-02 07:06:24,572 INFO [train.py:903] (2/4) Epoch 16, batch 2450, loss[loss=0.2364, simple_loss=0.31, pruned_loss=0.08143, over 19402.00 frames. ], tot_loss[loss=0.2215, simple_loss=0.2984, pruned_loss=0.07226, over 3814631.17 frames. ], batch size: 70, lr: 5.20e-03, grad_scale: 8.0
+2023-04-02 07:06:54,732 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.07 vs. limit=5.0
+2023-04-02 07:07:00,039 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.524e+02 5.877e+02 7.599e+02 9.302e+02 2.010e+03, threshold=1.520e+03, percent-clipped=8.0
+2023-04-02 07:07:27,189 INFO [train.py:903] (2/4) Epoch 16, batch 2500, loss[loss=0.2148, simple_loss=0.295, pruned_loss=0.06725, over 19782.00 frames. ], tot_loss[loss=0.2199, simple_loss=0.2971, pruned_loss=0.07137, over 3826666.62 frames. ], batch size: 56, lr: 5.20e-03, grad_scale: 8.0
+2023-04-02 07:08:29,692 INFO [train.py:903] (2/4) Epoch 16, batch 2550, loss[loss=0.2189, simple_loss=0.3008, pruned_loss=0.06848, over 19780.00 frames. ], tot_loss[loss=0.2204, simple_loss=0.2976, pruned_loss=0.07163, over 3829188.53 frames. ], batch size: 54, lr: 5.20e-03, grad_scale: 8.0
+2023-04-02 07:09:05,174 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.330e+02 5.239e+02 6.384e+02 8.143e+02 1.987e+03, threshold=1.277e+03, percent-clipped=1.0
+2023-04-02 07:09:24,647 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 07:09:32,157 INFO [train.py:903] (2/4) Epoch 16, batch 2600, loss[loss=0.2424, simple_loss=0.3234, pruned_loss=0.0807, over 19530.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.297, pruned_loss=0.07164, over 3828098.94 frames. ], batch size: 54, lr: 5.20e-03, grad_scale: 8.0
+2023-04-02 07:09:48,358 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0075, 1.9707, 1.8019, 1.5573, 1.5396, 1.6654, 0.3349, 0.8196],
+       device='cuda:2'), covar=tensor([0.0476, 0.0484, 0.0331, 0.0601, 0.1041, 0.0627, 0.1107, 0.0948],
+       device='cuda:2'), in_proj_covar=tensor([0.0353, 0.0346, 0.0343, 0.0373, 0.0447, 0.0374, 0.0326, 0.0332],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 07:10:35,305 INFO [train.py:903] (2/4) Epoch 16, batch 2650, loss[loss=0.2131, simple_loss=0.2785, pruned_loss=0.0739, over 19741.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2966, pruned_loss=0.0717, over 3823926.92 frames. ], batch size: 45, lr: 5.20e-03, grad_scale: 8.0
+2023-04-02 07:10:54,822 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 07:11:09,890 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.780e+02 5.317e+02 6.316e+02 8.001e+02 1.365e+03, threshold=1.263e+03, percent-clipped=2.0
+2023-04-02 07:11:36,915 INFO [train.py:903] (2/4) Epoch 16, batch 2700, loss[loss=0.1838, simple_loss=0.2574, pruned_loss=0.05512, over 19727.00 frames. ], tot_loss[loss=0.2193, simple_loss=0.2961, pruned_loss=0.07128, over 3829669.06 frames. ], batch size: 45, lr: 5.20e-03, grad_scale: 8.0
+2023-04-02 07:11:38,438 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1063, 1.2719, 1.4928, 1.3301, 2.6757, 0.9854, 2.0655, 2.9408],
+       device='cuda:2'), covar=tensor([0.0527, 0.2742, 0.2730, 0.1796, 0.0770, 0.2377, 0.1187, 0.0361],
+       device='cuda:2'), in_proj_covar=tensor([0.0384, 0.0350, 0.0369, 0.0334, 0.0360, 0.0340, 0.0355, 0.0376],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 07:12:39,773 INFO [train.py:903] (2/4) Epoch 16, batch 2750, loss[loss=0.1949, simple_loss=0.2631, pruned_loss=0.06332, over 19739.00 frames. ], tot_loss[loss=0.219, simple_loss=0.2959, pruned_loss=0.071, over 3828733.93 frames. ], batch size: 45, lr: 5.19e-03, grad_scale: 8.0
+2023-04-02 07:13:15,058 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.123e+02 5.170e+02 6.445e+02 8.543e+02 2.677e+03, threshold=1.289e+03, percent-clipped=7.0
+2023-04-02 07:13:41,800 INFO [train.py:903] (2/4) Epoch 16, batch 2800, loss[loss=0.2263, simple_loss=0.3061, pruned_loss=0.07327, over 18766.00 frames. ], tot_loss[loss=0.219, simple_loss=0.2961, pruned_loss=0.07102, over 3819520.85 frames. ], batch size: 74, lr: 5.19e-03, grad_scale: 8.0
+2023-04-02 07:14:13,473 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.47 vs. limit=2.0
+2023-04-02 07:14:19,801 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.17 vs. limit=5.0
+2023-04-02 07:14:23,295 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4880, 1.6887, 2.0885, 1.7673, 3.3303, 2.9211, 3.7035, 1.7633],
+       device='cuda:2'), covar=tensor([0.2357, 0.4022, 0.2439, 0.1772, 0.1359, 0.1698, 0.1291, 0.3638],
+       device='cuda:2'), in_proj_covar=tensor([0.0507, 0.0603, 0.0658, 0.0458, 0.0603, 0.0510, 0.0649, 0.0518],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 07:14:44,317 INFO [train.py:903] (2/4) Epoch 16, batch 2850, loss[loss=0.22, simple_loss=0.2933, pruned_loss=0.07336, over 19599.00 frames. ], tot_loss[loss=0.2185, simple_loss=0.2958, pruned_loss=0.07061, over 3827136.87 frames. ], batch size: 52, lr: 5.19e-03, grad_scale: 8.0
+2023-04-02 07:15:18,937 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.908e+02 5.066e+02 6.361e+02 8.222e+02 2.548e+03, threshold=1.272e+03, percent-clipped=4.0
+2023-04-02 07:15:28,059 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2875, 1.4746, 1.9020, 1.6133, 2.5134, 2.0272, 2.6318, 1.1738],
+       device='cuda:2'), covar=tensor([0.2510, 0.3999, 0.2434, 0.1934, 0.1651, 0.2295, 0.1661, 0.4326],
+       device='cuda:2'), in_proj_covar=tensor([0.0510, 0.0606, 0.0661, 0.0460, 0.0607, 0.0513, 0.0653, 0.0521],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 07:15:46,241 INFO [train.py:903] (2/4) Epoch 16, batch 2900, loss[loss=0.2284, simple_loss=0.3111, pruned_loss=0.07287, over 19296.00 frames. ], tot_loss[loss=0.2196, simple_loss=0.2966, pruned_loss=0.07131, over 3813943.87 frames. ], batch size: 66, lr: 5.19e-03, grad_scale: 8.0
+2023-04-02 07:15:46,278 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 07:15:47,805 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2303, 1.2259, 1.3374, 1.3444, 1.7466, 1.7399, 1.7595, 0.6022],
+       device='cuda:2'), covar=tensor([0.2325, 0.4028, 0.2545, 0.1858, 0.1477, 0.2206, 0.1278, 0.4265],
+       device='cuda:2'), in_proj_covar=tensor([0.0511, 0.0607, 0.0662, 0.0461, 0.0607, 0.0514, 0.0653, 0.0522],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 07:16:48,805 INFO [train.py:903] (2/4) Epoch 16, batch 2950, loss[loss=0.2976, simple_loss=0.3595, pruned_loss=0.1178, over 18462.00 frames. ], tot_loss[loss=0.2199, simple_loss=0.2967, pruned_loss=0.07148, over 3794158.73 frames. ], batch size: 83, lr: 5.19e-03, grad_scale: 8.0
+2023-04-02 07:17:06,096 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 07:17:23,865 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.147e+02 4.947e+02 6.195e+02 7.724e+02 2.015e+03, threshold=1.239e+03, percent-clipped=3.0
+2023-04-02 07:17:30,296 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5530, 1.6228, 1.8156, 1.9036, 1.4320, 1.8055, 1.8954, 1.7331],
+       device='cuda:2'), covar=tensor([0.3637, 0.3172, 0.1683, 0.1945, 0.3375, 0.1809, 0.4243, 0.2909],
+       device='cuda:2'), in_proj_covar=tensor([0.0847, 0.0894, 0.0685, 0.0911, 0.0829, 0.0765, 0.0818, 0.0748],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 07:17:33,642 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=105406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:17:50,872 INFO [train.py:903] (2/4) Epoch 16, batch 3000, loss[loss=0.2117, simple_loss=0.2825, pruned_loss=0.07049, over 19467.00 frames. ], tot_loss[loss=0.2203, simple_loss=0.2971, pruned_loss=0.07175, over 3790701.81 frames. ], batch size: 49, lr: 5.19e-03, grad_scale: 8.0
+2023-04-02 07:17:50,873 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 07:18:04,143 INFO [train.py:937] (2/4) Epoch 16, validation: loss=0.1725, simple_loss=0.273, pruned_loss=0.03604, over 944034.00 frames. 
+2023-04-02 07:18:04,144 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 07:18:07,803 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 07:18:57,207 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0684, 2.1321, 2.2885, 2.6521, 2.1159, 2.5528, 2.4032, 2.1867],
+       device='cuda:2'), covar=tensor([0.3156, 0.2467, 0.1326, 0.1634, 0.2739, 0.1387, 0.2931, 0.2253],
+       device='cuda:2'), in_proj_covar=tensor([0.0846, 0.0893, 0.0684, 0.0910, 0.0828, 0.0764, 0.0818, 0.0748],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 07:19:07,110 INFO [train.py:903] (2/4) Epoch 16, batch 3050, loss[loss=0.2337, simple_loss=0.3194, pruned_loss=0.07402, over 19543.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2969, pruned_loss=0.07153, over 3798528.82 frames. ], batch size: 64, lr: 5.19e-03, grad_scale: 8.0
+2023-04-02 07:19:41,628 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.577e+02 4.913e+02 6.190e+02 8.953e+02 2.496e+03, threshold=1.238e+03, percent-clipped=7.0
+2023-04-02 07:19:49,980 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=105504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:20:11,581 INFO [train.py:903] (2/4) Epoch 16, batch 3100, loss[loss=0.2183, simple_loss=0.2835, pruned_loss=0.07656, over 19733.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2968, pruned_loss=0.07129, over 3809089.94 frames. ], batch size: 45, lr: 5.19e-03, grad_scale: 8.0
+2023-04-02 07:20:11,880 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=105520.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:20:55,553 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3581, 1.4182, 1.7562, 1.5771, 2.3654, 2.0144, 2.3682, 0.9555],
+       device='cuda:2'), covar=tensor([0.2548, 0.4417, 0.2594, 0.2042, 0.1627, 0.2410, 0.1747, 0.4552],
+       device='cuda:2'), in_proj_covar=tensor([0.0510, 0.0605, 0.0659, 0.0460, 0.0606, 0.0509, 0.0651, 0.0519],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 07:21:13,221 INFO [train.py:903] (2/4) Epoch 16, batch 3150, loss[loss=0.1905, simple_loss=0.2669, pruned_loss=0.05702, over 19775.00 frames. ], tot_loss[loss=0.221, simple_loss=0.2981, pruned_loss=0.072, over 3805359.16 frames. ], batch size: 47, lr: 5.18e-03, grad_scale: 8.0
+2023-04-02 07:21:41,347 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 07:21:45,890 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2087, 1.1443, 1.1539, 1.3091, 0.9899, 1.3092, 1.3373, 1.2561],
+       device='cuda:2'), covar=tensor([0.0882, 0.1003, 0.1094, 0.0707, 0.0940, 0.0840, 0.0898, 0.0785],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0221, 0.0222, 0.0242, 0.0226, 0.0207, 0.0190, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 07:21:46,677 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.213e+02 5.014e+02 6.069e+02 7.545e+02 2.509e+03, threshold=1.214e+03, percent-clipped=2.0
+2023-04-02 07:22:12,921 INFO [train.py:903] (2/4) Epoch 16, batch 3200, loss[loss=0.18, simple_loss=0.2531, pruned_loss=0.05343, over 19738.00 frames. ], tot_loss[loss=0.2204, simple_loss=0.2976, pruned_loss=0.07164, over 3816419.38 frames. ], batch size: 45, lr: 5.18e-03, grad_scale: 8.0
+2023-04-02 07:23:15,470 INFO [train.py:903] (2/4) Epoch 16, batch 3250, loss[loss=0.2247, simple_loss=0.3057, pruned_loss=0.07188, over 17620.00 frames. ], tot_loss[loss=0.2189, simple_loss=0.2963, pruned_loss=0.07078, over 3825417.63 frames. ], batch size: 101, lr: 5.18e-03, grad_scale: 8.0
+2023-04-02 07:23:50,144 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.698e+02 5.141e+02 5.939e+02 7.859e+02 1.653e+03, threshold=1.188e+03, percent-clipped=2.0
+2023-04-02 07:24:19,069 INFO [train.py:903] (2/4) Epoch 16, batch 3300, loss[loss=0.1729, simple_loss=0.2494, pruned_loss=0.04817, over 19765.00 frames. ], tot_loss[loss=0.2194, simple_loss=0.2965, pruned_loss=0.07113, over 3832431.44 frames. ], batch size: 45, lr: 5.18e-03, grad_scale: 8.0
+2023-04-02 07:24:22,592 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 07:24:55,820 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=105750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:25:18,097 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8409, 3.9890, 4.3838, 4.3979, 2.6482, 4.1024, 3.7505, 4.1367],
+       device='cuda:2'), covar=tensor([0.1330, 0.2835, 0.0593, 0.0625, 0.4235, 0.1064, 0.0542, 0.1017],
+       device='cuda:2'), in_proj_covar=tensor([0.0736, 0.0683, 0.0890, 0.0770, 0.0788, 0.0632, 0.0528, 0.0820],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 07:25:21,450 INFO [train.py:903] (2/4) Epoch 16, batch 3350, loss[loss=0.1958, simple_loss=0.2816, pruned_loss=0.05504, over 19781.00 frames. ], tot_loss[loss=0.2184, simple_loss=0.2958, pruned_loss=0.07052, over 3832142.66 frames. ], batch size: 56, lr: 5.18e-03, grad_scale: 8.0
+2023-04-02 07:25:57,717 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.211e+02 5.066e+02 6.242e+02 8.095e+02 2.652e+03, threshold=1.248e+03, percent-clipped=5.0
+2023-04-02 07:26:12,286 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=105810.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:26:20,553 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=105817.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:26:23,650 INFO [train.py:903] (2/4) Epoch 16, batch 3400, loss[loss=0.2096, simple_loss=0.2844, pruned_loss=0.06746, over 19737.00 frames. ], tot_loss[loss=0.2173, simple_loss=0.2948, pruned_loss=0.06996, over 3831024.62 frames. ], batch size: 51, lr: 5.18e-03, grad_scale: 8.0
+2023-04-02 07:27:00,020 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=105848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:27:09,291 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2920, 1.3760, 1.5876, 1.4797, 2.1873, 2.0290, 2.2269, 0.8874],
+       device='cuda:2'), covar=tensor([0.2335, 0.4045, 0.2546, 0.1916, 0.1505, 0.2080, 0.1437, 0.4184],
+       device='cuda:2'), in_proj_covar=tensor([0.0509, 0.0607, 0.0661, 0.0462, 0.0606, 0.0511, 0.0652, 0.0519],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 07:27:18,404 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=105864.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:27:19,651 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=105865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:27:26,111 INFO [train.py:903] (2/4) Epoch 16, batch 3450, loss[loss=0.2596, simple_loss=0.3254, pruned_loss=0.09689, over 19373.00 frames. ], tot_loss[loss=0.218, simple_loss=0.2953, pruned_loss=0.07037, over 3821055.97 frames. ], batch size: 66, lr: 5.18e-03, grad_scale: 8.0
+2023-04-02 07:27:29,398 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 07:27:54,655 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
+2023-04-02 07:28:00,501 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.376e+02 5.355e+02 6.157e+02 7.690e+02 1.854e+03, threshold=1.231e+03, percent-clipped=4.0
+2023-04-02 07:28:29,088 INFO [train.py:903] (2/4) Epoch 16, batch 3500, loss[loss=0.1924, simple_loss=0.2725, pruned_loss=0.0562, over 18636.00 frames. ], tot_loss[loss=0.2175, simple_loss=0.295, pruned_loss=0.07001, over 3825835.86 frames. ], batch size: 41, lr: 5.18e-03, grad_scale: 8.0
+2023-04-02 07:29:23,565 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=105963.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:29:31,026 INFO [train.py:903] (2/4) Epoch 16, batch 3550, loss[loss=0.2055, simple_loss=0.2874, pruned_loss=0.06182, over 19775.00 frames. ], tot_loss[loss=0.2175, simple_loss=0.2948, pruned_loss=0.07014, over 3833389.23 frames. ], batch size: 56, lr: 5.17e-03, grad_scale: 8.0
+2023-04-02 07:29:42,161 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=105979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:30:06,596 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.318e+02 5.018e+02 6.219e+02 7.272e+02 1.453e+03, threshold=1.244e+03, percent-clipped=3.0
+2023-04-02 07:30:20,134 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.66 vs. limit=2.0
+2023-04-02 07:30:34,290 INFO [train.py:903] (2/4) Epoch 16, batch 3600, loss[loss=0.2179, simple_loss=0.3006, pruned_loss=0.06762, over 18215.00 frames. ], tot_loss[loss=0.218, simple_loss=0.2953, pruned_loss=0.07041, over 3819059.19 frames. ], batch size: 83, lr: 5.17e-03, grad_scale: 8.0
+2023-04-02 07:31:09,962 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6711, 1.7115, 1.5432, 1.2595, 1.1211, 1.2833, 0.3063, 0.5907],
+       device='cuda:2'), covar=tensor([0.0756, 0.0682, 0.0405, 0.0670, 0.1557, 0.0879, 0.1179, 0.1180],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0344, 0.0341, 0.0369, 0.0445, 0.0372, 0.0322, 0.0331],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 07:31:37,388 INFO [train.py:903] (2/4) Epoch 16, batch 3650, loss[loss=0.2547, simple_loss=0.3257, pruned_loss=0.09184, over 19554.00 frames. ], tot_loss[loss=0.2187, simple_loss=0.2961, pruned_loss=0.07065, over 3820664.90 frames. ], batch size: 61, lr: 5.17e-03, grad_scale: 8.0
+2023-04-02 07:32:09,772 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=106095.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:32:13,044 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.400e+02 5.371e+02 6.801e+02 8.277e+02 1.518e+03, threshold=1.360e+03, percent-clipped=5.0
+2023-04-02 07:32:42,528 INFO [train.py:903] (2/4) Epoch 16, batch 3700, loss[loss=0.1963, simple_loss=0.2699, pruned_loss=0.06129, over 19501.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2957, pruned_loss=0.07045, over 3821754.75 frames. ], batch size: 49, lr: 5.17e-03, grad_scale: 8.0
+2023-04-02 07:32:44,099 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=106121.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:33:13,586 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=106146.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:33:23,620 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=106154.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:33:34,051 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=106161.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:33:44,489 INFO [train.py:903] (2/4) Epoch 16, batch 3750, loss[loss=0.2201, simple_loss=0.3053, pruned_loss=0.06747, over 19583.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2959, pruned_loss=0.07038, over 3828126.50 frames. ], batch size: 52, lr: 5.17e-03, grad_scale: 8.0
+2023-04-02 07:34:19,091 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.576e+02 4.705e+02 5.517e+02 6.973e+02 1.532e+03, threshold=1.103e+03, percent-clipped=3.0
+2023-04-02 07:34:45,438 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=106219.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:34:46,186 INFO [train.py:903] (2/4) Epoch 16, batch 3800, loss[loss=0.2421, simple_loss=0.3152, pruned_loss=0.08455, over 19664.00 frames. ], tot_loss[loss=0.2182, simple_loss=0.2952, pruned_loss=0.07054, over 3815285.84 frames. ], batch size: 55, lr: 5.17e-03, grad_scale: 8.0
+2023-04-02 07:35:06,384 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=106235.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:35:18,209 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 07:35:18,551 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=106244.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:35:36,757 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=106260.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:35:48,030 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=106269.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:35:48,817 INFO [train.py:903] (2/4) Epoch 16, batch 3850, loss[loss=0.23, simple_loss=0.3106, pruned_loss=0.07474, over 19584.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2952, pruned_loss=0.07053, over 3820049.60 frames. ], batch size: 61, lr: 5.17e-03, grad_scale: 8.0
+2023-04-02 07:35:56,822 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=106276.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:36:09,625 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=106286.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:36:23,153 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.040e+02 5.267e+02 6.364e+02 7.734e+02 1.610e+03, threshold=1.273e+03, percent-clipped=5.0
+2023-04-02 07:36:50,364 INFO [train.py:903] (2/4) Epoch 16, batch 3900, loss[loss=0.2071, simple_loss=0.2703, pruned_loss=0.072, over 19759.00 frames. ], tot_loss[loss=0.2177, simple_loss=0.2945, pruned_loss=0.07046, over 3830862.85 frames. ], batch size: 48, lr: 5.17e-03, grad_scale: 16.0
+2023-04-02 07:37:32,166 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=106354.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:37:53,357 INFO [train.py:903] (2/4) Epoch 16, batch 3950, loss[loss=0.2568, simple_loss=0.329, pruned_loss=0.09229, over 19258.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2949, pruned_loss=0.07065, over 3834058.35 frames. ], batch size: 66, lr: 5.16e-03, grad_scale: 8.0
+2023-04-02 07:37:58,039 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 07:38:28,356 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.667e+02 4.931e+02 6.019e+02 7.839e+02 1.392e+03, threshold=1.204e+03, percent-clipped=3.0
+2023-04-02 07:38:54,928 INFO [train.py:903] (2/4) Epoch 16, batch 4000, loss[loss=0.2218, simple_loss=0.2986, pruned_loss=0.07247, over 19475.00 frames. ], tot_loss[loss=0.2174, simple_loss=0.2945, pruned_loss=0.07021, over 3834488.96 frames. ], batch size: 49, lr: 5.16e-03, grad_scale: 8.0
+2023-04-02 07:39:19,383 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=106439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:39:19,577 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9654, 1.7784, 2.0025, 1.5948, 4.4883, 0.9462, 2.5846, 4.9684],
+       device='cuda:2'), covar=tensor([0.0388, 0.2436, 0.2335, 0.1924, 0.0673, 0.2760, 0.1292, 0.0154],
+       device='cuda:2'), in_proj_covar=tensor([0.0386, 0.0350, 0.0370, 0.0337, 0.0360, 0.0340, 0.0354, 0.0376],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 07:39:45,509 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 07:39:56,759 INFO [train.py:903] (2/4) Epoch 16, batch 4050, loss[loss=0.1789, simple_loss=0.2571, pruned_loss=0.05033, over 19403.00 frames. ], tot_loss[loss=0.2172, simple_loss=0.2944, pruned_loss=0.07005, over 3832512.35 frames. ], batch size: 47, lr: 5.16e-03, grad_scale: 8.0
+2023-04-02 07:39:59,415 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=106472.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:40:34,186 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.509e+02 4.912e+02 6.033e+02 8.007e+02 1.551e+03, threshold=1.207e+03, percent-clipped=4.0
+2023-04-02 07:40:59,912 INFO [train.py:903] (2/4) Epoch 16, batch 4100, loss[loss=0.166, simple_loss=0.2448, pruned_loss=0.04354, over 19372.00 frames. ], tot_loss[loss=0.217, simple_loss=0.2943, pruned_loss=0.0698, over 3826075.06 frames. ], batch size: 47, lr: 5.16e-03, grad_scale: 8.0
+2023-04-02 07:41:07,069 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=106525.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:41:15,872 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=106532.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:41:34,837 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 07:41:36,502 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=106550.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:41:41,941 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=106554.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:41:45,547 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=106557.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:42:02,440 INFO [train.py:903] (2/4) Epoch 16, batch 4150, loss[loss=0.2415, simple_loss=0.3202, pruned_loss=0.08139, over 19346.00 frames. ], tot_loss[loss=0.2187, simple_loss=0.2958, pruned_loss=0.07077, over 3820449.14 frames. ], batch size: 66, lr: 5.16e-03, grad_scale: 8.0
+2023-04-02 07:42:36,773 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.179e+02 4.926e+02 6.073e+02 7.216e+02 1.422e+03, threshold=1.215e+03, percent-clipped=1.0
+2023-04-02 07:43:03,952 INFO [train.py:903] (2/4) Epoch 16, batch 4200, loss[loss=0.1803, simple_loss=0.2646, pruned_loss=0.04798, over 19576.00 frames. ], tot_loss[loss=0.2178, simple_loss=0.2952, pruned_loss=0.07023, over 3829009.57 frames. ], batch size: 52, lr: 5.16e-03, grad_scale: 8.0
+2023-04-02 07:43:11,055 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 07:43:15,915 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=106630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:44:05,135 INFO [train.py:903] (2/4) Epoch 16, batch 4250, loss[loss=0.2121, simple_loss=0.2826, pruned_loss=0.07085, over 19751.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2958, pruned_loss=0.07038, over 3828830.09 frames. ], batch size: 51, lr: 5.16e-03, grad_scale: 8.0
+2023-04-02 07:44:20,455 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 07:44:32,713 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 07:44:33,381 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-02 07:44:41,253 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=106698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:44:42,277 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.502e+02 4.922e+02 6.114e+02 7.451e+02 1.808e+03, threshold=1.223e+03, percent-clipped=2.0
+2023-04-02 07:45:08,519 INFO [train.py:903] (2/4) Epoch 16, batch 4300, loss[loss=0.1874, simple_loss=0.2646, pruned_loss=0.0551, over 19728.00 frames. ], tot_loss[loss=0.2195, simple_loss=0.297, pruned_loss=0.07095, over 3823403.62 frames. ], batch size: 48, lr: 5.16e-03, grad_scale: 8.0
+2023-04-02 07:45:39,033 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=106745.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:45:58,079 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 07:46:11,647 INFO [train.py:903] (2/4) Epoch 16, batch 4350, loss[loss=0.2369, simple_loss=0.3147, pruned_loss=0.07957, over 19391.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.298, pruned_loss=0.07156, over 3824791.23 frames. ], batch size: 70, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:46:28,669 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3201, 3.0608, 2.3182, 2.8012, 1.0373, 2.9520, 2.8861, 2.9526],
+       device='cuda:2'), covar=tensor([0.1167, 0.1406, 0.1946, 0.0961, 0.3476, 0.0976, 0.1104, 0.1233],
+       device='cuda:2'), in_proj_covar=tensor([0.0468, 0.0385, 0.0463, 0.0328, 0.0390, 0.0397, 0.0395, 0.0427],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 07:46:30,462 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
+2023-04-02 07:46:46,924 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.450e+02 5.102e+02 6.153e+02 8.101e+02 2.041e+03, threshold=1.231e+03, percent-clipped=8.0
+2023-04-02 07:47:03,100 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=106810.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:47:05,390 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 07:47:06,284 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=106813.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:47:09,658 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=106816.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:47:14,208 INFO [train.py:903] (2/4) Epoch 16, batch 4400, loss[loss=0.2187, simple_loss=0.3076, pruned_loss=0.06487, over 19352.00 frames. ], tot_loss[loss=0.2211, simple_loss=0.298, pruned_loss=0.0721, over 3811144.40 frames. ], batch size: 66, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:47:33,146 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=106835.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:47:36,425 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 07:47:46,702 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 07:47:48,476 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7735, 1.8801, 2.1903, 2.4014, 1.7989, 2.3309, 2.2539, 1.9572],
+       device='cuda:2'), covar=tensor([0.3889, 0.3468, 0.1568, 0.2097, 0.3507, 0.1793, 0.4325, 0.3108],
+       device='cuda:2'), in_proj_covar=tensor([0.0839, 0.0887, 0.0678, 0.0899, 0.0820, 0.0757, 0.0808, 0.0742],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 07:47:57,651 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9608, 2.0564, 2.3077, 2.6457, 2.0631, 2.5981, 2.3915, 2.1233],
+       device='cuda:2'), covar=tensor([0.3591, 0.2992, 0.1435, 0.1939, 0.3148, 0.1563, 0.3817, 0.2688],
+       device='cuda:2'), in_proj_covar=tensor([0.0839, 0.0887, 0.0678, 0.0899, 0.0820, 0.0757, 0.0807, 0.0741],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 07:48:17,288 INFO [train.py:903] (2/4) Epoch 16, batch 4450, loss[loss=0.1989, simple_loss=0.2894, pruned_loss=0.05422, over 19792.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2971, pruned_loss=0.07159, over 3811056.30 frames. ], batch size: 54, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:48:53,920 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.305e+02 4.966e+02 6.259e+02 8.420e+02 1.632e+03, threshold=1.252e+03, percent-clipped=6.0
+2023-04-02 07:49:06,855 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.91 vs. limit=5.0
+2023-04-02 07:49:08,219 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.62 vs. limit=5.0
+2023-04-02 07:49:18,996 INFO [train.py:903] (2/4) Epoch 16, batch 4500, loss[loss=0.2441, simple_loss=0.3118, pruned_loss=0.0882, over 14578.00 frames. ], tot_loss[loss=0.2196, simple_loss=0.2966, pruned_loss=0.07133, over 3809141.56 frames. ], batch size: 136, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:49:34,368 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=106931.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:50:03,544 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.99 vs. limit=5.0
+2023-04-02 07:50:11,292 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9689, 0.8486, 1.3002, 1.3160, 2.2856, 1.0054, 2.1706, 2.7688],
+       device='cuda:2'), covar=tensor([0.0800, 0.4047, 0.3465, 0.2228, 0.1354, 0.2884, 0.1281, 0.0541],
+       device='cuda:2'), in_proj_covar=tensor([0.0388, 0.0352, 0.0374, 0.0336, 0.0360, 0.0342, 0.0357, 0.0378],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 07:50:23,575 INFO [train.py:903] (2/4) Epoch 16, batch 4550, loss[loss=0.1814, simple_loss=0.2562, pruned_loss=0.05323, over 19741.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2968, pruned_loss=0.07128, over 3823007.62 frames. ], batch size: 45, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:50:31,670 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 07:50:54,381 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 07:50:59,932 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.264e+02 4.883e+02 5.860e+02 7.136e+02 1.225e+03, threshold=1.172e+03, percent-clipped=0.0
+2023-04-02 07:51:02,621 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=107001.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:51:27,833 INFO [train.py:903] (2/4) Epoch 16, batch 4600, loss[loss=0.2204, simple_loss=0.3016, pruned_loss=0.06957, over 19785.00 frames. ], tot_loss[loss=0.2193, simple_loss=0.2967, pruned_loss=0.07097, over 3836935.36 frames. ], batch size: 56, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:51:34,881 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=107026.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:52:29,089 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=107069.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:52:29,790 INFO [train.py:903] (2/4) Epoch 16, batch 4650, loss[loss=0.1924, simple_loss=0.2678, pruned_loss=0.05851, over 19801.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2973, pruned_loss=0.07149, over 3835687.44 frames. ], batch size: 49, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:52:47,211 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 07:52:59,800 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 07:53:01,367 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=107094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:53:07,461 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.220e+02 5.459e+02 6.581e+02 8.910e+02 1.601e+03, threshold=1.316e+03, percent-clipped=6.0
+2023-04-02 07:53:22,215 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2760, 2.0180, 1.5124, 1.3093, 1.8254, 1.1650, 1.1377, 1.7279],
+       device='cuda:2'), covar=tensor([0.0883, 0.0757, 0.1014, 0.0754, 0.0516, 0.1220, 0.0704, 0.0380],
+       device='cuda:2'), in_proj_covar=tensor([0.0297, 0.0309, 0.0329, 0.0254, 0.0241, 0.0328, 0.0289, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 07:53:31,769 INFO [train.py:903] (2/4) Epoch 16, batch 4700, loss[loss=0.2578, simple_loss=0.3398, pruned_loss=0.08787, over 19444.00 frames. ], tot_loss[loss=0.219, simple_loss=0.2964, pruned_loss=0.0708, over 3839648.69 frames. ], batch size: 64, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:53:55,910 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 07:54:20,576 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=107158.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 07:54:36,809 INFO [train.py:903] (2/4) Epoch 16, batch 4750, loss[loss=0.1608, simple_loss=0.239, pruned_loss=0.04136, over 19322.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2956, pruned_loss=0.07032, over 3831517.52 frames. ], batch size: 44, lr: 5.15e-03, grad_scale: 8.0
+2023-04-02 07:54:37,084 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=107170.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:54:56,385 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3538, 1.3537, 1.8210, 1.5228, 2.7144, 3.6870, 3.4736, 3.8662],
+       device='cuda:2'), covar=tensor([0.1555, 0.3557, 0.3071, 0.2096, 0.0616, 0.0211, 0.0190, 0.0236],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0306, 0.0335, 0.0255, 0.0229, 0.0174, 0.0210, 0.0230],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 07:54:58,938 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=107187.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:55:11,909 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.171e+02 5.545e+02 6.621e+02 8.650e+02 1.971e+03, threshold=1.324e+03, percent-clipped=6.0
+2023-04-02 07:55:30,505 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=107212.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 07:55:40,218 INFO [train.py:903] (2/4) Epoch 16, batch 4800, loss[loss=0.1855, simple_loss=0.2632, pruned_loss=0.05388, over 19414.00 frames. ], tot_loss[loss=0.2177, simple_loss=0.2951, pruned_loss=0.07019, over 3833069.55 frames. ], batch size: 48, lr: 5.14e-03, grad_scale: 8.0
+2023-04-02 07:56:26,635 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1532, 1.7054, 1.7743, 2.6003, 2.1743, 2.5538, 2.3968, 2.1510],
+       device='cuda:2'), covar=tensor([0.0806, 0.1034, 0.1061, 0.0893, 0.0843, 0.0685, 0.0894, 0.0673],
+       device='cuda:2'), in_proj_covar=tensor([0.0208, 0.0221, 0.0222, 0.0243, 0.0225, 0.0206, 0.0188, 0.0201],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 07:56:41,878 INFO [train.py:903] (2/4) Epoch 16, batch 4850, loss[loss=0.1963, simple_loss=0.268, pruned_loss=0.0623, over 19384.00 frames. ], tot_loss[loss=0.2172, simple_loss=0.2947, pruned_loss=0.06979, over 3821345.30 frames. ], batch size: 47, lr: 5.14e-03, grad_scale: 4.0
+2023-04-02 07:57:07,080 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 07:57:19,837 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.329e+02 4.930e+02 6.295e+02 8.478e+02 1.665e+03, threshold=1.259e+03, percent-clipped=1.0
+2023-04-02 07:57:27,490 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 07:57:32,780 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 07:57:32,809 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 07:57:43,098 INFO [train.py:903] (2/4) Epoch 16, batch 4900, loss[loss=0.234, simple_loss=0.3064, pruned_loss=0.08079, over 19787.00 frames. ], tot_loss[loss=0.2187, simple_loss=0.2957, pruned_loss=0.07085, over 3820185.91 frames. ], batch size: 56, lr: 5.14e-03, grad_scale: 4.0
+2023-04-02 07:57:43,116 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 07:58:04,185 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 07:58:46,427 INFO [train.py:903] (2/4) Epoch 16, batch 4950, loss[loss=0.1749, simple_loss=0.2556, pruned_loss=0.04714, over 19847.00 frames. ], tot_loss[loss=0.2187, simple_loss=0.296, pruned_loss=0.07067, over 3821917.86 frames. ], batch size: 52, lr: 5.14e-03, grad_scale: 4.0
+2023-04-02 07:59:04,244 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 07:59:22,734 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.794e+02 5.680e+02 6.678e+02 8.404e+02 2.020e+03, threshold=1.336e+03, percent-clipped=4.0
+2023-04-02 07:59:27,626 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 07:59:48,956 INFO [train.py:903] (2/4) Epoch 16, batch 5000, loss[loss=0.2329, simple_loss=0.3121, pruned_loss=0.0768, over 19659.00 frames. ], tot_loss[loss=0.2184, simple_loss=0.2959, pruned_loss=0.07045, over 3818575.81 frames. ], batch size: 55, lr: 5.14e-03, grad_scale: 4.0
+2023-04-02 07:59:58,935 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 08:00:09,009 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 08:00:50,457 INFO [train.py:903] (2/4) Epoch 16, batch 5050, loss[loss=0.1762, simple_loss=0.2491, pruned_loss=0.05169, over 19748.00 frames. ], tot_loss[loss=0.2209, simple_loss=0.2982, pruned_loss=0.07181, over 3791471.61 frames. ], batch size: 46, lr: 5.14e-03, grad_scale: 4.0
+2023-04-02 08:00:57,386 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.54 vs. limit=5.0
+2023-04-02 08:01:27,876 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.607e+02 5.470e+02 6.454e+02 8.047e+02 2.188e+03, threshold=1.291e+03, percent-clipped=2.0
+2023-04-02 08:01:27,927 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 08:01:30,406 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=107502.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 08:01:44,959 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=107514.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:01:51,917 INFO [train.py:903] (2/4) Epoch 16, batch 5100, loss[loss=0.1921, simple_loss=0.2785, pruned_loss=0.0529, over 19667.00 frames. ], tot_loss[loss=0.2206, simple_loss=0.2978, pruned_loss=0.07169, over 3800778.01 frames. ], batch size: 55, lr: 5.14e-03, grad_scale: 4.0
+2023-04-02 08:02:02,202 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=107528.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:02:04,280 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 08:02:08,825 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 08:02:13,294 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 08:02:54,727 INFO [train.py:903] (2/4) Epoch 16, batch 5150, loss[loss=0.2067, simple_loss=0.2821, pruned_loss=0.06568, over 19691.00 frames. ], tot_loss[loss=0.2206, simple_loss=0.2979, pruned_loss=0.0717, over 3802052.96 frames. ], batch size: 53, lr: 5.14e-03, grad_scale: 4.0
+2023-04-02 08:03:08,996 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 08:03:31,799 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.461e+02 4.950e+02 6.087e+02 7.766e+02 1.818e+03, threshold=1.217e+03, percent-clipped=6.0
+2023-04-02 08:03:43,255 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 08:03:54,401 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=107617.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 08:03:57,177 INFO [train.py:903] (2/4) Epoch 16, batch 5200, loss[loss=0.2254, simple_loss=0.3002, pruned_loss=0.07534, over 18715.00 frames. ], tot_loss[loss=0.2232, simple_loss=0.3, pruned_loss=0.07326, over 3795075.16 frames. ], batch size: 74, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:04:08,689 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=107629.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:04:09,541 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 08:04:55,314 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 08:04:59,588 INFO [train.py:903] (2/4) Epoch 16, batch 5250, loss[loss=0.2075, simple_loss=0.2861, pruned_loss=0.06447, over 19527.00 frames. ], tot_loss[loss=0.2211, simple_loss=0.2982, pruned_loss=0.07201, over 3804403.68 frames. ], batch size: 56, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:05:07,732 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=107677.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:05:07,840 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8820, 1.6203, 1.5453, 1.9346, 1.6361, 1.6924, 1.5278, 1.7773],
+       device='cuda:2'), covar=tensor([0.0958, 0.1382, 0.1342, 0.0932, 0.1252, 0.0518, 0.1258, 0.0699],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0351, 0.0301, 0.0243, 0.0297, 0.0247, 0.0291, 0.0245],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:05:36,450 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.729e+02 5.464e+02 6.488e+02 8.647e+02 1.622e+03, threshold=1.298e+03, percent-clipped=8.0
+2023-04-02 08:06:00,480 INFO [train.py:903] (2/4) Epoch 16, batch 5300, loss[loss=0.225, simple_loss=0.3071, pruned_loss=0.07148, over 19577.00 frames. ], tot_loss[loss=0.2224, simple_loss=0.2994, pruned_loss=0.07272, over 3792468.64 frames. ], batch size: 61, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:06:15,056 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4779, 2.3211, 1.7219, 1.5205, 2.1373, 1.3037, 1.2651, 1.8799],
+       device='cuda:2'), covar=tensor([0.1193, 0.0839, 0.0978, 0.0884, 0.0548, 0.1300, 0.0834, 0.0461],
+       device='cuda:2'), in_proj_covar=tensor([0.0298, 0.0310, 0.0329, 0.0254, 0.0243, 0.0330, 0.0291, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:06:19,313 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 08:06:45,139 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=107755.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:07:03,282 INFO [train.py:903] (2/4) Epoch 16, batch 5350, loss[loss=0.239, simple_loss=0.3154, pruned_loss=0.08131, over 18771.00 frames. ], tot_loss[loss=0.2219, simple_loss=0.299, pruned_loss=0.07235, over 3795073.99 frames. ], batch size: 74, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:07:37,253 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 08:07:40,608 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.374e+02 4.506e+02 5.884e+02 6.805e+02 1.610e+03, threshold=1.177e+03, percent-clipped=2.0
+2023-04-02 08:08:06,497 INFO [train.py:903] (2/4) Epoch 16, batch 5400, loss[loss=0.2268, simple_loss=0.2831, pruned_loss=0.0852, over 16402.00 frames. ], tot_loss[loss=0.2212, simple_loss=0.2982, pruned_loss=0.07214, over 3789505.81 frames. ], batch size: 36, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:09:02,775 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4055, 1.2782, 1.4784, 1.6036, 2.9704, 1.1485, 2.1581, 3.3865],
+       device='cuda:2'), covar=tensor([0.0474, 0.2695, 0.2747, 0.1664, 0.0702, 0.2397, 0.1341, 0.0273],
+       device='cuda:2'), in_proj_covar=tensor([0.0386, 0.0354, 0.0375, 0.0335, 0.0360, 0.0340, 0.0359, 0.0378],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:09:05,201 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0695, 2.0142, 1.6941, 1.5944, 1.3999, 1.5980, 0.5253, 1.0824],
+       device='cuda:2'), covar=tensor([0.0480, 0.0548, 0.0432, 0.0711, 0.1078, 0.0846, 0.1105, 0.0853],
+       device='cuda:2'), in_proj_covar=tensor([0.0347, 0.0340, 0.0340, 0.0365, 0.0442, 0.0372, 0.0320, 0.0329],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:09:08,379 INFO [train.py:903] (2/4) Epoch 16, batch 5450, loss[loss=0.229, simple_loss=0.3081, pruned_loss=0.07492, over 19499.00 frames. ], tot_loss[loss=0.2207, simple_loss=0.2977, pruned_loss=0.07183, over 3801750.29 frames. ], batch size: 64, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:09:10,575 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=107872.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:09:11,956 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=107873.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 08:09:26,835 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=107885.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:09:44,600 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=107898.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 08:09:46,450 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.026e+02 5.228e+02 6.592e+02 8.752e+02 1.860e+03, threshold=1.318e+03, percent-clipped=11.0
+2023-04-02 08:09:58,260 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9041, 3.1832, 3.5151, 3.5165, 1.9296, 3.2800, 2.8807, 3.0544],
+       device='cuda:2'), covar=tensor([0.2378, 0.3115, 0.1029, 0.1474, 0.5846, 0.2091, 0.1219, 0.1892],
+       device='cuda:2'), in_proj_covar=tensor([0.0735, 0.0677, 0.0879, 0.0762, 0.0784, 0.0630, 0.0524, 0.0817],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 08:09:58,362 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=107910.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:10:10,018 INFO [train.py:903] (2/4) Epoch 16, batch 5500, loss[loss=0.2008, simple_loss=0.2794, pruned_loss=0.06114, over 19582.00 frames. ], tot_loss[loss=0.2204, simple_loss=0.2977, pruned_loss=0.0716, over 3813211.08 frames. ], batch size: 52, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:10:34,956 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 08:11:05,916 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.35 vs. limit=5.0
+2023-04-02 08:11:13,099 INFO [train.py:903] (2/4) Epoch 16, batch 5550, loss[loss=0.2574, simple_loss=0.331, pruned_loss=0.09188, over 19662.00 frames. ], tot_loss[loss=0.2195, simple_loss=0.2969, pruned_loss=0.07102, over 3813510.09 frames. ], batch size: 55, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:11:13,384 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3649, 3.9456, 2.6963, 3.5114, 1.0038, 3.7347, 3.7509, 3.7803],
+       device='cuda:2'), covar=tensor([0.0688, 0.1048, 0.1869, 0.0823, 0.3836, 0.0834, 0.0907, 0.1129],
+       device='cuda:2'), in_proj_covar=tensor([0.0468, 0.0384, 0.0462, 0.0328, 0.0391, 0.0400, 0.0398, 0.0427],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:11:19,674 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 08:11:34,481 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=107987.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:11:50,041 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.970e+02 4.933e+02 6.287e+02 7.608e+02 2.106e+03, threshold=1.257e+03, percent-clipped=3.0
+2023-04-02 08:12:10,698 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 08:12:17,779 INFO [train.py:903] (2/4) Epoch 16, batch 5600, loss[loss=0.212, simple_loss=0.2832, pruned_loss=0.07046, over 17688.00 frames. ], tot_loss[loss=0.22, simple_loss=0.297, pruned_loss=0.07145, over 3810191.98 frames. ], batch size: 39, lr: 5.13e-03, grad_scale: 8.0
+2023-04-02 08:12:19,200 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=108021.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:12:51,334 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4212, 4.0443, 3.1440, 3.4558, 1.7076, 3.7901, 3.7763, 3.9791],
+       device='cuda:2'), covar=tensor([0.0654, 0.1021, 0.1737, 0.1149, 0.3223, 0.0919, 0.1013, 0.1130],
+       device='cuda:2'), in_proj_covar=tensor([0.0467, 0.0382, 0.0460, 0.0327, 0.0391, 0.0400, 0.0398, 0.0426],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:13:17,747 INFO [train.py:903] (2/4) Epoch 16, batch 5650, loss[loss=0.2807, simple_loss=0.3403, pruned_loss=0.1105, over 18876.00 frames. ], tot_loss[loss=0.2212, simple_loss=0.2977, pruned_loss=0.0723, over 3795628.38 frames. ], batch size: 74, lr: 5.12e-03, grad_scale: 8.0
+2023-04-02 08:13:55,632 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=108099.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:13:56,645 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.333e+02 5.688e+02 6.420e+02 8.034e+02 1.662e+03, threshold=1.284e+03, percent-clipped=4.0
+2023-04-02 08:14:03,631 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 08:14:21,002 INFO [train.py:903] (2/4) Epoch 16, batch 5700, loss[loss=0.2008, simple_loss=0.2891, pruned_loss=0.05629, over 19512.00 frames. ], tot_loss[loss=0.2206, simple_loss=0.2976, pruned_loss=0.07179, over 3813858.62 frames. ], batch size: 54, lr: 5.12e-03, grad_scale: 8.0
+2023-04-02 08:14:42,910 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=108136.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:15:06,030 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.62 vs. limit=2.0
+2023-04-02 08:15:22,679 INFO [train.py:903] (2/4) Epoch 16, batch 5750, loss[loss=0.1907, simple_loss=0.27, pruned_loss=0.05569, over 19679.00 frames. ], tot_loss[loss=0.2201, simple_loss=0.2968, pruned_loss=0.07167, over 3819560.48 frames. ], batch size: 53, lr: 5.12e-03, grad_scale: 8.0
+2023-04-02 08:15:22,749 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 08:15:33,019 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 08:15:36,706 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 08:16:00,583 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.754e+02 4.860e+02 6.382e+02 7.922e+02 1.732e+03, threshold=1.276e+03, percent-clipped=4.0
+2023-04-02 08:16:19,195 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=108214.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:16:26,740 INFO [train.py:903] (2/4) Epoch 16, batch 5800, loss[loss=0.2537, simple_loss=0.3248, pruned_loss=0.09133, over 19078.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2967, pruned_loss=0.07166, over 3813114.32 frames. ], batch size: 69, lr: 5.12e-03, grad_scale: 8.0
+2023-04-02 08:16:54,039 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=108243.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:17:25,849 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=108268.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:17:27,716 INFO [train.py:903] (2/4) Epoch 16, batch 5850, loss[loss=0.2017, simple_loss=0.2821, pruned_loss=0.06063, over 19630.00 frames. ], tot_loss[loss=0.2202, simple_loss=0.297, pruned_loss=0.07168, over 3819704.30 frames. ], batch size: 50, lr: 5.12e-03, grad_scale: 8.0
+2023-04-02 08:18:05,292 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.738e+02 5.463e+02 6.888e+02 8.802e+02 1.964e+03, threshold=1.378e+03, percent-clipped=5.0
+2023-04-02 08:18:28,341 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 08:18:29,521 INFO [train.py:903] (2/4) Epoch 16, batch 5900, loss[loss=0.2279, simple_loss=0.3058, pruned_loss=0.075, over 19331.00 frames. ], tot_loss[loss=0.2199, simple_loss=0.2969, pruned_loss=0.07144, over 3819715.43 frames. ], batch size: 66, lr: 5.12e-03, grad_scale: 8.0
+2023-04-02 08:18:52,003 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 08:18:53,519 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0909, 1.3386, 1.7843, 1.3150, 2.7563, 3.7077, 3.4308, 3.9726],
+       device='cuda:2'), covar=tensor([0.1735, 0.3629, 0.3146, 0.2318, 0.0562, 0.0205, 0.0193, 0.0212],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0306, 0.0335, 0.0255, 0.0230, 0.0173, 0.0207, 0.0231],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:18:59,385 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=108343.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:19:15,952 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0554, 1.1742, 1.6832, 1.0511, 2.4336, 3.3465, 3.0537, 3.5533],
+       device='cuda:2'), covar=tensor([0.1648, 0.3685, 0.3222, 0.2438, 0.0605, 0.0177, 0.0209, 0.0243],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0306, 0.0335, 0.0255, 0.0230, 0.0173, 0.0207, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:19:30,982 INFO [train.py:903] (2/4) Epoch 16, batch 5950, loss[loss=0.2105, simple_loss=0.2798, pruned_loss=0.07059, over 19747.00 frames. ], tot_loss[loss=0.2203, simple_loss=0.2972, pruned_loss=0.07165, over 3832881.87 frames. ], batch size: 47, lr: 5.12e-03, grad_scale: 8.0
+2023-04-02 08:19:59,869 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=108392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:20:09,618 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.801e+02 5.248e+02 6.439e+02 7.965e+02 2.252e+03, threshold=1.288e+03, percent-clipped=3.0
+2023-04-02 08:20:30,416 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=108417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:20:35,475 INFO [train.py:903] (2/4) Epoch 16, batch 6000, loss[loss=0.2928, simple_loss=0.3642, pruned_loss=0.1107, over 18172.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2968, pruned_loss=0.07132, over 3827696.03 frames. ], batch size: 83, lr: 5.12e-03, grad_scale: 8.0
+2023-04-02 08:20:35,475 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 08:20:47,907 INFO [train.py:937] (2/4) Epoch 16, validation: loss=0.1716, simple_loss=0.2723, pruned_loss=0.03545, over 944034.00 frames. 
+2023-04-02 08:20:47,909 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 08:21:05,963 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 08:21:12,811 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6569, 1.5447, 1.5294, 2.1656, 1.7631, 2.1000, 2.0956, 1.9066],
+       device='cuda:2'), covar=tensor([0.0772, 0.0860, 0.0951, 0.0732, 0.0711, 0.0627, 0.0728, 0.0577],
+       device='cuda:2'), in_proj_covar=tensor([0.0208, 0.0222, 0.0223, 0.0245, 0.0226, 0.0207, 0.0189, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 08:21:25,618 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=108450.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:21:51,717 INFO [train.py:903] (2/4) Epoch 16, batch 6050, loss[loss=0.2267, simple_loss=0.3071, pruned_loss=0.0731, over 18640.00 frames. ], tot_loss[loss=0.221, simple_loss=0.2976, pruned_loss=0.07223, over 3818919.23 frames. ], batch size: 74, lr: 5.11e-03, grad_scale: 4.0
+2023-04-02 08:21:52,136 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=108470.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:22:14,353 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2838, 1.3554, 1.5176, 1.4131, 1.8073, 1.8208, 1.8139, 0.6014],
+       device='cuda:2'), covar=tensor([0.2316, 0.4069, 0.2493, 0.1886, 0.1548, 0.2182, 0.1333, 0.4178],
+       device='cuda:2'), in_proj_covar=tensor([0.0507, 0.0607, 0.0660, 0.0460, 0.0604, 0.0511, 0.0648, 0.0517],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:22:22,206 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=108495.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:22:28,595 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.284e+02 5.272e+02 6.402e+02 8.353e+02 1.883e+03, threshold=1.280e+03, percent-clipped=4.0
+2023-04-02 08:22:53,807 INFO [train.py:903] (2/4) Epoch 16, batch 6100, loss[loss=0.2522, simple_loss=0.3233, pruned_loss=0.09061, over 13036.00 frames. ], tot_loss[loss=0.2199, simple_loss=0.297, pruned_loss=0.07137, over 3820530.91 frames. ], batch size: 136, lr: 5.11e-03, grad_scale: 4.0
+2023-04-02 08:23:56,088 INFO [train.py:903] (2/4) Epoch 16, batch 6150, loss[loss=0.2644, simple_loss=0.3311, pruned_loss=0.09884, over 19436.00 frames. ], tot_loss[loss=0.2192, simple_loss=0.2964, pruned_loss=0.07096, over 3826825.07 frames. ], batch size: 62, lr: 5.11e-03, grad_scale: 4.0
+2023-04-02 08:24:26,215 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 08:24:28,859 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=108595.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:24:35,750 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.970e+02 4.845e+02 6.012e+02 7.583e+02 1.796e+03, threshold=1.202e+03, percent-clipped=3.0
+2023-04-02 08:24:58,801 INFO [train.py:903] (2/4) Epoch 16, batch 6200, loss[loss=0.2273, simple_loss=0.3068, pruned_loss=0.07386, over 19859.00 frames. ], tot_loss[loss=0.2186, simple_loss=0.2958, pruned_loss=0.07072, over 3826367.39 frames. ], batch size: 52, lr: 5.11e-03, grad_scale: 4.0
+2023-04-02 08:25:33,689 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2014, 2.2092, 2.4844, 3.0879, 2.2030, 2.8284, 2.6305, 2.2716],
+       device='cuda:2'), covar=tensor([0.4077, 0.3819, 0.1653, 0.2436, 0.4146, 0.1976, 0.3918, 0.2949],
+       device='cuda:2'), in_proj_covar=tensor([0.0848, 0.0892, 0.0680, 0.0908, 0.0828, 0.0766, 0.0815, 0.0746],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 08:26:02,187 INFO [train.py:903] (2/4) Epoch 16, batch 6250, loss[loss=0.2432, simple_loss=0.3129, pruned_loss=0.08679, over 13400.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2953, pruned_loss=0.07045, over 3831089.11 frames. ], batch size: 135, lr: 5.11e-03, grad_scale: 4.0
+2023-04-02 08:26:22,912 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=108687.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:26:34,474 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 08:26:40,075 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.877e+02 4.966e+02 6.026e+02 7.805e+02 1.726e+03, threshold=1.205e+03, percent-clipped=3.0
+2023-04-02 08:27:03,146 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 08:27:04,698 INFO [train.py:903] (2/4) Epoch 16, batch 6300, loss[loss=0.2581, simple_loss=0.3279, pruned_loss=0.09411, over 19314.00 frames. ], tot_loss[loss=0.2177, simple_loss=0.2951, pruned_loss=0.07012, over 3833061.88 frames. ], batch size: 70, lr: 5.11e-03, grad_scale: 4.0
+2023-04-02 08:28:06,338 INFO [train.py:903] (2/4) Epoch 16, batch 6350, loss[loss=0.2045, simple_loss=0.2856, pruned_loss=0.06169, over 19734.00 frames. ], tot_loss[loss=0.2191, simple_loss=0.2964, pruned_loss=0.07087, over 3812536.20 frames. ], batch size: 51, lr: 5.11e-03, grad_scale: 4.0
+2023-04-02 08:28:38,952 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=108794.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:28:47,234 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.196e+02 5.125e+02 6.267e+02 8.166e+02 1.468e+03, threshold=1.253e+03, percent-clipped=8.0
+2023-04-02 08:28:48,870 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=108802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:28:56,974 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=108809.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:29:09,789 INFO [train.py:903] (2/4) Epoch 16, batch 6400, loss[loss=0.249, simple_loss=0.3189, pruned_loss=0.08956, over 18828.00 frames. ], tot_loss[loss=0.2198, simple_loss=0.2973, pruned_loss=0.07119, over 3816785.58 frames. ], batch size: 74, lr: 5.11e-03, grad_scale: 8.0
+2023-04-02 08:29:30,125 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-02 08:30:14,207 INFO [train.py:903] (2/4) Epoch 16, batch 6450, loss[loss=0.2129, simple_loss=0.2957, pruned_loss=0.06501, over 19761.00 frames. ], tot_loss[loss=0.2197, simple_loss=0.2968, pruned_loss=0.07124, over 3817142.71 frames. ], batch size: 54, lr: 5.11e-03, grad_scale: 8.0
+2023-04-02 08:30:33,226 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.73 vs. limit=5.0
+2023-04-02 08:30:52,179 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.276e+02 5.109e+02 6.250e+02 7.655e+02 1.750e+03, threshold=1.250e+03, percent-clipped=4.0
+2023-04-02 08:30:52,634 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8788, 2.2337, 2.5138, 2.8435, 2.3479, 2.5281, 2.2524, 2.7664],
+       device='cuda:2'), covar=tensor([0.0756, 0.1599, 0.1107, 0.0742, 0.1287, 0.0414, 0.1118, 0.0524],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0352, 0.0300, 0.0244, 0.0296, 0.0247, 0.0291, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:31:00,400 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 08:31:04,049 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=108909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:31:18,889 INFO [train.py:903] (2/4) Epoch 16, batch 6500, loss[loss=0.1598, simple_loss=0.2408, pruned_loss=0.03939, over 19817.00 frames. ], tot_loss[loss=0.22, simple_loss=0.2972, pruned_loss=0.07135, over 3807217.36 frames. ], batch size: 49, lr: 5.10e-03, grad_scale: 8.0
+2023-04-02 08:31:24,489 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 08:31:40,944 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=108939.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:32:20,051 INFO [train.py:903] (2/4) Epoch 16, batch 6550, loss[loss=0.195, simple_loss=0.2737, pruned_loss=0.05813, over 19477.00 frames. ], tot_loss[loss=0.2195, simple_loss=0.2969, pruned_loss=0.07102, over 3807347.37 frames. ], batch size: 49, lr: 5.10e-03, grad_scale: 8.0
+2023-04-02 08:32:58,929 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.314e+02 4.624e+02 5.967e+02 6.821e+02 1.232e+03, threshold=1.193e+03, percent-clipped=0.0
+2023-04-02 08:33:21,265 INFO [train.py:903] (2/4) Epoch 16, batch 6600, loss[loss=0.1684, simple_loss=0.2474, pruned_loss=0.04469, over 15099.00 frames. ], tot_loss[loss=0.2189, simple_loss=0.2966, pruned_loss=0.07063, over 3817024.05 frames. ], batch size: 33, lr: 5.10e-03, grad_scale: 8.0
+2023-04-02 08:34:03,936 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=109054.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:34:05,062 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=109055.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 08:34:08,552 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=109058.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:34:22,843 INFO [train.py:903] (2/4) Epoch 16, batch 6650, loss[loss=0.2023, simple_loss=0.2832, pruned_loss=0.06073, over 19536.00 frames. ], tot_loss[loss=0.2193, simple_loss=0.2967, pruned_loss=0.07091, over 3823807.22 frames. ], batch size: 54, lr: 5.10e-03, grad_scale: 8.0
+2023-04-02 08:34:25,985 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.04 vs. limit=5.0
+2023-04-02 08:34:41,452 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=109083.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:34:56,368 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4080, 1.4164, 1.7537, 1.2448, 2.5319, 3.1501, 2.9818, 3.3605],
+       device='cuda:2'), covar=tensor([0.1482, 0.3477, 0.3047, 0.2420, 0.0691, 0.0314, 0.0228, 0.0278],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0308, 0.0336, 0.0257, 0.0230, 0.0174, 0.0207, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:35:01,852 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.091e+02 5.420e+02 6.464e+02 8.289e+02 2.034e+03, threshold=1.293e+03, percent-clipped=5.0
+2023-04-02 08:35:15,768 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8795, 4.3599, 4.6303, 4.6585, 1.7032, 4.3954, 3.7529, 4.3055],
+       device='cuda:2'), covar=tensor([0.1523, 0.0767, 0.0552, 0.0553, 0.5516, 0.0690, 0.0644, 0.1103],
+       device='cuda:2'), in_proj_covar=tensor([0.0739, 0.0680, 0.0884, 0.0765, 0.0791, 0.0633, 0.0529, 0.0816],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 08:35:27,575 INFO [train.py:903] (2/4) Epoch 16, batch 6700, loss[loss=0.2436, simple_loss=0.3143, pruned_loss=0.08648, over 19473.00 frames. ], tot_loss[loss=0.2188, simple_loss=0.2961, pruned_loss=0.07072, over 3815452.36 frames. ], batch size: 64, lr: 5.10e-03, grad_scale: 8.0
+2023-04-02 08:36:06,058 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=109153.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:36:07,902 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
+2023-04-02 08:36:19,894 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=109165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:36:25,880 INFO [train.py:903] (2/4) Epoch 16, batch 6750, loss[loss=0.1877, simple_loss=0.2685, pruned_loss=0.05346, over 19405.00 frames. ], tot_loss[loss=0.2179, simple_loss=0.2953, pruned_loss=0.07025, over 3806463.14 frames. ], batch size: 48, lr: 5.10e-03, grad_scale: 8.0
+2023-04-02 08:36:50,496 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=109190.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:37:03,550 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.450e+02 4.897e+02 5.778e+02 7.062e+02 1.289e+03, threshold=1.156e+03, percent-clipped=0.0
+2023-04-02 08:37:15,730 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=109212.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:37:24,184 INFO [train.py:903] (2/4) Epoch 16, batch 6800, loss[loss=0.2137, simple_loss=0.2899, pruned_loss=0.06882, over 19595.00 frames. ], tot_loss[loss=0.2174, simple_loss=0.2948, pruned_loss=0.07001, over 3813777.95 frames. ], batch size: 52, lr: 5.10e-03, grad_scale: 8.0
+2023-04-02 08:37:30,146 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9298, 4.4599, 2.7684, 3.8909, 0.9136, 4.3914, 4.2694, 4.3250],
+       device='cuda:2'), covar=tensor([0.0566, 0.1018, 0.1979, 0.0782, 0.4154, 0.0643, 0.0860, 0.1100],
+       device='cuda:2'), in_proj_covar=tensor([0.0470, 0.0383, 0.0465, 0.0332, 0.0391, 0.0400, 0.0401, 0.0428],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:38:09,830 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 08:38:10,300 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 08:38:13,449 INFO [train.py:903] (2/4) Epoch 17, batch 0, loss[loss=0.2237, simple_loss=0.3069, pruned_loss=0.07024, over 19659.00 frames. ], tot_loss[loss=0.2237, simple_loss=0.3069, pruned_loss=0.07024, over 19659.00 frames. ], batch size: 55, lr: 4.94e-03, grad_scale: 8.0
+2023-04-02 08:38:13,450 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 08:38:25,408 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4342, 1.4201, 1.6377, 1.5612, 2.2610, 1.9990, 2.2581, 1.2194],
+       device='cuda:2'), covar=tensor([0.2152, 0.4019, 0.2432, 0.1805, 0.1404, 0.2076, 0.1290, 0.4108],
+       device='cuda:2'), in_proj_covar=tensor([0.0509, 0.0612, 0.0664, 0.0460, 0.0606, 0.0512, 0.0650, 0.0520],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:38:26,017 INFO [train.py:937] (2/4) Epoch 17, validation: loss=0.1721, simple_loss=0.2728, pruned_loss=0.03571, over 944034.00 frames. 
+2023-04-02 08:38:26,018 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 08:38:39,457 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 08:38:51,302 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=109268.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:39:29,173 INFO [train.py:903] (2/4) Epoch 17, batch 50, loss[loss=0.208, simple_loss=0.3024, pruned_loss=0.05685, over 19529.00 frames. ], tot_loss[loss=0.2184, simple_loss=0.2971, pruned_loss=0.06987, over 860942.02 frames. ], batch size: 56, lr: 4.94e-03, grad_scale: 8.0
+2023-04-02 08:39:32,717 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.530e+02 5.319e+02 6.338e+02 7.961e+02 1.981e+03, threshold=1.268e+03, percent-clipped=4.0
+2023-04-02 08:39:43,562 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=109310.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:39:45,687 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=109312.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:39:59,850 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 08:40:13,452 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=109335.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:40:14,506 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=109336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:40:28,821 INFO [train.py:903] (2/4) Epoch 17, batch 100, loss[loss=0.2127, simple_loss=0.3, pruned_loss=0.06271, over 19540.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.2929, pruned_loss=0.06819, over 1521536.76 frames. ], batch size: 56, lr: 4.94e-03, grad_scale: 8.0
+2023-04-02 08:40:36,772 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 08:40:53,541 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5681, 3.0834, 2.4620, 2.4898, 2.3279, 2.5112, 1.1707, 2.2209],
+       device='cuda:2'), covar=tensor([0.0457, 0.0487, 0.0596, 0.0880, 0.0949, 0.0993, 0.1107, 0.0902],
+       device='cuda:2'), in_proj_covar=tensor([0.0345, 0.0346, 0.0343, 0.0368, 0.0444, 0.0374, 0.0323, 0.0330],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:41:29,302 INFO [train.py:903] (2/4) Epoch 17, batch 150, loss[loss=0.2336, simple_loss=0.3096, pruned_loss=0.07876, over 19669.00 frames. ], tot_loss[loss=0.218, simple_loss=0.2952, pruned_loss=0.07037, over 2021002.73 frames. ], batch size: 58, lr: 4.94e-03, grad_scale: 8.0
+2023-04-02 08:41:30,560 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=109399.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 08:41:32,677 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.150e+02 5.062e+02 6.078e+02 8.331e+02 1.364e+03, threshold=1.216e+03, percent-clipped=3.0
+2023-04-02 08:41:34,551 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.13 vs. limit=5.0
+2023-04-02 08:41:44,716 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.00 vs. limit=5.0
+2023-04-02 08:42:07,836 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3496, 1.4493, 2.1009, 1.6362, 2.9727, 2.2579, 3.2934, 1.3705],
+       device='cuda:2'), covar=tensor([0.2539, 0.4318, 0.2548, 0.1986, 0.1639, 0.2303, 0.1640, 0.4220],
+       device='cuda:2'), in_proj_covar=tensor([0.0505, 0.0607, 0.0659, 0.0458, 0.0601, 0.0508, 0.0646, 0.0517],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:42:22,300 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 08:42:29,325 INFO [train.py:903] (2/4) Epoch 17, batch 200, loss[loss=0.1977, simple_loss=0.2846, pruned_loss=0.05541, over 19659.00 frames. ], tot_loss[loss=0.2189, simple_loss=0.2961, pruned_loss=0.07085, over 2427086.22 frames. ], batch size: 58, lr: 4.94e-03, grad_scale: 8.0
+2023-04-02 08:43:25,348 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5649, 2.3633, 1.7757, 1.5138, 2.1841, 1.4050, 1.3360, 2.0178],
+       device='cuda:2'), covar=tensor([0.0916, 0.0670, 0.0950, 0.0835, 0.0495, 0.1219, 0.0706, 0.0406],
+       device='cuda:2'), in_proj_covar=tensor([0.0293, 0.0305, 0.0326, 0.0254, 0.0240, 0.0326, 0.0285, 0.0265],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:43:32,826 INFO [train.py:903] (2/4) Epoch 17, batch 250, loss[loss=0.1744, simple_loss=0.2538, pruned_loss=0.04747, over 19763.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2958, pruned_loss=0.07042, over 2736539.45 frames. ], batch size: 46, lr: 4.94e-03, grad_scale: 8.0
+2023-04-02 08:43:36,246 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.403e+02 5.064e+02 6.047e+02 7.271e+02 1.663e+03, threshold=1.209e+03, percent-clipped=2.0
+2023-04-02 08:43:52,429 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=109514.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 08:44:04,265 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=109524.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:44:35,511 INFO [train.py:903] (2/4) Epoch 17, batch 300, loss[loss=0.2629, simple_loss=0.3241, pruned_loss=0.1008, over 13187.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2956, pruned_loss=0.07052, over 2971036.33 frames. ], batch size: 136, lr: 4.94e-03, grad_scale: 8.0
+2023-04-02 08:44:37,127 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=109549.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:44:45,078 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=109556.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:44:45,553 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-02 08:45:36,079 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=109597.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:45:36,909 INFO [train.py:903] (2/4) Epoch 17, batch 350, loss[loss=0.2379, simple_loss=0.3061, pruned_loss=0.08484, over 19728.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.2946, pruned_loss=0.07025, over 3161434.30 frames. ], batch size: 51, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:45:38,101 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 08:45:40,565 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.272e+02 4.783e+02 5.858e+02 7.548e+02 1.929e+03, threshold=1.172e+03, percent-clipped=3.0
+2023-04-02 08:46:33,318 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7036, 4.1542, 4.4221, 4.4122, 1.6068, 4.1637, 3.5487, 4.1004],
+       device='cuda:2'), covar=tensor([0.1636, 0.0983, 0.0614, 0.0677, 0.6101, 0.0856, 0.0690, 0.1171],
+       device='cuda:2'), in_proj_covar=tensor([0.0731, 0.0677, 0.0876, 0.0761, 0.0785, 0.0625, 0.0525, 0.0805],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 08:46:38,844 INFO [train.py:903] (2/4) Epoch 17, batch 400, loss[loss=0.1932, simple_loss=0.264, pruned_loss=0.06125, over 19766.00 frames. ], tot_loss[loss=0.2168, simple_loss=0.2943, pruned_loss=0.06965, over 3309209.25 frames. ], batch size: 47, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:46:49,106 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=109656.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:47:09,945 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=109671.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:47:16,745 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=109677.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:47:20,111 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=109680.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:47:40,320 INFO [train.py:903] (2/4) Epoch 17, batch 450, loss[loss=0.2303, simple_loss=0.31, pruned_loss=0.0753, over 19096.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.295, pruned_loss=0.0701, over 3424790.36 frames. ], batch size: 69, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:47:44,685 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.768e+02 5.202e+02 6.539e+02 8.058e+02 1.631e+03, threshold=1.308e+03, percent-clipped=6.0
+2023-04-02 08:48:12,275 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 08:48:13,418 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 08:48:44,999 INFO [train.py:903] (2/4) Epoch 17, batch 500, loss[loss=0.1918, simple_loss=0.267, pruned_loss=0.05826, over 19812.00 frames. ], tot_loss[loss=0.2179, simple_loss=0.2949, pruned_loss=0.07042, over 3518717.39 frames. ], batch size: 49, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:48:53,606 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1738, 5.1290, 6.0159, 5.9681, 2.0423, 5.6316, 4.7172, 5.6154],
+       device='cuda:2'), covar=tensor([0.1431, 0.0682, 0.0458, 0.0590, 0.5631, 0.0665, 0.0545, 0.1045],
+       device='cuda:2'), in_proj_covar=tensor([0.0734, 0.0676, 0.0876, 0.0761, 0.0784, 0.0625, 0.0525, 0.0809],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 08:48:59,856 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.90 vs. limit=2.0
+2023-04-02 08:49:11,994 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=109770.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 08:49:12,979 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=109771.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:49:16,864 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.18 vs. limit=5.0
+2023-04-02 08:49:44,277 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=109795.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:49:44,316 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=109795.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 08:49:47,264 INFO [train.py:903] (2/4) Epoch 17, batch 550, loss[loss=0.238, simple_loss=0.3173, pruned_loss=0.07932, over 19659.00 frames. ], tot_loss[loss=0.2179, simple_loss=0.295, pruned_loss=0.07036, over 3596720.46 frames. ], batch size: 53, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:49:50,689 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.960e+02 5.345e+02 7.483e+02 9.617e+02 2.288e+03, threshold=1.497e+03, percent-clipped=10.0
+2023-04-02 08:49:56,062 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.78 vs. limit=5.0
+2023-04-02 08:50:48,356 INFO [train.py:903] (2/4) Epoch 17, batch 600, loss[loss=0.2202, simple_loss=0.3004, pruned_loss=0.07001, over 19684.00 frames. ], tot_loss[loss=0.2193, simple_loss=0.2965, pruned_loss=0.07104, over 3652308.16 frames. ], batch size: 60, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:51:16,292 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4531, 1.5309, 2.0618, 1.9051, 3.1100, 4.0830, 3.9900, 4.4341],
+       device='cuda:2'), covar=tensor([0.1600, 0.3594, 0.3105, 0.2055, 0.0673, 0.0304, 0.0176, 0.0197],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0307, 0.0336, 0.0255, 0.0230, 0.0173, 0.0208, 0.0232],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:51:27,267 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 08:51:49,467 INFO [train.py:903] (2/4) Epoch 17, batch 650, loss[loss=0.2074, simple_loss=0.2819, pruned_loss=0.06645, over 19404.00 frames. ], tot_loss[loss=0.2189, simple_loss=0.2965, pruned_loss=0.0707, over 3699045.69 frames. ], batch size: 48, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:51:53,023 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.996e+02 5.642e+02 6.698e+02 8.791e+02 1.815e+03, threshold=1.340e+03, percent-clipped=2.0
+2023-04-02 08:52:21,973 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4382, 2.2311, 2.1028, 1.9608, 1.7720, 1.8826, 0.8135, 1.2760],
+       device='cuda:2'), covar=tensor([0.0532, 0.0530, 0.0401, 0.0739, 0.1042, 0.0844, 0.1071, 0.0939],
+       device='cuda:2'), in_proj_covar=tensor([0.0348, 0.0346, 0.0344, 0.0368, 0.0444, 0.0376, 0.0324, 0.0330],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:52:27,865 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=109927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:52:44,004 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=109941.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:52:51,845 INFO [train.py:903] (2/4) Epoch 17, batch 700, loss[loss=0.2093, simple_loss=0.2797, pruned_loss=0.06945, over 19852.00 frames. ], tot_loss[loss=0.2169, simple_loss=0.295, pruned_loss=0.06938, over 3739401.14 frames. ], batch size: 52, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:52:58,995 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=109952.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:53:57,830 INFO [train.py:903] (2/4) Epoch 17, batch 750, loss[loss=0.223, simple_loss=0.3011, pruned_loss=0.07248, over 19024.00 frames. ], tot_loss[loss=0.2166, simple_loss=0.295, pruned_loss=0.06911, over 3770286.86 frames. ], batch size: 69, lr: 4.93e-03, grad_scale: 8.0
+2023-04-02 08:54:02,545 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.920e+02 4.697e+02 5.712e+02 7.217e+02 1.165e+03, threshold=1.142e+03, percent-clipped=0.0
+2023-04-02 08:54:25,906 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110021.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:54:33,240 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=110027.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:54:44,199 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110035.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:54:44,338 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2298, 2.0618, 1.9403, 1.7660, 1.5557, 1.7068, 0.5492, 1.1076],
+       device='cuda:2'), covar=tensor([0.0589, 0.0533, 0.0436, 0.0734, 0.1045, 0.0882, 0.1141, 0.0924],
+       device='cuda:2'), in_proj_covar=tensor([0.0351, 0.0349, 0.0347, 0.0371, 0.0448, 0.0378, 0.0326, 0.0333],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 08:54:54,086 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3808, 1.9832, 2.0507, 2.9390, 2.1153, 2.7727, 2.5225, 2.4939],
+       device='cuda:2'), covar=tensor([0.0658, 0.0843, 0.0874, 0.0760, 0.0792, 0.0613, 0.0841, 0.0560],
+       device='cuda:2'), in_proj_covar=tensor([0.0206, 0.0218, 0.0221, 0.0241, 0.0224, 0.0205, 0.0186, 0.0199],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 08:55:00,572 INFO [train.py:903] (2/4) Epoch 17, batch 800, loss[loss=0.2045, simple_loss=0.287, pruned_loss=0.06095, over 19568.00 frames. ], tot_loss[loss=0.2178, simple_loss=0.2958, pruned_loss=0.06991, over 3783529.30 frames. ], batch size: 52, lr: 4.92e-03, grad_scale: 8.0
+2023-04-02 08:55:04,516 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=110051.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:55:05,681 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=110052.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:55:10,553 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110056.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:55:14,901 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 08:55:17,670 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:55:35,585 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=110076.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:56:03,227 INFO [train.py:903] (2/4) Epoch 17, batch 850, loss[loss=0.202, simple_loss=0.2827, pruned_loss=0.06062, over 19520.00 frames. ], tot_loss[loss=0.2165, simple_loss=0.2943, pruned_loss=0.06938, over 3790148.65 frames. ], batch size: 54, lr: 4.92e-03, grad_scale: 8.0
+2023-04-02 08:56:06,199 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.347e+02 5.213e+02 6.563e+02 8.363e+02 2.159e+03, threshold=1.313e+03, percent-clipped=10.0
+2023-04-02 08:56:42,112 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2864, 3.9799, 2.9656, 3.5471, 1.9374, 3.7649, 3.7560, 3.8576],
+       device='cuda:2'), covar=tensor([0.0744, 0.0939, 0.1847, 0.0773, 0.2676, 0.0799, 0.0906, 0.1213],
+       device='cuda:2'), in_proj_covar=tensor([0.0470, 0.0382, 0.0463, 0.0330, 0.0387, 0.0399, 0.0398, 0.0429],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 08:56:42,130 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:56:47,720 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110133.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:56:51,221 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110136.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 08:56:56,475 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 08:57:04,359 INFO [train.py:903] (2/4) Epoch 17, batch 900, loss[loss=0.2005, simple_loss=0.2801, pruned_loss=0.06049, over 19775.00 frames. ], tot_loss[loss=0.2169, simple_loss=0.2941, pruned_loss=0.06988, over 3805152.45 frames. ], batch size: 54, lr: 4.92e-03, grad_scale: 8.0
+2023-04-02 08:58:05,928 INFO [train.py:903] (2/4) Epoch 17, batch 950, loss[loss=0.1959, simple_loss=0.2687, pruned_loss=0.06152, over 19760.00 frames. ], tot_loss[loss=0.2174, simple_loss=0.2949, pruned_loss=0.06989, over 3821055.49 frames. ], batch size: 47, lr: 4.92e-03, grad_scale: 8.0
+2023-04-02 08:58:08,349 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 08:58:09,604 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.667e+02 4.867e+02 6.255e+02 8.229e+02 2.250e+03, threshold=1.251e+03, percent-clipped=5.0
+2023-04-02 08:59:08,995 INFO [train.py:903] (2/4) Epoch 17, batch 1000, loss[loss=0.206, simple_loss=0.2907, pruned_loss=0.06062, over 19600.00 frames. ], tot_loss[loss=0.2167, simple_loss=0.2944, pruned_loss=0.06954, over 3823059.82 frames. ], batch size: 57, lr: 4.92e-03, grad_scale: 4.0
+2023-04-02 09:00:05,672 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 09:00:11,636 INFO [train.py:903] (2/4) Epoch 17, batch 1050, loss[loss=0.2489, simple_loss=0.3243, pruned_loss=0.08676, over 18715.00 frames. ], tot_loss[loss=0.2171, simple_loss=0.2944, pruned_loss=0.06988, over 3829515.42 frames. ], batch size: 74, lr: 4.92e-03, grad_scale: 4.0
+2023-04-02 09:00:15,419 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:00:16,231 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.124e+02 4.918e+02 6.228e+02 8.050e+02 1.872e+03, threshold=1.246e+03, percent-clipped=2.0
+2023-04-02 09:00:28,120 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=110312.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:00:40,510 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110321.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:00:44,967 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 09:01:00,198 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:01:01,483 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=110337.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:01:13,840 INFO [train.py:903] (2/4) Epoch 17, batch 1100, loss[loss=0.227, simple_loss=0.3088, pruned_loss=0.07256, over 18755.00 frames. ], tot_loss[loss=0.2173, simple_loss=0.2946, pruned_loss=0.06998, over 3835372.10 frames. ], batch size: 74, lr: 4.92e-03, grad_scale: 4.0
+2023-04-02 09:01:54,277 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110379.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:02:09,857 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=110392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:02:16,589 INFO [train.py:903] (2/4) Epoch 17, batch 1150, loss[loss=0.2262, simple_loss=0.3061, pruned_loss=0.0731, over 19794.00 frames. ], tot_loss[loss=0.2159, simple_loss=0.2933, pruned_loss=0.06925, over 3833567.77 frames. ], batch size: 56, lr: 4.92e-03, grad_scale: 4.0
+2023-04-02 09:02:21,350 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.021e+02 4.729e+02 5.705e+02 7.310e+02 1.426e+03, threshold=1.141e+03, percent-clipped=3.0
+2023-04-02 09:02:28,351 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:02:43,182 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=110417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:03:20,434 INFO [train.py:903] (2/4) Epoch 17, batch 1200, loss[loss=0.2221, simple_loss=0.2972, pruned_loss=0.07351, over 19662.00 frames. ], tot_loss[loss=0.2173, simple_loss=0.2947, pruned_loss=0.06992, over 3817163.53 frames. ], batch size: 58, lr: 4.92e-03, grad_scale: 8.0
+2023-04-02 09:03:22,075 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.04 vs. limit=5.0
+2023-04-02 09:03:49,891 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110472.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:03:53,242 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 09:03:55,654 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110477.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:04:19,621 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110494.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:04:23,819 INFO [train.py:903] (2/4) Epoch 17, batch 1250, loss[loss=0.2033, simple_loss=0.2725, pruned_loss=0.06704, over 19808.00 frames. ], tot_loss[loss=0.2172, simple_loss=0.2948, pruned_loss=0.06978, over 3830812.52 frames. ], batch size: 49, lr: 4.91e-03, grad_scale: 8.0
+2023-04-02 09:04:28,265 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.549e+02 5.334e+02 6.614e+02 7.905e+02 1.343e+03, threshold=1.323e+03, percent-clipped=1.0
+2023-04-02 09:04:48,482 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3479, 3.0564, 2.2146, 2.7673, 0.7565, 2.9655, 2.8804, 3.0020],
+       device='cuda:2'), covar=tensor([0.1054, 0.1435, 0.2011, 0.1082, 0.3917, 0.1030, 0.1074, 0.1278],
+       device='cuda:2'), in_proj_covar=tensor([0.0471, 0.0385, 0.0465, 0.0331, 0.0389, 0.0402, 0.0400, 0.0429],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:04:52,209 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110521.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:05:25,877 INFO [train.py:903] (2/4) Epoch 17, batch 1300, loss[loss=0.192, simple_loss=0.2634, pruned_loss=0.06029, over 19733.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.2952, pruned_loss=0.06997, over 3838268.33 frames. ], batch size: 46, lr: 4.91e-03, grad_scale: 8.0
+2023-04-02 09:06:02,880 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.59 vs. limit=5.0
+2023-04-02 09:06:14,194 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:06:20,230 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110592.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:06:26,785 INFO [train.py:903] (2/4) Epoch 17, batch 1350, loss[loss=0.2458, simple_loss=0.3109, pruned_loss=0.09037, over 12920.00 frames. ], tot_loss[loss=0.218, simple_loss=0.2956, pruned_loss=0.0702, over 3828756.71 frames. ], batch size: 136, lr: 4.91e-03, grad_scale: 8.0
+2023-04-02 09:06:31,265 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.362e+02 4.458e+02 6.078e+02 8.226e+02 1.667e+03, threshold=1.216e+03, percent-clipped=3.0
+2023-04-02 09:06:35,117 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5360, 1.7408, 2.2355, 1.8807, 3.1885, 2.4798, 3.4381, 1.9169],
+       device='cuda:2'), covar=tensor([0.2600, 0.4393, 0.2841, 0.2018, 0.1666, 0.2395, 0.1821, 0.3866],
+       device='cuda:2'), in_proj_covar=tensor([0.0515, 0.0621, 0.0675, 0.0467, 0.0612, 0.0518, 0.0658, 0.0525],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 09:07:07,180 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110629.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:07:26,698 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110645.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:07:28,016 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9424, 1.1781, 1.5095, 0.6413, 1.9307, 2.2698, 2.0544, 2.4928],
+       device='cuda:2'), covar=tensor([0.1586, 0.3592, 0.3133, 0.2724, 0.0735, 0.0382, 0.0350, 0.0368],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0308, 0.0337, 0.0258, 0.0232, 0.0175, 0.0209, 0.0234],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 09:07:29,984 INFO [train.py:903] (2/4) Epoch 17, batch 1400, loss[loss=0.2584, simple_loss=0.3256, pruned_loss=0.09562, over 13798.00 frames. ], tot_loss[loss=0.2175, simple_loss=0.2948, pruned_loss=0.07013, over 3822769.03 frames. ], batch size: 135, lr: 4.91e-03, grad_scale: 4.0
+2023-04-02 09:07:51,399 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110665.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:08:08,777 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110680.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:08:32,859 INFO [train.py:903] (2/4) Epoch 17, batch 1450, loss[loss=0.2188, simple_loss=0.2948, pruned_loss=0.07143, over 19669.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2954, pruned_loss=0.07042, over 3826071.42 frames. ], batch size: 55, lr: 4.91e-03, grad_scale: 4.0
+2023-04-02 09:08:32,909 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 09:08:38,609 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.085e+02 5.047e+02 5.721e+02 7.117e+02 1.861e+03, threshold=1.144e+03, percent-clipped=3.0
+2023-04-02 09:09:35,388 INFO [train.py:903] (2/4) Epoch 17, batch 1500, loss[loss=0.2596, simple_loss=0.3316, pruned_loss=0.09375, over 13568.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.2949, pruned_loss=0.07012, over 3820930.05 frames. ], batch size: 137, lr: 4.91e-03, grad_scale: 4.0
+2023-04-02 09:09:38,229 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=110750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:09:42,835 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110754.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:09:50,114 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:10:11,734 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=110775.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:10:14,309 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=110777.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:10:16,445 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2780, 3.8233, 3.9374, 3.9283, 1.4192, 3.7169, 3.2491, 3.6778],
+       device='cuda:2'), covar=tensor([0.1558, 0.0804, 0.0674, 0.0755, 0.5788, 0.0906, 0.0669, 0.1177],
+       device='cuda:2'), in_proj_covar=tensor([0.0742, 0.0686, 0.0885, 0.0771, 0.0792, 0.0638, 0.0534, 0.0818],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 09:10:17,700 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110780.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:10:27,706 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-02 09:10:35,427 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=110795.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:10:38,194 INFO [train.py:903] (2/4) Epoch 17, batch 1550, loss[loss=0.2339, simple_loss=0.3093, pruned_loss=0.07928, over 13686.00 frames. ], tot_loss[loss=0.2163, simple_loss=0.294, pruned_loss=0.06933, over 3808910.31 frames. ], batch size: 136, lr: 4.91e-03, grad_scale: 4.0
+2023-04-02 09:10:44,288 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=110802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:10:44,892 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.880e+02 4.421e+02 5.256e+02 6.667e+02 1.625e+03, threshold=1.051e+03, percent-clipped=2.0
+2023-04-02 09:11:35,765 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=110843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:11:42,169 INFO [train.py:903] (2/4) Epoch 17, batch 1600, loss[loss=0.2146, simple_loss=0.2995, pruned_loss=0.06486, over 19728.00 frames. ], tot_loss[loss=0.2163, simple_loss=0.2937, pruned_loss=0.06944, over 3810825.41 frames. ], batch size: 59, lr: 4.91e-03, grad_scale: 8.0
+2023-04-02 09:11:42,621 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=110848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:12:05,494 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 09:12:05,851 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0265, 1.6942, 1.6653, 2.5588, 2.0738, 2.3776, 2.3227, 2.1650],
+       device='cuda:2'), covar=tensor([0.0752, 0.0920, 0.1042, 0.0822, 0.0798, 0.0641, 0.0845, 0.0651],
+       device='cuda:2'), in_proj_covar=tensor([0.0208, 0.0220, 0.0222, 0.0244, 0.0226, 0.0208, 0.0188, 0.0201],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 09:12:07,091 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=110868.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:12:12,581 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=110873.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:12:29,542 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110886.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:12:45,458 INFO [train.py:903] (2/4) Epoch 17, batch 1650, loss[loss=0.2473, simple_loss=0.3184, pruned_loss=0.08815, over 19718.00 frames. ], tot_loss[loss=0.2165, simple_loss=0.294, pruned_loss=0.06949, over 3819082.24 frames. ], batch size: 63, lr: 4.91e-03, grad_scale: 8.0
+2023-04-02 09:12:51,301 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.530e+02 5.600e+02 6.791e+02 9.379e+02 3.114e+03, threshold=1.358e+03, percent-clipped=15.0
+2023-04-02 09:13:30,818 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2692, 1.8803, 1.8634, 2.6738, 2.0194, 2.4610, 2.4578, 2.4856],
+       device='cuda:2'), covar=tensor([0.0750, 0.0909, 0.0978, 0.0871, 0.0862, 0.0718, 0.0896, 0.0589],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0221, 0.0224, 0.0245, 0.0227, 0.0209, 0.0189, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 09:13:47,394 INFO [train.py:903] (2/4) Epoch 17, batch 1700, loss[loss=0.2181, simple_loss=0.2975, pruned_loss=0.06934, over 19613.00 frames. ], tot_loss[loss=0.2167, simple_loss=0.2942, pruned_loss=0.06957, over 3823076.21 frames. ], batch size: 61, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:14:19,101 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=110973.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:14:24,112 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=110976.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:14:29,658 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 09:14:49,204 INFO [train.py:903] (2/4) Epoch 17, batch 1750, loss[loss=0.2444, simple_loss=0.3229, pruned_loss=0.08295, over 17296.00 frames. ], tot_loss[loss=0.217, simple_loss=0.2942, pruned_loss=0.0699, over 3810495.11 frames. ], batch size: 101, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:14:55,345 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.686e+02 4.870e+02 5.792e+02 7.151e+02 1.845e+03, threshold=1.158e+03, percent-clipped=1.0
+2023-04-02 09:15:03,670 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2293, 1.9052, 1.8969, 2.7042, 1.9928, 2.5290, 2.5306, 2.4645],
+       device='cuda:2'), covar=tensor([0.0737, 0.0915, 0.0955, 0.0834, 0.0866, 0.0704, 0.0832, 0.0579],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0221, 0.0223, 0.0245, 0.0227, 0.0208, 0.0188, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 09:15:14,972 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=111016.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:15:37,642 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=111036.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:15:39,754 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1146, 5.1681, 5.9860, 5.9167, 2.1239, 5.6117, 4.7624, 5.5824],
+       device='cuda:2'), covar=tensor([0.1521, 0.0758, 0.0526, 0.0548, 0.5664, 0.0633, 0.0572, 0.1066],
+       device='cuda:2'), in_proj_covar=tensor([0.0738, 0.0679, 0.0883, 0.0766, 0.0788, 0.0638, 0.0530, 0.0809],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 09:15:43,368 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=111041.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:15:51,885 INFO [train.py:903] (2/4) Epoch 17, batch 1800, loss[loss=0.2446, simple_loss=0.3251, pruned_loss=0.08203, over 18664.00 frames. ], tot_loss[loss=0.216, simple_loss=0.2938, pruned_loss=0.06917, over 3819774.53 frames. ], batch size: 74, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:15:57,978 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=111051.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:16:10,680 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=111061.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:16:28,057 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=111076.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:16:44,397 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=111088.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:16:51,937 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 09:16:56,848 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7760, 1.8723, 2.0882, 2.3196, 1.7883, 2.2366, 2.1960, 1.9906],
+       device='cuda:2'), covar=tensor([0.3589, 0.2980, 0.1542, 0.1890, 0.3162, 0.1638, 0.3655, 0.2686],
+       device='cuda:2'), in_proj_covar=tensor([0.0853, 0.0902, 0.0682, 0.0909, 0.0833, 0.0770, 0.0812, 0.0752],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 09:16:57,617 INFO [train.py:903] (2/4) Epoch 17, batch 1850, loss[loss=0.2511, simple_loss=0.3222, pruned_loss=0.09004, over 17454.00 frames. ], tot_loss[loss=0.2167, simple_loss=0.2942, pruned_loss=0.06961, over 3812394.81 frames. ], batch size: 101, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:16:57,845 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=111098.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:17:03,773 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.487e+02 5.241e+02 6.549e+02 7.790e+02 1.838e+03, threshold=1.310e+03, percent-clipped=3.0
+2023-04-02 09:17:29,439 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 09:18:00,994 INFO [train.py:903] (2/4) Epoch 17, batch 1900, loss[loss=0.1885, simple_loss=0.2663, pruned_loss=0.0553, over 19603.00 frames. ], tot_loss[loss=0.2152, simple_loss=0.2933, pruned_loss=0.06851, over 3821318.75 frames. ], batch size: 50, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:18:17,319 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 09:18:24,386 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 09:18:34,730 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4142, 1.5534, 1.8130, 1.6291, 2.4026, 2.1679, 2.4686, 1.0890],
+       device='cuda:2'), covar=tensor([0.2268, 0.3804, 0.2314, 0.1863, 0.1511, 0.2032, 0.1408, 0.4104],
+       device='cuda:2'), in_proj_covar=tensor([0.0506, 0.0613, 0.0670, 0.0462, 0.0608, 0.0513, 0.0651, 0.0521],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 09:18:49,756 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 09:19:02,960 INFO [train.py:903] (2/4) Epoch 17, batch 1950, loss[loss=0.1961, simple_loss=0.2851, pruned_loss=0.05353, over 19677.00 frames. ], tot_loss[loss=0.2159, simple_loss=0.2938, pruned_loss=0.06905, over 3803026.41 frames. ], batch size: 58, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:19:08,708 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.803e+02 5.118e+02 6.155e+02 7.161e+02 1.490e+03, threshold=1.231e+03, percent-clipped=2.0
+2023-04-02 09:19:10,544 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.58 vs. limit=2.0
+2023-04-02 09:19:23,906 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=111213.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:19:24,967 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8927, 1.7020, 2.0662, 1.6093, 4.4294, 1.0245, 2.6496, 4.8469],
+       device='cuda:2'), covar=tensor([0.0431, 0.2573, 0.2389, 0.1912, 0.0748, 0.2676, 0.1276, 0.0170],
+       device='cuda:2'), in_proj_covar=tensor([0.0389, 0.0352, 0.0374, 0.0335, 0.0360, 0.0342, 0.0358, 0.0381],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:19:44,079 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=111230.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:19:59,232 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=111243.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:20:03,523 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3637, 1.3511, 1.2798, 1.6871, 1.2703, 1.7084, 1.6069, 1.5715],
+       device='cuda:2'), covar=tensor([0.0862, 0.0953, 0.1058, 0.0755, 0.0883, 0.0727, 0.0838, 0.0711],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0222, 0.0224, 0.0245, 0.0228, 0.0209, 0.0190, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 09:20:03,731 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.51 vs. limit=5.0
+2023-04-02 09:20:05,432 INFO [train.py:903] (2/4) Epoch 17, batch 2000, loss[loss=0.1839, simple_loss=0.2616, pruned_loss=0.05309, over 19823.00 frames. ], tot_loss[loss=0.2166, simple_loss=0.2943, pruned_loss=0.06944, over 3810323.16 frames. ], batch size: 52, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:20:47,965 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.70 vs. limit=5.0
+2023-04-02 09:21:04,227 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 09:21:07,744 INFO [train.py:903] (2/4) Epoch 17, batch 2050, loss[loss=0.2163, simple_loss=0.3005, pruned_loss=0.06603, over 19527.00 frames. ], tot_loss[loss=0.2159, simple_loss=0.2939, pruned_loss=0.06898, over 3821649.68 frames. ], batch size: 56, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:21:14,880 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.549e+02 5.413e+02 6.604e+02 7.706e+02 1.674e+03, threshold=1.321e+03, percent-clipped=5.0
+2023-04-02 09:21:22,813 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 09:21:24,054 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 09:21:34,572 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=111320.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:21:44,783 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 09:22:05,005 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=111344.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:22:06,103 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=111345.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:22:09,333 INFO [train.py:903] (2/4) Epoch 17, batch 2100, loss[loss=0.2492, simple_loss=0.3222, pruned_loss=0.08814, over 18842.00 frames. ], tot_loss[loss=0.2163, simple_loss=0.2942, pruned_loss=0.06923, over 3834294.26 frames. ], batch size: 74, lr: 4.90e-03, grad_scale: 8.0
+2023-04-02 09:22:34,905 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=111369.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:22:38,045 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 09:22:55,906 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5263, 3.1259, 2.3497, 2.3681, 2.2557, 2.6360, 1.1140, 2.2306],
+       device='cuda:2'), covar=tensor([0.0452, 0.0556, 0.0663, 0.0968, 0.1086, 0.0973, 0.1279, 0.1012],
+       device='cuda:2'), in_proj_covar=tensor([0.0351, 0.0350, 0.0348, 0.0374, 0.0450, 0.0382, 0.0326, 0.0335],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 09:23:01,368 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 09:23:10,556 INFO [train.py:903] (2/4) Epoch 17, batch 2150, loss[loss=0.2005, simple_loss=0.2937, pruned_loss=0.05359, over 19538.00 frames. ], tot_loss[loss=0.2168, simple_loss=0.2945, pruned_loss=0.06951, over 3826118.21 frames. ], batch size: 56, lr: 4.89e-03, grad_scale: 8.0
+2023-04-02 09:23:15,736 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5242, 1.5698, 1.8634, 1.7217, 2.7075, 2.3062, 2.8272, 1.4762],
+       device='cuda:2'), covar=tensor([0.2183, 0.3847, 0.2482, 0.1825, 0.1410, 0.1937, 0.1378, 0.3839],
+       device='cuda:2'), in_proj_covar=tensor([0.0508, 0.0615, 0.0671, 0.0463, 0.0611, 0.0514, 0.0653, 0.0522],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 09:23:16,487 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.230e+02 4.943e+02 5.975e+02 7.359e+02 1.553e+03, threshold=1.195e+03, percent-clipped=3.0
+2023-04-02 09:23:56,917 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=111435.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:24:11,378 INFO [train.py:903] (2/4) Epoch 17, batch 2200, loss[loss=0.2402, simple_loss=0.3082, pruned_loss=0.08608, over 19660.00 frames. ], tot_loss[loss=0.217, simple_loss=0.2945, pruned_loss=0.06976, over 3831004.59 frames. ], batch size: 53, lr: 4.89e-03, grad_scale: 8.0
+2023-04-02 09:24:38,985 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=111469.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:24:58,478 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=111486.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:25:09,808 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=111494.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:25:15,250 INFO [train.py:903] (2/4) Epoch 17, batch 2250, loss[loss=0.2258, simple_loss=0.3125, pruned_loss=0.0695, over 19768.00 frames. ], tot_loss[loss=0.2178, simple_loss=0.295, pruned_loss=0.07035, over 3801760.12 frames. ], batch size: 56, lr: 4.89e-03, grad_scale: 8.0
+2023-04-02 09:25:22,031 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.234e+02 5.257e+02 6.827e+02 8.687e+02 2.303e+03, threshold=1.365e+03, percent-clipped=8.0
+2023-04-02 09:26:16,855 INFO [train.py:903] (2/4) Epoch 17, batch 2300, loss[loss=0.21, simple_loss=0.2869, pruned_loss=0.06658, over 19619.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2954, pruned_loss=0.07044, over 3779274.62 frames. ], batch size: 50, lr: 4.89e-03, grad_scale: 8.0
+2023-04-02 09:26:27,113 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 09:26:38,572 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
+2023-04-02 09:27:05,568 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=111587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:27:18,432 INFO [train.py:903] (2/4) Epoch 17, batch 2350, loss[loss=0.2269, simple_loss=0.3074, pruned_loss=0.07318, over 19543.00 frames. ], tot_loss[loss=0.2186, simple_loss=0.2961, pruned_loss=0.0706, over 3789684.62 frames. ], batch size: 56, lr: 4.89e-03, grad_scale: 8.0
+2023-04-02 09:27:22,392 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=111601.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:27:24,243 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.974e+02 5.149e+02 5.946e+02 7.803e+02 1.982e+03, threshold=1.189e+03, percent-clipped=4.0
+2023-04-02 09:27:54,523 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=111626.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:27:58,762 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 09:28:06,321 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.28 vs. limit=5.0
+2023-04-02 09:28:14,863 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 09:28:19,177 INFO [train.py:903] (2/4) Epoch 17, batch 2400, loss[loss=0.2368, simple_loss=0.3028, pruned_loss=0.08541, over 19764.00 frames. ], tot_loss[loss=0.2189, simple_loss=0.296, pruned_loss=0.07087, over 3797198.48 frames. ], batch size: 54, lr: 4.89e-03, grad_scale: 8.0
+2023-04-02 09:28:24,016 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7612, 1.8766, 2.1143, 2.3475, 1.6714, 2.2060, 2.1818, 1.9600],
+       device='cuda:2'), covar=tensor([0.3930, 0.3438, 0.1760, 0.2027, 0.3656, 0.1887, 0.4399, 0.3160],
+       device='cuda:2'), in_proj_covar=tensor([0.0854, 0.0902, 0.0683, 0.0909, 0.0833, 0.0768, 0.0816, 0.0752],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 09:29:15,421 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=111691.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:29:24,908 INFO [train.py:903] (2/4) Epoch 17, batch 2450, loss[loss=0.1986, simple_loss=0.274, pruned_loss=0.06163, over 19586.00 frames. ], tot_loss[loss=0.2188, simple_loss=0.2961, pruned_loss=0.07076, over 3811920.37 frames. ], batch size: 52, lr: 4.89e-03, grad_scale: 4.0
+2023-04-02 09:29:29,891 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=111702.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:29:30,396 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
+2023-04-02 09:29:32,594 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.040e+02 4.976e+02 6.292e+02 8.323e+02 1.636e+03, threshold=1.258e+03, percent-clipped=0.0
+2023-04-02 09:29:32,966 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7442, 1.5789, 1.5424, 1.8042, 1.6292, 1.5580, 1.5079, 1.7120],
+       device='cuda:2'), covar=tensor([0.0842, 0.1239, 0.1164, 0.0751, 0.0996, 0.0473, 0.1072, 0.0559],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0354, 0.0302, 0.0245, 0.0299, 0.0248, 0.0297, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:29:47,085 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=111716.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:30:18,818 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7676, 1.8530, 2.1261, 2.3115, 1.7352, 2.2134, 2.2004, 1.9331],
+       device='cuda:2'), covar=tensor([0.3760, 0.3387, 0.1692, 0.2038, 0.3373, 0.1837, 0.4227, 0.3068],
+       device='cuda:2'), in_proj_covar=tensor([0.0857, 0.0907, 0.0687, 0.0914, 0.0836, 0.0773, 0.0818, 0.0753],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 09:30:27,986 INFO [train.py:903] (2/4) Epoch 17, batch 2500, loss[loss=0.1809, simple_loss=0.259, pruned_loss=0.05138, over 19397.00 frames. ], tot_loss[loss=0.219, simple_loss=0.2965, pruned_loss=0.07081, over 3805576.61 frames. ], batch size: 48, lr: 4.89e-03, grad_scale: 4.0
+2023-04-02 09:30:51,929 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.32 vs. limit=2.0
+2023-04-02 09:31:31,093 INFO [train.py:903] (2/4) Epoch 17, batch 2550, loss[loss=0.2659, simple_loss=0.3334, pruned_loss=0.09917, over 19719.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.295, pruned_loss=0.07008, over 3810972.60 frames. ], batch size: 63, lr: 4.89e-03, grad_scale: 4.0
+2023-04-02 09:31:36,563 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8464, 2.4900, 2.2627, 2.8542, 2.3542, 2.3059, 2.1006, 2.6985],
+       device='cuda:2'), covar=tensor([0.0822, 0.1469, 0.1388, 0.0959, 0.1383, 0.0489, 0.1289, 0.0609],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0355, 0.0304, 0.0246, 0.0301, 0.0250, 0.0299, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:31:38,616 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.039e+02 5.268e+02 6.331e+02 7.722e+02 1.710e+03, threshold=1.266e+03, percent-clipped=3.0
+2023-04-02 09:31:44,801 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=111809.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 09:32:13,234 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=111830.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:32:28,410 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 09:32:34,314 INFO [train.py:903] (2/4) Epoch 17, batch 2600, loss[loss=0.2232, simple_loss=0.3079, pruned_loss=0.0693, over 18732.00 frames. ], tot_loss[loss=0.2165, simple_loss=0.2943, pruned_loss=0.0693, over 3818645.89 frames. ], batch size: 74, lr: 4.88e-03, grad_scale: 4.0
+2023-04-02 09:32:50,528 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3085, 3.0248, 2.0582, 2.7518, 0.6370, 2.9435, 2.8728, 2.9404],
+       device='cuda:2'), covar=tensor([0.1099, 0.1344, 0.2171, 0.1038, 0.3841, 0.1019, 0.1121, 0.1350],
+       device='cuda:2'), in_proj_covar=tensor([0.0481, 0.0392, 0.0475, 0.0337, 0.0395, 0.0410, 0.0410, 0.0438],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:33:07,576 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8479, 4.9761, 5.7007, 5.7039, 2.1028, 5.3758, 4.6319, 5.3296],
+       device='cuda:2'), covar=tensor([0.1476, 0.0854, 0.0508, 0.0542, 0.5498, 0.0618, 0.0532, 0.1109],
+       device='cuda:2'), in_proj_covar=tensor([0.0748, 0.0684, 0.0891, 0.0775, 0.0796, 0.0641, 0.0534, 0.0820],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 09:33:38,518 INFO [train.py:903] (2/4) Epoch 17, batch 2650, loss[loss=0.1942, simple_loss=0.2691, pruned_loss=0.0596, over 19789.00 frames. ], tot_loss[loss=0.2187, simple_loss=0.296, pruned_loss=0.07073, over 3805534.81 frames. ], batch size: 49, lr: 4.88e-03, grad_scale: 4.0
+2023-04-02 09:33:46,347 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.387e+02 5.132e+02 6.430e+02 7.842e+02 1.964e+03, threshold=1.286e+03, percent-clipped=4.0
+2023-04-02 09:33:58,649 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 09:34:09,643 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4091, 1.1826, 1.4090, 1.5103, 2.9798, 1.1657, 2.3093, 3.3204],
+       device='cuda:2'), covar=tensor([0.0489, 0.2820, 0.3003, 0.1787, 0.0748, 0.2427, 0.1178, 0.0293],
+       device='cuda:2'), in_proj_covar=tensor([0.0386, 0.0351, 0.0372, 0.0334, 0.0360, 0.0341, 0.0358, 0.0378],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:34:38,387 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=111945.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:34:41,279 INFO [train.py:903] (2/4) Epoch 17, batch 2700, loss[loss=0.1907, simple_loss=0.2692, pruned_loss=0.05607, over 19613.00 frames. ], tot_loss[loss=0.2194, simple_loss=0.2965, pruned_loss=0.07111, over 3799040.65 frames. ], batch size: 50, lr: 4.88e-03, grad_scale: 4.0
+2023-04-02 09:34:54,258 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=111958.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:34:58,874 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1050, 2.0686, 1.7435, 2.2009, 2.0543, 1.8593, 1.7589, 2.0059],
+       device='cuda:2'), covar=tensor([0.1020, 0.1363, 0.1485, 0.0967, 0.1204, 0.0521, 0.1320, 0.0690],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0355, 0.0303, 0.0246, 0.0300, 0.0249, 0.0298, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:35:26,067 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=111983.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:35:43,873 INFO [train.py:903] (2/4) Epoch 17, batch 2750, loss[loss=0.1813, simple_loss=0.2541, pruned_loss=0.05428, over 19767.00 frames. ], tot_loss[loss=0.2188, simple_loss=0.296, pruned_loss=0.07077, over 3804667.57 frames. ], batch size: 45, lr: 4.88e-03, grad_scale: 4.0
+2023-04-02 09:35:52,115 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.760e+02 5.468e+02 6.814e+02 8.726e+02 1.544e+03, threshold=1.363e+03, percent-clipped=3.0
+2023-04-02 09:36:45,031 INFO [train.py:903] (2/4) Epoch 17, batch 2800, loss[loss=0.2368, simple_loss=0.3058, pruned_loss=0.08392, over 19622.00 frames. ], tot_loss[loss=0.2174, simple_loss=0.2948, pruned_loss=0.07003, over 3807506.08 frames. ], batch size: 50, lr: 4.88e-03, grad_scale: 8.0
+2023-04-02 09:37:26,162 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1476, 1.2534, 1.6270, 1.1091, 2.5325, 3.3485, 3.0644, 3.5935],
+       device='cuda:2'), covar=tensor([0.1626, 0.3688, 0.3164, 0.2445, 0.0556, 0.0189, 0.0234, 0.0247],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0307, 0.0337, 0.0256, 0.0229, 0.0174, 0.0208, 0.0233],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 09:37:29,640 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=112084.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:37:48,063 INFO [train.py:903] (2/4) Epoch 17, batch 2850, loss[loss=0.2383, simple_loss=0.3156, pruned_loss=0.08051, over 19616.00 frames. ], tot_loss[loss=0.2179, simple_loss=0.2953, pruned_loss=0.07024, over 3811980.63 frames. ], batch size: 57, lr: 4.88e-03, grad_scale: 8.0
+2023-04-02 09:37:54,818 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.003e+02 5.207e+02 6.661e+02 8.674e+02 1.797e+03, threshold=1.332e+03, percent-clipped=6.0
+2023-04-02 09:37:57,490 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5756, 1.2814, 1.5054, 1.0568, 2.2116, 0.9390, 2.0386, 2.4666],
+       device='cuda:2'), covar=tensor([0.0671, 0.2473, 0.2503, 0.1761, 0.0839, 0.2125, 0.1041, 0.0443],
+       device='cuda:2'), in_proj_covar=tensor([0.0386, 0.0349, 0.0371, 0.0332, 0.0358, 0.0340, 0.0357, 0.0378],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:38:46,055 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 09:38:49,613 INFO [train.py:903] (2/4) Epoch 17, batch 2900, loss[loss=0.2348, simple_loss=0.306, pruned_loss=0.08179, over 19783.00 frames. ], tot_loss[loss=0.2173, simple_loss=0.2946, pruned_loss=0.06996, over 3804408.41 frames. ], batch size: 56, lr: 4.88e-03, grad_scale: 8.0
+2023-04-02 09:38:56,332 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=112153.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 09:39:51,804 INFO [train.py:903] (2/4) Epoch 17, batch 2950, loss[loss=0.1881, simple_loss=0.2634, pruned_loss=0.05637, over 19788.00 frames. ], tot_loss[loss=0.2165, simple_loss=0.2936, pruned_loss=0.06965, over 3816895.51 frames. ], batch size: 48, lr: 4.88e-03, grad_scale: 8.0
+2023-04-02 09:39:55,957 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=112201.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:39:58,767 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.039e+02 4.879e+02 6.137e+02 7.850e+02 1.399e+03, threshold=1.227e+03, percent-clipped=1.0
+2023-04-02 09:40:27,872 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=112226.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:40:35,970 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3079, 1.3797, 1.6461, 1.5353, 2.4479, 2.0971, 2.5522, 0.9983],
+       device='cuda:2'), covar=tensor([0.2414, 0.4202, 0.2523, 0.1950, 0.1458, 0.2198, 0.1439, 0.4375],
+       device='cuda:2'), in_proj_covar=tensor([0.0507, 0.0610, 0.0664, 0.0461, 0.0603, 0.0513, 0.0649, 0.0522],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 09:40:54,423 INFO [train.py:903] (2/4) Epoch 17, batch 3000, loss[loss=0.1854, simple_loss=0.2677, pruned_loss=0.0515, over 19666.00 frames. ], tot_loss[loss=0.2152, simple_loss=0.2926, pruned_loss=0.06893, over 3818583.36 frames. ], batch size: 53, lr: 4.88e-03, grad_scale: 8.0
+2023-04-02 09:40:54,424 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 09:41:09,010 INFO [train.py:937] (2/4) Epoch 17, validation: loss=0.1717, simple_loss=0.272, pruned_loss=0.03576, over 944034.00 frames. 
+2023-04-02 09:41:09,011 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 09:41:13,733 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 09:41:33,216 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=112268.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 09:41:33,250 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2652, 1.8798, 1.5099, 1.0591, 1.8365, 0.9728, 1.0901, 1.7048],
+       device='cuda:2'), covar=tensor([0.0913, 0.0772, 0.1051, 0.0997, 0.0526, 0.1364, 0.0744, 0.0418],
+       device='cuda:2'), in_proj_covar=tensor([0.0294, 0.0307, 0.0330, 0.0255, 0.0242, 0.0329, 0.0290, 0.0265],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:42:09,758 INFO [train.py:903] (2/4) Epoch 17, batch 3050, loss[loss=0.2209, simple_loss=0.2811, pruned_loss=0.08032, over 19749.00 frames. ], tot_loss[loss=0.2156, simple_loss=0.2929, pruned_loss=0.06913, over 3818486.34 frames. ], batch size: 45, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:42:16,485 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.397e+02 5.197e+02 6.217e+02 9.038e+02 1.667e+03, threshold=1.243e+03, percent-clipped=8.0
+2023-04-02 09:42:16,887 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8231, 1.6149, 1.4912, 1.8342, 1.5648, 1.6168, 1.4491, 1.7269],
+       device='cuda:2'), covar=tensor([0.0948, 0.1284, 0.1344, 0.0877, 0.1139, 0.0525, 0.1310, 0.0705],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0358, 0.0305, 0.0246, 0.0299, 0.0250, 0.0298, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:43:10,131 INFO [train.py:903] (2/4) Epoch 17, batch 3100, loss[loss=0.203, simple_loss=0.2871, pruned_loss=0.05948, over 19686.00 frames. ], tot_loss[loss=0.216, simple_loss=0.2933, pruned_loss=0.06929, over 3833104.88 frames. ], batch size: 59, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:43:32,153 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.65 vs. limit=5.0
+2023-04-02 09:43:32,968 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5447, 1.2825, 1.3036, 1.5222, 1.3202, 1.3659, 1.2368, 1.4821],
+       device='cuda:2'), covar=tensor([0.0783, 0.1208, 0.1097, 0.0723, 0.0985, 0.0470, 0.1122, 0.0591],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0356, 0.0304, 0.0245, 0.0298, 0.0249, 0.0296, 0.0248],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:43:34,200 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1537, 1.3127, 1.8617, 1.3160, 2.6773, 3.7458, 3.4781, 3.9640],
+       device='cuda:2'), covar=tensor([0.1605, 0.3554, 0.2969, 0.2280, 0.0569, 0.0156, 0.0188, 0.0232],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0307, 0.0336, 0.0256, 0.0229, 0.0175, 0.0208, 0.0234],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 09:44:09,950 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.76 vs. limit=5.0
+2023-04-02 09:44:14,541 INFO [train.py:903] (2/4) Epoch 17, batch 3150, loss[loss=0.2348, simple_loss=0.3136, pruned_loss=0.078, over 19582.00 frames. ], tot_loss[loss=0.2173, simple_loss=0.2944, pruned_loss=0.07012, over 3838717.29 frames. ], batch size: 52, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:44:21,820 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.470e+02 5.016e+02 6.190e+02 7.660e+02 1.883e+03, threshold=1.238e+03, percent-clipped=9.0
+2023-04-02 09:44:25,534 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=112407.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:44:42,659 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 09:44:52,116 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=112428.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:44:52,647 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.09 vs. limit=5.0
+2023-04-02 09:45:17,099 INFO [train.py:903] (2/4) Epoch 17, batch 3200, loss[loss=0.205, simple_loss=0.2812, pruned_loss=0.06433, over 19594.00 frames. ], tot_loss[loss=0.2173, simple_loss=0.2945, pruned_loss=0.07005, over 3834391.62 frames. ], batch size: 52, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:46:07,411 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6296, 1.3655, 1.5602, 1.5846, 3.1997, 1.0210, 2.2845, 3.5887],
+       device='cuda:2'), covar=tensor([0.0485, 0.2681, 0.2616, 0.1742, 0.0738, 0.2561, 0.1241, 0.0255],
+       device='cuda:2'), in_proj_covar=tensor([0.0386, 0.0352, 0.0371, 0.0332, 0.0358, 0.0340, 0.0356, 0.0379],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:46:19,039 INFO [train.py:903] (2/4) Epoch 17, batch 3250, loss[loss=0.2088, simple_loss=0.2888, pruned_loss=0.06437, over 19749.00 frames. ], tot_loss[loss=0.2177, simple_loss=0.2949, pruned_loss=0.07021, over 3829921.56 frames. ], batch size: 54, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:46:26,173 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.294e+02 4.958e+02 6.274e+02 7.840e+02 2.025e+03, threshold=1.255e+03, percent-clipped=2.0
+2023-04-02 09:46:42,512 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 09:46:51,193 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=112524.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 09:47:13,560 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=112543.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:47:18,737 INFO [train.py:903] (2/4) Epoch 17, batch 3300, loss[loss=0.206, simple_loss=0.2871, pruned_loss=0.06244, over 19849.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.2951, pruned_loss=0.07003, over 3839253.73 frames. ], batch size: 52, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:47:21,226 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=112549.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 09:47:25,361 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 09:48:00,371 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=112580.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:48:20,892 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=112595.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:48:24,050 INFO [train.py:903] (2/4) Epoch 17, batch 3350, loss[loss=0.2068, simple_loss=0.2836, pruned_loss=0.06499, over 19693.00 frames. ], tot_loss[loss=0.2166, simple_loss=0.2945, pruned_loss=0.06933, over 3841912.64 frames. ], batch size: 53, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:48:31,317 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.087e+02 5.436e+02 6.846e+02 8.612e+02 1.565e+03, threshold=1.369e+03, percent-clipped=5.0
+2023-04-02 09:49:09,946 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=112635.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:49:24,124 INFO [train.py:903] (2/4) Epoch 17, batch 3400, loss[loss=0.2537, simple_loss=0.3296, pruned_loss=0.08886, over 19585.00 frames. ], tot_loss[loss=0.2168, simple_loss=0.2946, pruned_loss=0.06947, over 3827498.36 frames. ], batch size: 61, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:50:25,907 INFO [train.py:903] (2/4) Epoch 17, batch 3450, loss[loss=0.2271, simple_loss=0.2951, pruned_loss=0.07956, over 19414.00 frames. ], tot_loss[loss=0.2155, simple_loss=0.2934, pruned_loss=0.06878, over 3816763.15 frames. ], batch size: 48, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:50:28,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 09:50:32,995 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.425e+02 4.932e+02 6.092e+02 9.481e+02 2.200e+03, threshold=1.218e+03, percent-clipped=6.0
+2023-04-02 09:50:55,137 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.76 vs. limit=5.0
+2023-04-02 09:51:04,789 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8690, 1.7419, 1.4626, 1.8893, 1.6100, 1.5885, 1.6031, 1.7418],
+       device='cuda:2'), covar=tensor([0.1076, 0.1420, 0.1623, 0.1065, 0.1326, 0.0622, 0.1351, 0.0805],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0353, 0.0299, 0.0242, 0.0295, 0.0246, 0.0293, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:51:27,355 INFO [train.py:903] (2/4) Epoch 17, batch 3500, loss[loss=0.2422, simple_loss=0.3186, pruned_loss=0.08292, over 18814.00 frames. ], tot_loss[loss=0.2168, simple_loss=0.2943, pruned_loss=0.06962, over 3823976.48 frames. ], batch size: 74, lr: 4.87e-03, grad_scale: 8.0
+2023-04-02 09:51:32,015 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=112751.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:52:31,111 INFO [train.py:903] (2/4) Epoch 17, batch 3550, loss[loss=0.2407, simple_loss=0.3159, pruned_loss=0.08272, over 18100.00 frames. ], tot_loss[loss=0.2164, simple_loss=0.2939, pruned_loss=0.06945, over 3820435.55 frames. ], batch size: 83, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 09:52:32,856 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=112799.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:52:38,378 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.345e+02 4.759e+02 5.980e+02 7.566e+02 1.638e+03, threshold=1.196e+03, percent-clipped=2.0
+2023-04-02 09:52:57,243 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8717, 4.3047, 4.6048, 4.6225, 1.7494, 4.3383, 3.7137, 4.2803],
+       device='cuda:2'), covar=tensor([0.1554, 0.0803, 0.0570, 0.0602, 0.5676, 0.0739, 0.0663, 0.1128],
+       device='cuda:2'), in_proj_covar=tensor([0.0752, 0.0691, 0.0900, 0.0777, 0.0797, 0.0647, 0.0538, 0.0823],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 09:53:03,326 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=112824.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:53:33,308 INFO [train.py:903] (2/4) Epoch 17, batch 3600, loss[loss=0.206, simple_loss=0.2902, pruned_loss=0.06091, over 19688.00 frames. ], tot_loss[loss=0.2143, simple_loss=0.2924, pruned_loss=0.06809, over 3833383.14 frames. ], batch size: 60, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 09:53:55,539 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=112866.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:54:35,707 INFO [train.py:903] (2/4) Epoch 17, batch 3650, loss[loss=0.265, simple_loss=0.3431, pruned_loss=0.09345, over 19540.00 frames. ], tot_loss[loss=0.215, simple_loss=0.2932, pruned_loss=0.06837, over 3832201.31 frames. ], batch size: 54, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 09:54:43,570 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.951e+02 4.960e+02 5.826e+02 7.647e+02 1.614e+03, threshold=1.165e+03, percent-clipped=2.0
+2023-04-02 09:55:09,850 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=112924.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:55:28,598 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=112939.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:55:28,730 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=112939.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:55:38,878 INFO [train.py:903] (2/4) Epoch 17, batch 3700, loss[loss=0.1775, simple_loss=0.2598, pruned_loss=0.04762, over 19737.00 frames. ], tot_loss[loss=0.2155, simple_loss=0.2936, pruned_loss=0.06871, over 3831482.30 frames. ], batch size: 51, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 09:56:05,006 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2597, 1.1929, 1.2570, 1.3893, 1.0763, 1.3304, 1.2556, 1.3336],
+       device='cuda:2'), covar=tensor([0.0941, 0.1092, 0.1085, 0.0719, 0.0871, 0.0916, 0.0944, 0.0831],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0222, 0.0222, 0.0244, 0.0228, 0.0208, 0.0189, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 09:56:17,476 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=112979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:56:42,237 INFO [train.py:903] (2/4) Epoch 17, batch 3750, loss[loss=0.2206, simple_loss=0.302, pruned_loss=0.06966, over 19680.00 frames. ], tot_loss[loss=0.2162, simple_loss=0.2938, pruned_loss=0.06928, over 3824999.66 frames. ], batch size: 60, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 09:56:49,254 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.286e+02 4.723e+02 6.001e+02 7.947e+02 1.345e+03, threshold=1.200e+03, percent-clipped=4.0
+2023-04-02 09:56:58,856 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2254, 3.7145, 2.2097, 2.1800, 3.3430, 2.1493, 1.6221, 2.3280],
+       device='cuda:2'), covar=tensor([0.1349, 0.0540, 0.0983, 0.0874, 0.0409, 0.1059, 0.0959, 0.0621],
+       device='cuda:2'), in_proj_covar=tensor([0.0298, 0.0313, 0.0334, 0.0258, 0.0245, 0.0333, 0.0294, 0.0268],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 09:57:32,680 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=113039.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:57:42,418 INFO [train.py:903] (2/4) Epoch 17, batch 3800, loss[loss=0.1678, simple_loss=0.2463, pruned_loss=0.04462, over 19767.00 frames. ], tot_loss[loss=0.218, simple_loss=0.2951, pruned_loss=0.07046, over 3805043.47 frames. ], batch size: 47, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 09:57:49,577 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=113054.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:58:14,078 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 09:58:39,329 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=113094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:58:43,324 INFO [train.py:903] (2/4) Epoch 17, batch 3850, loss[loss=0.1941, simple_loss=0.2841, pruned_loss=0.05209, over 19373.00 frames. ], tot_loss[loss=0.2178, simple_loss=0.2949, pruned_loss=0.07035, over 3807762.19 frames. ], batch size: 47, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 09:58:51,555 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.627e+02 5.316e+02 6.326e+02 9.097e+02 1.552e+03, threshold=1.265e+03, percent-clipped=8.0
+2023-04-02 09:59:14,508 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=113122.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:59:44,505 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=113147.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 09:59:45,342 INFO [train.py:903] (2/4) Epoch 17, batch 3900, loss[loss=0.2649, simple_loss=0.3233, pruned_loss=0.1032, over 13487.00 frames. ], tot_loss[loss=0.2175, simple_loss=0.2949, pruned_loss=0.07, over 3823129.34 frames. ], batch size: 136, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 10:00:48,760 INFO [train.py:903] (2/4) Epoch 17, batch 3950, loss[loss=0.2104, simple_loss=0.28, pruned_loss=0.07043, over 19608.00 frames. ], tot_loss[loss=0.2162, simple_loss=0.2938, pruned_loss=0.06935, over 3831827.70 frames. ], batch size: 50, lr: 4.86e-03, grad_scale: 8.0
+2023-04-02 10:00:56,123 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 10:00:57,243 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.297e+02 4.545e+02 5.288e+02 6.585e+02 1.560e+03, threshold=1.058e+03, percent-clipped=1.0
+2023-04-02 10:01:33,725 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.44 vs. limit=2.0
+2023-04-02 10:01:51,457 INFO [train.py:903] (2/4) Epoch 17, batch 4000, loss[loss=0.2307, simple_loss=0.3122, pruned_loss=0.07457, over 18820.00 frames. ], tot_loss[loss=0.2166, simple_loss=0.2945, pruned_loss=0.06933, over 3825844.36 frames. ], batch size: 74, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:01:56,565 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=113252.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:02:25,035 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7362, 1.3427, 1.6292, 1.7576, 3.2959, 1.1038, 2.3799, 3.7333],
+       device='cuda:2'), covar=tensor([0.0475, 0.2724, 0.2782, 0.1563, 0.0708, 0.2488, 0.1253, 0.0235],
+       device='cuda:2'), in_proj_covar=tensor([0.0388, 0.0352, 0.0374, 0.0333, 0.0360, 0.0342, 0.0359, 0.0381],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:02:35,233 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=113283.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:02:39,803 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 10:02:49,635 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=113295.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:02:52,760 INFO [train.py:903] (2/4) Epoch 17, batch 4050, loss[loss=0.1799, simple_loss=0.2598, pruned_loss=0.04998, over 19737.00 frames. ], tot_loss[loss=0.2155, simple_loss=0.2936, pruned_loss=0.06867, over 3840383.27 frames. ], batch size: 46, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:03:00,896 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.601e+02 4.703e+02 5.716e+02 7.594e+02 1.568e+03, threshold=1.143e+03, percent-clipped=5.0
+2023-04-02 10:03:08,178 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=113310.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:03:21,637 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=113320.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:03:38,659 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=113335.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:03:39,147 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.88 vs. limit=5.0
+2023-04-02 10:03:54,658 INFO [train.py:903] (2/4) Epoch 17, batch 4100, loss[loss=0.2587, simple_loss=0.3277, pruned_loss=0.09489, over 19700.00 frames. ], tot_loss[loss=0.2163, simple_loss=0.2944, pruned_loss=0.06915, over 3828386.91 frames. ], batch size: 59, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:03:57,612 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=113350.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:04:28,678 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=113375.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:04:31,497 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 10:04:56,295 INFO [train.py:903] (2/4) Epoch 17, batch 4150, loss[loss=0.1731, simple_loss=0.2475, pruned_loss=0.04934, over 19721.00 frames. ], tot_loss[loss=0.2159, simple_loss=0.2939, pruned_loss=0.06892, over 3836225.12 frames. ], batch size: 45, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:04:56,639 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=113398.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:05:03,827 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.156e+02 5.375e+02 6.520e+02 8.152e+02 2.133e+03, threshold=1.304e+03, percent-clipped=6.0
+2023-04-02 10:05:23,394 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1579, 2.1432, 1.6206, 2.2387, 2.3998, 1.6003, 1.6345, 1.9632],
+       device='cuda:2'), covar=tensor([0.1061, 0.1645, 0.1810, 0.1110, 0.1316, 0.0951, 0.1700, 0.0986],
+       device='cuda:2'), in_proj_covar=tensor([0.0260, 0.0352, 0.0298, 0.0241, 0.0295, 0.0247, 0.0291, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:05:57,673 INFO [train.py:903] (2/4) Epoch 17, batch 4200, loss[loss=0.2141, simple_loss=0.2802, pruned_loss=0.07398, over 19725.00 frames. ], tot_loss[loss=0.2165, simple_loss=0.2944, pruned_loss=0.06923, over 3824704.24 frames. ], batch size: 46, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:06:02,327 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 10:06:41,226 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7390, 2.0072, 2.2749, 2.1821, 3.1332, 3.7176, 3.6238, 4.0279],
+       device='cuda:2'), covar=tensor([0.1484, 0.2915, 0.2620, 0.1874, 0.0952, 0.0296, 0.0185, 0.0227],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0310, 0.0339, 0.0258, 0.0232, 0.0177, 0.0211, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 10:06:59,519 INFO [train.py:903] (2/4) Epoch 17, batch 4250, loss[loss=0.1941, simple_loss=0.2684, pruned_loss=0.05995, over 19808.00 frames. ], tot_loss[loss=0.218, simple_loss=0.2957, pruned_loss=0.07021, over 3810582.98 frames. ], batch size: 48, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:07:06,463 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.137e+02 4.808e+02 5.898e+02 7.585e+02 1.571e+03, threshold=1.180e+03, percent-clipped=5.0
+2023-04-02 10:07:13,468 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 10:07:15,387 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-02 10:07:21,783 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1310, 3.2944, 1.9866, 1.9840, 2.8453, 1.8516, 1.4888, 2.2078],
+       device='cuda:2'), covar=tensor([0.1226, 0.0548, 0.1068, 0.0781, 0.0596, 0.1146, 0.0959, 0.0642],
+       device='cuda:2'), in_proj_covar=tensor([0.0296, 0.0310, 0.0329, 0.0255, 0.0244, 0.0329, 0.0291, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:07:24,954 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 10:08:02,054 INFO [train.py:903] (2/4) Epoch 17, batch 4300, loss[loss=0.1862, simple_loss=0.2651, pruned_loss=0.05363, over 19485.00 frames. ], tot_loss[loss=0.2178, simple_loss=0.2957, pruned_loss=0.06991, over 3812878.88 frames. ], batch size: 49, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:08:03,898 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-02 10:08:55,426 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 10:09:02,224 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=113596.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:09:04,355 INFO [train.py:903] (2/4) Epoch 17, batch 4350, loss[loss=0.3059, simple_loss=0.3568, pruned_loss=0.1275, over 13250.00 frames. ], tot_loss[loss=0.2177, simple_loss=0.2957, pruned_loss=0.06986, over 3805517.19 frames. ], batch size: 136, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:09:12,444 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.419e+02 4.847e+02 6.118e+02 7.738e+02 1.753e+03, threshold=1.224e+03, percent-clipped=4.0
+2023-04-02 10:09:49,678 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=113635.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:10:07,375 INFO [train.py:903] (2/4) Epoch 17, batch 4400, loss[loss=0.249, simple_loss=0.3198, pruned_loss=0.08911, over 19500.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2961, pruned_loss=0.07023, over 3800544.43 frames. ], batch size: 64, lr: 4.85e-03, grad_scale: 8.0
+2023-04-02 10:10:14,930 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=113654.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:10:26,323 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=113664.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:10:33,138 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 10:10:43,982 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 10:10:45,297 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=113679.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:11:07,788 INFO [train.py:903] (2/4) Epoch 17, batch 4450, loss[loss=0.2, simple_loss=0.2867, pruned_loss=0.05668, over 19769.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2959, pruned_loss=0.07042, over 3806620.44 frames. ], batch size: 56, lr: 4.84e-03, grad_scale: 16.0
+2023-04-02 10:11:14,458 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.974e+02 5.100e+02 6.811e+02 8.906e+02 1.680e+03, threshold=1.362e+03, percent-clipped=7.0
+2023-04-02 10:11:22,980 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=113711.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:12:07,715 INFO [train.py:903] (2/4) Epoch 17, batch 4500, loss[loss=0.2366, simple_loss=0.3166, pruned_loss=0.07833, over 19763.00 frames. ], tot_loss[loss=0.2189, simple_loss=0.2964, pruned_loss=0.07073, over 3817503.73 frames. ], batch size: 63, lr: 4.84e-03, grad_scale: 8.0
+2023-04-02 10:13:09,290 INFO [train.py:903] (2/4) Epoch 17, batch 4550, loss[loss=0.2201, simple_loss=0.3089, pruned_loss=0.06566, over 19426.00 frames. ], tot_loss[loss=0.2188, simple_loss=0.296, pruned_loss=0.07079, over 3810559.08 frames. ], batch size: 62, lr: 4.84e-03, grad_scale: 4.0
+2023-04-02 10:13:19,354 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 10:13:20,449 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.619e+02 5.090e+02 6.214e+02 7.749e+02 1.433e+03, threshold=1.243e+03, percent-clipped=2.0
+2023-04-02 10:13:42,452 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 10:14:12,738 INFO [train.py:903] (2/4) Epoch 17, batch 4600, loss[loss=0.2234, simple_loss=0.3105, pruned_loss=0.06816, over 19128.00 frames. ], tot_loss[loss=0.2189, simple_loss=0.2963, pruned_loss=0.07079, over 3803766.25 frames. ], batch size: 69, lr: 4.84e-03, grad_scale: 4.0
+2023-04-02 10:15:14,387 INFO [train.py:903] (2/4) Epoch 17, batch 4650, loss[loss=0.223, simple_loss=0.3007, pruned_loss=0.07263, over 19411.00 frames. ], tot_loss[loss=0.2173, simple_loss=0.2946, pruned_loss=0.06999, over 3807368.74 frames. ], batch size: 48, lr: 4.84e-03, grad_scale: 4.0
+2023-04-02 10:15:23,609 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.367e+02 5.276e+02 6.482e+02 7.907e+02 1.823e+03, threshold=1.296e+03, percent-clipped=2.0
+2023-04-02 10:15:31,993 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 10:15:44,637 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 10:15:57,531 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9786, 3.0798, 1.8578, 1.8348, 2.8368, 1.6181, 1.4622, 2.1012],
+       device='cuda:2'), covar=tensor([0.1440, 0.0753, 0.1031, 0.0856, 0.0547, 0.1297, 0.0984, 0.0747],
+       device='cuda:2'), in_proj_covar=tensor([0.0297, 0.0311, 0.0330, 0.0255, 0.0243, 0.0329, 0.0291, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:16:16,818 INFO [train.py:903] (2/4) Epoch 17, batch 4700, loss[loss=0.1816, simple_loss=0.2668, pruned_loss=0.04814, over 19584.00 frames. ], tot_loss[loss=0.2174, simple_loss=0.2948, pruned_loss=0.07001, over 3804362.91 frames. ], batch size: 52, lr: 4.84e-03, grad_scale: 4.0
+2023-04-02 10:16:42,982 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=113967.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:16:43,737 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 10:16:56,542 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=113979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:17:12,171 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=113992.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:17:19,850 INFO [train.py:903] (2/4) Epoch 17, batch 4750, loss[loss=0.2077, simple_loss=0.2912, pruned_loss=0.06207, over 19407.00 frames. ], tot_loss[loss=0.217, simple_loss=0.295, pruned_loss=0.06953, over 3816000.44 frames. ], batch size: 70, lr: 4.84e-03, grad_scale: 4.0
+2023-04-02 10:17:32,729 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.044e+02 4.836e+02 6.122e+02 7.624e+02 1.576e+03, threshold=1.224e+03, percent-clipped=1.0
+2023-04-02 10:17:35,052 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=114008.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:18:24,455 INFO [train.py:903] (2/4) Epoch 17, batch 4800, loss[loss=0.2273, simple_loss=0.3114, pruned_loss=0.07158, over 19704.00 frames. ], tot_loss[loss=0.2189, simple_loss=0.2964, pruned_loss=0.07067, over 3817066.55 frames. ], batch size: 59, lr: 4.84e-03, grad_scale: 8.0
+2023-04-02 10:19:22,118 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=114094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:19:26,562 INFO [train.py:903] (2/4) Epoch 17, batch 4850, loss[loss=0.2026, simple_loss=0.2775, pruned_loss=0.06385, over 19860.00 frames. ], tot_loss[loss=0.2185, simple_loss=0.2959, pruned_loss=0.07051, over 3820961.43 frames. ], batch size: 52, lr: 4.84e-03, grad_scale: 8.0
+2023-04-02 10:19:35,426 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.185e+02 5.130e+02 6.675e+02 8.728e+02 1.864e+03, threshold=1.335e+03, percent-clipped=11.0
+2023-04-02 10:19:38,308 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3159, 2.3112, 2.4731, 3.2654, 2.3076, 3.0135, 2.6599, 2.3532],
+       device='cuda:2'), covar=tensor([0.4034, 0.3743, 0.1689, 0.2287, 0.4239, 0.1885, 0.4293, 0.2989],
+       device='cuda:2'), in_proj_covar=tensor([0.0857, 0.0906, 0.0688, 0.0913, 0.0837, 0.0774, 0.0819, 0.0756],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 10:19:52,812 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 10:19:57,421 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=114123.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:20:09,279 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-02 10:20:14,641 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 10:20:19,123 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 10:20:20,343 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 10:20:25,246 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=114145.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:20:28,428 INFO [train.py:903] (2/4) Epoch 17, batch 4900, loss[loss=0.1922, simple_loss=0.2691, pruned_loss=0.05762, over 19746.00 frames. ], tot_loss[loss=0.2177, simple_loss=0.2952, pruned_loss=0.07013, over 3833579.96 frames. ], batch size: 46, lr: 4.84e-03, grad_scale: 8.0
+2023-04-02 10:20:28,474 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 10:20:48,128 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 10:21:23,052 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0396, 1.4343, 1.7621, 1.2564, 2.5562, 3.3839, 3.0732, 3.5963],
+       device='cuda:2'), covar=tensor([0.1722, 0.3423, 0.3044, 0.2317, 0.0529, 0.0163, 0.0229, 0.0243],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0312, 0.0341, 0.0259, 0.0233, 0.0178, 0.0211, 0.0236],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 10:21:29,555 INFO [train.py:903] (2/4) Epoch 17, batch 4950, loss[loss=0.2108, simple_loss=0.2946, pruned_loss=0.06345, over 19499.00 frames. ], tot_loss[loss=0.2174, simple_loss=0.2949, pruned_loss=0.06995, over 3831242.21 frames. ], batch size: 64, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:21:41,951 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.237e+02 5.073e+02 6.090e+02 7.599e+02 1.461e+03, threshold=1.218e+03, percent-clipped=1.0
+2023-04-02 10:21:48,516 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 10:22:09,554 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 10:22:31,812 INFO [train.py:903] (2/4) Epoch 17, batch 5000, loss[loss=0.2195, simple_loss=0.3028, pruned_loss=0.06807, over 19344.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2955, pruned_loss=0.07038, over 3831223.97 frames. ], batch size: 66, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:22:39,593 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 10:22:50,091 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 10:22:59,523 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5098, 2.3196, 2.0693, 2.5702, 2.4321, 2.0927, 2.0830, 2.5916],
+       device='cuda:2'), covar=tensor([0.0874, 0.1470, 0.1337, 0.1005, 0.1172, 0.0526, 0.1176, 0.0578],
+       device='cuda:2'), in_proj_covar=tensor([0.0261, 0.0353, 0.0298, 0.0242, 0.0296, 0.0246, 0.0292, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:23:32,990 INFO [train.py:903] (2/4) Epoch 17, batch 5050, loss[loss=0.2114, simple_loss=0.2996, pruned_loss=0.06159, over 19732.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2958, pruned_loss=0.07043, over 3835428.56 frames. ], batch size: 63, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:23:42,364 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.900e+02 5.068e+02 6.244e+02 7.899e+02 1.430e+03, threshold=1.249e+03, percent-clipped=5.0
+2023-04-02 10:24:10,977 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 10:24:34,964 INFO [train.py:903] (2/4) Epoch 17, batch 5100, loss[loss=0.1845, simple_loss=0.2556, pruned_loss=0.0567, over 19323.00 frames. ], tot_loss[loss=0.2168, simple_loss=0.2943, pruned_loss=0.06966, over 3838433.50 frames. ], batch size: 44, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:24:37,685 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=114350.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:24:44,353 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 10:24:46,806 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 10:24:53,309 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 10:25:10,318 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=114375.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:25:14,809 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=114379.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:25:20,129 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.34 vs. limit=5.0
+2023-04-02 10:25:36,276 INFO [train.py:903] (2/4) Epoch 17, batch 5150, loss[loss=0.24, simple_loss=0.3111, pruned_loss=0.08443, over 19744.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2957, pruned_loss=0.0702, over 3829543.65 frames. ], batch size: 51, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:25:44,128 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9184, 4.3772, 4.6857, 4.7217, 1.7238, 4.3586, 3.8032, 4.3488],
+       device='cuda:2'), covar=tensor([0.1699, 0.0925, 0.0591, 0.0624, 0.6172, 0.0816, 0.0676, 0.1166],
+       device='cuda:2'), in_proj_covar=tensor([0.0744, 0.0694, 0.0892, 0.0780, 0.0798, 0.0644, 0.0537, 0.0821],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 10:25:46,419 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=114404.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:25:49,639 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.419e+02 5.288e+02 6.652e+02 7.839e+02 1.735e+03, threshold=1.330e+03, percent-clipped=3.0
+2023-04-02 10:25:50,834 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 10:26:24,413 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 10:26:41,812 INFO [train.py:903] (2/4) Epoch 17, batch 5200, loss[loss=0.2514, simple_loss=0.3116, pruned_loss=0.09563, over 19849.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2955, pruned_loss=0.0705, over 3813369.82 frames. ], batch size: 52, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:26:54,843 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 10:27:10,234 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6114, 1.2433, 1.2414, 1.4810, 1.1907, 1.3747, 1.1796, 1.4501],
+       device='cuda:2'), covar=tensor([0.1069, 0.1154, 0.1521, 0.0933, 0.1178, 0.0596, 0.1428, 0.0751],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0356, 0.0301, 0.0245, 0.0300, 0.0248, 0.0295, 0.0248],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:27:19,897 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-02 10:27:33,123 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=114489.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:27:37,831 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 10:27:43,627 INFO [train.py:903] (2/4) Epoch 17, batch 5250, loss[loss=0.186, simple_loss=0.2585, pruned_loss=0.05674, over 19731.00 frames. ], tot_loss[loss=0.2178, simple_loss=0.2956, pruned_loss=0.06997, over 3829228.78 frames. ], batch size: 46, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:27:53,071 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.560e+02 4.802e+02 5.852e+02 7.465e+02 1.395e+03, threshold=1.170e+03, percent-clipped=1.0
+2023-04-02 10:28:44,580 INFO [train.py:903] (2/4) Epoch 17, batch 5300, loss[loss=0.2623, simple_loss=0.3332, pruned_loss=0.09571, over 18112.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2959, pruned_loss=0.07015, over 3824992.54 frames. ], batch size: 83, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:28:59,044 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 10:29:31,242 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4118, 1.4599, 1.8053, 1.6866, 2.6777, 2.3858, 2.9140, 1.3210],
+       device='cuda:2'), covar=tensor([0.2337, 0.4125, 0.2509, 0.1796, 0.1527, 0.1944, 0.1405, 0.3968],
+       device='cuda:2'), in_proj_covar=tensor([0.0513, 0.0614, 0.0668, 0.0461, 0.0607, 0.0515, 0.0649, 0.0524],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 10:29:44,122 INFO [train.py:903] (2/4) Epoch 17, batch 5350, loss[loss=0.2225, simple_loss=0.3042, pruned_loss=0.07044, over 19629.00 frames. ], tot_loss[loss=0.2188, simple_loss=0.2964, pruned_loss=0.07056, over 3828466.95 frames. ], batch size: 57, lr: 4.83e-03, grad_scale: 8.0
+2023-04-02 10:29:44,502 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9900, 1.2812, 1.6946, 0.8735, 2.3328, 3.0094, 2.6965, 3.2110],
+       device='cuda:2'), covar=tensor([0.1692, 0.3623, 0.3134, 0.2587, 0.0579, 0.0236, 0.0279, 0.0276],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0311, 0.0340, 0.0259, 0.0232, 0.0178, 0.0212, 0.0236],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 10:29:45,546 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1636, 1.9138, 1.6743, 2.0774, 1.9280, 1.7743, 1.6627, 2.0517],
+       device='cuda:2'), covar=tensor([0.0929, 0.1368, 0.1422, 0.0950, 0.1282, 0.0557, 0.1302, 0.0677],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0354, 0.0301, 0.0245, 0.0300, 0.0248, 0.0295, 0.0248],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:29:51,216 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=114604.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:29:54,895 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.137e+02 5.171e+02 6.688e+02 9.089e+02 2.274e+03, threshold=1.338e+03, percent-clipped=9.0
+2023-04-02 10:30:19,031 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 10:30:46,233 INFO [train.py:903] (2/4) Epoch 17, batch 5400, loss[loss=0.1974, simple_loss=0.2873, pruned_loss=0.05374, over 19669.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2961, pruned_loss=0.07027, over 3828767.48 frames. ], batch size: 58, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:31:29,406 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9371, 1.9973, 2.2357, 2.6712, 1.9734, 2.6210, 2.3678, 2.0751],
+       device='cuda:2'), covar=tensor([0.4211, 0.3929, 0.1909, 0.2239, 0.3847, 0.1941, 0.4403, 0.3357],
+       device='cuda:2'), in_proj_covar=tensor([0.0865, 0.0915, 0.0692, 0.0922, 0.0844, 0.0779, 0.0821, 0.0761],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 10:31:29,583 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 10:31:47,169 INFO [train.py:903] (2/4) Epoch 17, batch 5450, loss[loss=0.2088, simple_loss=0.2943, pruned_loss=0.06159, over 19652.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2959, pruned_loss=0.07013, over 3839272.91 frames. ], batch size: 58, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:31:56,195 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.018e+02 4.503e+02 5.761e+02 7.243e+02 1.420e+03, threshold=1.152e+03, percent-clipped=1.0
+2023-04-02 10:32:31,023 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=114734.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:32:47,135 INFO [train.py:903] (2/4) Epoch 17, batch 5500, loss[loss=0.2279, simple_loss=0.3081, pruned_loss=0.07385, over 19326.00 frames. ], tot_loss[loss=0.2175, simple_loss=0.2952, pruned_loss=0.06991, over 3837478.71 frames. ], batch size: 66, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:32:47,597 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2434, 1.3832, 1.4777, 1.4276, 1.7376, 1.7846, 1.8227, 0.5296],
+       device='cuda:2'), covar=tensor([0.2342, 0.3913, 0.2527, 0.1850, 0.1590, 0.2195, 0.1365, 0.4406],
+       device='cuda:2'), in_proj_covar=tensor([0.0511, 0.0612, 0.0668, 0.0461, 0.0607, 0.0515, 0.0648, 0.0523],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 10:33:10,779 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 10:33:46,749 INFO [train.py:903] (2/4) Epoch 17, batch 5550, loss[loss=0.217, simple_loss=0.293, pruned_loss=0.0705, over 19772.00 frames. ], tot_loss[loss=0.2174, simple_loss=0.2948, pruned_loss=0.07003, over 3830268.66 frames. ], batch size: 54, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:33:54,783 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 10:33:55,923 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.429e+02 4.950e+02 6.230e+02 7.289e+02 1.704e+03, threshold=1.246e+03, percent-clipped=5.0
+2023-04-02 10:34:04,683 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8212, 1.9192, 2.1125, 2.5469, 1.8316, 2.3936, 2.2279, 1.9979],
+       device='cuda:2'), covar=tensor([0.4116, 0.3706, 0.1871, 0.2226, 0.3897, 0.2016, 0.4507, 0.3146],
+       device='cuda:2'), in_proj_covar=tensor([0.0861, 0.0911, 0.0688, 0.0917, 0.0837, 0.0775, 0.0817, 0.0758],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 10:34:39,082 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.92 vs. limit=2.0
+2023-04-02 10:34:41,608 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 10:34:48,919 INFO [train.py:903] (2/4) Epoch 17, batch 5600, loss[loss=0.2167, simple_loss=0.3007, pruned_loss=0.06635, over 19785.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2955, pruned_loss=0.07038, over 3809443.71 frames. ], batch size: 56, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:35:03,677 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=114860.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:35:33,266 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=114885.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:35:39,353 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=114889.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:35:50,177 INFO [train.py:903] (2/4) Epoch 17, batch 5650, loss[loss=0.222, simple_loss=0.3061, pruned_loss=0.06901, over 19640.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2958, pruned_loss=0.07039, over 3809083.87 frames. ], batch size: 57, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:35:59,361 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.231e+02 5.160e+02 6.498e+02 8.575e+02 1.504e+03, threshold=1.300e+03, percent-clipped=5.0
+2023-04-02 10:36:35,307 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5713, 1.1309, 1.4346, 1.1110, 2.2558, 0.9211, 2.1394, 2.3935],
+       device='cuda:2'), covar=tensor([0.0677, 0.2755, 0.2628, 0.1744, 0.0829, 0.2086, 0.0942, 0.0464],
+       device='cuda:2'), in_proj_covar=tensor([0.0391, 0.0356, 0.0376, 0.0338, 0.0365, 0.0344, 0.0363, 0.0383],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:36:36,131 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 10:36:51,135 INFO [train.py:903] (2/4) Epoch 17, batch 5700, loss[loss=0.1999, simple_loss=0.2837, pruned_loss=0.05803, over 19697.00 frames. ], tot_loss[loss=0.2181, simple_loss=0.2958, pruned_loss=0.07017, over 3825610.29 frames. ], batch size: 53, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:37:08,306 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5715, 1.7726, 2.0752, 1.9741, 3.4406, 2.7759, 3.6417, 1.7811],
+       device='cuda:2'), covar=tensor([0.2283, 0.4006, 0.2677, 0.1644, 0.1318, 0.1919, 0.1443, 0.3724],
+       device='cuda:2'), in_proj_covar=tensor([0.0513, 0.0615, 0.0673, 0.0463, 0.0611, 0.0516, 0.0650, 0.0526],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 10:37:43,497 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6089, 1.4934, 1.4572, 1.9716, 1.4784, 1.7747, 1.7862, 1.6766],
+       device='cuda:2'), covar=tensor([0.0808, 0.0928, 0.1007, 0.0747, 0.0855, 0.0783, 0.0912, 0.0686],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0222, 0.0223, 0.0243, 0.0227, 0.0209, 0.0188, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 10:37:50,252 INFO [train.py:903] (2/4) Epoch 17, batch 5750, loss[loss=0.2579, simple_loss=0.3291, pruned_loss=0.09333, over 19318.00 frames. ], tot_loss[loss=0.2175, simple_loss=0.2953, pruned_loss=0.06987, over 3825322.81 frames. ], batch size: 66, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:37:50,272 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 10:37:57,232 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 10:37:59,478 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.823e+02 5.221e+02 6.429e+02 7.572e+02 1.818e+03, threshold=1.286e+03, percent-clipped=4.0
+2023-04-02 10:38:04,567 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 10:38:50,578 INFO [train.py:903] (2/4) Epoch 17, batch 5800, loss[loss=0.2108, simple_loss=0.2944, pruned_loss=0.06363, over 19292.00 frames. ], tot_loss[loss=0.2166, simple_loss=0.2947, pruned_loss=0.06927, over 3827732.45 frames. ], batch size: 66, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:38:52,836 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8316, 4.2761, 4.5801, 4.5882, 1.5689, 4.2857, 3.6447, 4.2653],
+       device='cuda:2'), covar=tensor([0.1572, 0.0942, 0.0592, 0.0610, 0.6236, 0.0833, 0.0719, 0.1089],
+       device='cuda:2'), in_proj_covar=tensor([0.0741, 0.0691, 0.0891, 0.0775, 0.0794, 0.0645, 0.0536, 0.0819],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 10:39:27,224 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=115078.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:39:28,619 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8043, 2.5044, 2.2815, 2.5619, 2.4270, 2.1989, 2.0829, 2.6839],
+       device='cuda:2'), covar=tensor([0.0753, 0.1414, 0.1339, 0.1018, 0.1398, 0.0492, 0.1202, 0.0595],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0352, 0.0302, 0.0245, 0.0298, 0.0247, 0.0294, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:39:35,786 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.08 vs. limit=2.0
+2023-04-02 10:39:52,202 INFO [train.py:903] (2/4) Epoch 17, batch 5850, loss[loss=0.2169, simple_loss=0.2864, pruned_loss=0.07366, over 19758.00 frames. ], tot_loss[loss=0.2162, simple_loss=0.2944, pruned_loss=0.06896, over 3826712.13 frames. ], batch size: 49, lr: 4.82e-03, grad_scale: 8.0
+2023-04-02 10:39:59,371 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=115104.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:40:01,415 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.460e+02 4.663e+02 6.050e+02 7.882e+02 1.454e+03, threshold=1.210e+03, percent-clipped=2.0
+2023-04-02 10:40:51,604 INFO [train.py:903] (2/4) Epoch 17, batch 5900, loss[loss=0.1881, simple_loss=0.2638, pruned_loss=0.05619, over 19335.00 frames. ], tot_loss[loss=0.2159, simple_loss=0.2939, pruned_loss=0.06894, over 3828470.56 frames. ], batch size: 47, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:40:55,179 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 10:40:55,563 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5132, 2.3014, 1.6895, 1.5205, 2.1421, 1.2927, 1.3662, 1.8717],
+       device='cuda:2'), covar=tensor([0.1154, 0.0669, 0.1003, 0.0808, 0.0537, 0.1237, 0.0737, 0.0483],
+       device='cuda:2'), in_proj_covar=tensor([0.0297, 0.0309, 0.0328, 0.0257, 0.0245, 0.0327, 0.0290, 0.0268],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:41:13,983 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 10:41:45,891 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=115193.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:41:51,144 INFO [train.py:903] (2/4) Epoch 17, batch 5950, loss[loss=0.2538, simple_loss=0.3262, pruned_loss=0.09072, over 19512.00 frames. ], tot_loss[loss=0.2168, simple_loss=0.2946, pruned_loss=0.06952, over 3810515.63 frames. ], batch size: 64, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:42:00,462 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.984e+02 4.938e+02 6.318e+02 8.201e+02 2.090e+03, threshold=1.264e+03, percent-clipped=7.0
+2023-04-02 10:42:20,335 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3334, 1.4166, 1.7923, 1.5667, 2.7510, 2.2486, 2.9090, 1.2314],
+       device='cuda:2'), covar=tensor([0.2444, 0.4171, 0.2516, 0.1935, 0.1427, 0.2095, 0.1376, 0.4093],
+       device='cuda:2'), in_proj_covar=tensor([0.0514, 0.0615, 0.0674, 0.0464, 0.0611, 0.0518, 0.0652, 0.0527],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 10:42:35,072 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=115233.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:42:43,152 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8898, 4.4260, 2.7982, 3.9267, 0.7831, 4.3544, 4.2344, 4.4337],
+       device='cuda:2'), covar=tensor([0.0562, 0.0996, 0.1828, 0.0732, 0.4175, 0.0658, 0.0825, 0.0957],
+       device='cuda:2'), in_proj_covar=tensor([0.0471, 0.0388, 0.0469, 0.0336, 0.0391, 0.0406, 0.0404, 0.0433],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:42:51,742 INFO [train.py:903] (2/4) Epoch 17, batch 6000, loss[loss=0.2648, simple_loss=0.3381, pruned_loss=0.09574, over 19390.00 frames. ], tot_loss[loss=0.2167, simple_loss=0.2949, pruned_loss=0.06929, over 3829153.08 frames. ], batch size: 70, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:42:51,742 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 10:43:04,254 INFO [train.py:937] (2/4) Epoch 17, validation: loss=0.1707, simple_loss=0.2712, pruned_loss=0.03505, over 944034.00 frames. 
+2023-04-02 10:43:04,254 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 10:44:04,143 INFO [train.py:903] (2/4) Epoch 17, batch 6050, loss[loss=0.2234, simple_loss=0.3044, pruned_loss=0.07121, over 17443.00 frames. ], tot_loss[loss=0.2172, simple_loss=0.2951, pruned_loss=0.06964, over 3815293.88 frames. ], batch size: 101, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:44:15,952 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.299e+02 5.156e+02 6.136e+02 7.598e+02 1.906e+03, threshold=1.227e+03, percent-clipped=4.0
+2023-04-02 10:44:20,981 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
+2023-04-02 10:44:22,795 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1904, 1.5545, 2.1493, 1.7747, 3.1329, 4.6568, 4.6665, 5.2415],
+       device='cuda:2'), covar=tensor([0.1702, 0.3576, 0.2941, 0.1995, 0.0557, 0.0163, 0.0167, 0.0160],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0314, 0.0341, 0.0261, 0.0235, 0.0179, 0.0213, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 10:45:03,315 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3287, 3.8034, 3.9252, 3.9259, 1.6850, 3.7169, 3.2021, 3.6676],
+       device='cuda:2'), covar=tensor([0.1644, 0.0883, 0.0684, 0.0776, 0.5141, 0.0872, 0.0757, 0.1107],
+       device='cuda:2'), in_proj_covar=tensor([0.0747, 0.0697, 0.0898, 0.0778, 0.0799, 0.0648, 0.0537, 0.0824],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 10:45:06,507 INFO [train.py:903] (2/4) Epoch 17, batch 6100, loss[loss=0.2164, simple_loss=0.2986, pruned_loss=0.06713, over 19548.00 frames. ], tot_loss[loss=0.2173, simple_loss=0.2952, pruned_loss=0.06975, over 3814232.80 frames. ], batch size: 61, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:45:06,856 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=115348.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:45:34,894 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.5911, 4.1194, 2.6677, 3.6920, 1.0454, 4.0372, 4.0175, 4.0568],
+       device='cuda:2'), covar=tensor([0.0611, 0.1115, 0.2068, 0.0841, 0.4121, 0.0750, 0.0873, 0.1384],
+       device='cuda:2'), in_proj_covar=tensor([0.0473, 0.0389, 0.0472, 0.0335, 0.0393, 0.0409, 0.0405, 0.0435],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:45:54,937 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=115388.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:45:56,181 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=115389.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:46:06,536 INFO [train.py:903] (2/4) Epoch 17, batch 6150, loss[loss=0.2349, simple_loss=0.3097, pruned_loss=0.08012, over 19565.00 frames. ], tot_loss[loss=0.2171, simple_loss=0.2948, pruned_loss=0.06972, over 3814249.90 frames. ], batch size: 61, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:46:15,597 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.636e+02 5.209e+02 6.440e+02 8.380e+02 1.538e+03, threshold=1.288e+03, percent-clipped=5.0
+2023-04-02 10:46:33,781 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 10:47:07,330 INFO [train.py:903] (2/4) Epoch 17, batch 6200, loss[loss=0.1919, simple_loss=0.2569, pruned_loss=0.06344, over 19755.00 frames. ], tot_loss[loss=0.2166, simple_loss=0.2941, pruned_loss=0.06952, over 3834476.57 frames. ], batch size: 45, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:47:07,478 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=115448.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:47:08,880 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=115449.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:47:23,443 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1812, 1.9342, 1.7503, 2.1177, 1.8667, 1.8355, 1.6273, 2.0752],
+       device='cuda:2'), covar=tensor([0.0914, 0.1327, 0.1417, 0.0966, 0.1317, 0.0523, 0.1326, 0.0625],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0351, 0.0301, 0.0243, 0.0295, 0.0245, 0.0293, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:47:39,822 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=115474.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:47:56,156 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9797, 3.5845, 2.4257, 3.2115, 0.9660, 3.4943, 3.4236, 3.5360],
+       device='cuda:2'), covar=tensor([0.0810, 0.1243, 0.2027, 0.0901, 0.4035, 0.0860, 0.0952, 0.1166],
+       device='cuda:2'), in_proj_covar=tensor([0.0477, 0.0390, 0.0475, 0.0337, 0.0396, 0.0411, 0.0407, 0.0436],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:48:07,509 INFO [train.py:903] (2/4) Epoch 17, batch 6250, loss[loss=0.2171, simple_loss=0.2966, pruned_loss=0.06884, over 19623.00 frames. ], tot_loss[loss=0.2164, simple_loss=0.2939, pruned_loss=0.06947, over 3822344.54 frames. ], batch size: 61, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:48:16,576 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.081e+02 4.690e+02 5.769e+02 7.890e+02 2.007e+03, threshold=1.154e+03, percent-clipped=3.0
+2023-04-02 10:48:37,585 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 10:49:09,163 INFO [train.py:903] (2/4) Epoch 17, batch 6300, loss[loss=0.2257, simple_loss=0.307, pruned_loss=0.07225, over 19579.00 frames. ], tot_loss[loss=0.2164, simple_loss=0.294, pruned_loss=0.06937, over 3814397.42 frames. ], batch size: 64, lr: 4.81e-03, grad_scale: 8.0
+2023-04-02 10:49:27,657 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=115563.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:50:12,479 INFO [train.py:903] (2/4) Epoch 17, batch 6350, loss[loss=0.2147, simple_loss=0.2959, pruned_loss=0.06679, over 19773.00 frames. ], tot_loss[loss=0.2153, simple_loss=0.293, pruned_loss=0.06882, over 3815480.64 frames. ], batch size: 54, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:50:19,964 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=115604.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:50:21,923 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.064e+02 4.833e+02 6.077e+02 8.091e+02 1.466e+03, threshold=1.215e+03, percent-clipped=5.0
+2023-04-02 10:50:44,537 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
+2023-04-02 10:50:50,650 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=115629.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:51:13,881 INFO [train.py:903] (2/4) Epoch 17, batch 6400, loss[loss=0.2499, simple_loss=0.3284, pruned_loss=0.08573, over 18724.00 frames. ], tot_loss[loss=0.2152, simple_loss=0.293, pruned_loss=0.06872, over 3805798.95 frames. ], batch size: 74, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:51:23,203 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8982, 4.5472, 3.2565, 4.0337, 1.8671, 4.3392, 4.2729, 4.4406],
+       device='cuda:2'), covar=tensor([0.0457, 0.0939, 0.1779, 0.0745, 0.3076, 0.0690, 0.0870, 0.1180],
+       device='cuda:2'), in_proj_covar=tensor([0.0478, 0.0393, 0.0477, 0.0337, 0.0398, 0.0414, 0.0410, 0.0438],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 10:51:26,051 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.69 vs. limit=5.0
+2023-04-02 10:51:43,306 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3693, 2.1760, 1.9663, 1.8659, 1.5968, 1.8431, 0.7306, 1.2453],
+       device='cuda:2'), covar=tensor([0.0557, 0.0572, 0.0471, 0.0723, 0.1126, 0.0899, 0.1114, 0.0981],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0347, 0.0348, 0.0376, 0.0447, 0.0380, 0.0325, 0.0335],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 10:52:15,073 INFO [train.py:903] (2/4) Epoch 17, batch 6450, loss[loss=0.2531, simple_loss=0.3348, pruned_loss=0.08567, over 19331.00 frames. ], tot_loss[loss=0.2162, simple_loss=0.2942, pruned_loss=0.06909, over 3808693.34 frames. ], batch size: 66, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:52:25,110 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.211e+02 4.829e+02 5.862e+02 7.962e+02 1.327e+03, threshold=1.172e+03, percent-clipped=3.0
+2023-04-02 10:52:58,105 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=115732.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:52:59,223 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=115733.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:53:01,409 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 10:53:16,380 INFO [train.py:903] (2/4) Epoch 17, batch 6500, loss[loss=0.2365, simple_loss=0.3124, pruned_loss=0.08031, over 19671.00 frames. ], tot_loss[loss=0.2169, simple_loss=0.2941, pruned_loss=0.0698, over 3791092.40 frames. ], batch size: 58, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:53:24,007 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 10:54:02,653 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-02 10:54:18,481 INFO [train.py:903] (2/4) Epoch 17, batch 6550, loss[loss=0.2366, simple_loss=0.3078, pruned_loss=0.08269, over 19681.00 frames. ], tot_loss[loss=0.2177, simple_loss=0.2949, pruned_loss=0.07027, over 3791985.32 frames. ], batch size: 53, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:54:28,763 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.723e+02 5.150e+02 6.522e+02 8.804e+02 2.234e+03, threshold=1.304e+03, percent-clipped=7.0
+2023-04-02 10:54:43,149 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=115819.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:55:15,241 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=115844.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:55:18,702 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=115847.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:55:19,546 INFO [train.py:903] (2/4) Epoch 17, batch 6600, loss[loss=0.1969, simple_loss=0.273, pruned_loss=0.06041, over 19377.00 frames. ], tot_loss[loss=0.2167, simple_loss=0.294, pruned_loss=0.06968, over 3803320.05 frames. ], batch size: 47, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:55:19,903 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=115848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:55:54,239 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3251, 1.3418, 1.7603, 1.2061, 2.4680, 3.3797, 3.0870, 3.5948],
+       device='cuda:2'), covar=tensor([0.1521, 0.3607, 0.3028, 0.2438, 0.0574, 0.0210, 0.0221, 0.0235],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0312, 0.0340, 0.0259, 0.0234, 0.0177, 0.0210, 0.0237],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 10:56:12,270 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 10:56:19,810 INFO [train.py:903] (2/4) Epoch 17, batch 6650, loss[loss=0.2164, simple_loss=0.2971, pruned_loss=0.06785, over 19457.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.2947, pruned_loss=0.07024, over 3808709.47 frames. ], batch size: 64, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:56:30,890 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.015e+02 4.833e+02 5.946e+02 8.225e+02 1.682e+03, threshold=1.189e+03, percent-clipped=7.0
+2023-04-02 10:56:35,529 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=115910.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 10:57:21,974 INFO [train.py:903] (2/4) Epoch 17, batch 6700, loss[loss=0.1663, simple_loss=0.2429, pruned_loss=0.04486, over 19736.00 frames. ], tot_loss[loss=0.217, simple_loss=0.2945, pruned_loss=0.06974, over 3807612.24 frames. ], batch size: 46, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:58:20,392 INFO [train.py:903] (2/4) Epoch 17, batch 6750, loss[loss=0.2381, simple_loss=0.3211, pruned_loss=0.07756, over 19738.00 frames. ], tot_loss[loss=0.2188, simple_loss=0.2958, pruned_loss=0.07086, over 3795438.95 frames. ], batch size: 63, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 10:58:31,536 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.004e+02 5.304e+02 6.320e+02 7.514e+02 1.971e+03, threshold=1.264e+03, percent-clipped=7.0
+2023-04-02 10:58:52,447 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.11 vs. limit=2.0
+2023-04-02 10:58:59,778 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116032.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 10:59:05,991 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
+2023-04-02 10:59:12,145 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2654, 2.3300, 2.5248, 3.1577, 2.3625, 3.0766, 2.6591, 2.3851],
+       device='cuda:2'), covar=tensor([0.4022, 0.3783, 0.1731, 0.2425, 0.4273, 0.1912, 0.4381, 0.3100],
+       device='cuda:2'), in_proj_covar=tensor([0.0857, 0.0909, 0.0686, 0.0911, 0.0837, 0.0773, 0.0818, 0.0754],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 10:59:17,211 INFO [train.py:903] (2/4) Epoch 17, batch 6800, loss[loss=0.1983, simple_loss=0.2853, pruned_loss=0.05567, over 19777.00 frames. ], tot_loss[loss=0.2183, simple_loss=0.2955, pruned_loss=0.07054, over 3795930.03 frames. ], batch size: 56, lr: 4.80e-03, grad_scale: 8.0
+2023-04-02 11:00:03,036 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 11:00:03,508 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 11:00:07,131 INFO [train.py:903] (2/4) Epoch 18, batch 0, loss[loss=0.177, simple_loss=0.2539, pruned_loss=0.0501, over 19804.00 frames. ], tot_loss[loss=0.177, simple_loss=0.2539, pruned_loss=0.0501, over 19804.00 frames. ], batch size: 48, lr: 4.66e-03, grad_scale: 8.0
+2023-04-02 11:00:07,131 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 11:00:18,786 INFO [train.py:937] (2/4) Epoch 18, validation: loss=0.1712, simple_loss=0.2722, pruned_loss=0.03505, over 944034.00 frames. 
+2023-04-02 11:00:18,787 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 11:00:32,347 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 11:00:51,670 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=116103.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:00:52,782 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=116104.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:00:55,571 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.457e+02 4.972e+02 6.494e+02 8.085e+02 1.604e+03, threshold=1.299e+03, percent-clipped=1.0
+2023-04-02 11:01:14,433 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5316, 2.3161, 2.1376, 2.5502, 2.4425, 2.0929, 1.9996, 2.3864],
+       device='cuda:2'), covar=tensor([0.0964, 0.1510, 0.1513, 0.1111, 0.1347, 0.0543, 0.1370, 0.0723],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0353, 0.0303, 0.0245, 0.0297, 0.0246, 0.0294, 0.0250],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:01:15,474 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116123.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:01:18,720 INFO [train.py:903] (2/4) Epoch 18, batch 50, loss[loss=0.2012, simple_loss=0.2838, pruned_loss=0.05928, over 19589.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.2935, pruned_loss=0.07081, over 851801.89 frames. ], batch size: 52, lr: 4.66e-03, grad_scale: 8.0
+2023-04-02 11:01:21,443 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=116128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:01:23,504 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=116129.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:01:30,192 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116134.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:01:47,384 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.51 vs. limit=2.0
+2023-04-02 11:01:52,473 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 11:01:55,422 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.48 vs. limit=5.0
+2023-04-02 11:02:21,174 INFO [train.py:903] (2/4) Epoch 18, batch 100, loss[loss=0.1861, simple_loss=0.2659, pruned_loss=0.05316, over 19423.00 frames. ], tot_loss[loss=0.2161, simple_loss=0.2937, pruned_loss=0.06923, over 1505010.16 frames. ], batch size: 48, lr: 4.66e-03, grad_scale: 8.0
+2023-04-02 11:02:32,241 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 11:02:58,315 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.917e+02 4.838e+02 6.090e+02 7.458e+02 2.009e+03, threshold=1.218e+03, percent-clipped=2.0
+2023-04-02 11:03:21,609 INFO [train.py:903] (2/4) Epoch 18, batch 150, loss[loss=0.2464, simple_loss=0.3241, pruned_loss=0.08437, over 19862.00 frames. ], tot_loss[loss=0.2162, simple_loss=0.2943, pruned_loss=0.06904, over 2021874.09 frames. ], batch size: 52, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:03:56,114 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=116254.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 11:04:20,470 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 11:04:21,608 INFO [train.py:903] (2/4) Epoch 18, batch 200, loss[loss=0.2114, simple_loss=0.2845, pruned_loss=0.06921, over 19730.00 frames. ], tot_loss[loss=0.2176, simple_loss=0.2954, pruned_loss=0.06986, over 2426098.29 frames. ], batch size: 51, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:05:01,397 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.017e+02 4.750e+02 5.613e+02 7.153e+02 1.890e+03, threshold=1.123e+03, percent-clipped=2.0
+2023-04-02 11:05:24,085 INFO [train.py:903] (2/4) Epoch 18, batch 250, loss[loss=0.2347, simple_loss=0.3228, pruned_loss=0.07332, over 19627.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2937, pruned_loss=0.06821, over 2744642.51 frames. ], batch size: 57, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:05:43,802 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116341.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:06:18,097 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=116369.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 11:06:25,430 INFO [train.py:903] (2/4) Epoch 18, batch 300, loss[loss=0.1883, simple_loss=0.2741, pruned_loss=0.05126, over 19649.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2935, pruned_loss=0.06837, over 2979957.68 frames. ], batch size: 55, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:06:25,590 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=116376.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:07:03,943 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.432e+02 5.241e+02 6.705e+02 8.261e+02 1.478e+03, threshold=1.341e+03, percent-clipped=3.0
+2023-04-02 11:07:28,473 INFO [train.py:903] (2/4) Epoch 18, batch 350, loss[loss=0.2004, simple_loss=0.2774, pruned_loss=0.06168, over 19860.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.292, pruned_loss=0.06744, over 3168859.96 frames. ], batch size: 52, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:07:31,355 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6564, 1.7590, 1.9627, 2.0233, 1.5133, 1.9110, 2.0094, 1.8102],
+       device='cuda:2'), covar=tensor([0.3800, 0.3307, 0.1790, 0.1933, 0.3319, 0.1825, 0.4518, 0.3102],
+       device='cuda:2'), in_proj_covar=tensor([0.0856, 0.0909, 0.0686, 0.0911, 0.0837, 0.0773, 0.0813, 0.0754],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 11:07:33,294 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 11:07:44,267 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-02 11:08:16,145 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116464.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:08:19,411 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=116467.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:08:29,490 INFO [train.py:903] (2/4) Epoch 18, batch 400, loss[loss=0.2265, simple_loss=0.3042, pruned_loss=0.0744, over 19761.00 frames. ], tot_loss[loss=0.2139, simple_loss=0.2923, pruned_loss=0.0677, over 3328786.45 frames. ], batch size: 63, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:08:31,843 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=116478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:08:48,742 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=116491.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:09:08,776 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.099e+02 4.874e+02 5.859e+02 7.069e+02 1.370e+03, threshold=1.172e+03, percent-clipped=1.0
+2023-04-02 11:09:27,710 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116523.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:09:31,060 INFO [train.py:903] (2/4) Epoch 18, batch 450, loss[loss=0.18, simple_loss=0.2606, pruned_loss=0.04973, over 19467.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.2918, pruned_loss=0.06749, over 3426189.32 frames. ], batch size: 49, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:10:06,954 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 11:10:08,082 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 11:10:36,068 INFO [train.py:903] (2/4) Epoch 18, batch 500, loss[loss=0.183, simple_loss=0.2705, pruned_loss=0.04774, over 19858.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.292, pruned_loss=0.06742, over 3514982.60 frames. ], batch size: 52, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:10:43,234 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=116582.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:10:57,242 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=116593.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:11:13,493 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.162e+02 5.090e+02 6.291e+02 8.243e+02 1.843e+03, threshold=1.258e+03, percent-clipped=5.0
+2023-04-02 11:11:38,152 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=116625.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 11:11:38,805 INFO [train.py:903] (2/4) Epoch 18, batch 550, loss[loss=0.231, simple_loss=0.304, pruned_loss=0.07901, over 19730.00 frames. ], tot_loss[loss=0.2144, simple_loss=0.2923, pruned_loss=0.06823, over 3580848.07 frames. ], batch size: 51, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:11:51,095 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:12:07,828 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=116650.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 11:12:07,879 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4412, 1.5038, 1.9744, 1.7300, 2.6056, 2.2085, 2.6326, 1.3109],
+       device='cuda:2'), covar=tensor([0.2608, 0.4391, 0.2565, 0.2012, 0.1691, 0.2359, 0.1839, 0.4384],
+       device='cuda:2'), in_proj_covar=tensor([0.0512, 0.0612, 0.0671, 0.0463, 0.0611, 0.0516, 0.0648, 0.0522],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 11:12:40,988 INFO [train.py:903] (2/4) Epoch 18, batch 600, loss[loss=0.2182, simple_loss=0.2859, pruned_loss=0.07525, over 19785.00 frames. ], tot_loss[loss=0.2142, simple_loss=0.2918, pruned_loss=0.06832, over 3620708.62 frames. ], batch size: 49, lr: 4.65e-03, grad_scale: 8.0
+2023-04-02 11:12:51,644 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=116685.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:13:18,881 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.849e+02 4.880e+02 6.214e+02 8.095e+02 1.532e+03, threshold=1.243e+03, percent-clipped=4.0
+2023-04-02 11:13:21,179 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 11:13:28,780 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8725, 1.6758, 1.4889, 1.9176, 1.4917, 1.7069, 1.5468, 1.7841],
+       device='cuda:2'), covar=tensor([0.0982, 0.1295, 0.1427, 0.0899, 0.1361, 0.0529, 0.1249, 0.0731],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0356, 0.0302, 0.0247, 0.0299, 0.0247, 0.0296, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:13:37,808 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116722.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:13:42,023 INFO [train.py:903] (2/4) Epoch 18, batch 650, loss[loss=0.2272, simple_loss=0.3085, pruned_loss=0.07291, over 19475.00 frames. ], tot_loss[loss=0.2147, simple_loss=0.2921, pruned_loss=0.06862, over 3666510.86 frames. ], batch size: 49, lr: 4.64e-03, grad_scale: 8.0
+2023-04-02 11:13:55,032 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6178, 1.3506, 1.5840, 1.5282, 3.2007, 0.9805, 2.4131, 3.6163],
+       device='cuda:2'), covar=tensor([0.0487, 0.2697, 0.2656, 0.1829, 0.0657, 0.2590, 0.1259, 0.0241],
+       device='cuda:2'), in_proj_covar=tensor([0.0390, 0.0354, 0.0374, 0.0340, 0.0362, 0.0345, 0.0359, 0.0384],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:14:08,728 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=116747.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:14:34,415 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.32 vs. limit=5.0
+2023-04-02 11:14:38,793 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=116772.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:14:43,012 INFO [train.py:903] (2/4) Epoch 18, batch 700, loss[loss=0.2603, simple_loss=0.328, pruned_loss=0.09628, over 17543.00 frames. ], tot_loss[loss=0.2161, simple_loss=0.2938, pruned_loss=0.06918, over 3711189.82 frames. ], batch size: 101, lr: 4.64e-03, grad_scale: 8.0
+2023-04-02 11:15:15,683 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=116800.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:15:23,662 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.148e+02 4.855e+02 5.777e+02 7.000e+02 1.472e+03, threshold=1.155e+03, percent-clipped=1.0
+2023-04-02 11:15:24,933 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=116808.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:15:27,849 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-02 11:15:39,759 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=116820.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:15:47,498 INFO [train.py:903] (2/4) Epoch 18, batch 750, loss[loss=0.2144, simple_loss=0.2983, pruned_loss=0.06526, over 19530.00 frames. ], tot_loss[loss=0.215, simple_loss=0.2931, pruned_loss=0.06847, over 3748555.09 frames. ], batch size: 64, lr: 4.64e-03, grad_scale: 8.0
+2023-04-02 11:16:03,722 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=116838.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:16:16,565 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=116849.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:16:35,186 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=116863.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:16:39,887 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=116867.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:16:50,596 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=116874.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:16:52,573 INFO [train.py:903] (2/4) Epoch 18, batch 800, loss[loss=0.1946, simple_loss=0.2762, pruned_loss=0.05645, over 19761.00 frames. ], tot_loss[loss=0.215, simple_loss=0.2928, pruned_loss=0.06857, over 3756007.38 frames. ], batch size: 54, lr: 4.64e-03, grad_scale: 8.0
+2023-04-02 11:17:06,590 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 11:17:32,329 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.570e+02 5.513e+02 6.326e+02 7.669e+02 1.889e+03, threshold=1.265e+03, percent-clipped=5.0
+2023-04-02 11:17:51,818 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=116923.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:17:55,029 INFO [train.py:903] (2/4) Epoch 18, batch 850, loss[loss=0.2175, simple_loss=0.292, pruned_loss=0.0715, over 19599.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.2927, pruned_loss=0.06825, over 3780280.39 frames. ], batch size: 52, lr: 4.64e-03, grad_scale: 4.0
+2023-04-02 11:18:12,811 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1905, 1.3303, 1.6789, 1.3256, 2.7147, 3.6868, 3.3971, 3.8983],
+       device='cuda:2'), covar=tensor([0.1635, 0.3658, 0.3267, 0.2333, 0.0571, 0.0167, 0.0218, 0.0234],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0312, 0.0339, 0.0256, 0.0231, 0.0177, 0.0209, 0.0236],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 11:18:48,138 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 11:18:56,389 INFO [train.py:903] (2/4) Epoch 18, batch 900, loss[loss=0.1972, simple_loss=0.2786, pruned_loss=0.05793, over 19651.00 frames. ], tot_loss[loss=0.2148, simple_loss=0.2929, pruned_loss=0.06836, over 3781478.48 frames. ], batch size: 55, lr: 4.64e-03, grad_scale: 4.0
+2023-04-02 11:19:01,382 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=116980.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:19:04,004 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=116982.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:19:38,593 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.269e+02 4.671e+02 5.637e+02 7.276e+02 1.422e+03, threshold=1.127e+03, percent-clipped=2.0
+2023-04-02 11:20:00,611 INFO [train.py:903] (2/4) Epoch 18, batch 950, loss[loss=0.2024, simple_loss=0.2878, pruned_loss=0.05855, over 17197.00 frames. ], tot_loss[loss=0.2143, simple_loss=0.2924, pruned_loss=0.06807, over 3789139.56 frames. ], batch size: 101, lr: 4.64e-03, grad_scale: 4.0
+2023-04-02 11:20:02,959 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 11:20:38,647 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=117056.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:20:51,135 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=117066.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:21:03,208 INFO [train.py:903] (2/4) Epoch 18, batch 1000, loss[loss=0.1876, simple_loss=0.2608, pruned_loss=0.05717, over 19777.00 frames. ], tot_loss[loss=0.215, simple_loss=0.2931, pruned_loss=0.06845, over 3787465.71 frames. ], batch size: 48, lr: 4.64e-03, grad_scale: 4.0
+2023-04-02 11:21:11,182 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=117081.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:21:27,373 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=117095.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:21:43,056 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.648e+02 4.999e+02 6.181e+02 7.829e+02 2.221e+03, threshold=1.236e+03, percent-clipped=4.0
+2023-04-02 11:21:58,125 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 11:22:07,204 INFO [train.py:903] (2/4) Epoch 18, batch 1050, loss[loss=0.2279, simple_loss=0.3039, pruned_loss=0.0759, over 19791.00 frames. ], tot_loss[loss=0.2153, simple_loss=0.2932, pruned_loss=0.06873, over 3791280.10 frames. ], batch size: 56, lr: 4.64e-03, grad_scale: 4.0
+2023-04-02 11:22:40,248 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 11:22:55,011 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=117164.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:23:09,072 INFO [train.py:903] (2/4) Epoch 18, batch 1100, loss[loss=0.2001, simple_loss=0.2779, pruned_loss=0.06111, over 19456.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2913, pruned_loss=0.0674, over 3804225.14 frames. ], batch size: 49, lr: 4.64e-03, grad_scale: 4.0
+2023-04-02 11:23:13,156 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=117179.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:23:15,419 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=117181.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:23:24,962 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1515, 2.0246, 1.8006, 1.6525, 1.5446, 1.6070, 0.5507, 1.0237],
+       device='cuda:2'), covar=tensor([0.0558, 0.0613, 0.0489, 0.0821, 0.1203, 0.0980, 0.1279, 0.1055],
+       device='cuda:2'), in_proj_covar=tensor([0.0351, 0.0347, 0.0347, 0.0376, 0.0449, 0.0382, 0.0328, 0.0335],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 11:23:44,507 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=117204.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:23:49,510 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.961e+02 5.150e+02 6.225e+02 7.900e+02 1.283e+03, threshold=1.245e+03, percent-clipped=2.0
+2023-04-02 11:24:11,116 INFO [train.py:903] (2/4) Epoch 18, batch 1150, loss[loss=0.1815, simple_loss=0.2745, pruned_loss=0.04426, over 19679.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.291, pruned_loss=0.06718, over 3809476.03 frames. ], batch size: 59, lr: 4.63e-03, grad_scale: 4.0
+2023-04-02 11:24:27,284 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=117238.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:24:28,292 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=117239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:24:39,791 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3910, 3.9226, 2.6664, 3.4926, 1.0049, 3.8613, 3.8615, 3.8683],
+       device='cuda:2'), covar=tensor([0.0660, 0.1133, 0.1922, 0.0893, 0.3970, 0.0774, 0.0834, 0.1046],
+       device='cuda:2'), in_proj_covar=tensor([0.0479, 0.0393, 0.0475, 0.0337, 0.0395, 0.0413, 0.0406, 0.0436],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:24:58,361 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=117263.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:25:14,043 INFO [train.py:903] (2/4) Epoch 18, batch 1200, loss[loss=0.2312, simple_loss=0.3062, pruned_loss=0.07809, over 19689.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2909, pruned_loss=0.06724, over 3809178.00 frames. ], batch size: 60, lr: 4.63e-03, grad_scale: 8.0
+2023-04-02 11:25:19,022 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=117279.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:25:31,286 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6513, 2.3930, 2.3036, 2.7319, 2.4039, 2.2714, 2.2575, 2.6428],
+       device='cuda:2'), covar=tensor([0.0780, 0.1462, 0.1178, 0.0871, 0.1262, 0.0462, 0.1094, 0.0565],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0355, 0.0302, 0.0248, 0.0299, 0.0247, 0.0295, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:25:50,734 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 11:25:54,159 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.294e+02 4.775e+02 5.862e+02 7.562e+02 1.280e+03, threshold=1.172e+03, percent-clipped=1.0
+2023-04-02 11:26:12,978 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.65 vs. limit=2.0
+2023-04-02 11:26:18,177 INFO [train.py:903] (2/4) Epoch 18, batch 1250, loss[loss=0.1822, simple_loss=0.2649, pruned_loss=0.04976, over 19778.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2911, pruned_loss=0.06706, over 3813463.41 frames. ], batch size: 54, lr: 4.63e-03, grad_scale: 8.0
+2023-04-02 11:26:43,829 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=117347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:26:49,490 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=117351.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:26:58,463 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3284, 2.2021, 2.0322, 1.8721, 1.7259, 1.8939, 0.5732, 1.2346],
+       device='cuda:2'), covar=tensor([0.0546, 0.0549, 0.0463, 0.0789, 0.1076, 0.0852, 0.1296, 0.0989],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0347, 0.0348, 0.0376, 0.0449, 0.0381, 0.0328, 0.0334],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 11:27:20,888 INFO [train.py:903] (2/4) Epoch 18, batch 1300, loss[loss=0.1822, simple_loss=0.2541, pruned_loss=0.05517, over 19779.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2912, pruned_loss=0.06721, over 3818828.09 frames. ], batch size: 47, lr: 4.63e-03, grad_scale: 8.0
+2023-04-02 11:27:21,328 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=117376.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:27:48,181 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4553, 1.3927, 1.3628, 1.8713, 1.3999, 1.7713, 1.7579, 1.5432],
+       device='cuda:2'), covar=tensor([0.0874, 0.0931, 0.1039, 0.0634, 0.0841, 0.0678, 0.0750, 0.0714],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0221, 0.0223, 0.0240, 0.0226, 0.0209, 0.0186, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 11:28:01,371 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.655e+02 5.418e+02 6.594e+02 8.357e+02 1.516e+03, threshold=1.319e+03, percent-clipped=5.0
+2023-04-02 11:28:22,254 INFO [train.py:903] (2/4) Epoch 18, batch 1350, loss[loss=0.1957, simple_loss=0.274, pruned_loss=0.05874, over 19736.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2914, pruned_loss=0.06755, over 3817144.08 frames. ], batch size: 51, lr: 4.63e-03, grad_scale: 8.0
+2023-04-02 11:28:37,275 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=117437.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:29:07,741 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=117462.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:29:21,700 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.58 vs. limit=2.0
+2023-04-02 11:29:24,525 INFO [train.py:903] (2/4) Epoch 18, batch 1400, loss[loss=0.1901, simple_loss=0.2585, pruned_loss=0.06087, over 19420.00 frames. ], tot_loss[loss=0.2136, simple_loss=0.2913, pruned_loss=0.06793, over 3820162.82 frames. ], batch size: 48, lr: 4.63e-03, grad_scale: 8.0
+2023-04-02 11:30:04,549 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.042e+02 5.443e+02 6.741e+02 8.791e+02 2.167e+03, threshold=1.348e+03, percent-clipped=5.0
+2023-04-02 11:30:28,257 INFO [train.py:903] (2/4) Epoch 18, batch 1450, loss[loss=0.1764, simple_loss=0.2521, pruned_loss=0.0503, over 19375.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.291, pruned_loss=0.06777, over 3813742.55 frames. ], batch size: 47, lr: 4.63e-03, grad_scale: 4.0
+2023-04-02 11:30:29,438 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 11:30:40,082 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=117535.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:31:11,252 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=117560.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:31:30,934 INFO [train.py:903] (2/4) Epoch 18, batch 1500, loss[loss=0.1906, simple_loss=0.2762, pruned_loss=0.05249, over 19763.00 frames. ], tot_loss[loss=0.214, simple_loss=0.2918, pruned_loss=0.06813, over 3807416.92 frames. ], batch size: 54, lr: 4.63e-03, grad_scale: 4.0
+2023-04-02 11:31:39,061 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=117583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:31:53,612 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.43 vs. limit=2.0
+2023-04-02 11:32:11,894 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.089e+02 4.657e+02 6.062e+02 7.787e+02 1.498e+03, threshold=1.212e+03, percent-clipped=2.0
+2023-04-02 11:32:32,136 INFO [train.py:903] (2/4) Epoch 18, batch 1550, loss[loss=0.2948, simple_loss=0.3635, pruned_loss=0.1131, over 19663.00 frames. ], tot_loss[loss=0.215, simple_loss=0.2926, pruned_loss=0.06875, over 3806202.40 frames. ], batch size: 59, lr: 4.63e-03, grad_scale: 4.0
+2023-04-02 11:33:34,533 INFO [train.py:903] (2/4) Epoch 18, batch 1600, loss[loss=0.2029, simple_loss=0.289, pruned_loss=0.0584, over 17378.00 frames. ], tot_loss[loss=0.2152, simple_loss=0.2931, pruned_loss=0.06863, over 3804638.56 frames. ], batch size: 101, lr: 4.63e-03, grad_scale: 8.0
+2023-04-02 11:33:54,974 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=117691.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:34:01,931 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 11:34:03,384 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=117698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:34:15,615 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.549e+02 4.964e+02 5.954e+02 7.051e+02 1.393e+03, threshold=1.191e+03, percent-clipped=4.0
+2023-04-02 11:34:37,827 INFO [train.py:903] (2/4) Epoch 18, batch 1650, loss[loss=0.1909, simple_loss=0.2597, pruned_loss=0.06102, over 19014.00 frames. ], tot_loss[loss=0.2156, simple_loss=0.2935, pruned_loss=0.06889, over 3804485.82 frames. ], batch size: 42, lr: 4.63e-03, grad_scale: 8.0
+2023-04-02 11:34:44,920 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0508, 1.2883, 1.6912, 0.9442, 2.3300, 3.0214, 2.7367, 3.2136],
+       device='cuda:2'), covar=tensor([0.1714, 0.3726, 0.3275, 0.2638, 0.0623, 0.0240, 0.0264, 0.0297],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0309, 0.0338, 0.0257, 0.0230, 0.0177, 0.0209, 0.0235],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 11:35:04,230 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3363, 2.3781, 2.6263, 3.1871, 2.2905, 3.0336, 2.7208, 2.4026],
+       device='cuda:2'), covar=tensor([0.4196, 0.3884, 0.1700, 0.2431, 0.4328, 0.2023, 0.4198, 0.3159],
+       device='cuda:2'), in_proj_covar=tensor([0.0858, 0.0911, 0.0689, 0.0910, 0.0837, 0.0775, 0.0818, 0.0757],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 11:35:39,486 INFO [train.py:903] (2/4) Epoch 18, batch 1700, loss[loss=0.2077, simple_loss=0.2872, pruned_loss=0.06406, over 19771.00 frames. ], tot_loss[loss=0.2158, simple_loss=0.2937, pruned_loss=0.06899, over 3804290.26 frames. ], batch size: 56, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:36:16,647 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=117806.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:36:19,946 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.954e+02 5.098e+02 6.258e+02 7.253e+02 1.524e+03, threshold=1.252e+03, percent-clipped=2.0
+2023-04-02 11:36:21,126 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 11:36:40,232 INFO [train.py:903] (2/4) Epoch 18, batch 1750, loss[loss=0.2334, simple_loss=0.3226, pruned_loss=0.07212, over 19675.00 frames. ], tot_loss[loss=0.2162, simple_loss=0.2945, pruned_loss=0.06896, over 3821639.82 frames. ], batch size: 59, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:37:14,810 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 11:37:43,036 INFO [train.py:903] (2/4) Epoch 18, batch 1800, loss[loss=0.1977, simple_loss=0.2808, pruned_loss=0.05725, over 19584.00 frames. ], tot_loss[loss=0.2148, simple_loss=0.2931, pruned_loss=0.06825, over 3810595.33 frames. ], batch size: 52, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:38:23,380 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.984e+02 4.803e+02 6.041e+02 7.952e+02 1.877e+03, threshold=1.208e+03, percent-clipped=3.0
+2023-04-02 11:38:42,053 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 11:38:45,250 INFO [train.py:903] (2/4) Epoch 18, batch 1850, loss[loss=0.2083, simple_loss=0.2959, pruned_loss=0.06031, over 19618.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2932, pruned_loss=0.06845, over 3801348.46 frames. ], batch size: 57, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:39:18,894 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 11:39:19,263 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=117954.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:39:47,637 INFO [train.py:903] (2/4) Epoch 18, batch 1900, loss[loss=0.226, simple_loss=0.3076, pruned_loss=0.07218, over 19732.00 frames. ], tot_loss[loss=0.2143, simple_loss=0.2925, pruned_loss=0.06804, over 3787589.20 frames. ], batch size: 63, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:39:51,598 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=117979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:40:03,249 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 11:40:07,858 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 11:40:27,943 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.102e+02 5.120e+02 6.309e+02 7.973e+02 1.539e+03, threshold=1.262e+03, percent-clipped=6.0
+2023-04-02 11:40:34,591 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 11:40:48,204 INFO [train.py:903] (2/4) Epoch 18, batch 1950, loss[loss=0.1845, simple_loss=0.2575, pruned_loss=0.05577, over 16994.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.2926, pruned_loss=0.06833, over 3805703.63 frames. ], batch size: 37, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:41:28,980 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=118058.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:41:33,525 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=118062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:41:49,955 INFO [train.py:903] (2/4) Epoch 18, batch 2000, loss[loss=0.1669, simple_loss=0.2443, pruned_loss=0.04472, over 19319.00 frames. ], tot_loss[loss=0.2144, simple_loss=0.2925, pruned_loss=0.06817, over 3804640.37 frames. ], batch size: 44, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:42:05,405 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=118087.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:42:11,300 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.65 vs. limit=5.0
+2023-04-02 11:42:31,797 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.263e+02 5.367e+02 6.632e+02 8.072e+02 1.503e+03, threshold=1.326e+03, percent-clipped=5.0
+2023-04-02 11:42:46,438 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 11:42:54,014 INFO [train.py:903] (2/4) Epoch 18, batch 2050, loss[loss=0.2151, simple_loss=0.2985, pruned_loss=0.06581, over 19786.00 frames. ], tot_loss[loss=0.214, simple_loss=0.2923, pruned_loss=0.06789, over 3805811.33 frames. ], batch size: 56, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:43:06,260 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 11:43:07,433 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 11:43:26,124 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 11:43:55,357 INFO [train.py:903] (2/4) Epoch 18, batch 2100, loss[loss=0.3026, simple_loss=0.3595, pruned_loss=0.1229, over 13510.00 frames. ], tot_loss[loss=0.2145, simple_loss=0.2928, pruned_loss=0.06809, over 3794041.64 frames. ], batch size: 136, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:44:07,025 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=118186.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:44:21,262 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 11:44:36,101 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.283e+02 5.186e+02 6.689e+02 8.493e+02 1.656e+03, threshold=1.338e+03, percent-clipped=6.0
+2023-04-02 11:44:44,927 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 11:44:56,297 INFO [train.py:903] (2/4) Epoch 18, batch 2150, loss[loss=0.2661, simple_loss=0.3339, pruned_loss=0.09914, over 13748.00 frames. ], tot_loss[loss=0.2147, simple_loss=0.2931, pruned_loss=0.06813, over 3799334.46 frames. ], batch size: 136, lr: 4.62e-03, grad_scale: 8.0
+2023-04-02 11:45:39,509 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6131, 1.2558, 1.2449, 1.5185, 1.1718, 1.4184, 1.2063, 1.4666],
+       device='cuda:2'), covar=tensor([0.1083, 0.1186, 0.1539, 0.0923, 0.1229, 0.0573, 0.1473, 0.0782],
+       device='cuda:2'), in_proj_covar=tensor([0.0262, 0.0350, 0.0299, 0.0245, 0.0296, 0.0244, 0.0292, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:45:57,805 INFO [train.py:903] (2/4) Epoch 18, batch 2200, loss[loss=0.1933, simple_loss=0.2649, pruned_loss=0.06084, over 19769.00 frames. ], tot_loss[loss=0.2148, simple_loss=0.2929, pruned_loss=0.06833, over 3798208.34 frames. ], batch size: 46, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:46:13,153 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=118287.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:46:37,302 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=118307.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:46:39,297 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.599e+02 5.366e+02 7.280e+02 9.450e+02 2.114e+03, threshold=1.456e+03, percent-clipped=6.0
+2023-04-02 11:47:01,193 INFO [train.py:903] (2/4) Epoch 18, batch 2250, loss[loss=0.2105, simple_loss=0.2818, pruned_loss=0.06967, over 19663.00 frames. ], tot_loss[loss=0.2147, simple_loss=0.2931, pruned_loss=0.06811, over 3795117.69 frames. ], batch size: 53, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:47:27,267 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=118347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:47:47,777 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2638, 3.9346, 3.0789, 3.4798, 1.7798, 3.7260, 3.6822, 3.7994],
+       device='cuda:2'), covar=tensor([0.0716, 0.1085, 0.1844, 0.1025, 0.3102, 0.0791, 0.1054, 0.1302],
+       device='cuda:2'), in_proj_covar=tensor([0.0478, 0.0395, 0.0479, 0.0340, 0.0399, 0.0416, 0.0411, 0.0441],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:48:02,749 INFO [train.py:903] (2/4) Epoch 18, batch 2300, loss[loss=0.2172, simple_loss=0.2937, pruned_loss=0.07041, over 19847.00 frames. ], tot_loss[loss=0.2165, simple_loss=0.2942, pruned_loss=0.06941, over 3782579.37 frames. ], batch size: 52, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:48:15,079 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 11:48:22,252 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4780, 1.3868, 1.6159, 1.3479, 3.0786, 1.0159, 2.3787, 3.3514],
+       device='cuda:2'), covar=tensor([0.0480, 0.2534, 0.2472, 0.1903, 0.0694, 0.2421, 0.1060, 0.0289],
+       device='cuda:2'), in_proj_covar=tensor([0.0398, 0.0359, 0.0377, 0.0344, 0.0367, 0.0347, 0.0367, 0.0388],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:48:35,798 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=118402.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:48:44,949 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.375e+02 5.253e+02 6.243e+02 7.561e+02 1.558e+03, threshold=1.249e+03, percent-clipped=2.0
+2023-04-02 11:49:05,629 INFO [train.py:903] (2/4) Epoch 18, batch 2350, loss[loss=0.1836, simple_loss=0.2647, pruned_loss=0.05122, over 19624.00 frames. ], tot_loss[loss=0.2154, simple_loss=0.2935, pruned_loss=0.06867, over 3796027.20 frames. ], batch size: 50, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:49:12,812 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9508, 1.3447, 1.0733, 0.9902, 1.1814, 1.0036, 1.0317, 1.2796],
+       device='cuda:2'), covar=tensor([0.0617, 0.0827, 0.1179, 0.0761, 0.0611, 0.1343, 0.0590, 0.0477],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0314, 0.0336, 0.0262, 0.0247, 0.0334, 0.0293, 0.0272],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:49:46,255 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 11:50:02,106 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 11:50:06,554 INFO [train.py:903] (2/4) Epoch 18, batch 2400, loss[loss=0.2043, simple_loss=0.2943, pruned_loss=0.0571, over 18648.00 frames. ], tot_loss[loss=0.2152, simple_loss=0.2931, pruned_loss=0.06864, over 3805599.57 frames. ], batch size: 74, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:50:48,687 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.320e+02 4.821e+02 5.593e+02 7.730e+02 1.750e+03, threshold=1.119e+03, percent-clipped=3.0
+2023-04-02 11:50:58,576 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=118517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:51:10,675 INFO [train.py:903] (2/4) Epoch 18, batch 2450, loss[loss=0.1808, simple_loss=0.2591, pruned_loss=0.05128, over 19757.00 frames. ], tot_loss[loss=0.2143, simple_loss=0.2921, pruned_loss=0.06827, over 3796753.45 frames. ], batch size: 47, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:51:16,269 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=118530.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:51:57,089 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7849, 2.0596, 2.3572, 2.0784, 3.2061, 3.6506, 3.6102, 4.0003],
+       device='cuda:2'), covar=tensor([0.1401, 0.2885, 0.2644, 0.1979, 0.0908, 0.0339, 0.0180, 0.0243],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0310, 0.0340, 0.0257, 0.0232, 0.0178, 0.0210, 0.0237],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 11:52:12,599 INFO [train.py:903] (2/4) Epoch 18, batch 2500, loss[loss=0.2356, simple_loss=0.3161, pruned_loss=0.07762, over 19398.00 frames. ], tot_loss[loss=0.2155, simple_loss=0.2934, pruned_loss=0.06878, over 3802182.15 frames. ], batch size: 70, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:52:53,545 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.320e+02 5.081e+02 6.040e+02 7.266e+02 1.380e+03, threshold=1.208e+03, percent-clipped=1.0
+2023-04-02 11:53:13,674 INFO [train.py:903] (2/4) Epoch 18, batch 2550, loss[loss=0.1799, simple_loss=0.256, pruned_loss=0.05191, over 19347.00 frames. ], tot_loss[loss=0.215, simple_loss=0.2933, pruned_loss=0.06838, over 3818806.69 frames. ], batch size: 47, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:53:19,835 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=118631.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:53:37,336 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.67 vs. limit=5.0
+2023-04-02 11:53:37,929 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=118645.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:53:43,516 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=118649.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:53:45,541 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=118651.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:54:06,487 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 11:54:15,894 INFO [train.py:903] (2/4) Epoch 18, batch 2600, loss[loss=0.2066, simple_loss=0.2764, pruned_loss=0.06839, over 19751.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.291, pruned_loss=0.06714, over 3826760.65 frames. ], batch size: 47, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:54:35,492 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=118691.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:54:56,091 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.395e+02 4.742e+02 5.749e+02 7.114e+02 1.367e+03, threshold=1.150e+03, percent-clipped=3.0
+2023-04-02 11:55:16,573 INFO [train.py:903] (2/4) Epoch 18, batch 2650, loss[loss=0.2198, simple_loss=0.2859, pruned_loss=0.07682, over 19782.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2912, pruned_loss=0.06702, over 3832583.74 frames. ], batch size: 47, lr: 4.61e-03, grad_scale: 8.0
+2023-04-02 11:55:33,748 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 11:55:42,217 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=118746.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:56:06,167 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=118766.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:56:15,272 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=118773.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:56:18,252 INFO [train.py:903] (2/4) Epoch 18, batch 2700, loss[loss=0.196, simple_loss=0.2853, pruned_loss=0.05336, over 19606.00 frames. ], tot_loss[loss=0.2135, simple_loss=0.2919, pruned_loss=0.06758, over 3822695.40 frames. ], batch size: 52, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 11:56:44,810 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=118798.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:56:49,092 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.79 vs. limit=5.0
+2023-04-02 11:56:55,797 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=118806.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:56:59,040 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.246e+02 5.095e+02 6.154e+02 8.195e+02 1.746e+03, threshold=1.231e+03, percent-clipped=5.0
+2023-04-02 11:57:05,259 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.2840, 5.6682, 3.3107, 4.9559, 1.0941, 5.7679, 5.6523, 5.7694],
+       device='cuda:2'), covar=tensor([0.0345, 0.0701, 0.1618, 0.0675, 0.4032, 0.0501, 0.0747, 0.0796],
+       device='cuda:2'), in_proj_covar=tensor([0.0483, 0.0394, 0.0480, 0.0341, 0.0402, 0.0419, 0.0413, 0.0445],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:57:06,542 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4356, 1.3067, 1.0091, 1.2645, 1.1803, 1.1008, 0.9896, 1.2256],
+       device='cuda:2'), covar=tensor([0.1247, 0.1168, 0.1947, 0.1174, 0.1313, 0.1145, 0.1933, 0.1121],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0353, 0.0299, 0.0248, 0.0298, 0.0246, 0.0295, 0.0250],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:57:20,472 INFO [train.py:903] (2/4) Epoch 18, batch 2750, loss[loss=0.197, simple_loss=0.2672, pruned_loss=0.06342, over 19282.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2913, pruned_loss=0.06744, over 3819673.94 frames. ], batch size: 44, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 11:58:15,406 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3481, 1.2983, 1.6256, 1.5561, 2.3136, 2.0124, 2.4525, 0.8789],
+       device='cuda:2'), covar=tensor([0.2666, 0.4641, 0.2811, 0.2177, 0.1759, 0.2475, 0.1632, 0.4830],
+       device='cuda:2'), in_proj_covar=tensor([0.0519, 0.0622, 0.0679, 0.0468, 0.0615, 0.0521, 0.0655, 0.0530],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 11:58:23,109 INFO [train.py:903] (2/4) Epoch 18, batch 2800, loss[loss=0.2002, simple_loss=0.2872, pruned_loss=0.05656, over 19615.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2922, pruned_loss=0.06775, over 3824489.48 frames. ], batch size: 57, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 11:58:41,703 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9749, 1.8780, 1.7573, 1.5488, 1.4967, 1.5590, 0.4159, 0.7924],
+       device='cuda:2'), covar=tensor([0.0527, 0.0564, 0.0383, 0.0626, 0.1069, 0.0685, 0.1165, 0.0965],
+       device='cuda:2'), in_proj_covar=tensor([0.0349, 0.0348, 0.0347, 0.0374, 0.0448, 0.0380, 0.0329, 0.0335],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 11:58:44,008 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7085, 1.7089, 1.7348, 1.6403, 4.2829, 1.0980, 2.6725, 4.6110],
+       device='cuda:2'), covar=tensor([0.0429, 0.2678, 0.2777, 0.2021, 0.0738, 0.2748, 0.1408, 0.0183],
+       device='cuda:2'), in_proj_covar=tensor([0.0399, 0.0357, 0.0378, 0.0342, 0.0365, 0.0345, 0.0366, 0.0389],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 11:58:54,314 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=118901.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 11:59:03,992 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.182e+02 4.804e+02 6.148e+02 8.494e+02 1.418e+03, threshold=1.230e+03, percent-clipped=5.0
+2023-04-02 11:59:24,489 INFO [train.py:903] (2/4) Epoch 18, batch 2850, loss[loss=0.2067, simple_loss=0.2717, pruned_loss=0.07082, over 19794.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2933, pruned_loss=0.06852, over 3827863.47 frames. ], batch size: 47, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 11:59:24,958 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=118926.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:00:22,866 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 12:00:26,007 INFO [train.py:903] (2/4) Epoch 18, batch 2900, loss[loss=0.1853, simple_loss=0.2686, pruned_loss=0.05096, over 19665.00 frames. ], tot_loss[loss=0.215, simple_loss=0.293, pruned_loss=0.06846, over 3804557.01 frames. ], batch size: 53, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 12:00:27,573 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1198, 1.9865, 1.8688, 1.7240, 1.5554, 1.7194, 0.5051, 0.9866],
+       device='cuda:2'), covar=tensor([0.0540, 0.0558, 0.0378, 0.0618, 0.1065, 0.0728, 0.1152, 0.0949],
+       device='cuda:2'), in_proj_covar=tensor([0.0351, 0.0349, 0.0348, 0.0375, 0.0449, 0.0381, 0.0330, 0.0337],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 12:00:46,055 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=118993.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:00:54,348 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
+2023-04-02 12:00:54,950 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3163, 1.3655, 1.6737, 1.6150, 2.4272, 2.1089, 2.6515, 1.1050],
+       device='cuda:2'), covar=tensor([0.2646, 0.4582, 0.2758, 0.2106, 0.1824, 0.2387, 0.1676, 0.4856],
+       device='cuda:2'), in_proj_covar=tensor([0.0520, 0.0625, 0.0682, 0.0469, 0.0618, 0.0524, 0.0659, 0.0533],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 12:00:56,057 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=119002.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:00:58,541 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 12:01:05,225 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.034e+02 5.127e+02 5.908e+02 8.371e+02 2.467e+03, threshold=1.182e+03, percent-clipped=10.0
+2023-04-02 12:01:21,066 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=119022.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:01:25,114 INFO [train.py:903] (2/4) Epoch 18, batch 2950, loss[loss=0.2289, simple_loss=0.3045, pruned_loss=0.07667, over 18765.00 frames. ], tot_loss[loss=0.2158, simple_loss=0.2938, pruned_loss=0.06886, over 3802965.66 frames. ], batch size: 74, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 12:01:26,622 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=119027.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:01:50,466 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=119047.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:02:08,449 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=119062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:02:24,518 INFO [train.py:903] (2/4) Epoch 18, batch 3000, loss[loss=0.2357, simple_loss=0.3107, pruned_loss=0.08039, over 13600.00 frames. ], tot_loss[loss=0.2166, simple_loss=0.2946, pruned_loss=0.0693, over 3792650.73 frames. ], batch size: 135, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 12:02:24,519 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 12:02:37,018 INFO [train.py:937] (2/4) Epoch 18, validation: loss=0.1707, simple_loss=0.2711, pruned_loss=0.03521, over 944034.00 frames. 
+2023-04-02 12:02:37,019 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 12:02:40,535 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 12:02:50,781 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=119087.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:02:57,638 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=119093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:03:17,179 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=119108.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:03:17,940 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.980e+02 5.504e+02 6.538e+02 8.295e+02 4.074e+03, threshold=1.308e+03, percent-clipped=8.0
+2023-04-02 12:03:20,401 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=119111.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:03:37,845 INFO [train.py:903] (2/4) Epoch 18, batch 3050, loss[loss=0.1836, simple_loss=0.27, pruned_loss=0.04855, over 19756.00 frames. ], tot_loss[loss=0.2161, simple_loss=0.2943, pruned_loss=0.069, over 3801044.91 frames. ], batch size: 54, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 12:04:37,426 INFO [train.py:903] (2/4) Epoch 18, batch 3100, loss[loss=0.1889, simple_loss=0.282, pruned_loss=0.04791, over 19689.00 frames. ], tot_loss[loss=0.2159, simple_loss=0.294, pruned_loss=0.06891, over 3801725.17 frames. ], batch size: 59, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 12:05:18,220 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.373e+02 4.828e+02 5.979e+02 7.400e+02 1.693e+03, threshold=1.196e+03, percent-clipped=2.0
+2023-04-02 12:05:39,409 INFO [train.py:903] (2/4) Epoch 18, batch 3150, loss[loss=0.1927, simple_loss=0.2622, pruned_loss=0.0616, over 19748.00 frames. ], tot_loss[loss=0.2161, simple_loss=0.294, pruned_loss=0.06915, over 3803842.85 frames. ], batch size: 46, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 12:06:04,644 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-02 12:06:06,964 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 12:06:39,671 INFO [train.py:903] (2/4) Epoch 18, batch 3200, loss[loss=0.1974, simple_loss=0.275, pruned_loss=0.05992, over 19781.00 frames. ], tot_loss[loss=0.2164, simple_loss=0.2943, pruned_loss=0.06927, over 3805555.53 frames. ], batch size: 48, lr: 4.60e-03, grad_scale: 8.0
+2023-04-02 12:07:09,070 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3039, 2.1765, 1.9357, 1.8065, 1.6072, 1.8266, 0.5735, 1.2436],
+       device='cuda:2'), covar=tensor([0.0504, 0.0531, 0.0452, 0.0744, 0.1033, 0.0877, 0.1200, 0.0914],
+       device='cuda:2'), in_proj_covar=tensor([0.0349, 0.0345, 0.0345, 0.0371, 0.0446, 0.0378, 0.0326, 0.0333],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 12:07:18,202 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.241e+02 4.710e+02 5.964e+02 8.137e+02 2.705e+03, threshold=1.193e+03, percent-clipped=4.0
+2023-04-02 12:07:39,013 INFO [train.py:903] (2/4) Epoch 18, batch 3250, loss[loss=0.2255, simple_loss=0.3056, pruned_loss=0.07269, over 19683.00 frames. ], tot_loss[loss=0.2164, simple_loss=0.2941, pruned_loss=0.06937, over 3808125.17 frames. ], batch size: 60, lr: 4.59e-03, grad_scale: 8.0
+2023-04-02 12:08:24,496 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=119364.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:08:37,672 INFO [train.py:903] (2/4) Epoch 18, batch 3300, loss[loss=0.1835, simple_loss=0.2628, pruned_loss=0.0521, over 19423.00 frames. ], tot_loss[loss=0.2166, simple_loss=0.2941, pruned_loss=0.06952, over 3801408.65 frames. ], batch size: 48, lr: 4.59e-03, grad_scale: 8.0
+2023-04-02 12:08:42,302 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 12:08:50,174 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7839, 4.3687, 2.5455, 3.8624, 0.8478, 4.2837, 4.1640, 4.3071],
+       device='cuda:2'), covar=tensor([0.0630, 0.1092, 0.2182, 0.0858, 0.4395, 0.0677, 0.0898, 0.1188],
+       device='cuda:2'), in_proj_covar=tensor([0.0484, 0.0396, 0.0481, 0.0342, 0.0399, 0.0418, 0.0412, 0.0445],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 12:08:53,612 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=119389.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:09:17,495 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.159e+02 5.369e+02 6.623e+02 8.148e+02 1.799e+03, threshold=1.325e+03, percent-clipped=5.0
+2023-04-02 12:09:37,824 INFO [train.py:903] (2/4) Epoch 18, batch 3350, loss[loss=0.1936, simple_loss=0.2693, pruned_loss=0.05901, over 19477.00 frames. ], tot_loss[loss=0.2162, simple_loss=0.2938, pruned_loss=0.06926, over 3807612.77 frames. ], batch size: 49, lr: 4.59e-03, grad_scale: 8.0
+2023-04-02 12:09:39,235 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1446, 3.4241, 3.6806, 3.6863, 2.0127, 3.4168, 3.1247, 3.4623],
+       device='cuda:2'), covar=tensor([0.1357, 0.3069, 0.0604, 0.0738, 0.4371, 0.1343, 0.0621, 0.0987],
+       device='cuda:2'), in_proj_covar=tensor([0.0756, 0.0698, 0.0903, 0.0787, 0.0805, 0.0661, 0.0547, 0.0838],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 12:09:46,677 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7364, 1.1641, 1.5646, 1.7160, 3.0682, 1.3484, 2.5627, 3.6913],
+       device='cuda:2'), covar=tensor([0.0607, 0.3519, 0.3057, 0.1967, 0.1160, 0.2690, 0.1273, 0.0334],
+       device='cuda:2'), in_proj_covar=tensor([0.0399, 0.0358, 0.0377, 0.0343, 0.0366, 0.0347, 0.0368, 0.0389],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 12:09:50,664 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=119437.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:10:11,911 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=119455.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:10:37,453 INFO [train.py:903] (2/4) Epoch 18, batch 3400, loss[loss=0.2077, simple_loss=0.2875, pruned_loss=0.06392, over 19679.00 frames. ], tot_loss[loss=0.2145, simple_loss=0.2927, pruned_loss=0.06815, over 3823787.98 frames. ], batch size: 53, lr: 4.59e-03, grad_scale: 4.0
+2023-04-02 12:11:18,512 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.251e+02 4.894e+02 5.911e+02 7.983e+02 1.559e+03, threshold=1.182e+03, percent-clipped=2.0
+2023-04-02 12:11:37,556 INFO [train.py:903] (2/4) Epoch 18, batch 3450, loss[loss=0.2595, simple_loss=0.3287, pruned_loss=0.09511, over 19330.00 frames. ], tot_loss[loss=0.2142, simple_loss=0.2923, pruned_loss=0.06804, over 3830260.96 frames. ], batch size: 66, lr: 4.59e-03, grad_scale: 4.0
+2023-04-02 12:11:43,131 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 12:11:45,595 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=119532.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:12:09,611 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=119552.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:12:31,760 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=119570.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:12:38,210 INFO [train.py:903] (2/4) Epoch 18, batch 3500, loss[loss=0.2021, simple_loss=0.2919, pruned_loss=0.05612, over 17998.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.2931, pruned_loss=0.0681, over 3822918.01 frames. ], batch size: 83, lr: 4.59e-03, grad_scale: 4.0
+2023-04-02 12:12:47,662 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.68 vs. limit=5.0
+2023-04-02 12:12:51,542 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4185, 1.4899, 1.8529, 1.6671, 2.9134, 2.2802, 2.9975, 1.3059],
+       device='cuda:2'), covar=tensor([0.2312, 0.4122, 0.2570, 0.1795, 0.1339, 0.2078, 0.1363, 0.4061],
+       device='cuda:2'), in_proj_covar=tensor([0.0520, 0.0620, 0.0681, 0.0469, 0.0616, 0.0522, 0.0657, 0.0531],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 12:12:55,131 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-02 12:13:20,028 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.151e+02 4.884e+02 6.516e+02 7.989e+02 1.670e+03, threshold=1.303e+03, percent-clipped=4.0
+2023-04-02 12:13:39,051 INFO [train.py:903] (2/4) Epoch 18, batch 3550, loss[loss=0.2434, simple_loss=0.3151, pruned_loss=0.08589, over 19453.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.293, pruned_loss=0.06811, over 3826357.27 frames. ], batch size: 64, lr: 4.59e-03, grad_scale: 4.0
+2023-04-02 12:14:39,531 INFO [train.py:903] (2/4) Epoch 18, batch 3600, loss[loss=0.186, simple_loss=0.2647, pruned_loss=0.05365, over 19737.00 frames. ], tot_loss[loss=0.2148, simple_loss=0.2933, pruned_loss=0.06813, over 3828873.07 frames. ], batch size: 46, lr: 4.59e-03, grad_scale: 8.0
+2023-04-02 12:14:47,911 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=119683.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:15:20,526 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.297e+02 4.936e+02 6.005e+02 7.350e+02 2.220e+03, threshold=1.201e+03, percent-clipped=3.0
+2023-04-02 12:15:39,373 INFO [train.py:903] (2/4) Epoch 18, batch 3650, loss[loss=0.2444, simple_loss=0.3091, pruned_loss=0.08988, over 19475.00 frames. ], tot_loss[loss=0.2136, simple_loss=0.2921, pruned_loss=0.06757, over 3835282.21 frames. ], batch size: 49, lr: 4.59e-03, grad_scale: 8.0
+2023-04-02 12:16:40,013 INFO [train.py:903] (2/4) Epoch 18, batch 3700, loss[loss=0.1773, simple_loss=0.2657, pruned_loss=0.04441, over 19618.00 frames. ], tot_loss[loss=0.2145, simple_loss=0.2929, pruned_loss=0.06806, over 3841211.79 frames. ], batch size: 50, lr: 4.59e-03, grad_scale: 8.0
+2023-04-02 12:16:58,975 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-02 12:17:19,636 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=119808.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:17:21,520 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.455e+02 5.017e+02 5.995e+02 7.636e+02 1.424e+03, threshold=1.199e+03, percent-clipped=3.0
+2023-04-02 12:17:32,243 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0547, 1.2421, 1.7347, 1.1997, 2.5345, 3.5167, 3.2541, 3.7314],
+       device='cuda:2'), covar=tensor([0.1693, 0.3770, 0.3244, 0.2444, 0.0599, 0.0203, 0.0205, 0.0229],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0309, 0.0340, 0.0258, 0.0233, 0.0178, 0.0211, 0.0239],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 12:17:40,477 INFO [train.py:903] (2/4) Epoch 18, batch 3750, loss[loss=0.1963, simple_loss=0.283, pruned_loss=0.05478, over 19536.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2935, pruned_loss=0.06836, over 3841319.54 frames. ], batch size: 54, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:17:40,926 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=119826.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:17:48,736 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=119833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:17:58,529 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9648, 2.0412, 1.7148, 3.1210, 2.0314, 2.9070, 1.9367, 1.5696],
+       device='cuda:2'), covar=tensor([0.5139, 0.4580, 0.2829, 0.3066, 0.4829, 0.2358, 0.6354, 0.5150],
+       device='cuda:2'), in_proj_covar=tensor([0.0870, 0.0926, 0.0696, 0.0921, 0.0850, 0.0789, 0.0827, 0.0766],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 12:18:10,606 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=119851.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:18:20,868 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9809, 4.4038, 4.7299, 4.7425, 1.9136, 4.4490, 3.8620, 4.4151],
+       device='cuda:2'), covar=tensor([0.1546, 0.0904, 0.0544, 0.0591, 0.5618, 0.0745, 0.0630, 0.1047],
+       device='cuda:2'), in_proj_covar=tensor([0.0757, 0.0696, 0.0905, 0.0790, 0.0806, 0.0656, 0.0546, 0.0839],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 12:18:33,229 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6134, 1.8094, 2.1615, 2.0001, 3.2904, 2.7360, 3.5564, 1.6673],
+       device='cuda:2'), covar=tensor([0.2288, 0.3950, 0.2551, 0.1654, 0.1494, 0.1954, 0.1576, 0.3997],
+       device='cuda:2'), in_proj_covar=tensor([0.0518, 0.0618, 0.0678, 0.0467, 0.0611, 0.0519, 0.0654, 0.0530],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 12:18:39,734 INFO [train.py:903] (2/4) Epoch 18, batch 3800, loss[loss=0.1866, simple_loss=0.2674, pruned_loss=0.05283, over 19789.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2926, pruned_loss=0.06755, over 3837017.88 frames. ], batch size: 47, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:18:40,729 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=119876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:19:12,059 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 12:19:22,039 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.281e+02 5.499e+02 6.857e+02 8.596e+02 2.059e+03, threshold=1.371e+03, percent-clipped=8.0
+2023-04-02 12:19:41,468 INFO [train.py:903] (2/4) Epoch 18, batch 3850, loss[loss=0.1897, simple_loss=0.2747, pruned_loss=0.05234, over 19479.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2936, pruned_loss=0.06827, over 3823358.38 frames. ], batch size: 49, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:20:40,729 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
+2023-04-02 12:20:43,315 INFO [train.py:903] (2/4) Epoch 18, batch 3900, loss[loss=0.1945, simple_loss=0.2705, pruned_loss=0.05927, over 19857.00 frames. ], tot_loss[loss=0.213, simple_loss=0.2919, pruned_loss=0.06704, over 3836517.15 frames. ], batch size: 52, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:21:02,833 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=119991.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:21:26,391 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.199e+02 4.757e+02 5.722e+02 7.251e+02 1.425e+03, threshold=1.144e+03, percent-clipped=2.0
+2023-04-02 12:21:45,629 INFO [train.py:903] (2/4) Epoch 18, batch 3950, loss[loss=0.2071, simple_loss=0.2802, pruned_loss=0.06706, over 19735.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2915, pruned_loss=0.06686, over 3830942.60 frames. ], batch size: 51, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:21:47,757 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=120027.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:21:49,996 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 12:22:05,641 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.2540, 5.6811, 3.1916, 4.9171, 0.9397, 5.8349, 5.6364, 5.8247],
+       device='cuda:2'), covar=tensor([0.0297, 0.0646, 0.1724, 0.0766, 0.4248, 0.0467, 0.0644, 0.0788],
+       device='cuda:2'), in_proj_covar=tensor([0.0480, 0.0392, 0.0479, 0.0341, 0.0396, 0.0415, 0.0408, 0.0442],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 12:22:47,962 INFO [train.py:903] (2/4) Epoch 18, batch 4000, loss[loss=0.1689, simple_loss=0.2431, pruned_loss=0.0474, over 19732.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2911, pruned_loss=0.06681, over 3834311.20 frames. ], batch size: 46, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:23:29,303 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.243e+02 4.630e+02 5.764e+02 7.444e+02 1.534e+03, threshold=1.153e+03, percent-clipped=2.0
+2023-04-02 12:23:36,025 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 12:23:49,494 INFO [train.py:903] (2/4) Epoch 18, batch 4050, loss[loss=0.2372, simple_loss=0.3116, pruned_loss=0.08138, over 18100.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2916, pruned_loss=0.06686, over 3824340.42 frames. ], batch size: 83, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:24:08,122 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=120142.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:24:47,319 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6926, 1.5187, 1.5014, 1.9155, 1.6317, 1.7656, 1.7364, 1.7308],
+       device='cuda:2'), covar=tensor([0.0697, 0.0778, 0.0846, 0.0652, 0.0864, 0.0724, 0.0876, 0.0585],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0222, 0.0224, 0.0244, 0.0227, 0.0208, 0.0188, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 12:24:49,147 INFO [train.py:903] (2/4) Epoch 18, batch 4100, loss[loss=0.2138, simple_loss=0.2896, pruned_loss=0.06904, over 19676.00 frames. ], tot_loss[loss=0.2144, simple_loss=0.2928, pruned_loss=0.06801, over 3810380.37 frames. ], batch size: 53, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:25:24,879 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 12:25:29,250 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.453e+02 5.087e+02 6.190e+02 7.903e+02 1.294e+03, threshold=1.238e+03, percent-clipped=4.0
+2023-04-02 12:25:48,080 INFO [train.py:903] (2/4) Epoch 18, batch 4150, loss[loss=0.2064, simple_loss=0.2881, pruned_loss=0.06237, over 19624.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2913, pruned_loss=0.06717, over 3814551.95 frames. ], batch size: 57, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:26:14,729 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=120247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:26:46,430 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=120272.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:26:50,734 INFO [train.py:903] (2/4) Epoch 18, batch 4200, loss[loss=0.1837, simple_loss=0.2663, pruned_loss=0.05052, over 19628.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.289, pruned_loss=0.06605, over 3826771.09 frames. ], batch size: 50, lr: 4.58e-03, grad_scale: 8.0
+2023-04-02 12:26:57,180 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 12:27:06,695 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0591, 1.9901, 1.7900, 1.6037, 1.5042, 1.6194, 0.5665, 1.1202],
+       device='cuda:2'), covar=tensor([0.0500, 0.0589, 0.0433, 0.0690, 0.1073, 0.0840, 0.1221, 0.0926],
+       device='cuda:2'), in_proj_covar=tensor([0.0348, 0.0345, 0.0346, 0.0372, 0.0448, 0.0379, 0.0325, 0.0334],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 12:27:30,829 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.475e+02 4.968e+02 6.385e+02 7.954e+02 1.571e+03, threshold=1.277e+03, percent-clipped=3.0
+2023-04-02 12:27:51,846 INFO [train.py:903] (2/4) Epoch 18, batch 4250, loss[loss=0.2738, simple_loss=0.3418, pruned_loss=0.1029, over 19701.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2898, pruned_loss=0.06685, over 3819363.67 frames. ], batch size: 60, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:28:09,630 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 12:28:18,904 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 12:28:19,572 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.68 vs. limit=5.0
+2023-04-02 12:28:51,534 INFO [train.py:903] (2/4) Epoch 18, batch 4300, loss[loss=0.2357, simple_loss=0.3073, pruned_loss=0.08206, over 19535.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2887, pruned_loss=0.06598, over 3833868.14 frames. ], batch size: 54, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:29:19,848 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=120398.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:29:34,134 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.947e+02 5.084e+02 5.969e+02 7.631e+02 1.294e+03, threshold=1.194e+03, percent-clipped=1.0
+2023-04-02 12:29:46,147 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 12:29:49,869 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=120423.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:29:52,876 INFO [train.py:903] (2/4) Epoch 18, batch 4350, loss[loss=0.2205, simple_loss=0.3043, pruned_loss=0.06833, over 19774.00 frames. ], tot_loss[loss=0.2107, simple_loss=0.2893, pruned_loss=0.06603, over 3826999.73 frames. ], batch size: 56, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:29:57,476 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8974, 1.1684, 1.5548, 0.6305, 2.0629, 2.4696, 2.2365, 2.6479],
+       device='cuda:2'), covar=tensor([0.1664, 0.3759, 0.3197, 0.2552, 0.0577, 0.0265, 0.0327, 0.0340],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0311, 0.0339, 0.0258, 0.0234, 0.0179, 0.0211, 0.0238],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 12:30:20,709 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6073, 1.1656, 1.6109, 1.5995, 2.8973, 1.2113, 2.4203, 3.3562],
+       device='cuda:2'), covar=tensor([0.0604, 0.3576, 0.2984, 0.2056, 0.1178, 0.2819, 0.1341, 0.0451],
+       device='cuda:2'), in_proj_covar=tensor([0.0394, 0.0354, 0.0374, 0.0338, 0.0363, 0.0343, 0.0364, 0.0385],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 12:30:55,182 INFO [train.py:903] (2/4) Epoch 18, batch 4400, loss[loss=0.1987, simple_loss=0.2654, pruned_loss=0.06604, over 18996.00 frames. ], tot_loss[loss=0.2111, simple_loss=0.2895, pruned_loss=0.06635, over 3830433.70 frames. ], batch size: 42, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:31:18,739 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 12:31:28,329 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 12:31:35,095 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.222e+02 5.092e+02 6.306e+02 8.223e+02 1.474e+03, threshold=1.261e+03, percent-clipped=7.0
+2023-04-02 12:31:55,629 INFO [train.py:903] (2/4) Epoch 18, batch 4450, loss[loss=0.2178, simple_loss=0.3023, pruned_loss=0.06671, over 19771.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2909, pruned_loss=0.0671, over 3844527.01 frames. ], batch size: 56, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:32:55,857 INFO [train.py:903] (2/4) Epoch 18, batch 4500, loss[loss=0.3113, simple_loss=0.3681, pruned_loss=0.1272, over 13450.00 frames. ], tot_loss[loss=0.2129, simple_loss=0.2914, pruned_loss=0.06723, over 3818110.48 frames. ], batch size: 138, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:33:37,595 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.517e+02 5.202e+02 6.117e+02 7.756e+02 2.072e+03, threshold=1.223e+03, percent-clipped=4.0
+2023-04-02 12:33:56,187 INFO [train.py:903] (2/4) Epoch 18, batch 4550, loss[loss=0.2046, simple_loss=0.277, pruned_loss=0.06604, over 19344.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2902, pruned_loss=0.06648, over 3822199.26 frames. ], batch size: 47, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:34:05,869 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 12:34:29,505 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 12:34:56,267 INFO [train.py:903] (2/4) Epoch 18, batch 4600, loss[loss=0.2004, simple_loss=0.2818, pruned_loss=0.05944, over 19539.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2911, pruned_loss=0.0672, over 3831641.64 frames. ], batch size: 56, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:35:17,297 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=120694.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:35:27,842 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5629, 1.4873, 1.5043, 2.0627, 1.5773, 2.0550, 2.0207, 1.8279],
+       device='cuda:2'), covar=tensor([0.0859, 0.0974, 0.1036, 0.0858, 0.0942, 0.0708, 0.0836, 0.0687],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0224, 0.0226, 0.0245, 0.0229, 0.0211, 0.0189, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-02 12:35:35,197 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.215e+02 4.865e+02 6.169e+02 7.995e+02 1.948e+03, threshold=1.234e+03, percent-clipped=9.0
+2023-04-02 12:35:55,083 INFO [train.py:903] (2/4) Epoch 18, batch 4650, loss[loss=0.2023, simple_loss=0.2969, pruned_loss=0.05386, over 19769.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2911, pruned_loss=0.06702, over 3833032.24 frames. ], batch size: 56, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:36:13,552 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 12:36:23,041 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 12:36:24,603 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 12:36:55,848 INFO [train.py:903] (2/4) Epoch 18, batch 4700, loss[loss=0.1763, simple_loss=0.2529, pruned_loss=0.04986, over 19779.00 frames. ], tot_loss[loss=0.213, simple_loss=0.2916, pruned_loss=0.06722, over 3832613.28 frames. ], batch size: 47, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:37:18,750 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 12:37:37,336 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.471e+02 5.224e+02 6.544e+02 8.077e+02 2.112e+03, threshold=1.309e+03, percent-clipped=4.0
+2023-04-02 12:37:51,183 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6217, 1.5312, 1.5717, 2.1303, 1.6979, 1.8712, 1.9813, 1.7335],
+       device='cuda:2'), covar=tensor([0.0786, 0.0900, 0.0953, 0.0784, 0.0818, 0.0745, 0.0776, 0.0702],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0223, 0.0225, 0.0244, 0.0227, 0.0209, 0.0189, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 12:37:54,543 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-02 12:37:56,118 INFO [train.py:903] (2/4) Epoch 18, batch 4750, loss[loss=0.1906, simple_loss=0.2766, pruned_loss=0.05237, over 19672.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2915, pruned_loss=0.06693, over 3840260.11 frames. ], batch size: 53, lr: 4.57e-03, grad_scale: 8.0
+2023-04-02 12:38:57,291 INFO [train.py:903] (2/4) Epoch 18, batch 4800, loss[loss=0.2172, simple_loss=0.3057, pruned_loss=0.0644, over 19793.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2917, pruned_loss=0.06663, over 3831939.48 frames. ], batch size: 56, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:39:38,286 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.835e+02 5.063e+02 6.517e+02 8.294e+02 1.429e+03, threshold=1.303e+03, percent-clipped=1.0
+2023-04-02 12:39:57,798 INFO [train.py:903] (2/4) Epoch 18, batch 4850, loss[loss=0.2042, simple_loss=0.2895, pruned_loss=0.0594, over 19663.00 frames. ], tot_loss[loss=0.2129, simple_loss=0.2918, pruned_loss=0.06696, over 3827799.08 frames. ], batch size: 53, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:40:19,477 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 12:40:38,930 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 12:40:44,415 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 12:40:46,348 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 12:40:55,310 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 12:40:57,468 INFO [train.py:903] (2/4) Epoch 18, batch 4900, loss[loss=0.2678, simple_loss=0.3275, pruned_loss=0.104, over 13034.00 frames. ], tot_loss[loss=0.2143, simple_loss=0.2932, pruned_loss=0.06772, over 3828337.99 frames. ], batch size: 135, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:41:15,410 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 12:41:38,442 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.463e+02 5.379e+02 6.693e+02 8.152e+02 1.326e+03, threshold=1.339e+03, percent-clipped=1.0
+2023-04-02 12:41:50,638 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=121021.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:41:56,821 INFO [train.py:903] (2/4) Epoch 18, batch 4950, loss[loss=0.1975, simple_loss=0.2632, pruned_loss=0.06587, over 19745.00 frames. ], tot_loss[loss=0.2158, simple_loss=0.2939, pruned_loss=0.06881, over 3819088.89 frames. ], batch size: 45, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:42:10,900 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=121038.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:42:13,945 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 12:42:36,741 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 12:42:55,222 INFO [train.py:903] (2/4) Epoch 18, batch 5000, loss[loss=0.1918, simple_loss=0.2622, pruned_loss=0.06072, over 17676.00 frames. ], tot_loss[loss=0.2169, simple_loss=0.2947, pruned_loss=0.06957, over 3810924.66 frames. ], batch size: 39, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:43:05,400 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 12:43:11,831 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0780, 1.7700, 1.8733, 2.9759, 2.1264, 2.4270, 2.5418, 2.1218],
+       device='cuda:2'), covar=tensor([0.0842, 0.0984, 0.1046, 0.0783, 0.0873, 0.0757, 0.0866, 0.0717],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0224, 0.0226, 0.0244, 0.0229, 0.0210, 0.0189, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-02 12:43:16,146 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 12:43:36,112 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.358e+02 5.049e+02 6.044e+02 8.198e+02 1.739e+03, threshold=1.209e+03, percent-clipped=8.0
+2023-04-02 12:43:55,699 INFO [train.py:903] (2/4) Epoch 18, batch 5050, loss[loss=0.2001, simple_loss=0.2867, pruned_loss=0.05676, over 19614.00 frames. ], tot_loss[loss=0.2157, simple_loss=0.2937, pruned_loss=0.06883, over 3809237.15 frames. ], batch size: 57, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:44:27,513 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=121153.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:44:29,512 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 12:44:55,825 INFO [train.py:903] (2/4) Epoch 18, batch 5100, loss[loss=0.2148, simple_loss=0.2979, pruned_loss=0.06582, over 19772.00 frames. ], tot_loss[loss=0.2148, simple_loss=0.2929, pruned_loss=0.0684, over 3821654.72 frames. ], batch size: 54, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:45:03,042 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=121182.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:45:05,061 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 12:45:07,241 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 12:45:12,781 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 12:45:37,243 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.930e+02 4.928e+02 6.063e+02 8.354e+02 2.244e+03, threshold=1.213e+03, percent-clipped=8.0
+2023-04-02 12:45:54,355 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0826, 1.7958, 1.4323, 1.1432, 1.6354, 1.1410, 1.1344, 1.6187],
+       device='cuda:2'), covar=tensor([0.0804, 0.0750, 0.1022, 0.0824, 0.0496, 0.1238, 0.0635, 0.0416],
+       device='cuda:2'), in_proj_covar=tensor([0.0296, 0.0313, 0.0326, 0.0259, 0.0247, 0.0332, 0.0292, 0.0270],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 12:45:56,109 INFO [train.py:903] (2/4) Epoch 18, batch 5150, loss[loss=0.2392, simple_loss=0.3241, pruned_loss=0.07711, over 19532.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2932, pruned_loss=0.06854, over 3806335.66 frames. ], batch size: 56, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:46:05,292 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 12:46:40,470 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 12:46:55,813 INFO [train.py:903] (2/4) Epoch 18, batch 5200, loss[loss=0.2128, simple_loss=0.2937, pruned_loss=0.06592, over 18737.00 frames. ], tot_loss[loss=0.2148, simple_loss=0.2925, pruned_loss=0.06852, over 3809098.20 frames. ], batch size: 74, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:47:03,760 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9407, 1.6129, 1.8569, 1.5529, 4.4281, 0.9896, 2.4442, 4.7648],
+       device='cuda:2'), covar=tensor([0.0409, 0.2807, 0.2800, 0.2105, 0.0743, 0.2867, 0.1603, 0.0186],
+       device='cuda:2'), in_proj_covar=tensor([0.0394, 0.0355, 0.0376, 0.0341, 0.0365, 0.0347, 0.0366, 0.0387],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 12:47:08,971 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 12:47:36,014 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.274e+02 5.110e+02 6.332e+02 8.392e+02 3.036e+03, threshold=1.266e+03, percent-clipped=7.0
+2023-04-02 12:47:39,666 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0556, 1.2603, 1.6032, 1.0455, 2.4712, 3.2878, 3.0557, 3.5218],
+       device='cuda:2'), covar=tensor([0.1722, 0.3701, 0.3306, 0.2603, 0.0619, 0.0203, 0.0232, 0.0251],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0312, 0.0343, 0.0259, 0.0235, 0.0179, 0.0212, 0.0243],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 12:47:49,060 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 12:47:50,676 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4601, 1.7065, 1.9830, 1.7609, 3.3005, 2.7923, 3.7682, 1.6288],
+       device='cuda:2'), covar=tensor([0.2278, 0.4029, 0.2535, 0.1694, 0.1349, 0.1813, 0.1297, 0.3745],
+       device='cuda:2'), in_proj_covar=tensor([0.0517, 0.0621, 0.0680, 0.0466, 0.0612, 0.0519, 0.0653, 0.0531],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 12:47:54,560 INFO [train.py:903] (2/4) Epoch 18, batch 5250, loss[loss=0.244, simple_loss=0.3298, pruned_loss=0.0791, over 18073.00 frames. ], tot_loss[loss=0.2144, simple_loss=0.2925, pruned_loss=0.06818, over 3822529.43 frames. ], batch size: 83, lr: 4.56e-03, grad_scale: 8.0
+2023-04-02 12:47:59,205 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=121329.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 12:48:22,549 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4256, 1.4902, 1.6711, 1.6576, 2.6490, 2.2824, 2.7502, 1.1987],
+       device='cuda:2'), covar=tensor([0.2345, 0.4190, 0.2589, 0.1794, 0.1422, 0.1947, 0.1327, 0.4091],
+       device='cuda:2'), in_proj_covar=tensor([0.0517, 0.0620, 0.0680, 0.0466, 0.0611, 0.0518, 0.0653, 0.0531],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 12:48:40,811 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=121365.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:48:54,023 INFO [train.py:903] (2/4) Epoch 18, batch 5300, loss[loss=0.2063, simple_loss=0.2918, pruned_loss=0.06036, over 19776.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2918, pruned_loss=0.0679, over 3833411.65 frames. ], batch size: 47, lr: 4.56e-03, grad_scale: 4.0
+2023-04-02 12:49:10,545 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 12:49:14,138 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2507, 2.3015, 2.4790, 3.1194, 2.2841, 2.8899, 2.5782, 2.3628],
+       device='cuda:2'), covar=tensor([0.3909, 0.3758, 0.1758, 0.2259, 0.4209, 0.2007, 0.4197, 0.2925],
+       device='cuda:2'), in_proj_covar=tensor([0.0870, 0.0928, 0.0695, 0.0923, 0.0851, 0.0788, 0.0826, 0.0764],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 12:49:33,469 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=121409.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:49:35,382 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.570e+02 5.404e+02 6.878e+02 8.269e+02 2.518e+03, threshold=1.376e+03, percent-clipped=11.0
+2023-04-02 12:49:52,525 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=121425.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:49:53,390 INFO [train.py:903] (2/4) Epoch 18, batch 5350, loss[loss=0.2106, simple_loss=0.2829, pruned_loss=0.06914, over 19755.00 frames. ], tot_loss[loss=0.2148, simple_loss=0.2927, pruned_loss=0.06841, over 3840637.35 frames. ], batch size: 51, lr: 4.55e-03, grad_scale: 4.0
+2023-04-02 12:50:03,598 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=121434.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:50:27,055 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 12:50:53,952 INFO [train.py:903] (2/4) Epoch 18, batch 5400, loss[loss=0.1712, simple_loss=0.2419, pruned_loss=0.05021, over 19311.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.2927, pruned_loss=0.06819, over 3838547.87 frames. ], batch size: 44, lr: 4.55e-03, grad_scale: 4.0
+2023-04-02 12:50:59,562 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=121480.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:51:35,380 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.204e+02 5.292e+02 6.238e+02 7.901e+02 1.766e+03, threshold=1.248e+03, percent-clipped=4.0
+2023-04-02 12:51:54,667 INFO [train.py:903] (2/4) Epoch 18, batch 5450, loss[loss=0.2083, simple_loss=0.2847, pruned_loss=0.066, over 19611.00 frames. ], tot_loss[loss=0.2147, simple_loss=0.2926, pruned_loss=0.0684, over 3838296.56 frames. ], batch size: 50, lr: 4.55e-03, grad_scale: 4.0
+2023-04-02 12:51:54,831 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=121526.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:51:56,524 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-02 12:52:54,550 INFO [train.py:903] (2/4) Epoch 18, batch 5500, loss[loss=0.185, simple_loss=0.2584, pruned_loss=0.0558, over 19751.00 frames. ], tot_loss[loss=0.214, simple_loss=0.2919, pruned_loss=0.06807, over 3842586.78 frames. ], batch size: 47, lr: 4.55e-03, grad_scale: 4.0
+2023-04-02 12:53:09,283 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0294, 1.7446, 1.5974, 1.9268, 1.7217, 1.7255, 1.5028, 1.9000],
+       device='cuda:2'), covar=tensor([0.1001, 0.1373, 0.1486, 0.1109, 0.1299, 0.0560, 0.1414, 0.0723],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0355, 0.0302, 0.0249, 0.0299, 0.0247, 0.0297, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 12:53:19,887 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 12:53:37,492 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.086e+02 4.754e+02 5.891e+02 7.661e+02 1.861e+03, threshold=1.178e+03, percent-clipped=6.0
+2023-04-02 12:53:55,069 INFO [train.py:903] (2/4) Epoch 18, batch 5550, loss[loss=0.2394, simple_loss=0.3089, pruned_loss=0.08499, over 15227.00 frames. ], tot_loss[loss=0.2156, simple_loss=0.2932, pruned_loss=0.069, over 3817618.98 frames. ], batch size: 33, lr: 4.55e-03, grad_scale: 4.0
+2023-04-02 12:54:02,986 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 12:54:13,211 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=121641.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:54:51,524 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 12:54:52,537 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=121673.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 12:54:55,720 INFO [train.py:903] (2/4) Epoch 18, batch 5600, loss[loss=0.1802, simple_loss=0.2587, pruned_loss=0.0509, over 19740.00 frames. ], tot_loss[loss=0.2155, simple_loss=0.2932, pruned_loss=0.06887, over 3808299.41 frames. ], batch size: 51, lr: 4.55e-03, grad_scale: 8.0
+2023-04-02 12:55:37,560 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.280e+02 4.851e+02 5.729e+02 6.791e+02 1.695e+03, threshold=1.146e+03, percent-clipped=1.0
+2023-04-02 12:55:56,732 INFO [train.py:903] (2/4) Epoch 18, batch 5650, loss[loss=0.1836, simple_loss=0.2649, pruned_loss=0.05114, over 19745.00 frames. ], tot_loss[loss=0.2149, simple_loss=0.293, pruned_loss=0.06844, over 3805974.42 frames. ], batch size: 51, lr: 4.55e-03, grad_scale: 8.0
+2023-04-02 12:56:08,966 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=121736.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:56:37,722 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=121761.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:56:44,587 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 12:56:48,216 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=121769.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:56:57,052 INFO [train.py:903] (2/4) Epoch 18, batch 5700, loss[loss=0.194, simple_loss=0.283, pruned_loss=0.05246, over 19669.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.2925, pruned_loss=0.06829, over 3812609.16 frames. ], batch size: 58, lr: 4.55e-03, grad_scale: 8.0
+2023-04-02 12:57:10,992 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=121788.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 12:57:39,331 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.986e+02 4.821e+02 5.859e+02 7.608e+02 1.521e+03, threshold=1.172e+03, percent-clipped=4.0
+2023-04-02 12:57:57,051 INFO [train.py:903] (2/4) Epoch 18, batch 5750, loss[loss=0.2563, simple_loss=0.3309, pruned_loss=0.09085, over 18221.00 frames. ], tot_loss[loss=0.2144, simple_loss=0.2927, pruned_loss=0.06799, over 3816857.17 frames. ], batch size: 83, lr: 4.55e-03, grad_scale: 8.0
+2023-04-02 12:57:58,078 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 12:58:05,928 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 12:58:11,402 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 12:58:57,520 INFO [train.py:903] (2/4) Epoch 18, batch 5800, loss[loss=0.1712, simple_loss=0.2502, pruned_loss=0.04608, over 19120.00 frames. ], tot_loss[loss=0.2142, simple_loss=0.2929, pruned_loss=0.06773, over 3812153.54 frames. ], batch size: 42, lr: 4.55e-03, grad_scale: 8.0
+2023-04-02 12:59:08,077 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=121884.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:59:24,546 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=121897.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:59:39,859 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.096e+02 5.174e+02 6.386e+02 8.157e+02 2.937e+03, threshold=1.277e+03, percent-clipped=7.0
+2023-04-02 12:59:41,516 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.49 vs. limit=5.0
+2023-04-02 12:59:54,651 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=121922.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 12:59:59,636 INFO [train.py:903] (2/4) Epoch 18, batch 5850, loss[loss=0.2093, simple_loss=0.2912, pruned_loss=0.06367, over 19609.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.2918, pruned_loss=0.06738, over 3799606.02 frames. ], batch size: 57, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:00:51,273 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=121968.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:01:00,894 INFO [train.py:903] (2/4) Epoch 18, batch 5900, loss[loss=0.2351, simple_loss=0.3198, pruned_loss=0.07524, over 19317.00 frames. ], tot_loss[loss=0.213, simple_loss=0.2919, pruned_loss=0.06707, over 3803990.14 frames. ], batch size: 66, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:01:02,088 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 13:01:11,457 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9060, 1.3403, 1.0518, 0.9590, 1.1844, 1.0019, 0.9193, 1.2590],
+       device='cuda:2'), covar=tensor([0.0601, 0.0824, 0.1154, 0.0694, 0.0555, 0.1256, 0.0606, 0.0453],
+       device='cuda:2'), in_proj_covar=tensor([0.0297, 0.0312, 0.0326, 0.0256, 0.0245, 0.0331, 0.0291, 0.0270],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 13:01:23,286 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 13:01:39,559 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5969, 1.2989, 1.5310, 1.0828, 2.2514, 0.9119, 2.1181, 2.5080],
+       device='cuda:2'), covar=tensor([0.0721, 0.2616, 0.2527, 0.1794, 0.0856, 0.2159, 0.0946, 0.0444],
+       device='cuda:2'), in_proj_covar=tensor([0.0390, 0.0352, 0.0373, 0.0338, 0.0364, 0.0346, 0.0363, 0.0385],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 13:01:43,749 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.064e+02 4.950e+02 6.415e+02 8.144e+02 2.513e+03, threshold=1.283e+03, percent-clipped=4.0
+2023-04-02 13:02:01,673 INFO [train.py:903] (2/4) Epoch 18, batch 5950, loss[loss=0.1914, simple_loss=0.2673, pruned_loss=0.05776, over 19688.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2916, pruned_loss=0.06744, over 3795298.96 frames. ], batch size: 53, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:02:24,025 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=122044.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 13:02:42,871 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
+2023-04-02 13:02:53,813 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=122069.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 13:03:01,818 INFO [train.py:903] (2/4) Epoch 18, batch 6000, loss[loss=0.2248, simple_loss=0.304, pruned_loss=0.07276, over 19770.00 frames. ], tot_loss[loss=0.2141, simple_loss=0.2921, pruned_loss=0.06807, over 3796871.09 frames. ], batch size: 54, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:03:01,818 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 13:03:14,306 INFO [train.py:937] (2/4) Epoch 18, validation: loss=0.1702, simple_loss=0.2706, pruned_loss=0.03489, over 944034.00 frames. 
+2023-04-02 13:03:14,308 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 13:03:42,527 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0155, 2.0690, 2.2542, 2.6647, 2.0148, 2.6527, 2.3174, 2.1366],
+       device='cuda:2'), covar=tensor([0.4043, 0.3888, 0.1779, 0.2283, 0.4077, 0.1957, 0.4475, 0.3146],
+       device='cuda:2'), in_proj_covar=tensor([0.0867, 0.0924, 0.0696, 0.0918, 0.0851, 0.0785, 0.0823, 0.0760],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 13:03:51,026 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
+2023-04-02 13:03:57,709 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.792e+02 5.055e+02 6.106e+02 7.549e+02 1.634e+03, threshold=1.221e+03, percent-clipped=4.0
+2023-04-02 13:04:07,553 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
+2023-04-02 13:04:15,898 INFO [train.py:903] (2/4) Epoch 18, batch 6050, loss[loss=0.2266, simple_loss=0.3037, pruned_loss=0.07478, over 18060.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2914, pruned_loss=0.06751, over 3799305.27 frames. ], batch size: 83, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:04:27,146 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=122135.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:04:33,703 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=122140.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:05:04,347 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=122165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:05:18,138 INFO [train.py:903] (2/4) Epoch 18, batch 6100, loss[loss=0.2177, simple_loss=0.2915, pruned_loss=0.07196, over 19769.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2918, pruned_loss=0.06793, over 3803097.06 frames. ], batch size: 54, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:05:59,976 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.364e+02 5.309e+02 6.592e+02 8.010e+02 1.726e+03, threshold=1.318e+03, percent-clipped=1.0
+2023-04-02 13:06:03,457 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=122213.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:06:17,056 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8490, 1.9552, 2.1971, 2.4672, 1.7952, 2.3251, 2.2345, 1.9773],
+       device='cuda:2'), covar=tensor([0.4061, 0.3701, 0.1769, 0.2232, 0.3919, 0.1997, 0.4572, 0.3166],
+       device='cuda:2'), in_proj_covar=tensor([0.0870, 0.0926, 0.0696, 0.0920, 0.0854, 0.0785, 0.0825, 0.0762],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 13:06:18,827 INFO [train.py:903] (2/4) Epoch 18, batch 6150, loss[loss=0.1783, simple_loss=0.254, pruned_loss=0.05131, over 19366.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2908, pruned_loss=0.06742, over 3813086.90 frames. ], batch size: 47, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:06:38,410 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3471, 2.4603, 2.6095, 3.1861, 2.3823, 3.0649, 2.6328, 2.3587],
+       device='cuda:2'), covar=tensor([0.4295, 0.3670, 0.1754, 0.2354, 0.4212, 0.1924, 0.4644, 0.3165],
+       device='cuda:2'), in_proj_covar=tensor([0.0868, 0.0924, 0.0695, 0.0918, 0.0852, 0.0783, 0.0823, 0.0760],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 13:06:46,723 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 13:07:20,195 INFO [train.py:903] (2/4) Epoch 18, batch 6200, loss[loss=0.2073, simple_loss=0.2829, pruned_loss=0.06587, over 19852.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.2917, pruned_loss=0.06749, over 3813130.12 frames. ], batch size: 52, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:08:04,096 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.932e+02 4.549e+02 5.662e+02 6.707e+02 1.660e+03, threshold=1.132e+03, percent-clipped=3.0
+2023-04-02 13:08:05,411 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=122312.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:08:17,460 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
+2023-04-02 13:08:21,487 INFO [train.py:903] (2/4) Epoch 18, batch 6250, loss[loss=0.1692, simple_loss=0.2607, pruned_loss=0.03882, over 19682.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.291, pruned_loss=0.06683, over 3814441.28 frames. ], batch size: 59, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:08:35,715 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=122337.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:08:54,338 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 13:09:23,690 INFO [train.py:903] (2/4) Epoch 18, batch 6300, loss[loss=0.2528, simple_loss=0.3342, pruned_loss=0.08575, over 19757.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2902, pruned_loss=0.06673, over 3824210.51 frames. ], batch size: 63, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:10:06,333 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.668e+02 4.826e+02 5.839e+02 7.420e+02 1.796e+03, threshold=1.168e+03, percent-clipped=3.0
+2023-04-02 13:10:25,333 INFO [train.py:903] (2/4) Epoch 18, batch 6350, loss[loss=0.2114, simple_loss=0.2841, pruned_loss=0.0693, over 19473.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.2905, pruned_loss=0.06665, over 3822035.44 frames. ], batch size: 49, lr: 4.54e-03, grad_scale: 8.0
+2023-04-02 13:10:26,810 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=122427.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:11:25,781 INFO [train.py:903] (2/4) Epoch 18, batch 6400, loss[loss=0.1681, simple_loss=0.2435, pruned_loss=0.04636, over 19076.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2903, pruned_loss=0.06685, over 3806658.23 frames. ], batch size: 42, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:11:29,340 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=122479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:11:30,790 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9572, 1.9080, 1.8370, 1.5785, 1.5060, 1.6293, 0.3923, 0.8791],
+       device='cuda:2'), covar=tensor([0.0609, 0.0582, 0.0361, 0.0620, 0.1096, 0.0785, 0.1198, 0.0997],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0347, 0.0347, 0.0373, 0.0449, 0.0379, 0.0329, 0.0335],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 13:11:38,322 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=122486.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:12:08,690 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.263e+02 4.572e+02 5.352e+02 7.001e+02 2.095e+03, threshold=1.070e+03, percent-clipped=5.0
+2023-04-02 13:12:27,163 INFO [train.py:903] (2/4) Epoch 18, batch 6450, loss[loss=0.1999, simple_loss=0.2709, pruned_loss=0.06443, over 19325.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2907, pruned_loss=0.06643, over 3818829.54 frames. ], batch size: 44, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:12:43,823 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-02 13:13:05,519 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=122557.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:13:09,889 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 13:13:27,311 INFO [train.py:903] (2/4) Epoch 18, batch 6500, loss[loss=0.2384, simple_loss=0.3147, pruned_loss=0.08102, over 19560.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2918, pruned_loss=0.06713, over 3822449.94 frames. ], batch size: 61, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:13:32,617 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 13:13:41,138 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.54 vs. limit=5.0
+2023-04-02 13:13:50,442 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=122594.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:14:06,021 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2054, 2.0810, 1.9632, 1.7458, 1.5733, 1.7853, 0.6152, 1.1319],
+       device='cuda:2'), covar=tensor([0.0537, 0.0572, 0.0444, 0.0784, 0.1146, 0.0884, 0.1206, 0.0942],
+       device='cuda:2'), in_proj_covar=tensor([0.0352, 0.0347, 0.0348, 0.0375, 0.0451, 0.0380, 0.0330, 0.0335],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 13:14:10,391 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.928e+02 4.824e+02 5.508e+02 6.898e+02 1.222e+03, threshold=1.102e+03, percent-clipped=3.0
+2023-04-02 13:14:28,808 INFO [train.py:903] (2/4) Epoch 18, batch 6550, loss[loss=0.2391, simple_loss=0.3281, pruned_loss=0.07509, over 18030.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2909, pruned_loss=0.06667, over 3821005.22 frames. ], batch size: 83, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:15:25,357 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=122672.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:15:29,447 INFO [train.py:903] (2/4) Epoch 18, batch 6600, loss[loss=0.2252, simple_loss=0.309, pruned_loss=0.07068, over 18713.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2914, pruned_loss=0.06703, over 3804984.49 frames. ], batch size: 74, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:15:35,565 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=122681.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:15:37,968 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=122683.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:16:08,835 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=122708.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:16:11,860 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.339e+02 4.976e+02 6.114e+02 8.137e+02 1.508e+03, threshold=1.223e+03, percent-clipped=10.0
+2023-04-02 13:16:29,836 INFO [train.py:903] (2/4) Epoch 18, batch 6650, loss[loss=0.2258, simple_loss=0.3079, pruned_loss=0.07181, over 19612.00 frames. ], tot_loss[loss=0.2142, simple_loss=0.2926, pruned_loss=0.06785, over 3791998.06 frames. ], batch size: 50, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:17:30,797 INFO [train.py:903] (2/4) Epoch 18, batch 6700, loss[loss=0.1967, simple_loss=0.2736, pruned_loss=0.05985, over 19745.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2912, pruned_loss=0.06709, over 3808087.67 frames. ], batch size: 51, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:17:55,686 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=122796.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:18:12,047 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.354e+02 4.791e+02 5.844e+02 7.603e+02 1.856e+03, threshold=1.169e+03, percent-clipped=2.0
+2023-04-02 13:18:28,394 INFO [train.py:903] (2/4) Epoch 18, batch 6750, loss[loss=0.2453, simple_loss=0.3232, pruned_loss=0.08372, over 19757.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2907, pruned_loss=0.0671, over 3825968.72 frames. ], batch size: 54, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:18:33,100 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=122830.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:18:55,595 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=122850.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:19:24,259 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=122875.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:19:25,055 INFO [train.py:903] (2/4) Epoch 18, batch 6800, loss[loss=0.1969, simple_loss=0.2668, pruned_loss=0.06356, over 19413.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2915, pruned_loss=0.06733, over 3832907.87 frames. ], batch size: 48, lr: 4.53e-03, grad_scale: 8.0
+2023-04-02 13:19:40,792 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=122890.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:20:09,322 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 13:20:10,325 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 13:20:12,600 INFO [train.py:903] (2/4) Epoch 19, batch 0, loss[loss=0.231, simple_loss=0.2995, pruned_loss=0.0812, over 19721.00 frames. ], tot_loss[loss=0.231, simple_loss=0.2995, pruned_loss=0.0812, over 19721.00 frames. ], batch size: 51, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:20:12,601 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 13:20:24,054 INFO [train.py:937] (2/4) Epoch 19, validation: loss=0.171, simple_loss=0.2713, pruned_loss=0.03533, over 944034.00 frames. 
+2023-04-02 13:20:24,055 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 13:20:32,696 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.525e+02 4.987e+02 6.075e+02 7.792e+02 1.350e+03, threshold=1.215e+03, percent-clipped=4.0
+2023-04-02 13:20:37,488 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 13:20:53,762 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=122928.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:20:55,931 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3067, 3.7623, 3.8765, 3.8960, 1.5205, 3.6661, 3.2317, 3.6110],
+       device='cuda:2'), covar=tensor([0.1589, 0.0918, 0.0675, 0.0734, 0.5591, 0.0933, 0.0696, 0.1188],
+       device='cuda:2'), in_proj_covar=tensor([0.0751, 0.0696, 0.0898, 0.0796, 0.0803, 0.0652, 0.0542, 0.0826],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 13:21:14,018 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=122945.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:21:17,731 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.89 vs. limit=2.0
+2023-04-02 13:21:24,655 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=122953.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:21:25,465 INFO [train.py:903] (2/4) Epoch 19, batch 50, loss[loss=0.2066, simple_loss=0.2825, pruned_loss=0.06534, over 19313.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2872, pruned_loss=0.06514, over 873722.68 frames. ], batch size: 66, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:22:04,201 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 13:22:27,943 INFO [train.py:903] (2/4) Epoch 19, batch 100, loss[loss=0.1793, simple_loss=0.2569, pruned_loss=0.05084, over 19048.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.2906, pruned_loss=0.06797, over 1518801.78 frames. ], batch size: 42, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:22:35,842 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.196e+02 4.975e+02 5.926e+02 8.151e+02 1.966e+03, threshold=1.185e+03, percent-clipped=7.0
+2023-04-02 13:22:40,158 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 13:22:51,546 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3576, 1.4311, 2.0738, 1.4756, 3.0603, 4.5693, 4.4379, 4.9996],
+       device='cuda:2'), covar=tensor([0.1570, 0.3793, 0.3217, 0.2375, 0.0563, 0.0187, 0.0166, 0.0164],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0311, 0.0341, 0.0259, 0.0234, 0.0179, 0.0211, 0.0242],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 13:23:25,744 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=123052.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:23:27,464 INFO [train.py:903] (2/4) Epoch 19, batch 150, loss[loss=0.2212, simple_loss=0.3081, pruned_loss=0.06713, over 19786.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2904, pruned_loss=0.06732, over 2044698.08 frames. ], batch size: 56, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:23:55,480 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=123077.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:24:27,286 INFO [train.py:903] (2/4) Epoch 19, batch 200, loss[loss=0.2308, simple_loss=0.3012, pruned_loss=0.08023, over 19578.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2915, pruned_loss=0.06708, over 2430186.86 frames. ], batch size: 52, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:24:27,659 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9958, 3.1411, 1.8700, 2.0084, 2.8944, 1.7480, 1.4310, 2.1231],
+       device='cuda:2'), covar=tensor([0.1268, 0.0612, 0.0986, 0.0749, 0.0474, 0.1084, 0.0908, 0.0649],
+       device='cuda:2'), in_proj_covar=tensor([0.0296, 0.0310, 0.0327, 0.0256, 0.0243, 0.0331, 0.0288, 0.0271],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 13:24:29,573 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 13:24:35,484 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.274e+02 5.223e+02 5.868e+02 7.012e+02 1.944e+03, threshold=1.174e+03, percent-clipped=7.0
+2023-04-02 13:25:27,082 INFO [train.py:903] (2/4) Epoch 19, batch 250, loss[loss=0.2434, simple_loss=0.3245, pruned_loss=0.08114, over 19711.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2913, pruned_loss=0.06636, over 2737598.03 frames. ], batch size: 63, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:26:25,100 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=123201.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:26:28,233 INFO [train.py:903] (2/4) Epoch 19, batch 300, loss[loss=0.1955, simple_loss=0.2788, pruned_loss=0.05609, over 19849.00 frames. ], tot_loss[loss=0.2154, simple_loss=0.2941, pruned_loss=0.06832, over 2946977.19 frames. ], batch size: 52, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:26:37,169 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.064e+02 4.833e+02 6.226e+02 7.852e+02 1.722e+03, threshold=1.245e+03, percent-clipped=4.0
+2023-04-02 13:26:55,594 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=123226.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:27:04,597 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=123234.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:27:29,488 INFO [train.py:903] (2/4) Epoch 19, batch 350, loss[loss=0.2114, simple_loss=0.2969, pruned_loss=0.06296, over 19722.00 frames. ], tot_loss[loss=0.2145, simple_loss=0.2933, pruned_loss=0.06782, over 3151713.48 frames. ], batch size: 63, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:27:35,236 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 13:28:30,167 INFO [train.py:903] (2/4) Epoch 19, batch 400, loss[loss=0.2322, simple_loss=0.3089, pruned_loss=0.07774, over 19582.00 frames. ], tot_loss[loss=0.2148, simple_loss=0.2936, pruned_loss=0.06799, over 3306519.09 frames. ], batch size: 61, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:28:37,938 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.570e+02 5.151e+02 6.306e+02 7.944e+02 1.366e+03, threshold=1.261e+03, percent-clipped=2.0
+2023-04-02 13:28:55,716 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4174, 1.4560, 1.8875, 1.5592, 2.7640, 3.5856, 3.3999, 3.8317],
+       device='cuda:2'), covar=tensor([0.1520, 0.3596, 0.3102, 0.2198, 0.0657, 0.0257, 0.0218, 0.0278],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0310, 0.0341, 0.0258, 0.0235, 0.0179, 0.0211, 0.0242],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 13:29:04,159 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=123332.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:29:24,955 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=123349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:29:30,457 INFO [train.py:903] (2/4) Epoch 19, batch 450, loss[loss=0.2192, simple_loss=0.301, pruned_loss=0.06867, over 18097.00 frames. ], tot_loss[loss=0.213, simple_loss=0.292, pruned_loss=0.06693, over 3430197.64 frames. ], batch size: 83, lr: 4.40e-03, grad_scale: 8.0
+2023-04-02 13:30:04,814 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 13:30:05,744 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 13:30:30,934 INFO [train.py:903] (2/4) Epoch 19, batch 500, loss[loss=0.2317, simple_loss=0.2986, pruned_loss=0.08238, over 17412.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2918, pruned_loss=0.06717, over 3521336.11 frames. ], batch size: 101, lr: 4.40e-03, grad_scale: 16.0
+2023-04-02 13:30:39,753 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.237e+02 5.352e+02 7.180e+02 8.361e+02 2.088e+03, threshold=1.436e+03, percent-clipped=3.0
+2023-04-02 13:31:21,138 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=123446.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:31:30,121 INFO [train.py:903] (2/4) Epoch 19, batch 550, loss[loss=0.2522, simple_loss=0.3267, pruned_loss=0.08889, over 19572.00 frames. ], tot_loss[loss=0.2137, simple_loss=0.2926, pruned_loss=0.06741, over 3587794.72 frames. ], batch size: 61, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:32:30,274 INFO [train.py:903] (2/4) Epoch 19, batch 600, loss[loss=0.1712, simple_loss=0.254, pruned_loss=0.04426, over 19747.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.2926, pruned_loss=0.06716, over 3645300.16 frames. ], batch size: 51, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:32:39,899 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.253e+02 4.960e+02 5.982e+02 8.370e+02 1.865e+03, threshold=1.196e+03, percent-clipped=4.0
+2023-04-02 13:33:12,222 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1435, 1.3782, 1.7985, 1.1915, 2.4625, 3.3970, 3.1117, 3.6137],
+       device='cuda:2'), covar=tensor([0.1516, 0.3419, 0.2990, 0.2258, 0.0593, 0.0181, 0.0214, 0.0239],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0312, 0.0343, 0.0259, 0.0237, 0.0179, 0.0212, 0.0243],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 13:33:14,037 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 13:33:30,834 INFO [train.py:903] (2/4) Epoch 19, batch 650, loss[loss=0.2314, simple_loss=0.3191, pruned_loss=0.07186, over 19667.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2923, pruned_loss=0.06691, over 3694492.19 frames. ], batch size: 58, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:34:30,415 INFO [train.py:903] (2/4) Epoch 19, batch 700, loss[loss=0.2075, simple_loss=0.2824, pruned_loss=0.06631, over 19854.00 frames. ], tot_loss[loss=0.2137, simple_loss=0.2927, pruned_loss=0.06735, over 3722782.33 frames. ], batch size: 52, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:34:31,944 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=123605.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:34:41,234 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.354e+02 5.460e+02 6.000e+02 7.674e+02 1.249e+03, threshold=1.200e+03, percent-clipped=2.0
+2023-04-02 13:35:02,759 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=123630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:35:31,845 INFO [train.py:903] (2/4) Epoch 19, batch 750, loss[loss=0.1828, simple_loss=0.2535, pruned_loss=0.05603, over 19772.00 frames. ], tot_loss[loss=0.2141, simple_loss=0.293, pruned_loss=0.06764, over 3736728.06 frames. ], batch size: 45, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:35:59,267 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=123676.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:36:34,034 INFO [train.py:903] (2/4) Epoch 19, batch 800, loss[loss=0.2947, simple_loss=0.3494, pruned_loss=0.12, over 13447.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.2935, pruned_loss=0.06786, over 3731891.68 frames. ], batch size: 135, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:36:43,873 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.634e+02 4.695e+02 6.255e+02 7.449e+02 1.390e+03, threshold=1.251e+03, percent-clipped=2.0
+2023-04-02 13:36:47,184 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 13:37:34,001 INFO [train.py:903] (2/4) Epoch 19, batch 850, loss[loss=0.2161, simple_loss=0.2944, pruned_loss=0.06889, over 19593.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2937, pruned_loss=0.06828, over 3743338.64 frames. ], batch size: 57, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:38:17,264 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=123790.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:38:18,632 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=123791.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:38:23,847 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 13:38:34,404 INFO [train.py:903] (2/4) Epoch 19, batch 900, loss[loss=0.267, simple_loss=0.3465, pruned_loss=0.0938, over 19332.00 frames. ], tot_loss[loss=0.2149, simple_loss=0.2936, pruned_loss=0.06806, over 3764664.80 frames. ], batch size: 66, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:38:44,951 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.405e+02 4.993e+02 6.523e+02 8.112e+02 2.572e+03, threshold=1.305e+03, percent-clipped=9.0
+2023-04-02 13:39:35,383 INFO [train.py:903] (2/4) Epoch 19, batch 950, loss[loss=0.2457, simple_loss=0.3103, pruned_loss=0.09057, over 19672.00 frames. ], tot_loss[loss=0.2129, simple_loss=0.2915, pruned_loss=0.06711, over 3776472.18 frames. ], batch size: 53, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:39:35,394 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 13:40:18,700 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=123890.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:40:35,889 INFO [train.py:903] (2/4) Epoch 19, batch 1000, loss[loss=0.2632, simple_loss=0.3337, pruned_loss=0.09632, over 19623.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2923, pruned_loss=0.06764, over 3782369.97 frames. ], batch size: 61, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:40:37,284 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=123905.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:40:44,460 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.613e+02 5.533e+02 6.903e+02 9.244e+02 2.435e+03, threshold=1.381e+03, percent-clipped=8.0
+2023-04-02 13:41:23,918 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 13:41:33,882 INFO [train.py:903] (2/4) Epoch 19, batch 1050, loss[loss=0.2346, simple_loss=0.308, pruned_loss=0.08061, over 19648.00 frames. ], tot_loss[loss=0.216, simple_loss=0.2944, pruned_loss=0.06878, over 3790201.09 frames. ], batch size: 55, lr: 4.39e-03, grad_scale: 8.0
+2023-04-02 13:41:37,457 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0996, 2.9966, 2.1604, 2.2421, 1.8095, 2.3497, 1.1076, 2.1332],
+       device='cuda:2'), covar=tensor([0.0919, 0.0675, 0.0730, 0.1258, 0.1422, 0.1315, 0.1444, 0.1221],
+       device='cuda:2'), in_proj_covar=tensor([0.0350, 0.0346, 0.0347, 0.0371, 0.0449, 0.0379, 0.0329, 0.0335],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 13:42:03,306 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 13:42:28,040 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8744, 1.5862, 1.8416, 1.5987, 4.4464, 1.0014, 2.5298, 4.7668],
+       device='cuda:2'), covar=tensor([0.0432, 0.2770, 0.2776, 0.2035, 0.0697, 0.2854, 0.1476, 0.0183],
+       device='cuda:2'), in_proj_covar=tensor([0.0400, 0.0357, 0.0377, 0.0342, 0.0368, 0.0350, 0.0369, 0.0389],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 13:42:36,014 INFO [train.py:903] (2/4) Epoch 19, batch 1100, loss[loss=0.1891, simple_loss=0.2642, pruned_loss=0.05695, over 15562.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2938, pruned_loss=0.06817, over 3796379.82 frames. ], batch size: 34, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:42:45,327 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.024e+02 4.737e+02 5.703e+02 7.685e+02 1.238e+03, threshold=1.141e+03, percent-clipped=0.0
+2023-04-02 13:43:28,396 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=124047.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:43:36,792 INFO [train.py:903] (2/4) Epoch 19, batch 1150, loss[loss=0.2425, simple_loss=0.3123, pruned_loss=0.08633, over 17572.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2928, pruned_loss=0.06743, over 3811324.76 frames. ], batch size: 101, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:43:37,072 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=124054.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:43:59,184 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=124072.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:44:08,945 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=124080.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:44:37,474 INFO [train.py:903] (2/4) Epoch 19, batch 1200, loss[loss=0.2068, simple_loss=0.2929, pruned_loss=0.06034, over 19415.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.2927, pruned_loss=0.06746, over 3818601.85 frames. ], batch size: 70, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:44:48,185 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.573e+02 5.076e+02 6.121e+02 8.217e+02 1.455e+03, threshold=1.224e+03, percent-clipped=6.0
+2023-04-02 13:45:00,040 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
+2023-04-02 13:45:09,227 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 13:45:38,203 INFO [train.py:903] (2/4) Epoch 19, batch 1250, loss[loss=0.2182, simple_loss=0.2963, pruned_loss=0.07008, over 19542.00 frames. ], tot_loss[loss=0.213, simple_loss=0.2917, pruned_loss=0.06714, over 3831376.12 frames. ], batch size: 56, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:45:47,155 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=124161.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:46:16,811 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=124186.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:46:38,208 INFO [train.py:903] (2/4) Epoch 19, batch 1300, loss[loss=0.2693, simple_loss=0.3402, pruned_loss=0.09916, over 19333.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2914, pruned_loss=0.06749, over 3833842.03 frames. ], batch size: 66, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:46:39,484 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4048, 4.0293, 2.5374, 3.5771, 1.1676, 3.8318, 3.8242, 3.8715],
+       device='cuda:2'), covar=tensor([0.0629, 0.0936, 0.1903, 0.0868, 0.3489, 0.0801, 0.0866, 0.1056],
+       device='cuda:2'), in_proj_covar=tensor([0.0484, 0.0394, 0.0479, 0.0338, 0.0394, 0.0419, 0.0407, 0.0442],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 13:46:48,377 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.504e+02 4.873e+02 5.866e+02 7.986e+02 1.872e+03, threshold=1.173e+03, percent-clipped=5.0
+2023-04-02 13:46:53,205 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.58 vs. limit=2.0
+2023-04-02 13:47:15,097 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=124234.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:47:37,768 INFO [train.py:903] (2/4) Epoch 19, batch 1350, loss[loss=0.2094, simple_loss=0.2887, pruned_loss=0.06504, over 19659.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2914, pruned_loss=0.06749, over 3842729.34 frames. ], batch size: 53, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:48:22,193 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=124290.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:48:30,511 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6524, 4.2105, 2.6266, 3.7707, 1.1272, 4.0924, 4.0198, 4.1669],
+       device='cuda:2'), covar=tensor([0.0618, 0.0924, 0.2076, 0.0800, 0.3984, 0.0710, 0.0890, 0.1081],
+       device='cuda:2'), in_proj_covar=tensor([0.0487, 0.0393, 0.0481, 0.0338, 0.0395, 0.0420, 0.0408, 0.0443],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 13:48:39,028 INFO [train.py:903] (2/4) Epoch 19, batch 1400, loss[loss=0.2466, simple_loss=0.3377, pruned_loss=0.07774, over 19726.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.2907, pruned_loss=0.06692, over 3845813.93 frames. ], batch size: 63, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:48:48,825 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.237e+02 5.508e+02 6.829e+02 9.566e+02 2.163e+03, threshold=1.366e+03, percent-clipped=9.0
+2023-04-02 13:49:21,065 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.79 vs. limit=2.0
+2023-04-02 13:49:32,977 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=124349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:49:38,317 INFO [train.py:903] (2/4) Epoch 19, batch 1450, loss[loss=0.2198, simple_loss=0.2987, pruned_loss=0.07047, over 19648.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2913, pruned_loss=0.06756, over 3836148.94 frames. ], batch size: 55, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:49:40,267 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 13:49:53,730 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=124366.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 13:50:04,342 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.72 vs. limit=5.0
+2023-04-02 13:50:32,830 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=124398.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:50:40,519 INFO [train.py:903] (2/4) Epoch 19, batch 1500, loss[loss=0.2253, simple_loss=0.3078, pruned_loss=0.07144, over 19621.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2909, pruned_loss=0.06701, over 3838764.99 frames. ], batch size: 57, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:50:50,226 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.987e+02 4.822e+02 6.235e+02 8.378e+02 1.519e+03, threshold=1.247e+03, percent-clipped=2.0
+2023-04-02 13:51:04,442 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=124424.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:51:28,516 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-02 13:51:35,981 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=124450.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:51:39,961 INFO [train.py:903] (2/4) Epoch 19, batch 1550, loss[loss=0.249, simple_loss=0.3256, pruned_loss=0.08618, over 19429.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2911, pruned_loss=0.06692, over 3844795.68 frames. ], batch size: 70, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:52:40,769 INFO [train.py:903] (2/4) Epoch 19, batch 1600, loss[loss=0.212, simple_loss=0.2959, pruned_loss=0.06405, over 19627.00 frames. ], tot_loss[loss=0.2136, simple_loss=0.2922, pruned_loss=0.06748, over 3845713.11 frames. ], batch size: 57, lr: 4.38e-03, grad_scale: 8.0
+2023-04-02 13:52:51,840 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.803e+02 4.800e+02 6.281e+02 8.115e+02 1.566e+03, threshold=1.256e+03, percent-clipped=2.0
+2023-04-02 13:52:52,256 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=124513.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:53:06,489 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 13:53:23,382 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=124539.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:53:23,663 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
+2023-04-02 13:53:40,455 INFO [train.py:903] (2/4) Epoch 19, batch 1650, loss[loss=0.2431, simple_loss=0.3174, pruned_loss=0.08441, over 19782.00 frames. ], tot_loss[loss=0.2151, simple_loss=0.2935, pruned_loss=0.06835, over 3820301.15 frames. ], batch size: 56, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 13:54:43,096 INFO [train.py:903] (2/4) Epoch 19, batch 1700, loss[loss=0.1719, simple_loss=0.2434, pruned_loss=0.05022, over 19737.00 frames. ], tot_loss[loss=0.2159, simple_loss=0.2939, pruned_loss=0.0689, over 3808016.52 frames. ], batch size: 46, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 13:54:44,634 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=124605.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:54:53,183 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.721e+02 4.942e+02 5.736e+02 7.226e+02 1.444e+03, threshold=1.147e+03, percent-clipped=3.0
+2023-04-02 13:55:14,611 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=124630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:55:18,819 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=124634.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:55:21,971 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 13:55:42,976 INFO [train.py:903] (2/4) Epoch 19, batch 1750, loss[loss=0.2159, simple_loss=0.2941, pruned_loss=0.0688, over 19514.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.2918, pruned_loss=0.0675, over 3817979.30 frames. ], batch size: 54, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 13:55:46,501 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=124656.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:56:16,377 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=124681.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:56:37,883 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 13:56:44,204 INFO [train.py:903] (2/4) Epoch 19, batch 1800, loss[loss=0.2601, simple_loss=0.3193, pruned_loss=0.1005, over 12982.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2898, pruned_loss=0.06637, over 3812002.71 frames. ], batch size: 136, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 13:56:51,806 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=124710.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 13:56:54,991 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.267e+02 5.111e+02 6.286e+02 7.731e+02 1.656e+03, threshold=1.257e+03, percent-clipped=2.0
+2023-04-02 13:57:38,763 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 13:57:39,051 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=124749.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:57:44,335 INFO [train.py:903] (2/4) Epoch 19, batch 1850, loss[loss=0.2162, simple_loss=0.2936, pruned_loss=0.06944, over 18738.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2905, pruned_loss=0.06643, over 3811972.36 frames. ], batch size: 74, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 13:58:03,247 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=124769.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:58:17,470 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 13:58:33,224 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=124794.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:58:33,444 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=124794.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:58:33,635 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 13:58:34,571 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=124795.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:58:46,480 INFO [train.py:903] (2/4) Epoch 19, batch 1900, loss[loss=0.1798, simple_loss=0.2586, pruned_loss=0.05052, over 15515.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2903, pruned_loss=0.06603, over 3809876.19 frames. ], batch size: 34, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 13:58:56,686 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.301e+02 4.862e+02 5.969e+02 7.822e+02 1.490e+03, threshold=1.194e+03, percent-clipped=1.0
+2023-04-02 13:59:01,903 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 13:59:05,803 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=124820.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:59:07,780 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 13:59:11,262 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=124825.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 13:59:26,825 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=124838.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 13:59:32,850 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 13:59:46,587 INFO [train.py:903] (2/4) Epoch 19, batch 1950, loss[loss=0.1701, simple_loss=0.2507, pruned_loss=0.04477, over 19730.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2903, pruned_loss=0.06618, over 3810979.33 frames. ], batch size: 45, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 14:00:47,545 INFO [train.py:903] (2/4) Epoch 19, batch 2000, loss[loss=0.1845, simple_loss=0.2576, pruned_loss=0.05575, over 19790.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2907, pruned_loss=0.06649, over 3816186.10 frames. ], batch size: 48, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 14:00:50,118 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2818, 3.0372, 2.2385, 2.2560, 2.1136, 2.5453, 0.9581, 2.1452],
+       device='cuda:2'), covar=tensor([0.0695, 0.0540, 0.0765, 0.1187, 0.1142, 0.1090, 0.1443, 0.1080],
+       device='cuda:2'), in_proj_covar=tensor([0.0355, 0.0349, 0.0351, 0.0373, 0.0451, 0.0383, 0.0333, 0.0337],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 14:00:54,346 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=124909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:00:58,645 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.950e+02 4.950e+02 6.179e+02 7.428e+02 1.573e+03, threshold=1.236e+03, percent-clipped=5.0
+2023-04-02 14:01:45,076 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 14:01:48,487 INFO [train.py:903] (2/4) Epoch 19, batch 2050, loss[loss=0.2293, simple_loss=0.317, pruned_loss=0.07077, over 19648.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2911, pruned_loss=0.06673, over 3804818.20 frames. ], batch size: 58, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 14:02:06,438 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 14:02:07,325 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 14:02:25,187 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 14:02:44,755 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=125000.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:02:50,775 INFO [train.py:903] (2/4) Epoch 19, batch 2100, loss[loss=0.2288, simple_loss=0.3107, pruned_loss=0.07346, over 19592.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.2904, pruned_loss=0.06673, over 3813365.64 frames. ], batch size: 61, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 14:02:52,335 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=125005.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:03:00,982 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.657e+02 4.808e+02 5.766e+02 7.881e+02 2.968e+03, threshold=1.153e+03, percent-clipped=4.0
+2023-04-02 14:03:15,321 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=125025.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:03:18,747 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 14:03:22,170 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=125030.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:03:31,216 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3222, 1.4241, 1.6965, 1.6117, 2.6223, 2.1087, 2.7488, 1.0903],
+       device='cuda:2'), covar=tensor([0.2448, 0.4192, 0.2702, 0.1887, 0.1463, 0.2124, 0.1368, 0.4294],
+       device='cuda:2'), in_proj_covar=tensor([0.0515, 0.0623, 0.0684, 0.0467, 0.0614, 0.0518, 0.0653, 0.0532],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 14:03:39,537 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 14:03:49,808 INFO [train.py:903] (2/4) Epoch 19, batch 2150, loss[loss=0.1998, simple_loss=0.2885, pruned_loss=0.05556, over 19347.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.291, pruned_loss=0.06695, over 3805089.20 frames. ], batch size: 66, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 14:04:22,804 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=125081.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 14:04:29,459 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.05 vs. limit=5.0
+2023-04-02 14:04:50,330 INFO [train.py:903] (2/4) Epoch 19, batch 2200, loss[loss=0.1829, simple_loss=0.2598, pruned_loss=0.05299, over 19371.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2902, pruned_loss=0.06694, over 3801576.45 frames. ], batch size: 47, lr: 4.37e-03, grad_scale: 8.0
+2023-04-02 14:04:53,063 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=125106.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 14:05:01,346 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.808e+02 4.810e+02 5.592e+02 6.977e+02 1.826e+03, threshold=1.118e+03, percent-clipped=4.0
+2023-04-02 14:05:04,039 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=125115.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:05:34,484 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=125140.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:05:41,556 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=125146.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:05:51,112 INFO [train.py:903] (2/4) Epoch 19, batch 2250, loss[loss=0.2509, simple_loss=0.3215, pruned_loss=0.09016, over 19543.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2895, pruned_loss=0.06658, over 3799672.87 frames. ], batch size: 56, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:06:05,778 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=125165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:06:25,692 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=125182.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:06:35,039 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=125190.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:06:52,192 INFO [train.py:903] (2/4) Epoch 19, batch 2300, loss[loss=0.2412, simple_loss=0.3059, pruned_loss=0.08821, over 19531.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2905, pruned_loss=0.06717, over 3793017.21 frames. ], batch size: 54, lr: 4.36e-03, grad_scale: 4.0
+2023-04-02 14:07:04,357 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.756e+02 5.218e+02 6.176e+02 8.185e+02 2.110e+03, threshold=1.235e+03, percent-clipped=6.0
+2023-04-02 14:07:06,709 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 14:07:52,839 INFO [train.py:903] (2/4) Epoch 19, batch 2350, loss[loss=0.2282, simple_loss=0.3041, pruned_loss=0.07611, over 18160.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2906, pruned_loss=0.06698, over 3804581.33 frames. ], batch size: 83, lr: 4.36e-03, grad_scale: 4.0
+2023-04-02 14:08:32,698 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 14:08:45,084 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=125297.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:08:49,236 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 14:08:53,425 INFO [train.py:903] (2/4) Epoch 19, batch 2400, loss[loss=0.2379, simple_loss=0.3176, pruned_loss=0.07912, over 19693.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2912, pruned_loss=0.0671, over 3797265.89 frames. ], batch size: 59, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:09:05,368 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.876e+02 4.925e+02 6.150e+02 7.515e+02 1.529e+03, threshold=1.230e+03, percent-clipped=3.0
+2023-04-02 14:09:53,260 INFO [train.py:903] (2/4) Epoch 19, batch 2450, loss[loss=0.2002, simple_loss=0.2883, pruned_loss=0.056, over 19676.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.2915, pruned_loss=0.06752, over 3789496.12 frames. ], batch size: 55, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:10:14,748 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=125371.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:10:17,758 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=125374.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:10:41,900 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=125394.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:10:44,287 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=125396.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:10:44,317 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=125396.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:10:53,820 INFO [train.py:903] (2/4) Epoch 19, batch 2500, loss[loss=0.2243, simple_loss=0.3045, pruned_loss=0.07205, over 19541.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.291, pruned_loss=0.06731, over 3796592.08 frames. ], batch size: 54, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:11:05,671 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.142e+02 4.898e+02 6.460e+02 8.264e+02 2.020e+03, threshold=1.292e+03, percent-clipped=4.0
+2023-04-02 14:11:13,970 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=125421.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:11:35,818 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=125439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:11:39,913 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3398, 3.9562, 2.5384, 3.4770, 0.9436, 3.8078, 3.7380, 3.8321],
+       device='cuda:2'), covar=tensor([0.0733, 0.1121, 0.2096, 0.0873, 0.3858, 0.0814, 0.0968, 0.1228],
+       device='cuda:2'), in_proj_covar=tensor([0.0484, 0.0393, 0.0478, 0.0335, 0.0391, 0.0417, 0.0408, 0.0443],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:11:54,215 INFO [train.py:903] (2/4) Epoch 19, batch 2550, loss[loss=0.1882, simple_loss=0.2608, pruned_loss=0.05779, over 19783.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2899, pruned_loss=0.06675, over 3795958.38 frames. ], batch size: 46, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:12:12,069 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3043, 3.8184, 3.9316, 3.9268, 1.4926, 3.7423, 3.2356, 3.6665],
+       device='cuda:2'), covar=tensor([0.1673, 0.0786, 0.0697, 0.0776, 0.5787, 0.0890, 0.0735, 0.1229],
+       device='cuda:2'), in_proj_covar=tensor([0.0760, 0.0702, 0.0910, 0.0796, 0.0806, 0.0659, 0.0547, 0.0839],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 14:12:30,670 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2745, 1.4310, 1.9214, 1.4524, 2.6895, 3.7514, 3.4555, 3.8930],
+       device='cuda:2'), covar=tensor([0.1538, 0.3499, 0.2921, 0.2177, 0.0586, 0.0171, 0.0203, 0.0255],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0313, 0.0344, 0.0261, 0.0238, 0.0180, 0.0212, 0.0244],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 14:12:38,060 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=125490.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:12:47,117 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 14:12:53,798 INFO [train.py:903] (2/4) Epoch 19, batch 2600, loss[loss=0.2382, simple_loss=0.3123, pruned_loss=0.08209, over 19575.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2903, pruned_loss=0.06654, over 3812885.63 frames. ], batch size: 61, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:13:01,722 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9276, 2.0346, 2.1956, 2.5889, 1.9491, 2.4918, 2.2317, 2.0741],
+       device='cuda:2'), covar=tensor([0.3839, 0.3605, 0.1832, 0.2215, 0.3814, 0.2024, 0.4486, 0.3058],
+       device='cuda:2'), in_proj_covar=tensor([0.0871, 0.0929, 0.0699, 0.0916, 0.0853, 0.0789, 0.0827, 0.0764],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 14:13:05,879 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.683e+02 4.815e+02 5.841e+02 7.665e+02 1.339e+03, threshold=1.168e+03, percent-clipped=2.0
+2023-04-02 14:13:39,750 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0490, 1.2471, 1.5931, 1.0619, 2.4959, 3.3323, 3.0271, 3.4953],
+       device='cuda:2'), covar=tensor([0.1722, 0.3817, 0.3514, 0.2598, 0.0585, 0.0179, 0.0240, 0.0262],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0311, 0.0343, 0.0260, 0.0237, 0.0179, 0.0212, 0.0244],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 14:13:43,190 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7644, 1.6341, 1.6359, 2.2401, 1.7308, 2.1969, 2.0925, 1.8903],
+       device='cuda:2'), covar=tensor([0.0815, 0.0895, 0.1022, 0.0774, 0.0847, 0.0686, 0.0853, 0.0676],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0221, 0.0227, 0.0245, 0.0228, 0.0212, 0.0190, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-02 14:13:52,970 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=125553.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:13:53,679 INFO [train.py:903] (2/4) Epoch 19, batch 2650, loss[loss=0.1872, simple_loss=0.2709, pruned_loss=0.05178, over 19783.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2912, pruned_loss=0.06685, over 3816657.12 frames. ], batch size: 54, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:14:15,458 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 14:14:23,618 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=125578.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:14:34,893 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-02 14:14:54,482 INFO [train.py:903] (2/4) Epoch 19, batch 2700, loss[loss=0.2375, simple_loss=0.3098, pruned_loss=0.08261, over 17299.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2911, pruned_loss=0.06677, over 3815949.39 frames. ], batch size: 101, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:14:55,971 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=125605.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:14:59,361 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.48 vs. limit=5.0
+2023-04-02 14:15:07,180 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.594e+02 4.817e+02 5.964e+02 7.468e+02 1.608e+03, threshold=1.193e+03, percent-clipped=5.0
+2023-04-02 14:15:15,721 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=125621.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:15:31,465 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8560, 1.5183, 1.4473, 1.7691, 1.4988, 1.5415, 1.3714, 1.6973],
+       device='cuda:2'), covar=tensor([0.1035, 0.1414, 0.1509, 0.1010, 0.1232, 0.0605, 0.1467, 0.0760],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0356, 0.0309, 0.0249, 0.0300, 0.0249, 0.0301, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:15:56,202 INFO [train.py:903] (2/4) Epoch 19, batch 2750, loss[loss=0.2364, simple_loss=0.311, pruned_loss=0.08089, over 19770.00 frames. ], tot_loss[loss=0.2138, simple_loss=0.292, pruned_loss=0.0678, over 3797514.39 frames. ], batch size: 54, lr: 4.36e-03, grad_scale: 8.0
+2023-04-02 14:16:49,133 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4965, 2.0471, 1.5503, 1.4317, 1.8914, 1.2927, 1.3956, 1.8095],
+       device='cuda:2'), covar=tensor([0.0862, 0.0759, 0.0953, 0.0837, 0.0572, 0.1185, 0.0644, 0.0412],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0312, 0.0333, 0.0260, 0.0245, 0.0334, 0.0290, 0.0272],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:16:55,540 INFO [train.py:903] (2/4) Epoch 19, batch 2800, loss[loss=0.2227, simple_loss=0.3013, pruned_loss=0.07211, over 17628.00 frames. ], tot_loss[loss=0.2137, simple_loss=0.2919, pruned_loss=0.06772, over 3803990.45 frames. ], batch size: 101, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:17:01,172 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4693, 2.2828, 2.2231, 2.6420, 2.4657, 2.3382, 2.0436, 2.3901],
+       device='cuda:2'), covar=tensor([0.0926, 0.1548, 0.1315, 0.1021, 0.1232, 0.0442, 0.1229, 0.0644],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0356, 0.0309, 0.0249, 0.0300, 0.0248, 0.0300, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:17:08,452 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.000e+02 5.188e+02 6.338e+02 7.813e+02 1.733e+03, threshold=1.268e+03, percent-clipped=8.0
+2023-04-02 14:17:12,866 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=125718.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:17:37,021 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=125738.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:17:42,821 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=125743.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:17:55,255 INFO [train.py:903] (2/4) Epoch 19, batch 2850, loss[loss=0.2131, simple_loss=0.2948, pruned_loss=0.06572, over 18211.00 frames. ], tot_loss[loss=0.2135, simple_loss=0.2919, pruned_loss=0.06757, over 3801938.19 frames. ], batch size: 83, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:18:04,498 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5420, 1.0854, 1.3303, 1.2081, 2.1598, 0.9799, 1.9590, 2.4450],
+       device='cuda:2'), covar=tensor([0.0704, 0.2992, 0.3009, 0.1791, 0.0955, 0.2214, 0.1102, 0.0514],
+       device='cuda:2'), in_proj_covar=tensor([0.0397, 0.0358, 0.0377, 0.0342, 0.0367, 0.0350, 0.0368, 0.0388],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:18:15,688 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5504, 2.3364, 1.6428, 1.5926, 2.1351, 1.3414, 1.4318, 1.9170],
+       device='cuda:2'), covar=tensor([0.1033, 0.0681, 0.1051, 0.0805, 0.0549, 0.1178, 0.0756, 0.0503],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0312, 0.0334, 0.0260, 0.0245, 0.0335, 0.0291, 0.0272],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:18:30,685 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=125783.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:18:56,094 INFO [train.py:903] (2/4) Epoch 19, batch 2900, loss[loss=0.1917, simple_loss=0.2754, pruned_loss=0.05399, over 19646.00 frames. ], tot_loss[loss=0.2142, simple_loss=0.2927, pruned_loss=0.06782, over 3803310.72 frames. ], batch size: 53, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:18:56,110 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 14:19:09,042 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.234e+02 4.625e+02 5.511e+02 7.350e+02 1.619e+03, threshold=1.102e+03, percent-clipped=3.0
+2023-04-02 14:19:31,559 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=125833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:19:47,783 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2885, 1.9881, 1.6036, 1.2748, 1.7394, 1.1855, 1.2068, 1.8195],
+       device='cuda:2'), covar=tensor([0.0893, 0.0783, 0.0992, 0.0814, 0.0622, 0.1205, 0.0659, 0.0430],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0314, 0.0336, 0.0261, 0.0247, 0.0337, 0.0293, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:19:55,789 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=125853.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:19:56,473 INFO [train.py:903] (2/4) Epoch 19, batch 2950, loss[loss=0.2349, simple_loss=0.3023, pruned_loss=0.08376, over 19733.00 frames. ], tot_loss[loss=0.2143, simple_loss=0.2933, pruned_loss=0.06771, over 3807360.38 frames. ], batch size: 51, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:20:05,731 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=125861.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:20:36,528 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=125886.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:20:50,757 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=125898.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:20:57,389 INFO [train.py:903] (2/4) Epoch 19, batch 3000, loss[loss=0.1981, simple_loss=0.2843, pruned_loss=0.05592, over 19670.00 frames. ], tot_loss[loss=0.2143, simple_loss=0.2931, pruned_loss=0.06772, over 3803418.60 frames. ], batch size: 55, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:20:57,389 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 14:21:08,844 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5481, 1.6203, 1.5615, 1.3468, 1.2433, 1.3564, 0.3453, 0.6743],
+       device='cuda:2'), covar=tensor([0.0656, 0.0672, 0.0395, 0.0669, 0.1202, 0.0775, 0.1316, 0.1125],
+       device='cuda:2'), in_proj_covar=tensor([0.0359, 0.0352, 0.0355, 0.0378, 0.0457, 0.0388, 0.0334, 0.0343],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 14:21:10,746 INFO [train.py:937] (2/4) Epoch 19, validation: loss=0.1696, simple_loss=0.2702, pruned_loss=0.03451, over 944034.00 frames. 
+2023-04-02 14:21:10,747 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 14:21:10,817 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 14:21:24,049 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.456e+02 4.999e+02 6.816e+02 8.693e+02 1.814e+03, threshold=1.363e+03, percent-clipped=12.0
+2023-04-02 14:22:11,556 INFO [train.py:903] (2/4) Epoch 19, batch 3050, loss[loss=0.1906, simple_loss=0.2802, pruned_loss=0.05046, over 19782.00 frames. ], tot_loss[loss=0.2149, simple_loss=0.2935, pruned_loss=0.06813, over 3808012.59 frames. ], batch size: 56, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:22:24,979 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=125965.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:23:10,414 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2065, 1.3088, 1.7296, 1.5774, 2.8724, 4.3012, 4.1912, 4.9656],
+       device='cuda:2'), covar=tensor([0.1948, 0.5147, 0.4621, 0.2354, 0.0718, 0.0265, 0.0240, 0.0204],
+       device='cuda:2'), in_proj_covar=tensor([0.0269, 0.0315, 0.0347, 0.0262, 0.0239, 0.0181, 0.0215, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 14:23:13,560 INFO [train.py:903] (2/4) Epoch 19, batch 3100, loss[loss=0.2042, simple_loss=0.292, pruned_loss=0.05816, over 19542.00 frames. ], tot_loss[loss=0.213, simple_loss=0.2919, pruned_loss=0.06712, over 3824328.13 frames. ], batch size: 56, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:23:21,452 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6197, 2.2472, 1.6820, 1.5574, 2.0819, 1.2694, 1.5598, 1.9840],
+       device='cuda:2'), covar=tensor([0.0933, 0.0739, 0.0929, 0.0748, 0.0501, 0.1185, 0.0606, 0.0403],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0313, 0.0334, 0.0261, 0.0246, 0.0335, 0.0292, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:23:26,817 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.089e+02 4.651e+02 5.591e+02 6.916e+02 1.279e+03, threshold=1.118e+03, percent-clipped=0.0
+2023-04-02 14:23:28,044 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=126016.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:24:13,739 INFO [train.py:903] (2/4) Epoch 19, batch 3150, loss[loss=0.1945, simple_loss=0.2661, pruned_loss=0.06144, over 19736.00 frames. ], tot_loss[loss=0.214, simple_loss=0.2931, pruned_loss=0.06746, over 3823299.74 frames. ], batch size: 46, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:24:40,341 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 14:24:45,979 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=126080.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:24:53,527 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=126087.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:24:55,936 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=126089.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:25:04,727 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5955, 2.4235, 1.7735, 1.6145, 2.2361, 1.4058, 1.3826, 2.0249],
+       device='cuda:2'), covar=tensor([0.1048, 0.0708, 0.0953, 0.0788, 0.0496, 0.1100, 0.0768, 0.0451],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0311, 0.0332, 0.0259, 0.0243, 0.0333, 0.0289, 0.0271],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:25:14,239 INFO [train.py:903] (2/4) Epoch 19, batch 3200, loss[loss=0.2252, simple_loss=0.3063, pruned_loss=0.07207, over 19282.00 frames. ], tot_loss[loss=0.2139, simple_loss=0.2924, pruned_loss=0.06765, over 3826337.43 frames. ], batch size: 66, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:25:21,294 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=126109.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:25:26,846 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=126114.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:25:27,596 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.283e+02 4.817e+02 6.226e+02 7.515e+02 1.545e+03, threshold=1.245e+03, percent-clipped=7.0
+2023-04-02 14:25:51,085 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=126134.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:26:15,154 INFO [train.py:903] (2/4) Epoch 19, batch 3250, loss[loss=0.2383, simple_loss=0.3067, pruned_loss=0.08495, over 13507.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.292, pruned_loss=0.06736, over 3823096.28 frames. ], batch size: 136, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:26:15,574 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=126154.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:26:46,042 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=126179.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:26:58,347 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6173, 1.6805, 1.5765, 1.3974, 1.2761, 1.4051, 0.4183, 0.7255],
+       device='cuda:2'), covar=tensor([0.0612, 0.0615, 0.0384, 0.0601, 0.1152, 0.0738, 0.1232, 0.1010],
+       device='cuda:2'), in_proj_covar=tensor([0.0357, 0.0349, 0.0352, 0.0377, 0.0454, 0.0386, 0.0333, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 14:27:14,813 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=126202.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:27:16,666 INFO [train.py:903] (2/4) Epoch 19, batch 3300, loss[loss=0.2522, simple_loss=0.3317, pruned_loss=0.08629, over 19733.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2917, pruned_loss=0.06697, over 3822027.25 frames. ], batch size: 63, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:27:20,145 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 14:27:30,253 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.439e+02 5.162e+02 6.410e+02 7.971e+02 2.422e+03, threshold=1.282e+03, percent-clipped=4.0
+2023-04-02 14:28:17,445 INFO [train.py:903] (2/4) Epoch 19, batch 3350, loss[loss=0.2084, simple_loss=0.2878, pruned_loss=0.06447, over 19670.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2919, pruned_loss=0.0671, over 3800494.38 frames. ], batch size: 53, lr: 4.35e-03, grad_scale: 8.0
+2023-04-02 14:28:38,571 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2066, 1.2743, 1.2503, 1.0361, 1.0864, 1.0491, 0.0805, 0.3060],
+       device='cuda:2'), covar=tensor([0.0633, 0.0626, 0.0416, 0.0541, 0.1205, 0.0589, 0.1283, 0.1070],
+       device='cuda:2'), in_proj_covar=tensor([0.0357, 0.0349, 0.0352, 0.0376, 0.0452, 0.0384, 0.0332, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 14:29:17,961 INFO [train.py:903] (2/4) Epoch 19, batch 3400, loss[loss=0.2231, simple_loss=0.3023, pruned_loss=0.07193, over 19769.00 frames. ], tot_loss[loss=0.2139, simple_loss=0.2929, pruned_loss=0.06751, over 3796197.84 frames. ], batch size: 54, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:29:31,307 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.222e+02 5.180e+02 6.014e+02 8.021e+02 1.733e+03, threshold=1.203e+03, percent-clipped=4.0
+2023-04-02 14:29:57,170 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=126336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:30:18,214 INFO [train.py:903] (2/4) Epoch 19, batch 3450, loss[loss=0.1968, simple_loss=0.277, pruned_loss=0.05835, over 19350.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2913, pruned_loss=0.0667, over 3819000.30 frames. ], batch size: 70, lr: 4.34e-03, grad_scale: 4.0
+2023-04-02 14:30:22,542 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 14:30:27,182 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=126360.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:30:28,569 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=126361.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:30:41,474 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-02 14:31:13,311 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=126398.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:31:20,709 INFO [train.py:903] (2/4) Epoch 19, batch 3500, loss[loss=0.197, simple_loss=0.2802, pruned_loss=0.05686, over 19346.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2908, pruned_loss=0.06619, over 3822071.28 frames. ], batch size: 70, lr: 4.34e-03, grad_scale: 4.0
+2023-04-02 14:31:23,776 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.49 vs. limit=2.0
+2023-04-02 14:31:34,961 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.238e+02 4.908e+02 6.053e+02 7.325e+02 1.346e+03, threshold=1.211e+03, percent-clipped=1.0
+2023-04-02 14:31:53,986 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.2020, 3.8123, 2.6703, 3.4558, 1.2933, 3.6687, 3.6553, 3.7305],
+       device='cuda:2'), covar=tensor([0.0858, 0.1198, 0.2023, 0.0870, 0.3725, 0.0865, 0.0925, 0.1385],
+       device='cuda:2'), in_proj_covar=tensor([0.0488, 0.0394, 0.0480, 0.0337, 0.0396, 0.0419, 0.0409, 0.0446],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:32:21,707 INFO [train.py:903] (2/4) Epoch 19, batch 3550, loss[loss=0.2375, simple_loss=0.3161, pruned_loss=0.07943, over 17359.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2908, pruned_loss=0.06637, over 3804039.76 frames. ], batch size: 101, lr: 4.34e-03, grad_scale: 4.0
+2023-04-02 14:32:26,692 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=126458.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:32:38,964 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=126468.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:32:48,131 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=126475.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:32:57,931 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=126483.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:33:00,138 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2840, 2.1550, 1.9675, 1.8280, 1.6718, 1.8265, 0.7504, 1.2836],
+       device='cuda:2'), covar=tensor([0.0521, 0.0544, 0.0471, 0.0805, 0.0964, 0.0860, 0.1166, 0.0953],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0349, 0.0353, 0.0376, 0.0454, 0.0386, 0.0332, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 14:33:21,951 INFO [train.py:903] (2/4) Epoch 19, batch 3600, loss[loss=0.1958, simple_loss=0.2788, pruned_loss=0.05635, over 19611.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2902, pruned_loss=0.06622, over 3813194.34 frames. ], batch size: 50, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:33:37,204 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.060e+02 4.926e+02 5.826e+02 7.456e+02 2.258e+03, threshold=1.165e+03, percent-clipped=2.0
+2023-04-02 14:34:22,218 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8052, 4.3375, 2.6824, 3.8732, 0.8821, 4.2502, 4.1722, 4.2783],
+       device='cuda:2'), covar=tensor([0.0599, 0.1007, 0.2099, 0.0848, 0.4094, 0.0660, 0.0827, 0.1152],
+       device='cuda:2'), in_proj_covar=tensor([0.0488, 0.0395, 0.0483, 0.0338, 0.0395, 0.0419, 0.0409, 0.0447],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:34:23,092 INFO [train.py:903] (2/4) Epoch 19, batch 3650, loss[loss=0.2028, simple_loss=0.2724, pruned_loss=0.06661, over 19733.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2912, pruned_loss=0.06678, over 3826928.04 frames. ], batch size: 51, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:35:24,556 INFO [train.py:903] (2/4) Epoch 19, batch 3700, loss[loss=0.234, simple_loss=0.3097, pruned_loss=0.07919, over 19685.00 frames. ], tot_loss[loss=0.2135, simple_loss=0.2923, pruned_loss=0.06734, over 3830107.57 frames. ], batch size: 59, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:35:38,476 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.032e+02 5.326e+02 6.409e+02 8.349e+02 1.648e+03, threshold=1.282e+03, percent-clipped=7.0
+2023-04-02 14:36:06,938 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
+2023-04-02 14:36:23,995 INFO [train.py:903] (2/4) Epoch 19, batch 3750, loss[loss=0.1929, simple_loss=0.2838, pruned_loss=0.05101, over 19586.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2919, pruned_loss=0.06679, over 3836715.66 frames. ], batch size: 52, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:37:25,135 INFO [train.py:903] (2/4) Epoch 19, batch 3800, loss[loss=0.2146, simple_loss=0.2999, pruned_loss=0.06465, over 19781.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2927, pruned_loss=0.06692, over 3846758.29 frames. ], batch size: 63, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:37:40,985 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.076e+02 4.757e+02 5.693e+02 7.302e+02 1.543e+03, threshold=1.139e+03, percent-clipped=1.0
+2023-04-02 14:37:57,324 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 14:37:58,818 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=126731.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:38:12,094 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=126742.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:38:12,703 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.88 vs. limit=5.0
+2023-04-02 14:38:26,702 INFO [train.py:903] (2/4) Epoch 19, batch 3850, loss[loss=0.2119, simple_loss=0.296, pruned_loss=0.06383, over 17502.00 frames. ], tot_loss[loss=0.2129, simple_loss=0.2922, pruned_loss=0.06674, over 3835652.11 frames. ], batch size: 101, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:38:30,300 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=126756.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:38:34,969 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8936, 1.9429, 1.5637, 1.9588, 1.9192, 1.4997, 1.4476, 1.7550],
+       device='cuda:2'), covar=tensor([0.1192, 0.1530, 0.1702, 0.1103, 0.1326, 0.0757, 0.1684, 0.0885],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0351, 0.0302, 0.0246, 0.0294, 0.0244, 0.0295, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:39:28,455 INFO [train.py:903] (2/4) Epoch 19, batch 3900, loss[loss=0.2479, simple_loss=0.3286, pruned_loss=0.08354, over 19587.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2918, pruned_loss=0.0665, over 3847904.58 frames. ], batch size: 61, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:39:30,208 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.21 vs. limit=5.0
+2023-04-02 14:39:37,801 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=126812.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:39:42,918 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.374e+02 5.082e+02 6.454e+02 7.734e+02 3.345e+03, threshold=1.291e+03, percent-clipped=6.0
+2023-04-02 14:40:04,522 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=126834.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:40:29,132 INFO [train.py:903] (2/4) Epoch 19, batch 3950, loss[loss=0.2326, simple_loss=0.3111, pruned_loss=0.07702, over 18106.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2916, pruned_loss=0.06631, over 3844245.19 frames. ], batch size: 83, lr: 4.34e-03, grad_scale: 8.0
+2023-04-02 14:40:33,525 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=126857.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:40:35,249 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 14:41:29,521 INFO [train.py:903] (2/4) Epoch 19, batch 4000, loss[loss=0.2144, simple_loss=0.29, pruned_loss=0.06943, over 19856.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2913, pruned_loss=0.06615, over 3843632.04 frames. ], batch size: 52, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:41:43,555 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.579e+02 4.980e+02 6.258e+02 9.023e+02 1.716e+03, threshold=1.252e+03, percent-clipped=4.0
+2023-04-02 14:41:57,635 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=126927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:42:16,849 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 14:42:30,349 INFO [train.py:903] (2/4) Epoch 19, batch 4050, loss[loss=0.1747, simple_loss=0.2624, pruned_loss=0.04345, over 19771.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2911, pruned_loss=0.06604, over 3844809.62 frames. ], batch size: 54, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:43:17,818 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8379, 3.2803, 3.3353, 3.3464, 1.3577, 3.2221, 2.8250, 3.1054],
+       device='cuda:2'), covar=tensor([0.1718, 0.0949, 0.0782, 0.0982, 0.5461, 0.0902, 0.0817, 0.1285],
+       device='cuda:2'), in_proj_covar=tensor([0.0766, 0.0713, 0.0916, 0.0804, 0.0817, 0.0671, 0.0554, 0.0854],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 14:43:30,606 INFO [train.py:903] (2/4) Epoch 19, batch 4100, loss[loss=0.1895, simple_loss=0.2795, pruned_loss=0.04971, over 19646.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.291, pruned_loss=0.06614, over 3835517.68 frames. ], batch size: 55, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:43:45,830 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.326e+02 4.699e+02 5.681e+02 7.096e+02 1.300e+03, threshold=1.136e+03, percent-clipped=1.0
+2023-04-02 14:44:06,963 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 14:44:31,635 INFO [train.py:903] (2/4) Epoch 19, batch 4150, loss[loss=0.1891, simple_loss=0.2691, pruned_loss=0.05461, over 19782.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2906, pruned_loss=0.0663, over 3838197.12 frames. ], batch size: 48, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:45:32,549 INFO [train.py:903] (2/4) Epoch 19, batch 4200, loss[loss=0.21, simple_loss=0.2916, pruned_loss=0.06418, over 14875.00 frames. ], tot_loss[loss=0.211, simple_loss=0.2898, pruned_loss=0.06613, over 3821002.04 frames. ], batch size: 32, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:45:35,868 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 14:45:43,872 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=127113.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:45:46,901 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.729e+02 4.915e+02 5.762e+02 6.825e+02 1.362e+03, threshold=1.152e+03, percent-clipped=8.0
+2023-04-02 14:46:14,877 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=127138.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:46:28,601 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2596, 1.3315, 1.2468, 1.0722, 1.1047, 1.1225, 0.0472, 0.3471],
+       device='cuda:2'), covar=tensor([0.0611, 0.0584, 0.0403, 0.0512, 0.1230, 0.0582, 0.1141, 0.0989],
+       device='cuda:2'), in_proj_covar=tensor([0.0355, 0.0348, 0.0353, 0.0375, 0.0454, 0.0384, 0.0331, 0.0337],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 14:46:32,725 INFO [train.py:903] (2/4) Epoch 19, batch 4250, loss[loss=0.1943, simple_loss=0.2615, pruned_loss=0.06355, over 19771.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2894, pruned_loss=0.06646, over 3820028.23 frames. ], batch size: 46, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:46:46,863 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8616, 1.4946, 1.8285, 1.6450, 4.3578, 1.2356, 2.3829, 4.7429],
+       device='cuda:2'), covar=tensor([0.0387, 0.2858, 0.2784, 0.2036, 0.0686, 0.2592, 0.1528, 0.0163],
+       device='cuda:2'), in_proj_covar=tensor([0.0394, 0.0357, 0.0375, 0.0341, 0.0366, 0.0347, 0.0367, 0.0386],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:46:50,070 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 14:47:01,522 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 14:47:03,664 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=127178.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:47:09,531 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=127183.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:47:34,700 INFO [train.py:903] (2/4) Epoch 19, batch 4300, loss[loss=0.1925, simple_loss=0.2574, pruned_loss=0.06379, over 19758.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2901, pruned_loss=0.0671, over 3818107.99 frames. ], batch size: 46, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:47:40,441 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=127208.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:47:50,094 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.800e+02 4.893e+02 5.914e+02 7.996e+02 1.682e+03, threshold=1.183e+03, percent-clipped=7.0
+2023-04-02 14:48:28,062 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 14:48:35,537 INFO [train.py:903] (2/4) Epoch 19, batch 4350, loss[loss=0.2009, simple_loss=0.2888, pruned_loss=0.05652, over 19686.00 frames. ], tot_loss[loss=0.2135, simple_loss=0.2917, pruned_loss=0.06764, over 3815476.72 frames. ], batch size: 58, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:48:51,135 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=127267.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:49:02,191 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
+2023-04-02 14:49:23,166 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=127293.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:49:35,811 INFO [train.py:903] (2/4) Epoch 19, batch 4400, loss[loss=0.241, simple_loss=0.3067, pruned_loss=0.0877, over 17417.00 frames. ], tot_loss[loss=0.2136, simple_loss=0.2921, pruned_loss=0.06758, over 3829366.59 frames. ], batch size: 101, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:49:49,571 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.177e+02 5.239e+02 6.175e+02 6.853e+02 1.670e+03, threshold=1.235e+03, percent-clipped=2.0
+2023-04-02 14:50:02,115 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 14:50:12,015 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 14:50:12,970 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.66 vs. limit=2.0
+2023-04-02 14:50:36,314 INFO [train.py:903] (2/4) Epoch 19, batch 4450, loss[loss=0.235, simple_loss=0.3144, pruned_loss=0.0778, over 17492.00 frames. ], tot_loss[loss=0.2135, simple_loss=0.2918, pruned_loss=0.06761, over 3835762.13 frames. ], batch size: 101, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:51:38,011 INFO [train.py:903] (2/4) Epoch 19, batch 4500, loss[loss=0.1972, simple_loss=0.2789, pruned_loss=0.0577, over 15611.00 frames. ], tot_loss[loss=0.2145, simple_loss=0.2926, pruned_loss=0.06819, over 3816693.84 frames. ], batch size: 34, lr: 4.33e-03, grad_scale: 8.0
+2023-04-02 14:51:52,900 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.369e+02 5.116e+02 6.133e+02 7.767e+02 1.446e+03, threshold=1.227e+03, percent-clipped=3.0
+2023-04-02 14:51:53,551 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.65 vs. limit=2.0
+2023-04-02 14:52:28,110 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=127445.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 14:52:39,295 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.59 vs. limit=5.0
+2023-04-02 14:52:39,717 INFO [train.py:903] (2/4) Epoch 19, batch 4550, loss[loss=0.2371, simple_loss=0.3148, pruned_loss=0.07973, over 19540.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.2918, pruned_loss=0.06748, over 3821683.64 frames. ], batch size: 56, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 14:52:48,340 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 14:53:11,967 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 14:53:30,000 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8041, 2.5826, 2.5053, 2.9014, 2.6226, 2.4334, 2.2543, 2.5518],
+       device='cuda:2'), covar=tensor([0.0827, 0.1465, 0.1145, 0.0947, 0.1245, 0.0426, 0.1245, 0.0586],
+       device='cuda:2'), in_proj_covar=tensor([0.0262, 0.0350, 0.0302, 0.0246, 0.0294, 0.0243, 0.0295, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:53:40,582 INFO [train.py:903] (2/4) Epoch 19, batch 4600, loss[loss=0.2377, simple_loss=0.3164, pruned_loss=0.07951, over 19793.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.2919, pruned_loss=0.06738, over 3822746.78 frames. ], batch size: 56, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 14:53:52,470 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6390, 2.4791, 2.2583, 2.6992, 2.3748, 2.2211, 2.0144, 2.4016],
+       device='cuda:2'), covar=tensor([0.0907, 0.1490, 0.1315, 0.0981, 0.1387, 0.0496, 0.1351, 0.0698],
+       device='cuda:2'), in_proj_covar=tensor([0.0262, 0.0351, 0.0303, 0.0247, 0.0295, 0.0244, 0.0296, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:53:54,254 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.388e+02 5.018e+02 6.286e+02 8.427e+02 2.189e+03, threshold=1.257e+03, percent-clipped=8.0
+2023-04-02 14:54:11,461 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1132, 1.3326, 1.8587, 1.4307, 2.9767, 4.5921, 4.5409, 5.0529],
+       device='cuda:2'), covar=tensor([0.1751, 0.3814, 0.3334, 0.2368, 0.0610, 0.0188, 0.0160, 0.0162],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0316, 0.0347, 0.0261, 0.0239, 0.0182, 0.0214, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 14:54:16,985 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5946, 4.0868, 4.2452, 4.2584, 1.7348, 4.0188, 3.5046, 3.9794],
+       device='cuda:2'), covar=tensor([0.1475, 0.0916, 0.0571, 0.0635, 0.5311, 0.0827, 0.0646, 0.1089],
+       device='cuda:2'), in_proj_covar=tensor([0.0758, 0.0711, 0.0910, 0.0795, 0.0812, 0.0666, 0.0551, 0.0848],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 14:54:32,429 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=127547.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:54:34,727 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=127549.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:54:37,341 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.47 vs. limit=2.0
+2023-04-02 14:54:39,913 INFO [train.py:903] (2/4) Epoch 19, batch 4650, loss[loss=0.1909, simple_loss=0.2787, pruned_loss=0.05152, over 18327.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2919, pruned_loss=0.0673, over 3824559.43 frames. ], batch size: 83, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 14:54:50,215 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0856, 5.1242, 5.8122, 5.8928, 1.9611, 5.4948, 4.6120, 5.4769],
+       device='cuda:2'), covar=tensor([0.1603, 0.0863, 0.0596, 0.0631, 0.5951, 0.0748, 0.0680, 0.1202],
+       device='cuda:2'), in_proj_covar=tensor([0.0761, 0.0715, 0.0914, 0.0798, 0.0814, 0.0668, 0.0553, 0.0850],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 14:54:55,875 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 14:55:05,432 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=127574.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:55:07,386 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 14:55:16,505 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6765, 1.4609, 1.4895, 1.9846, 1.5232, 1.8048, 1.8570, 1.6911],
+       device='cuda:2'), covar=tensor([0.0871, 0.1045, 0.1088, 0.0818, 0.0922, 0.0884, 0.0933, 0.0746],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0227, 0.0246, 0.0229, 0.0212, 0.0190, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 14:55:20,853 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8979, 1.5474, 1.5643, 1.5789, 3.4506, 1.1649, 2.5357, 3.8370],
+       device='cuda:2'), covar=tensor([0.0441, 0.2708, 0.2824, 0.1951, 0.0676, 0.2597, 0.1277, 0.0254],
+       device='cuda:2'), in_proj_covar=tensor([0.0394, 0.0358, 0.0376, 0.0341, 0.0367, 0.0347, 0.0369, 0.0386],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 14:55:40,716 INFO [train.py:903] (2/4) Epoch 19, batch 4700, loss[loss=0.2175, simple_loss=0.307, pruned_loss=0.06396, over 19164.00 frames. ], tot_loss[loss=0.2135, simple_loss=0.2924, pruned_loss=0.06731, over 3812785.51 frames. ], batch size: 69, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 14:55:43,309 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3165, 1.9123, 2.1073, 2.6948, 2.0496, 2.4032, 2.4011, 2.3557],
+       device='cuda:2'), covar=tensor([0.0747, 0.0926, 0.0924, 0.0886, 0.0895, 0.0731, 0.0925, 0.0600],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0222, 0.0226, 0.0245, 0.0229, 0.0211, 0.0189, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 14:55:50,512 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=127611.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:55:55,864 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.385e+02 5.036e+02 6.203e+02 8.078e+02 1.735e+03, threshold=1.241e+03, percent-clipped=3.0
+2023-04-02 14:56:02,629 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 14:56:41,680 INFO [train.py:903] (2/4) Epoch 19, batch 4750, loss[loss=0.2191, simple_loss=0.3026, pruned_loss=0.06776, over 19719.00 frames. ], tot_loss[loss=0.2141, simple_loss=0.293, pruned_loss=0.06757, over 3816059.65 frames. ], batch size: 63, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 14:56:49,305 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-02 14:57:00,071 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1020, 1.3190, 1.7734, 1.1344, 2.4819, 3.4239, 3.1815, 3.6320],
+       device='cuda:2'), covar=tensor([0.1669, 0.3589, 0.3042, 0.2391, 0.0553, 0.0188, 0.0193, 0.0243],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0316, 0.0345, 0.0260, 0.0238, 0.0181, 0.0214, 0.0245],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 14:57:13,640 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=127680.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:57:41,809 INFO [train.py:903] (2/4) Epoch 19, batch 4800, loss[loss=0.2415, simple_loss=0.3191, pruned_loss=0.08193, over 19702.00 frames. ], tot_loss[loss=0.214, simple_loss=0.293, pruned_loss=0.06754, over 3827544.15 frames. ], batch size: 59, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 14:57:55,395 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.353e+02 4.990e+02 6.329e+02 8.030e+02 1.437e+03, threshold=1.266e+03, percent-clipped=1.0
+2023-04-02 14:58:07,646 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=127726.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:58:21,456 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.85 vs. limit=2.0
+2023-04-02 14:58:40,157 INFO [train.py:903] (2/4) Epoch 19, batch 4850, loss[loss=0.1996, simple_loss=0.2884, pruned_loss=0.05545, over 19609.00 frames. ], tot_loss[loss=0.2135, simple_loss=0.2921, pruned_loss=0.06745, over 3835580.07 frames. ], batch size: 57, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 14:59:04,710 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 14:59:22,978 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=127789.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 14:59:25,079 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 14:59:30,826 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 14:59:30,850 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 14:59:32,256 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=127797.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 14:59:40,801 INFO [train.py:903] (2/4) Epoch 19, batch 4900, loss[loss=0.2248, simple_loss=0.3059, pruned_loss=0.07184, over 18742.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2913, pruned_loss=0.06741, over 3829981.35 frames. ], batch size: 74, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 14:59:40,835 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 14:59:55,908 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.219e+02 4.848e+02 5.865e+02 7.992e+02 2.664e+03, threshold=1.173e+03, percent-clipped=3.0
+2023-04-02 15:00:01,799 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 15:00:41,582 INFO [train.py:903] (2/4) Epoch 19, batch 4950, loss[loss=0.2234, simple_loss=0.3034, pruned_loss=0.07173, over 17575.00 frames. ], tot_loss[loss=0.2143, simple_loss=0.2926, pruned_loss=0.068, over 3826016.19 frames. ], batch size: 101, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 15:00:58,810 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=127868.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:00:59,653 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 15:01:09,394 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4595, 1.5591, 1.8778, 1.7283, 2.6733, 2.3604, 2.9886, 1.3019],
+       device='cuda:2'), covar=tensor([0.2359, 0.4166, 0.2575, 0.1807, 0.1537, 0.1932, 0.1303, 0.4168],
+       device='cuda:2'), in_proj_covar=tensor([0.0520, 0.0627, 0.0692, 0.0473, 0.0615, 0.0517, 0.0659, 0.0536],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 15:01:22,182 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 15:01:24,500 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=127890.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:01:26,343 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=127891.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:01:41,506 INFO [train.py:903] (2/4) Epoch 19, batch 5000, loss[loss=0.1922, simple_loss=0.2768, pruned_loss=0.05374, over 19841.00 frames. ], tot_loss[loss=0.2146, simple_loss=0.2931, pruned_loss=0.06807, over 3822431.73 frames. ], batch size: 52, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 15:01:41,865 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=127904.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:01:51,183 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 15:01:55,663 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.309e+02 4.675e+02 5.614e+02 6.818e+02 2.294e+03, threshold=1.123e+03, percent-clipped=3.0
+2023-04-02 15:02:03,227 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 15:02:41,852 INFO [train.py:903] (2/4) Epoch 19, batch 5050, loss[loss=0.2377, simple_loss=0.3151, pruned_loss=0.08008, over 19767.00 frames. ], tot_loss[loss=0.2142, simple_loss=0.293, pruned_loss=0.06765, over 3828371.90 frames. ], batch size: 54, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 15:02:53,524 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.09 vs. limit=2.0
+2023-04-02 15:03:16,164 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=127982.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:03:18,095 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 15:03:43,135 INFO [train.py:903] (2/4) Epoch 19, batch 5100, loss[loss=0.2145, simple_loss=0.2958, pruned_loss=0.06662, over 19593.00 frames. ], tot_loss[loss=0.2135, simple_loss=0.2925, pruned_loss=0.06728, over 3824502.98 frames. ], batch size: 61, lr: 4.32e-03, grad_scale: 8.0
+2023-04-02 15:03:45,726 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=128006.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:03:47,034 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=128007.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:03:56,493 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 15:03:58,282 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.139e+02 4.818e+02 5.706e+02 8.227e+02 1.561e+03, threshold=1.141e+03, percent-clipped=7.0
+2023-04-02 15:04:00,663 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 15:04:04,155 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 15:04:07,797 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=128024.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:04:43,096 INFO [train.py:903] (2/4) Epoch 19, batch 5150, loss[loss=0.2055, simple_loss=0.2832, pruned_loss=0.06396, over 19484.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.2923, pruned_loss=0.06711, over 3808905.23 frames. ], batch size: 49, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:04:57,240 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 15:05:31,583 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 15:05:44,855 INFO [train.py:903] (2/4) Epoch 19, batch 5200, loss[loss=0.2095, simple_loss=0.2889, pruned_loss=0.06508, over 19474.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2913, pruned_loss=0.067, over 3802058.02 frames. ], batch size: 49, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:05:59,011 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.969e+02 4.920e+02 6.208e+02 7.921e+02 1.726e+03, threshold=1.242e+03, percent-clipped=7.0
+2023-04-02 15:05:59,066 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 15:06:28,670 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=128139.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:06:30,659 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=128141.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:06:41,124 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 15:06:45,761 INFO [train.py:903] (2/4) Epoch 19, batch 5250, loss[loss=0.2235, simple_loss=0.3, pruned_loss=0.07349, over 19435.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.2918, pruned_loss=0.06741, over 3782680.70 frames. ], batch size: 64, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:06:53,650 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=128160.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:07:22,018 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6257, 1.2821, 1.5317, 1.5271, 3.1566, 1.0741, 2.3513, 3.5668],
+       device='cuda:2'), covar=tensor([0.0501, 0.2802, 0.2751, 0.1913, 0.0745, 0.2627, 0.1249, 0.0282],
+       device='cuda:2'), in_proj_covar=tensor([0.0397, 0.0358, 0.0378, 0.0343, 0.0369, 0.0349, 0.0370, 0.0390],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 15:07:23,079 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=128185.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 15:07:45,450 INFO [train.py:903] (2/4) Epoch 19, batch 5300, loss[loss=0.1976, simple_loss=0.2686, pruned_loss=0.06328, over 19395.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2917, pruned_loss=0.0674, over 3780742.81 frames. ], batch size: 48, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:07:54,710 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=128212.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:07:59,669 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.291e+02 5.001e+02 6.088e+02 7.600e+02 1.403e+03, threshold=1.218e+03, percent-clipped=2.0
+2023-04-02 15:08:00,879 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 15:08:21,799 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=128234.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:08:46,733 INFO [train.py:903] (2/4) Epoch 19, batch 5350, loss[loss=0.1904, simple_loss=0.2819, pruned_loss=0.04945, over 19651.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2899, pruned_loss=0.06632, over 3797670.61 frames. ], batch size: 59, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:08:50,342 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=128256.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:08:57,164 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=128262.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:09:20,034 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 15:09:26,927 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=128287.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:09:47,392 INFO [train.py:903] (2/4) Epoch 19, batch 5400, loss[loss=0.2032, simple_loss=0.2886, pruned_loss=0.05885, over 19700.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2905, pruned_loss=0.06612, over 3825350.74 frames. ], batch size: 51, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:10:01,766 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.288e+02 4.631e+02 5.571e+02 7.152e+02 1.493e+03, threshold=1.114e+03, percent-clipped=2.0
+2023-04-02 15:10:15,374 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=128327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:10:29,847 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=128338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:10:39,135 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1328, 1.3579, 1.9896, 1.5998, 2.9906, 4.4586, 4.3555, 4.9254],
+       device='cuda:2'), covar=tensor([0.1743, 0.3805, 0.3043, 0.2184, 0.0622, 0.0211, 0.0173, 0.0181],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0314, 0.0345, 0.0260, 0.0237, 0.0181, 0.0213, 0.0245],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 15:10:42,718 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=128349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:10:48,543 INFO [train.py:903] (2/4) Epoch 19, batch 5450, loss[loss=0.2068, simple_loss=0.2841, pruned_loss=0.06478, over 19762.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2906, pruned_loss=0.06603, over 3829976.84 frames. ], batch size: 47, lr: 4.31e-03, grad_scale: 16.0
+2023-04-02 15:11:39,598 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=128395.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:11:50,168 INFO [train.py:903] (2/4) Epoch 19, batch 5500, loss[loss=0.2127, simple_loss=0.29, pruned_loss=0.06768, over 19563.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2919, pruned_loss=0.06642, over 3820599.70 frames. ], batch size: 52, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:12:06,854 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.088e+02 5.166e+02 6.121e+02 7.872e+02 1.632e+03, threshold=1.224e+03, percent-clipped=5.0
+2023-04-02 15:12:10,695 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=128420.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:12:12,710 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 15:12:23,800 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=128431.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:12:50,273 INFO [train.py:903] (2/4) Epoch 19, batch 5550, loss[loss=0.2958, simple_loss=0.3475, pruned_loss=0.122, over 12835.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2908, pruned_loss=0.06582, over 3823873.53 frames. ], batch size: 136, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:12:56,481 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 15:13:44,849 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 15:13:51,307 INFO [train.py:903] (2/4) Epoch 19, batch 5600, loss[loss=0.2224, simple_loss=0.3069, pruned_loss=0.06897, over 18239.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.2916, pruned_loss=0.06643, over 3821528.04 frames. ], batch size: 83, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:13:57,375 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.2245, 5.5860, 3.2841, 4.9900, 1.0614, 5.8069, 5.6002, 5.8433],
+       device='cuda:2'), covar=tensor([0.0346, 0.0738, 0.1635, 0.0662, 0.4061, 0.0442, 0.0689, 0.0871],
+       device='cuda:2'), in_proj_covar=tensor([0.0492, 0.0395, 0.0484, 0.0342, 0.0397, 0.0421, 0.0412, 0.0448],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 15:14:01,864 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=128512.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:14:07,040 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.064e+02 4.843e+02 5.877e+02 7.578e+02 1.194e+03, threshold=1.175e+03, percent-clipped=0.0
+2023-04-02 15:14:07,398 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5728, 1.6505, 2.0612, 1.8612, 3.0876, 4.2653, 4.1764, 4.6944],
+       device='cuda:2'), covar=tensor([0.1537, 0.3536, 0.3105, 0.2107, 0.0644, 0.0299, 0.0175, 0.0205],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0313, 0.0345, 0.0260, 0.0237, 0.0180, 0.0213, 0.0245],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 15:14:32,633 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=128537.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:14:52,048 INFO [train.py:903] (2/4) Epoch 19, batch 5650, loss[loss=0.256, simple_loss=0.3235, pruned_loss=0.09423, over 19763.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2914, pruned_loss=0.06678, over 3820662.17 frames. ], batch size: 63, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:15:27,797 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=128583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:15:37,269 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 15:15:53,151 INFO [train.py:903] (2/4) Epoch 19, batch 5700, loss[loss=0.1847, simple_loss=0.2634, pruned_loss=0.05302, over 19788.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2912, pruned_loss=0.06676, over 3837985.91 frames. ], batch size: 47, lr: 4.31e-03, grad_scale: 8.0
+2023-04-02 15:15:54,843 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=128605.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:15:57,212 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8566, 1.9780, 2.1380, 2.4497, 1.7458, 2.3166, 2.2039, 1.9556],
+       device='cuda:2'), covar=tensor([0.4072, 0.3601, 0.1891, 0.2237, 0.3843, 0.2141, 0.4835, 0.3404],
+       device='cuda:2'), in_proj_covar=tensor([0.0876, 0.0935, 0.0700, 0.0924, 0.0860, 0.0796, 0.0834, 0.0767],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 15:15:58,298 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=128608.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:16:08,029 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.931e+02 5.156e+02 6.108e+02 7.232e+02 1.309e+03, threshold=1.222e+03, percent-clipped=4.0
+2023-04-02 15:16:24,927 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=128630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:16:53,491 INFO [train.py:903] (2/4) Epoch 19, batch 5750, loss[loss=0.2079, simple_loss=0.2958, pruned_loss=0.05995, over 19527.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2909, pruned_loss=0.06662, over 3839134.70 frames. ], batch size: 56, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:16:53,826 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0890, 1.2617, 1.6737, 1.2510, 2.3362, 3.2468, 3.0174, 3.5946],
+       device='cuda:2'), covar=tensor([0.1835, 0.4886, 0.4209, 0.2521, 0.0706, 0.0252, 0.0297, 0.0284],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0315, 0.0345, 0.0261, 0.0239, 0.0181, 0.0214, 0.0246],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 15:16:55,739 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 15:17:05,275 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 15:17:09,593 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 15:17:27,288 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=128682.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:17:55,083 INFO [train.py:903] (2/4) Epoch 19, batch 5800, loss[loss=0.2292, simple_loss=0.3056, pruned_loss=0.07641, over 19543.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2912, pruned_loss=0.06648, over 3837847.80 frames. ], batch size: 54, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:18:05,763 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.70 vs. limit=5.0
+2023-04-02 15:18:08,029 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.53 vs. limit=5.0
+2023-04-02 15:18:10,461 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.713e+02 4.671e+02 6.414e+02 7.787e+02 1.302e+03, threshold=1.283e+03, percent-clipped=2.0
+2023-04-02 15:18:55,627 INFO [train.py:903] (2/4) Epoch 19, batch 5850, loss[loss=0.2152, simple_loss=0.3031, pruned_loss=0.0636, over 19655.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2909, pruned_loss=0.06655, over 3825823.52 frames. ], batch size: 58, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:19:17,644 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4348, 1.5169, 1.7941, 1.6721, 2.7064, 2.2897, 2.9889, 1.3264],
+       device='cuda:2'), covar=tensor([0.2376, 0.4017, 0.2553, 0.1809, 0.1519, 0.1972, 0.1371, 0.4161],
+       device='cuda:2'), in_proj_covar=tensor([0.0521, 0.0629, 0.0691, 0.0473, 0.0617, 0.0521, 0.0661, 0.0537],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 15:19:20,638 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=128775.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:19:48,457 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=128797.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:19:50,606 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=128799.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:19:55,909 INFO [train.py:903] (2/4) Epoch 19, batch 5900, loss[loss=0.2545, simple_loss=0.3269, pruned_loss=0.0911, over 19660.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2912, pruned_loss=0.06695, over 3825268.10 frames. ], batch size: 58, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:20:02,594 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 15:20:11,628 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.258e+02 4.778e+02 5.849e+02 7.721e+02 1.320e+03, threshold=1.170e+03, percent-clipped=1.0
+2023-04-02 15:20:22,231 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 15:20:56,175 INFO [train.py:903] (2/4) Epoch 19, batch 5950, loss[loss=0.2641, simple_loss=0.3368, pruned_loss=0.09576, over 18923.00 frames. ], tot_loss[loss=0.2129, simple_loss=0.2918, pruned_loss=0.06702, over 3828243.27 frames. ], batch size: 74, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:21:13,054 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
+2023-04-02 15:21:41,394 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=128890.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:21:57,516 INFO [train.py:903] (2/4) Epoch 19, batch 6000, loss[loss=0.1966, simple_loss=0.2697, pruned_loss=0.06174, over 19777.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.291, pruned_loss=0.067, over 3812304.27 frames. ], batch size: 48, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:21:57,516 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 15:22:12,607 INFO [train.py:937] (2/4) Epoch 19, validation: loss=0.1702, simple_loss=0.2702, pruned_loss=0.03514, over 944034.00 frames. 
+2023-04-02 15:22:12,608 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 15:22:17,283 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=128908.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:22:28,004 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.370e+02 5.136e+02 6.485e+02 9.043e+02 2.174e+03, threshold=1.297e+03, percent-clipped=7.0
+2023-04-02 15:23:11,990 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
+2023-04-02 15:23:13,570 INFO [train.py:903] (2/4) Epoch 19, batch 6050, loss[loss=0.2088, simple_loss=0.2946, pruned_loss=0.06148, over 19678.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.2916, pruned_loss=0.06729, over 3800967.82 frames. ], batch size: 59, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:24:15,342 INFO [train.py:903] (2/4) Epoch 19, batch 6100, loss[loss=0.2562, simple_loss=0.3306, pruned_loss=0.09091, over 19765.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2906, pruned_loss=0.06654, over 3813112.44 frames. ], batch size: 54, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:24:30,770 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.431e+02 4.994e+02 6.076e+02 7.380e+02 1.472e+03, threshold=1.215e+03, percent-clipped=4.0
+2023-04-02 15:25:15,131 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=129053.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:25:15,819 INFO [train.py:903] (2/4) Epoch 19, batch 6150, loss[loss=0.2191, simple_loss=0.3018, pruned_loss=0.06822, over 19661.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.291, pruned_loss=0.06666, over 3826045.67 frames. ], batch size: 55, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:25:17,189 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2116, 1.0078, 1.4569, 1.2735, 2.2663, 3.1986, 2.9802, 3.6102],
+       device='cuda:2'), covar=tensor([0.1870, 0.5468, 0.4694, 0.2544, 0.0813, 0.0252, 0.0326, 0.0310],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0317, 0.0347, 0.0263, 0.0239, 0.0181, 0.0214, 0.0248],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 15:25:18,719 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.72 vs. limit=5.0
+2023-04-02 15:25:44,294 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 15:25:44,626 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=129078.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:26:16,318 INFO [train.py:903] (2/4) Epoch 19, batch 6200, loss[loss=0.2055, simple_loss=0.295, pruned_loss=0.05801, over 19672.00 frames. ], tot_loss[loss=0.2142, simple_loss=0.2926, pruned_loss=0.06788, over 3808662.15 frames. ], batch size: 60, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:26:32,069 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.839e+02 4.815e+02 6.250e+02 7.621e+02 1.523e+03, threshold=1.250e+03, percent-clipped=7.0
+2023-04-02 15:27:04,021 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=129143.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:27:07,685 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=129146.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:27:17,155 INFO [train.py:903] (2/4) Epoch 19, batch 6250, loss[loss=0.2399, simple_loss=0.311, pruned_loss=0.08441, over 18851.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.2907, pruned_loss=0.06688, over 3802219.83 frames. ], batch size: 74, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:27:38,395 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=129171.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:27:47,723 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 15:28:17,842 INFO [train.py:903] (2/4) Epoch 19, batch 6300, loss[loss=0.2307, simple_loss=0.308, pruned_loss=0.0767, over 19772.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2901, pruned_loss=0.06633, over 3806076.46 frames. ], batch size: 54, lr: 4.30e-03, grad_scale: 8.0
+2023-04-02 15:28:33,724 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.168e+02 5.181e+02 6.373e+02 8.503e+02 1.874e+03, threshold=1.275e+03, percent-clipped=7.0
+2023-04-02 15:29:17,506 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=129252.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 15:29:19,491 INFO [train.py:903] (2/4) Epoch 19, batch 6350, loss[loss=0.2118, simple_loss=0.2824, pruned_loss=0.07056, over 19169.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2905, pruned_loss=0.06672, over 3787993.98 frames. ], batch size: 42, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:29:25,299 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=129258.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:30:21,275 INFO [train.py:903] (2/4) Epoch 19, batch 6400, loss[loss=0.2397, simple_loss=0.3116, pruned_loss=0.08391, over 19615.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2913, pruned_loss=0.0669, over 3804764.97 frames. ], batch size: 61, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:30:36,134 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0239, 1.9742, 1.8437, 1.5395, 1.5973, 1.5895, 0.3662, 0.8579],
+       device='cuda:2'), covar=tensor([0.0604, 0.0565, 0.0378, 0.0652, 0.1093, 0.0788, 0.1207, 0.1019],
+       device='cuda:2'), in_proj_covar=tensor([0.0354, 0.0347, 0.0350, 0.0374, 0.0449, 0.0380, 0.0329, 0.0336],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 15:30:36,860 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.331e+02 4.991e+02 6.008e+02 7.727e+02 1.608e+03, threshold=1.202e+03, percent-clipped=4.0
+2023-04-02 15:31:22,263 INFO [train.py:903] (2/4) Epoch 19, batch 6450, loss[loss=0.1866, simple_loss=0.2573, pruned_loss=0.05796, over 19754.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2901, pruned_loss=0.06623, over 3809477.86 frames. ], batch size: 47, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:31:38,234 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=129367.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:32:06,822 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 15:32:22,364 INFO [train.py:903] (2/4) Epoch 19, batch 6500, loss[loss=0.2043, simple_loss=0.2861, pruned_loss=0.06125, over 19475.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2904, pruned_loss=0.06642, over 3794586.96 frames. ], batch size: 49, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:32:29,749 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 15:32:38,768 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.146e+02 5.340e+02 6.897e+02 8.888e+02 1.987e+03, threshold=1.379e+03, percent-clipped=7.0
+2023-04-02 15:32:56,850 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=129431.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:33:21,250 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2409, 1.2854, 1.2706, 1.0644, 1.0906, 1.1286, 0.1098, 0.4401],
+       device='cuda:2'), covar=tensor([0.0685, 0.0603, 0.0407, 0.0509, 0.1262, 0.0618, 0.1188, 0.1022],
+       device='cuda:2'), in_proj_covar=tensor([0.0357, 0.0351, 0.0353, 0.0377, 0.0453, 0.0384, 0.0332, 0.0339],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 15:33:24,209 INFO [train.py:903] (2/4) Epoch 19, batch 6550, loss[loss=0.2057, simple_loss=0.2957, pruned_loss=0.05788, over 19535.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2907, pruned_loss=0.06699, over 3803851.60 frames. ], batch size: 54, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:34:01,177 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.77 vs. limit=2.0
+2023-04-02 15:34:03,321 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.92 vs. limit=5.0
+2023-04-02 15:34:24,457 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.52 vs. limit=2.0
+2023-04-02 15:34:24,938 INFO [train.py:903] (2/4) Epoch 19, batch 6600, loss[loss=0.2195, simple_loss=0.2992, pruned_loss=0.06989, over 19754.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2907, pruned_loss=0.06681, over 3809985.54 frames. ], batch size: 63, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:34:37,628 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=129514.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:34:40,455 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.539e+02 5.847e+02 6.807e+02 8.552e+02 1.538e+03, threshold=1.361e+03, percent-clipped=4.0
+2023-04-02 15:35:07,252 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=129539.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:35:25,978 INFO [train.py:903] (2/4) Epoch 19, batch 6650, loss[loss=0.1807, simple_loss=0.2559, pruned_loss=0.05273, over 19725.00 frames. ], tot_loss[loss=0.2115, simple_loss=0.2903, pruned_loss=0.06634, over 3811634.05 frames. ], batch size: 45, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:35:59,899 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5632, 1.0865, 1.2741, 1.3112, 2.1946, 1.0943, 2.0515, 2.4882],
+       device='cuda:2'), covar=tensor([0.0683, 0.2836, 0.2936, 0.1571, 0.0888, 0.2073, 0.1075, 0.0453],
+       device='cuda:2'), in_proj_covar=tensor([0.0395, 0.0357, 0.0376, 0.0339, 0.0366, 0.0347, 0.0368, 0.0389],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 15:36:26,349 INFO [train.py:903] (2/4) Epoch 19, batch 6700, loss[loss=0.2114, simple_loss=0.2997, pruned_loss=0.06158, over 18365.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2905, pruned_loss=0.06653, over 3808877.73 frames. ], batch size: 84, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:36:42,871 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.775e+02 4.923e+02 5.649e+02 7.598e+02 1.428e+03, threshold=1.130e+03, percent-clipped=1.0
+2023-04-02 15:36:51,065 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=129623.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:36:58,734 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=129630.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:37:17,607 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1204, 1.7838, 1.8680, 2.4282, 2.0695, 2.3052, 2.2613, 2.0150],
+       device='cuda:2'), covar=tensor([0.0705, 0.0868, 0.0928, 0.0804, 0.0854, 0.0662, 0.0879, 0.0680],
+       device='cuda:2'), in_proj_covar=tensor([0.0208, 0.0219, 0.0224, 0.0244, 0.0226, 0.0209, 0.0188, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 15:37:18,812 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=129648.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 15:37:25,089 INFO [train.py:903] (2/4) Epoch 19, batch 6750, loss[loss=0.2494, simple_loss=0.3154, pruned_loss=0.09171, over 13104.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2913, pruned_loss=0.06704, over 3813654.61 frames. ], batch size: 136, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:38:20,255 INFO [train.py:903] (2/4) Epoch 19, batch 6800, loss[loss=0.2069, simple_loss=0.2791, pruned_loss=0.06738, over 19402.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2911, pruned_loss=0.06704, over 3812005.74 frames. ], batch size: 47, lr: 4.29e-03, grad_scale: 8.0
+2023-04-02 15:38:34,412 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.328e+02 4.884e+02 6.226e+02 8.201e+02 1.689e+03, threshold=1.245e+03, percent-clipped=11.0
+2023-04-02 15:39:04,784 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 15:39:05,741 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 15:39:08,362 INFO [train.py:903] (2/4) Epoch 20, batch 0, loss[loss=0.19, simple_loss=0.2779, pruned_loss=0.05102, over 19764.00 frames. ], tot_loss[loss=0.19, simple_loss=0.2779, pruned_loss=0.05102, over 19764.00 frames. ], batch size: 48, lr: 4.18e-03, grad_scale: 8.0
+2023-04-02 15:39:08,362 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 15:39:19,742 INFO [train.py:937] (2/4) Epoch 20, validation: loss=0.1695, simple_loss=0.2703, pruned_loss=0.03432, over 944034.00 frames. 
+2023-04-02 15:39:19,743 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 15:39:31,859 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 15:39:40,399 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8848, 1.6862, 1.6133, 1.9662, 1.6512, 1.6460, 1.5216, 1.8339],
+       device='cuda:2'), covar=tensor([0.1141, 0.1509, 0.1566, 0.0972, 0.1358, 0.0597, 0.1472, 0.0795],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0357, 0.0308, 0.0251, 0.0301, 0.0249, 0.0301, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 15:39:49,274 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9626, 1.3206, 1.7442, 1.7187, 4.4451, 1.2068, 2.4367, 4.8379],
+       device='cuda:2'), covar=tensor([0.0407, 0.3019, 0.3058, 0.1997, 0.0730, 0.2727, 0.1570, 0.0168],
+       device='cuda:2'), in_proj_covar=tensor([0.0396, 0.0358, 0.0377, 0.0340, 0.0366, 0.0348, 0.0371, 0.0390],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 15:39:50,418 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2216, 1.5152, 2.1367, 1.6155, 2.9960, 4.6438, 4.5883, 5.1418],
+       device='cuda:2'), covar=tensor([0.1668, 0.3694, 0.3011, 0.2226, 0.0597, 0.0201, 0.0165, 0.0155],
+       device='cuda:2'), in_proj_covar=tensor([0.0269, 0.0317, 0.0348, 0.0263, 0.0239, 0.0182, 0.0214, 0.0249],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 15:40:12,664 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=129775.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:40:20,209 INFO [train.py:903] (2/4) Epoch 20, batch 50, loss[loss=0.2129, simple_loss=0.2884, pruned_loss=0.06875, over 19478.00 frames. ], tot_loss[loss=0.2142, simple_loss=0.2933, pruned_loss=0.06756, over 856495.43 frames. ], batch size: 49, lr: 4.18e-03, grad_scale: 8.0
+2023-04-02 15:40:51,363 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=129809.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:40:54,562 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 15:41:03,013 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.371e+02 5.543e+02 6.891e+02 8.835e+02 1.770e+03, threshold=1.378e+03, percent-clipped=8.0
+2023-04-02 15:41:20,211 INFO [train.py:903] (2/4) Epoch 20, batch 100, loss[loss=0.189, simple_loss=0.2599, pruned_loss=0.05905, over 19765.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2914, pruned_loss=0.06697, over 1522040.26 frames. ], batch size: 45, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:41:31,363 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 15:41:56,953 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2754, 1.8756, 1.8742, 2.6172, 1.7717, 2.4838, 2.3750, 2.3158],
+       device='cuda:2'), covar=tensor([0.0760, 0.0903, 0.0970, 0.0806, 0.0963, 0.0686, 0.0878, 0.0629],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0219, 0.0225, 0.0243, 0.0226, 0.0210, 0.0188, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 15:42:21,224 INFO [train.py:903] (2/4) Epoch 20, batch 150, loss[loss=0.2253, simple_loss=0.3065, pruned_loss=0.07205, over 19675.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2907, pruned_loss=0.06692, over 2038586.74 frames. ], batch size: 60, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:42:30,205 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=129890.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:43:03,460 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.452e+02 4.799e+02 5.935e+02 7.467e+02 3.197e+03, threshold=1.187e+03, percent-clipped=3.0
+2023-04-02 15:43:21,683 INFO [train.py:903] (2/4) Epoch 20, batch 200, loss[loss=0.2155, simple_loss=0.3081, pruned_loss=0.06138, over 19669.00 frames. ], tot_loss[loss=0.2111, simple_loss=0.2895, pruned_loss=0.06639, over 2451954.30 frames. ], batch size: 58, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:43:22,857 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 15:44:13,750 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=129974.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:44:23,539 INFO [train.py:903] (2/4) Epoch 20, batch 250, loss[loss=0.1888, simple_loss=0.2743, pruned_loss=0.05168, over 19673.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2894, pruned_loss=0.06549, over 2760506.40 frames. ], batch size: 53, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:45:06,936 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.070e+02 5.298e+02 6.354e+02 8.098e+02 1.543e+03, threshold=1.271e+03, percent-clipped=7.0
+2023-04-02 15:45:08,330 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=130018.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:45:10,551 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=130020.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:45:25,497 INFO [train.py:903] (2/4) Epoch 20, batch 300, loss[loss=0.2, simple_loss=0.2631, pruned_loss=0.06841, over 18585.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.2897, pruned_loss=0.06556, over 3009414.56 frames. ], batch size: 41, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:46:25,934 INFO [train.py:903] (2/4) Epoch 20, batch 350, loss[loss=0.2297, simple_loss=0.3059, pruned_loss=0.07678, over 19673.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.291, pruned_loss=0.06637, over 3178674.64 frames. ], batch size: 53, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:46:35,009 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 15:46:35,361 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=130089.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:46:50,775 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.55 vs. limit=5.0
+2023-04-02 15:47:08,654 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.196e+02 5.230e+02 6.397e+02 7.792e+02 1.393e+03, threshold=1.279e+03, percent-clipped=3.0
+2023-04-02 15:47:26,635 INFO [train.py:903] (2/4) Epoch 20, batch 400, loss[loss=0.2002, simple_loss=0.2835, pruned_loss=0.05849, over 18748.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2904, pruned_loss=0.06605, over 3326702.01 frames. ], batch size: 74, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:47:32,430 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9502, 4.3786, 4.6694, 4.6775, 1.8242, 4.3822, 3.7352, 4.3655],
+       device='cuda:2'), covar=tensor([0.1610, 0.0783, 0.0550, 0.0619, 0.5478, 0.0795, 0.0694, 0.0992],
+       device='cuda:2'), in_proj_covar=tensor([0.0759, 0.0712, 0.0914, 0.0800, 0.0811, 0.0672, 0.0550, 0.0849],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 15:47:42,939 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=130146.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:47:53,134 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=130153.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:48:15,019 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=130171.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 15:48:27,090 INFO [train.py:903] (2/4) Epoch 20, batch 450, loss[loss=0.297, simple_loss=0.3494, pruned_loss=0.1223, over 13450.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.2904, pruned_loss=0.06664, over 3429029.82 frames. ], batch size: 136, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:49:03,628 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 15:49:04,558 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 15:49:09,165 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.114e+02 5.003e+02 6.443e+02 8.043e+02 1.786e+03, threshold=1.289e+03, percent-clipped=5.0
+2023-04-02 15:49:27,184 INFO [train.py:903] (2/4) Epoch 20, batch 500, loss[loss=0.2058, simple_loss=0.2892, pruned_loss=0.06124, over 19852.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.29, pruned_loss=0.0663, over 3511731.42 frames. ], batch size: 52, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:49:37,969 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.63 vs. limit=2.0
+2023-04-02 15:50:10,041 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=130268.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:50:15,784 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-02 15:50:27,995 INFO [train.py:903] (2/4) Epoch 20, batch 550, loss[loss=0.248, simple_loss=0.3173, pruned_loss=0.08936, over 18744.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2912, pruned_loss=0.06682, over 3591314.71 frames. ], batch size: 74, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:51:11,220 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.373e+02 5.062e+02 6.327e+02 8.479e+02 2.088e+03, threshold=1.265e+03, percent-clipped=6.0
+2023-04-02 15:51:28,464 INFO [train.py:903] (2/4) Epoch 20, batch 600, loss[loss=0.2294, simple_loss=0.3048, pruned_loss=0.07694, over 19679.00 frames. ], tot_loss[loss=0.2107, simple_loss=0.2895, pruned_loss=0.06592, over 3647340.21 frames. ], batch size: 60, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:51:44,894 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=130345.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:52:06,340 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=130362.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:52:08,735 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=130364.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:52:15,661 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 15:52:16,096 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=130370.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:52:30,046 INFO [train.py:903] (2/4) Epoch 20, batch 650, loss[loss=0.1979, simple_loss=0.2906, pruned_loss=0.05257, over 19665.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2908, pruned_loss=0.06692, over 3682475.15 frames. ], batch size: 58, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:52:56,086 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=130402.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:53:13,836 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.680e+02 5.222e+02 6.307e+02 8.250e+02 2.391e+03, threshold=1.261e+03, percent-clipped=5.0
+2023-04-02 15:53:31,369 INFO [train.py:903] (2/4) Epoch 20, batch 700, loss[loss=0.1907, simple_loss=0.2749, pruned_loss=0.05321, over 19783.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2906, pruned_loss=0.06687, over 3721051.27 frames. ], batch size: 47, lr: 4.17e-03, grad_scale: 8.0
+2023-04-02 15:53:55,090 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=130450.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:54:02,090 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=130456.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:54:28,652 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=130477.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:54:32,044 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=130479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:54:35,655 INFO [train.py:903] (2/4) Epoch 20, batch 750, loss[loss=0.1777, simple_loss=0.2593, pruned_loss=0.04804, over 19608.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2902, pruned_loss=0.06659, over 3747866.04 frames. ], batch size: 50, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 15:54:40,945 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4194, 1.5541, 1.8259, 1.6663, 2.6265, 2.3434, 2.7607, 1.1912],
+       device='cuda:2'), covar=tensor([0.2432, 0.4163, 0.2510, 0.1875, 0.1449, 0.2033, 0.1415, 0.4233],
+       device='cuda:2'), in_proj_covar=tensor([0.0522, 0.0628, 0.0692, 0.0472, 0.0612, 0.0522, 0.0654, 0.0537],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 15:55:19,213 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.433e+02 4.790e+02 6.042e+02 7.311e+02 1.890e+03, threshold=1.208e+03, percent-clipped=4.0
+2023-04-02 15:55:28,451 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=130524.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:55:37,193 INFO [train.py:903] (2/4) Epoch 20, batch 800, loss[loss=0.1789, simple_loss=0.2673, pruned_loss=0.04528, over 19669.00 frames. ], tot_loss[loss=0.2101, simple_loss=0.2889, pruned_loss=0.06563, over 3753867.98 frames. ], batch size: 53, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 15:55:53,533 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 15:55:58,705 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=130549.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:56:21,772 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=130566.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:56:40,733 INFO [train.py:903] (2/4) Epoch 20, batch 850, loss[loss=0.1677, simple_loss=0.2458, pruned_loss=0.04482, over 19411.00 frames. ], tot_loss[loss=0.21, simple_loss=0.2887, pruned_loss=0.06567, over 3771701.78 frames. ], batch size: 48, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 15:56:41,924 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=130583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:56:44,143 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8527, 1.4513, 1.5757, 1.4364, 3.4038, 1.0441, 2.4172, 3.8861],
+       device='cuda:2'), covar=tensor([0.0515, 0.2729, 0.2793, 0.1982, 0.0744, 0.2646, 0.1343, 0.0229],
+       device='cuda:2'), in_proj_covar=tensor([0.0397, 0.0355, 0.0375, 0.0337, 0.0366, 0.0344, 0.0370, 0.0390],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 15:56:57,623 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0823, 1.3259, 1.7134, 0.9759, 2.3536, 2.9693, 2.7142, 3.1416],
+       device='cuda:2'), covar=tensor([0.1631, 0.3613, 0.3199, 0.2582, 0.0622, 0.0264, 0.0268, 0.0327],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0315, 0.0346, 0.0261, 0.0237, 0.0182, 0.0213, 0.0247],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 15:57:25,284 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.130e+02 4.920e+02 5.760e+02 7.852e+02 1.760e+03, threshold=1.152e+03, percent-clipped=6.0
+2023-04-02 15:57:33,236 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 15:57:40,813 INFO [train.py:903] (2/4) Epoch 20, batch 900, loss[loss=0.2142, simple_loss=0.2983, pruned_loss=0.065, over 19365.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.289, pruned_loss=0.06601, over 3794132.71 frames. ], batch size: 70, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 15:58:44,445 INFO [train.py:903] (2/4) Epoch 20, batch 950, loss[loss=0.1943, simple_loss=0.2778, pruned_loss=0.05546, over 19113.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.2893, pruned_loss=0.06571, over 3796809.61 frames. ], batch size: 69, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 15:58:47,641 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 15:59:28,722 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.021e+02 4.928e+02 5.917e+02 7.294e+02 1.421e+03, threshold=1.183e+03, percent-clipped=3.0
+2023-04-02 15:59:46,656 INFO [train.py:903] (2/4) Epoch 20, batch 1000, loss[loss=0.2767, simple_loss=0.3504, pruned_loss=0.1016, over 18428.00 frames. ], tot_loss[loss=0.2101, simple_loss=0.2893, pruned_loss=0.06544, over 3820857.04 frames. ], batch size: 84, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 15:59:48,280 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=130733.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 15:59:50,509 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=130735.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:00:03,661 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=130746.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:00:18,683 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=130758.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:00:20,899 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=130760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:00:38,553 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 16:00:48,478 INFO [train.py:903] (2/4) Epoch 20, batch 1050, loss[loss=0.2228, simple_loss=0.3051, pruned_loss=0.0702, over 19655.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2902, pruned_loss=0.06631, over 3822656.60 frames. ], batch size: 61, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 16:01:00,630 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0893, 4.4626, 4.8066, 4.8421, 1.8032, 4.5503, 3.9625, 4.5218],
+       device='cuda:2'), covar=tensor([0.1439, 0.0800, 0.0520, 0.0560, 0.5633, 0.0766, 0.0595, 0.1015],
+       device='cuda:2'), in_proj_covar=tensor([0.0759, 0.0717, 0.0918, 0.0801, 0.0817, 0.0677, 0.0555, 0.0857],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 16:01:02,851 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=130794.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:01:10,718 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=130800.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:01:20,581 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 16:01:33,079 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.731e+02 5.562e+02 6.742e+02 8.268e+02 2.102e+03, threshold=1.348e+03, percent-clipped=2.0
+2023-04-02 16:01:49,835 INFO [train.py:903] (2/4) Epoch 20, batch 1100, loss[loss=0.1949, simple_loss=0.2602, pruned_loss=0.06481, over 19753.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2914, pruned_loss=0.06697, over 3827422.37 frames. ], batch size: 46, lr: 4.16e-03, grad_scale: 4.0
+2023-04-02 16:02:28,208 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=130861.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:02:42,064 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7473, 2.7327, 2.2179, 2.5836, 2.6659, 2.0688, 1.9605, 2.4659],
+       device='cuda:2'), covar=tensor([0.0951, 0.1518, 0.1526, 0.1175, 0.1427, 0.0707, 0.1596, 0.0750],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0360, 0.0312, 0.0252, 0.0302, 0.0251, 0.0305, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 16:02:52,362 INFO [train.py:903] (2/4) Epoch 20, batch 1150, loss[loss=0.2348, simple_loss=0.3149, pruned_loss=0.07737, over 18881.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.2908, pruned_loss=0.06649, over 3830231.19 frames. ], batch size: 74, lr: 4.16e-03, grad_scale: 4.0
+2023-04-02 16:02:53,762 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1050, 1.9089, 1.7502, 2.1641, 1.8585, 1.7581, 1.7485, 1.9436],
+       device='cuda:2'), covar=tensor([0.0979, 0.1484, 0.1420, 0.0997, 0.1317, 0.0546, 0.1334, 0.0724],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0359, 0.0311, 0.0252, 0.0301, 0.0251, 0.0304, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 16:03:26,709 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=130909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:03:27,645 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=130910.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:03:33,826 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=130915.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:03:39,054 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.314e+02 5.063e+02 6.056e+02 7.993e+02 1.743e+03, threshold=1.211e+03, percent-clipped=5.0
+2023-04-02 16:03:50,406 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=130927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:03:55,679 INFO [train.py:903] (2/4) Epoch 20, batch 1200, loss[loss=0.2448, simple_loss=0.3143, pruned_loss=0.08761, over 19650.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2917, pruned_loss=0.06668, over 3832372.59 frames. ], batch size: 55, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 16:04:23,994 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 16:04:56,115 INFO [train.py:903] (2/4) Epoch 20, batch 1250, loss[loss=0.1777, simple_loss=0.256, pruned_loss=0.04974, over 19796.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2915, pruned_loss=0.06695, over 3841292.40 frames. ], batch size: 47, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 16:05:07,179 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-02 16:05:42,760 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.304e+02 5.121e+02 6.297e+02 7.673e+02 2.016e+03, threshold=1.259e+03, percent-clipped=4.0
+2023-04-02 16:05:51,127 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=131025.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:05:58,787 INFO [train.py:903] (2/4) Epoch 20, batch 1300, loss[loss=0.2087, simple_loss=0.2967, pruned_loss=0.06041, over 19689.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2908, pruned_loss=0.06601, over 3849503.24 frames. ], batch size: 59, lr: 4.16e-03, grad_scale: 8.0
+2023-04-02 16:06:12,047 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=131042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:06:31,638 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.1200, 5.5925, 3.0327, 4.8909, 1.3285, 5.6589, 5.5077, 5.6310],
+       device='cuda:2'), covar=tensor([0.0367, 0.0760, 0.1855, 0.0680, 0.3666, 0.0535, 0.0699, 0.1055],
+       device='cuda:2'), in_proj_covar=tensor([0.0491, 0.0395, 0.0484, 0.0343, 0.0400, 0.0421, 0.0415, 0.0447],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 16:06:51,910 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0916, 5.1779, 5.9544, 5.9562, 2.1085, 5.5962, 4.7043, 5.5540],
+       device='cuda:2'), covar=tensor([0.1614, 0.0744, 0.0519, 0.0558, 0.5890, 0.0735, 0.0610, 0.1135],
+       device='cuda:2'), in_proj_covar=tensor([0.0758, 0.0716, 0.0916, 0.0798, 0.0814, 0.0675, 0.0551, 0.0855],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 16:06:59,471 INFO [train.py:903] (2/4) Epoch 20, batch 1350, loss[loss=0.2363, simple_loss=0.3134, pruned_loss=0.07958, over 19525.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2909, pruned_loss=0.06598, over 3858211.26 frames. ], batch size: 54, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:07:43,054 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=131117.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:07:44,787 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.358e+02 5.090e+02 6.517e+02 8.267e+02 2.193e+03, threshold=1.303e+03, percent-clipped=8.0
+2023-04-02 16:08:02,289 INFO [train.py:903] (2/4) Epoch 20, batch 1400, loss[loss=0.1874, simple_loss=0.2721, pruned_loss=0.05139, over 19837.00 frames. ], tot_loss[loss=0.2115, simple_loss=0.2909, pruned_loss=0.066, over 3853563.60 frames. ], batch size: 52, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:08:15,152 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=131142.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:08:42,762 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=131165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:08:50,714 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=131171.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:08:51,743 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4422, 1.3738, 1.4117, 1.8843, 1.4413, 1.7367, 1.7000, 1.5092],
+       device='cuda:2'), covar=tensor([0.0824, 0.0895, 0.1002, 0.0613, 0.0763, 0.0710, 0.0779, 0.0715],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0219, 0.0225, 0.0242, 0.0226, 0.0209, 0.0188, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 16:09:03,123 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4221, 1.4307, 1.6505, 1.6158, 2.2564, 2.1713, 2.2220, 0.9414],
+       device='cuda:2'), covar=tensor([0.2466, 0.4325, 0.2683, 0.1941, 0.1632, 0.2106, 0.1532, 0.4564],
+       device='cuda:2'), in_proj_covar=tensor([0.0526, 0.0630, 0.0695, 0.0475, 0.0614, 0.0526, 0.0658, 0.0541],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 16:09:03,845 INFO [train.py:903] (2/4) Epoch 20, batch 1450, loss[loss=0.1969, simple_loss=0.2744, pruned_loss=0.05969, over 19374.00 frames. ], tot_loss[loss=0.2111, simple_loss=0.2903, pruned_loss=0.06592, over 3846484.05 frames. ], batch size: 48, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:09:06,078 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 16:09:14,517 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=131190.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:09:16,710 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=131192.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:09:21,594 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=131196.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:09:50,840 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.524e+02 5.028e+02 6.181e+02 7.641e+02 1.699e+03, threshold=1.236e+03, percent-clipped=6.0
+2023-04-02 16:10:06,714 INFO [train.py:903] (2/4) Epoch 20, batch 1500, loss[loss=0.1943, simple_loss=0.2616, pruned_loss=0.06349, over 19780.00 frames. ], tot_loss[loss=0.2109, simple_loss=0.2899, pruned_loss=0.06597, over 3850342.03 frames. ], batch size: 47, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:10:20,912 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2337, 1.3280, 1.2699, 1.0312, 1.1225, 1.0892, 0.0444, 0.3197],
+       device='cuda:2'), covar=tensor([0.0712, 0.0663, 0.0446, 0.0567, 0.1310, 0.0677, 0.1244, 0.1112],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0349, 0.0352, 0.0377, 0.0452, 0.0383, 0.0332, 0.0337],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 16:11:06,985 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=131281.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:11:07,716 INFO [train.py:903] (2/4) Epoch 20, batch 1550, loss[loss=0.2261, simple_loss=0.3036, pruned_loss=0.07429, over 19590.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2904, pruned_loss=0.06653, over 3833474.73 frames. ], batch size: 61, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:11:29,287 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=131298.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:11:38,469 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=131306.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:11:53,760 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.770e+02 5.087e+02 6.243e+02 7.473e+02 1.350e+03, threshold=1.249e+03, percent-clipped=1.0
+2023-04-02 16:11:58,760 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=131323.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:12:10,218 INFO [train.py:903] (2/4) Epoch 20, batch 1600, loss[loss=0.2267, simple_loss=0.3089, pruned_loss=0.07222, over 19792.00 frames. ], tot_loss[loss=0.2115, simple_loss=0.2902, pruned_loss=0.06637, over 3827391.75 frames. ], batch size: 56, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:12:36,101 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 16:13:12,817 INFO [train.py:903] (2/4) Epoch 20, batch 1650, loss[loss=0.1696, simple_loss=0.2451, pruned_loss=0.04707, over 19726.00 frames. ], tot_loss[loss=0.2108, simple_loss=0.2898, pruned_loss=0.0659, over 3831780.20 frames. ], batch size: 45, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:13:59,216 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.697e+02 5.218e+02 6.304e+02 8.075e+02 1.501e+03, threshold=1.261e+03, percent-clipped=5.0
+2023-04-02 16:14:08,638 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=131427.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:14:15,058 INFO [train.py:903] (2/4) Epoch 20, batch 1700, loss[loss=0.2186, simple_loss=0.3038, pruned_loss=0.06676, over 19613.00 frames. ], tot_loss[loss=0.2098, simple_loss=0.2886, pruned_loss=0.06553, over 3835540.87 frames. ], batch size: 57, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:14:17,672 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=131434.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:14:51,575 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7936, 1.2768, 1.7458, 1.6529, 4.0949, 1.1188, 2.6728, 4.4209],
+       device='cuda:2'), covar=tensor([0.0509, 0.3673, 0.3125, 0.2229, 0.1016, 0.3070, 0.1549, 0.0341],
+       device='cuda:2'), in_proj_covar=tensor([0.0396, 0.0356, 0.0376, 0.0338, 0.0365, 0.0346, 0.0370, 0.0391],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 16:14:55,859 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 16:15:13,131 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5486, 2.2953, 1.6707, 1.5785, 2.0816, 1.3674, 1.4565, 1.8842],
+       device='cuda:2'), covar=tensor([0.1148, 0.0819, 0.1054, 0.0880, 0.0550, 0.1249, 0.0799, 0.0550],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0313, 0.0331, 0.0261, 0.0245, 0.0335, 0.0290, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 16:15:16,174 INFO [train.py:903] (2/4) Epoch 20, batch 1750, loss[loss=0.2051, simple_loss=0.2868, pruned_loss=0.06163, over 19535.00 frames. ], tot_loss[loss=0.2106, simple_loss=0.2896, pruned_loss=0.0658, over 3830602.78 frames. ], batch size: 54, lr: 4.15e-03, grad_scale: 8.0
+2023-04-02 16:15:52,723 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=131510.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:16:01,413 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.79 vs. limit=2.0
+2023-04-02 16:16:02,700 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.468e+02 5.359e+02 6.412e+02 7.691e+02 1.507e+03, threshold=1.282e+03, percent-clipped=3.0
+2023-04-02 16:16:18,695 INFO [train.py:903] (2/4) Epoch 20, batch 1800, loss[loss=0.2324, simple_loss=0.3145, pruned_loss=0.07517, over 19664.00 frames. ], tot_loss[loss=0.2109, simple_loss=0.29, pruned_loss=0.06593, over 3803664.79 frames. ], batch size: 55, lr: 4.15e-03, grad_scale: 4.0
+2023-04-02 16:16:24,468 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=131536.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:17:16,046 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 16:17:22,062 INFO [train.py:903] (2/4) Epoch 20, batch 1850, loss[loss=0.1861, simple_loss=0.2663, pruned_loss=0.05293, over 19616.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2889, pruned_loss=0.06577, over 3794998.54 frames. ], batch size: 50, lr: 4.15e-03, grad_scale: 4.0
+2023-04-02 16:17:54,267 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 16:18:09,985 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.335e+02 4.826e+02 6.634e+02 9.045e+02 2.049e+03, threshold=1.327e+03, percent-clipped=6.0
+2023-04-02 16:18:25,161 INFO [train.py:903] (2/4) Epoch 20, batch 1900, loss[loss=0.2379, simple_loss=0.3188, pruned_loss=0.07853, over 19547.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.289, pruned_loss=0.06586, over 3804586.88 frames. ], batch size: 54, lr: 4.15e-03, grad_scale: 4.0
+2023-04-02 16:18:40,082 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 16:18:45,474 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 16:18:47,946 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=131651.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:19:10,739 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 16:19:19,659 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-02 16:19:25,447 INFO [train.py:903] (2/4) Epoch 20, batch 1950, loss[loss=0.217, simple_loss=0.3025, pruned_loss=0.0658, over 19669.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2898, pruned_loss=0.06648, over 3806690.19 frames. ], batch size: 55, lr: 4.15e-03, grad_scale: 4.0
+2023-04-02 16:19:57,522 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3732, 2.2077, 2.0250, 1.8881, 1.7856, 1.8885, 0.5915, 1.2263],
+       device='cuda:2'), covar=tensor([0.0591, 0.0624, 0.0484, 0.0816, 0.1111, 0.0976, 0.1331, 0.1113],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0349, 0.0353, 0.0378, 0.0452, 0.0384, 0.0332, 0.0337],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 16:20:13,304 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.458e+02 5.129e+02 6.435e+02 8.344e+02 2.370e+03, threshold=1.287e+03, percent-clipped=2.0
+2023-04-02 16:20:28,634 INFO [train.py:903] (2/4) Epoch 20, batch 2000, loss[loss=0.2057, simple_loss=0.2939, pruned_loss=0.05875, over 19665.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.2893, pruned_loss=0.06576, over 3822877.55 frames. ], batch size: 55, lr: 4.14e-03, grad_scale: 8.0
+2023-04-02 16:21:00,300 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2852, 2.2999, 2.5531, 3.1373, 2.3583, 2.9541, 2.5700, 2.3069],
+       device='cuda:2'), covar=tensor([0.4141, 0.4109, 0.1741, 0.2407, 0.4371, 0.2057, 0.4497, 0.3251],
+       device='cuda:2'), in_proj_covar=tensor([0.0876, 0.0939, 0.0700, 0.0920, 0.0858, 0.0793, 0.0825, 0.0770],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 16:21:18,592 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=131771.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:21:25,582 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 16:21:28,785 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=131778.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:21:33,329 INFO [train.py:903] (2/4) Epoch 20, batch 2050, loss[loss=0.2008, simple_loss=0.2641, pruned_loss=0.06876, over 19747.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2881, pruned_loss=0.06509, over 3823600.37 frames. ], batch size: 46, lr: 4.14e-03, grad_scale: 8.0
+2023-04-02 16:21:45,609 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 16:21:46,765 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 16:22:07,692 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 16:22:22,558 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.239e+02 4.827e+02 6.005e+02 7.777e+02 1.829e+03, threshold=1.201e+03, percent-clipped=4.0
+2023-04-02 16:22:35,844 INFO [train.py:903] (2/4) Epoch 20, batch 2100, loss[loss=0.1938, simple_loss=0.2712, pruned_loss=0.05824, over 19424.00 frames. ], tot_loss[loss=0.2101, simple_loss=0.2894, pruned_loss=0.06543, over 3828759.97 frames. ], batch size: 48, lr: 4.14e-03, grad_scale: 4.0
+2023-04-02 16:23:02,406 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 16:23:03,494 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=131854.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:23:26,801 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 16:23:29,508 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=131875.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:23:37,620 INFO [train.py:903] (2/4) Epoch 20, batch 2150, loss[loss=0.2201, simple_loss=0.3039, pruned_loss=0.0681, over 19488.00 frames. ], tot_loss[loss=0.209, simple_loss=0.2883, pruned_loss=0.06478, over 3835040.35 frames. ], batch size: 64, lr: 4.14e-03, grad_scale: 4.0
+2023-04-02 16:23:42,708 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=131886.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:23:46,185 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2514, 2.3023, 2.5794, 3.1236, 2.2485, 2.8759, 2.6203, 2.3024],
+       device='cuda:2'), covar=tensor([0.4309, 0.4246, 0.1804, 0.2523, 0.4608, 0.2180, 0.4597, 0.3386],
+       device='cuda:2'), in_proj_covar=tensor([0.0877, 0.0940, 0.0701, 0.0922, 0.0860, 0.0793, 0.0827, 0.0769],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 16:23:51,999 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=131893.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:24:09,639 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=131907.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:24:26,290 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.293e+02 5.118e+02 6.039e+02 8.265e+02 1.505e+03, threshold=1.208e+03, percent-clipped=4.0
+2023-04-02 16:24:39,694 INFO [train.py:903] (2/4) Epoch 20, batch 2200, loss[loss=0.2508, simple_loss=0.3233, pruned_loss=0.08918, over 19426.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2878, pruned_loss=0.06449, over 3839142.09 frames. ], batch size: 70, lr: 4.14e-03, grad_scale: 4.0
+2023-04-02 16:24:40,083 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=131932.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:25:26,166 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=131969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:25:42,867 INFO [train.py:903] (2/4) Epoch 20, batch 2250, loss[loss=0.2179, simple_loss=0.3046, pruned_loss=0.06565, over 18771.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2889, pruned_loss=0.06517, over 3815140.72 frames. ], batch size: 74, lr: 4.14e-03, grad_scale: 4.0
+2023-04-02 16:26:31,961 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.368e+02 4.978e+02 6.272e+02 7.965e+02 1.499e+03, threshold=1.254e+03, percent-clipped=2.0
+2023-04-02 16:26:44,539 INFO [train.py:903] (2/4) Epoch 20, batch 2300, loss[loss=0.1651, simple_loss=0.2375, pruned_loss=0.04633, over 19755.00 frames. ], tot_loss[loss=0.2108, simple_loss=0.2899, pruned_loss=0.06581, over 3818913.93 frames. ], batch size: 46, lr: 4.14e-03, grad_scale: 4.0
+2023-04-02 16:26:58,044 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 16:27:05,413 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=132049.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:27:35,713 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=132072.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:27:47,305 INFO [train.py:903] (2/4) Epoch 20, batch 2350, loss[loss=0.185, simple_loss=0.2579, pruned_loss=0.05605, over 19369.00 frames. ], tot_loss[loss=0.2109, simple_loss=0.2902, pruned_loss=0.06581, over 3808682.57 frames. ], batch size: 47, lr: 4.14e-03, grad_scale: 4.0
+2023-04-02 16:27:52,439 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.35 vs. limit=2.0
+2023-04-02 16:28:26,819 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 16:28:30,724 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8876, 1.9587, 2.2341, 2.5577, 1.8407, 2.4486, 2.3057, 2.0511],
+       device='cuda:2'), covar=tensor([0.4375, 0.4054, 0.1933, 0.2352, 0.4226, 0.2150, 0.4798, 0.3474],
+       device='cuda:2'), in_proj_covar=tensor([0.0885, 0.0946, 0.0707, 0.0930, 0.0865, 0.0798, 0.0836, 0.0774],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 16:28:35,983 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.260e+02 4.795e+02 5.776e+02 7.778e+02 1.972e+03, threshold=1.155e+03, percent-clipped=8.0
+2023-04-02 16:28:42,754 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 16:28:49,774 INFO [train.py:903] (2/4) Epoch 20, batch 2400, loss[loss=0.1735, simple_loss=0.26, pruned_loss=0.04348, over 19618.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2886, pruned_loss=0.06487, over 3798603.44 frames. ], batch size: 50, lr: 4.14e-03, grad_scale: 8.0
+2023-04-02 16:29:03,492 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=132142.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:29:11,472 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=132149.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:29:32,957 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=132167.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:29:41,685 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=132174.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:29:51,979 INFO [train.py:903] (2/4) Epoch 20, batch 2450, loss[loss=0.1813, simple_loss=0.2637, pruned_loss=0.04944, over 19598.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2879, pruned_loss=0.06453, over 3810036.76 frames. ], batch size: 50, lr: 4.14e-03, grad_scale: 8.0
+2023-04-02 16:30:38,921 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=132219.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:30:41,021 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.150e+02 4.995e+02 6.263e+02 8.063e+02 1.363e+03, threshold=1.253e+03, percent-clipped=5.0
+2023-04-02 16:30:47,035 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=132225.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:30:54,290 INFO [train.py:903] (2/4) Epoch 20, batch 2500, loss[loss=0.1708, simple_loss=0.2469, pruned_loss=0.0474, over 19388.00 frames. ], tot_loss[loss=0.2078, simple_loss=0.2874, pruned_loss=0.06414, over 3817420.18 frames. ], batch size: 47, lr: 4.14e-03, grad_scale: 8.0
+2023-04-02 16:31:15,947 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=132250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:31:21,824 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.50 vs. limit=2.0
+2023-04-02 16:31:56,369 INFO [train.py:903] (2/4) Epoch 20, batch 2550, loss[loss=0.2083, simple_loss=0.2912, pruned_loss=0.06269, over 18171.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2873, pruned_loss=0.06399, over 3822409.05 frames. ], batch size: 83, lr: 4.14e-03, grad_scale: 8.0
+2023-04-02 16:32:34,723 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3747, 3.0508, 2.3196, 2.3499, 2.3080, 2.6631, 0.9906, 2.1267],
+       device='cuda:2'), covar=tensor([0.0579, 0.0530, 0.0706, 0.1052, 0.1003, 0.1007, 0.1449, 0.1119],
+       device='cuda:2'), in_proj_covar=tensor([0.0359, 0.0351, 0.0355, 0.0382, 0.0455, 0.0385, 0.0334, 0.0336],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 16:32:45,612 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.513e+02 4.985e+02 5.787e+02 8.066e+02 1.995e+03, threshold=1.157e+03, percent-clipped=4.0
+2023-04-02 16:32:52,684 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 16:32:58,515 INFO [train.py:903] (2/4) Epoch 20, batch 2600, loss[loss=0.2825, simple_loss=0.3407, pruned_loss=0.1121, over 14380.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2887, pruned_loss=0.06497, over 3825254.54 frames. ], batch size: 136, lr: 4.14e-03, grad_scale: 8.0
+2023-04-02 16:33:02,386 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=132334.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:34:01,406 INFO [train.py:903] (2/4) Epoch 20, batch 2650, loss[loss=0.2337, simple_loss=0.3204, pruned_loss=0.07345, over 19518.00 frames. ], tot_loss[loss=0.21, simple_loss=0.2894, pruned_loss=0.0653, over 3831602.43 frames. ], batch size: 56, lr: 4.13e-03, grad_scale: 8.0
+2023-04-02 16:34:15,343 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=132393.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:34:23,146 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 16:34:44,232 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=132416.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:34:50,449 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.050e+02 4.865e+02 6.149e+02 7.368e+02 1.585e+03, threshold=1.230e+03, percent-clipped=4.0
+2023-04-02 16:34:53,632 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
+2023-04-02 16:35:04,060 INFO [train.py:903] (2/4) Epoch 20, batch 2700, loss[loss=0.2182, simple_loss=0.3032, pruned_loss=0.06662, over 19606.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2895, pruned_loss=0.06517, over 3831406.17 frames. ], batch size: 57, lr: 4.13e-03, grad_scale: 8.0
+2023-04-02 16:35:17,120 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6507, 4.2605, 2.8208, 3.7192, 0.8708, 4.1857, 4.0176, 4.1483],
+       device='cuda:2'), covar=tensor([0.0577, 0.0893, 0.1761, 0.0882, 0.3960, 0.0633, 0.0869, 0.0969],
+       device='cuda:2'), in_proj_covar=tensor([0.0495, 0.0400, 0.0486, 0.0345, 0.0399, 0.0423, 0.0418, 0.0449],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 16:36:06,703 INFO [train.py:903] (2/4) Epoch 20, batch 2750, loss[loss=0.2076, simple_loss=0.297, pruned_loss=0.05908, over 19392.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2908, pruned_loss=0.06591, over 3827687.82 frames. ], batch size: 70, lr: 4.13e-03, grad_scale: 8.0
+2023-04-02 16:36:38,093 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5882, 1.6310, 1.8191, 1.6982, 2.3406, 2.0801, 2.3101, 1.4040],
+       device='cuda:2'), covar=tensor([0.1766, 0.3164, 0.2008, 0.1469, 0.1166, 0.1670, 0.1140, 0.3699],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0633, 0.0698, 0.0478, 0.0616, 0.0527, 0.0660, 0.0542],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 16:36:39,134 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=132508.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:36:55,660 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.965e+02 5.186e+02 6.180e+02 7.968e+02 1.505e+03, threshold=1.236e+03, percent-clipped=2.0
+2023-04-02 16:37:07,878 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=132531.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:37:08,648 INFO [train.py:903] (2/4) Epoch 20, batch 2800, loss[loss=0.1942, simple_loss=0.275, pruned_loss=0.05674, over 19742.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2898, pruned_loss=0.06547, over 3816844.99 frames. ], batch size: 51, lr: 4.13e-03, grad_scale: 8.0
+2023-04-02 16:37:24,822 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2982, 1.2595, 1.6993, 1.2437, 2.6263, 3.5440, 3.2033, 3.7315],
+       device='cuda:2'), covar=tensor([0.1565, 0.3814, 0.3362, 0.2437, 0.0574, 0.0198, 0.0217, 0.0249],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0320, 0.0349, 0.0263, 0.0239, 0.0184, 0.0216, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 16:38:13,009 INFO [train.py:903] (2/4) Epoch 20, batch 2850, loss[loss=0.19, simple_loss=0.2799, pruned_loss=0.05012, over 19590.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2888, pruned_loss=0.06513, over 3817137.03 frames. ], batch size: 52, lr: 4.13e-03, grad_scale: 4.0
+2023-04-02 16:38:22,430 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=132590.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:38:52,930 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=132615.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:39:01,716 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.639e+02 4.861e+02 5.815e+02 7.642e+02 3.357e+03, threshold=1.163e+03, percent-clipped=7.0
+2023-04-02 16:39:14,636 INFO [train.py:903] (2/4) Epoch 20, batch 2900, loss[loss=0.1754, simple_loss=0.2564, pruned_loss=0.04715, over 19447.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2884, pruned_loss=0.0651, over 3825458.54 frames. ], batch size: 49, lr: 4.13e-03, grad_scale: 4.0
+2023-04-02 16:39:14,683 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 16:40:13,467 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=132678.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:40:18,628 INFO [train.py:903] (2/4) Epoch 20, batch 2950, loss[loss=0.1947, simple_loss=0.2877, pruned_loss=0.05088, over 19539.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2895, pruned_loss=0.06557, over 3815376.42 frames. ], batch size: 56, lr: 4.13e-03, grad_scale: 4.0
+2023-04-02 16:41:09,139 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.010e+02 4.627e+02 5.679e+02 7.371e+02 2.153e+03, threshold=1.136e+03, percent-clipped=3.0
+2023-04-02 16:41:18,318 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.66 vs. limit=5.0
+2023-04-02 16:41:20,828 INFO [train.py:903] (2/4) Epoch 20, batch 3000, loss[loss=0.1827, simple_loss=0.2761, pruned_loss=0.04464, over 19629.00 frames. ], tot_loss[loss=0.2106, simple_loss=0.2899, pruned_loss=0.06567, over 3800900.82 frames. ], batch size: 57, lr: 4.13e-03, grad_scale: 4.0
+2023-04-02 16:41:20,829 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 16:41:34,272 INFO [train.py:937] (2/4) Epoch 20, validation: loss=0.1695, simple_loss=0.2697, pruned_loss=0.03462, over 944034.00 frames. 
+2023-04-02 16:41:34,272 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 16:41:37,065 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5161, 2.5373, 2.0952, 2.6643, 2.4659, 2.2703, 2.1861, 2.6006],
+       device='cuda:2'), covar=tensor([0.1006, 0.1524, 0.1497, 0.1066, 0.1357, 0.0503, 0.1293, 0.0659],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0353, 0.0307, 0.0248, 0.0297, 0.0246, 0.0302, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 16:41:40,248 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 16:41:47,616 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.10 vs. limit=5.0
+2023-04-02 16:42:12,876 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=132764.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:42:13,007 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=132764.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:42:35,229 INFO [train.py:903] (2/4) Epoch 20, batch 3050, loss[loss=0.1869, simple_loss=0.2694, pruned_loss=0.05215, over 19679.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.2915, pruned_loss=0.06646, over 3803066.85 frames. ], batch size: 53, lr: 4.13e-03, grad_scale: 4.0
+2023-04-02 16:42:41,442 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=132787.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:42:43,608 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=132789.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:42:58,323 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-02 16:43:13,165 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=132812.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:43:24,235 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.615e+02 4.785e+02 6.187e+02 7.720e+02 1.879e+03, threshold=1.237e+03, percent-clipped=7.0
+2023-04-02 16:43:37,018 INFO [train.py:903] (2/4) Epoch 20, batch 3100, loss[loss=0.2469, simple_loss=0.3267, pruned_loss=0.08353, over 19677.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.2921, pruned_loss=0.06734, over 3789834.40 frames. ], batch size: 58, lr: 4.13e-03, grad_scale: 4.0
+2023-04-02 16:44:27,890 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8409, 1.6717, 1.7429, 2.2196, 1.8823, 2.0658, 1.9876, 1.8777],
+       device='cuda:2'), covar=tensor([0.0710, 0.0789, 0.0822, 0.0649, 0.0813, 0.0659, 0.0880, 0.0606],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0221, 0.0225, 0.0243, 0.0229, 0.0211, 0.0187, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 16:44:40,228 INFO [train.py:903] (2/4) Epoch 20, batch 3150, loss[loss=0.2562, simple_loss=0.3275, pruned_loss=0.09246, over 19524.00 frames. ], tot_loss[loss=0.2131, simple_loss=0.292, pruned_loss=0.06712, over 3796037.01 frames. ], batch size: 56, lr: 4.13e-03, grad_scale: 4.0
+2023-04-02 16:44:58,736 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8579, 0.8976, 1.2156, 0.5844, 1.4779, 1.7164, 1.5366, 1.7962],
+       device='cuda:2'), covar=tensor([0.1267, 0.2999, 0.2580, 0.2503, 0.0912, 0.0459, 0.0344, 0.0413],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0319, 0.0349, 0.0264, 0.0240, 0.0184, 0.0216, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 16:45:07,841 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 16:45:29,827 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.089e+02 5.025e+02 5.951e+02 7.011e+02 1.371e+03, threshold=1.190e+03, percent-clipped=2.0
+2023-04-02 16:45:42,517 INFO [train.py:903] (2/4) Epoch 20, batch 3200, loss[loss=0.2133, simple_loss=0.2749, pruned_loss=0.07581, over 16782.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.2906, pruned_loss=0.06659, over 3790089.30 frames. ], batch size: 37, lr: 4.13e-03, grad_scale: 8.0
+2023-04-02 16:46:46,022 INFO [train.py:903] (2/4) Epoch 20, batch 3250, loss[loss=0.2888, simple_loss=0.348, pruned_loss=0.1148, over 19648.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2908, pruned_loss=0.06656, over 3798954.94 frames. ], batch size: 55, lr: 4.13e-03, grad_scale: 8.0
+2023-04-02 16:47:37,653 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.383e+02 4.867e+02 6.333e+02 8.818e+02 1.782e+03, threshold=1.267e+03, percent-clipped=7.0
+2023-04-02 16:47:37,841 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=133022.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:47:49,137 INFO [train.py:903] (2/4) Epoch 20, batch 3300, loss[loss=0.2085, simple_loss=0.2866, pruned_loss=0.06522, over 19764.00 frames. ], tot_loss[loss=0.2115, simple_loss=0.2904, pruned_loss=0.06627, over 3816758.90 frames. ], batch size: 54, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:47:57,183 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 16:48:03,600 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7550, 1.8240, 2.1086, 2.2892, 1.6771, 2.1718, 2.1434, 1.9009],
+       device='cuda:2'), covar=tensor([0.4276, 0.3881, 0.1987, 0.2281, 0.3996, 0.2229, 0.5104, 0.3544],
+       device='cuda:2'), in_proj_covar=tensor([0.0882, 0.0943, 0.0704, 0.0923, 0.0862, 0.0795, 0.0834, 0.0771],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 16:48:25,890 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1326, 1.3459, 1.8181, 1.2154, 2.6621, 3.7865, 3.4380, 3.9831],
+       device='cuda:2'), covar=tensor([0.1748, 0.3788, 0.3241, 0.2447, 0.0627, 0.0197, 0.0204, 0.0238],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0319, 0.0348, 0.0263, 0.0240, 0.0184, 0.0215, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 16:48:49,105 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3423, 2.1681, 1.9641, 1.8428, 1.6854, 1.8232, 0.7846, 1.3071],
+       device='cuda:2'), covar=tensor([0.0595, 0.0596, 0.0517, 0.0821, 0.1191, 0.0954, 0.1261, 0.1008],
+       device='cuda:2'), in_proj_covar=tensor([0.0360, 0.0352, 0.0357, 0.0384, 0.0457, 0.0386, 0.0333, 0.0338],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 16:48:54,793 INFO [train.py:903] (2/4) Epoch 20, batch 3350, loss[loss=0.1543, simple_loss=0.2388, pruned_loss=0.0349, over 19403.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2893, pruned_loss=0.06522, over 3814288.75 frames. ], batch size: 47, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:49:27,437 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=133108.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:49:45,512 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.359e+02 4.956e+02 6.093e+02 7.175e+02 1.819e+03, threshold=1.219e+03, percent-clipped=1.0
+2023-04-02 16:49:57,537 INFO [train.py:903] (2/4) Epoch 20, batch 3400, loss[loss=0.2023, simple_loss=0.2866, pruned_loss=0.05896, over 19625.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2896, pruned_loss=0.06548, over 3817969.83 frames. ], batch size: 57, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:50:06,211 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=133137.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:51:02,171 INFO [train.py:903] (2/4) Epoch 20, batch 3450, loss[loss=0.2191, simple_loss=0.2933, pruned_loss=0.07245, over 19540.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.291, pruned_loss=0.06633, over 3815803.56 frames. ], batch size: 54, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:51:07,351 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8515, 2.7359, 2.1284, 2.0641, 1.5883, 2.1054, 0.9947, 1.9042],
+       device='cuda:2'), covar=tensor([0.0917, 0.0690, 0.0687, 0.1357, 0.1540, 0.1579, 0.1513, 0.1218],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0349, 0.0354, 0.0381, 0.0453, 0.0382, 0.0331, 0.0336],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 16:51:08,048 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 16:51:52,697 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.981e+02 4.746e+02 5.634e+02 7.504e+02 1.582e+03, threshold=1.127e+03, percent-clipped=2.0
+2023-04-02 16:51:54,107 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=133223.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:52:04,222 INFO [train.py:903] (2/4) Epoch 20, batch 3500, loss[loss=0.2262, simple_loss=0.3078, pruned_loss=0.07228, over 19457.00 frames. ], tot_loss[loss=0.2133, simple_loss=0.2922, pruned_loss=0.06719, over 3810544.49 frames. ], batch size: 64, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:53:08,049 INFO [train.py:903] (2/4) Epoch 20, batch 3550, loss[loss=0.2079, simple_loss=0.2963, pruned_loss=0.05972, over 19672.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2918, pruned_loss=0.06673, over 3818737.96 frames. ], batch size: 59, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:53:58,720 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.076e+02 5.017e+02 5.933e+02 7.980e+02 2.795e+03, threshold=1.187e+03, percent-clipped=11.0
+2023-04-02 16:54:10,372 INFO [train.py:903] (2/4) Epoch 20, batch 3600, loss[loss=0.1931, simple_loss=0.2718, pruned_loss=0.05725, over 19416.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2916, pruned_loss=0.06696, over 3816111.62 frames. ], batch size: 48, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:55:15,911 INFO [train.py:903] (2/4) Epoch 20, batch 3650, loss[loss=0.2471, simple_loss=0.3337, pruned_loss=0.08029, over 19656.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2912, pruned_loss=0.0665, over 3815870.43 frames. ], batch size: 58, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:55:28,087 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=133392.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 16:55:29,449 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=133393.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:55:30,536 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=133394.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:56:02,491 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=133418.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:56:06,669 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.934e+02 5.113e+02 6.456e+02 7.889e+02 1.610e+03, threshold=1.291e+03, percent-clipped=2.0
+2023-04-02 16:56:18,445 INFO [train.py:903] (2/4) Epoch 20, batch 3700, loss[loss=0.2093, simple_loss=0.3001, pruned_loss=0.05931, over 19665.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2915, pruned_loss=0.06624, over 3820484.02 frames. ], batch size: 60, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:57:03,745 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5483, 1.5440, 1.4945, 2.0278, 1.5160, 1.7385, 1.7466, 1.6691],
+       device='cuda:2'), covar=tensor([0.0855, 0.0882, 0.0988, 0.0727, 0.0908, 0.0824, 0.0898, 0.0698],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0221, 0.0224, 0.0242, 0.0227, 0.0210, 0.0187, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 16:57:19,866 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=133479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:57:23,009 INFO [train.py:903] (2/4) Epoch 20, batch 3750, loss[loss=0.1817, simple_loss=0.27, pruned_loss=0.04668, over 19801.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2911, pruned_loss=0.06606, over 3821905.65 frames. ], batch size: 56, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:57:34,891 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=133492.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:57:50,939 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=133504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 16:58:13,502 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.259e+02 5.077e+02 5.935e+02 8.206e+02 1.595e+03, threshold=1.187e+03, percent-clipped=3.0
+2023-04-02 16:58:24,816 INFO [train.py:903] (2/4) Epoch 20, batch 3800, loss[loss=0.2145, simple_loss=0.2811, pruned_loss=0.07394, over 19765.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2908, pruned_loss=0.06615, over 3833316.48 frames. ], batch size: 48, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 16:58:44,327 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.58 vs. limit=5.0
+2023-04-02 16:58:58,165 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 16:59:30,213 INFO [train.py:903] (2/4) Epoch 20, batch 3850, loss[loss=0.1601, simple_loss=0.2404, pruned_loss=0.03987, over 19746.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2905, pruned_loss=0.0664, over 3831550.16 frames. ], batch size: 47, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 17:00:20,964 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.481e+02 5.079e+02 6.219e+02 7.261e+02 1.808e+03, threshold=1.244e+03, percent-clipped=5.0
+2023-04-02 17:00:32,705 INFO [train.py:903] (2/4) Epoch 20, batch 3900, loss[loss=0.204, simple_loss=0.2903, pruned_loss=0.05884, over 19659.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.291, pruned_loss=0.06636, over 3821758.63 frames. ], batch size: 58, lr: 4.12e-03, grad_scale: 8.0
+2023-04-02 17:00:51,713 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1586, 2.3671, 1.6961, 2.1354, 2.4081, 1.6332, 1.6364, 2.1093],
+       device='cuda:2'), covar=tensor([0.1236, 0.1658, 0.1922, 0.1310, 0.1418, 0.0990, 0.1957, 0.0958],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0354, 0.0306, 0.0248, 0.0297, 0.0247, 0.0301, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:01:21,163 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=133670.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:01:32,078 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5549, 2.5642, 2.1685, 2.6952, 2.3417, 2.1366, 2.2201, 2.5845],
+       device='cuda:2'), covar=tensor([0.0975, 0.1461, 0.1359, 0.0951, 0.1340, 0.0507, 0.1228, 0.0609],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0354, 0.0306, 0.0248, 0.0296, 0.0247, 0.0301, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:01:37,406 INFO [train.py:903] (2/4) Epoch 20, batch 3950, loss[loss=0.177, simple_loss=0.2577, pruned_loss=0.04814, over 19410.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2914, pruned_loss=0.06657, over 3823090.54 frames. ], batch size: 48, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:01:42,246 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 17:01:54,654 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 17:02:26,833 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.611e+02 5.167e+02 6.244e+02 7.613e+02 1.189e+03, threshold=1.249e+03, percent-clipped=0.0
+2023-04-02 17:02:38,785 INFO [train.py:903] (2/4) Epoch 20, batch 4000, loss[loss=0.2409, simple_loss=0.3136, pruned_loss=0.08414, over 19448.00 frames. ], tot_loss[loss=0.2108, simple_loss=0.2902, pruned_loss=0.06576, over 3826869.79 frames. ], batch size: 64, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:02:43,768 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=133736.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 17:02:47,218 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=133738.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:03:26,456 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 17:03:41,991 INFO [train.py:903] (2/4) Epoch 20, batch 4050, loss[loss=0.2037, simple_loss=0.2795, pruned_loss=0.06395, over 19663.00 frames. ], tot_loss[loss=0.2109, simple_loss=0.2901, pruned_loss=0.06587, over 3820928.94 frames. ], batch size: 53, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:04:30,933 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.559e+02 4.971e+02 6.413e+02 8.150e+02 1.897e+03, threshold=1.283e+03, percent-clipped=7.0
+2023-04-02 17:04:42,293 INFO [train.py:903] (2/4) Epoch 20, batch 4100, loss[loss=0.1852, simple_loss=0.2631, pruned_loss=0.0536, over 19391.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2902, pruned_loss=0.06612, over 3815181.70 frames. ], batch size: 48, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:04:47,143 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=133836.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:05:06,758 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=133851.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 17:05:08,977 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=133853.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:05:09,074 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7813, 1.7715, 1.9524, 1.8725, 2.5767, 2.3054, 2.6808, 1.6192],
+       device='cuda:2'), covar=tensor([0.1846, 0.3240, 0.2100, 0.1537, 0.1244, 0.1680, 0.1132, 0.3794],
+       device='cuda:2'), in_proj_covar=tensor([0.0528, 0.0635, 0.0700, 0.0478, 0.0616, 0.0526, 0.0661, 0.0543],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 17:05:18,886 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 17:05:19,374 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0162, 2.0842, 2.3299, 2.7444, 2.0049, 2.5737, 2.3747, 2.0889],
+       device='cuda:2'), covar=tensor([0.4179, 0.3822, 0.1822, 0.2292, 0.4065, 0.1984, 0.4527, 0.3161],
+       device='cuda:2'), in_proj_covar=tensor([0.0886, 0.0948, 0.0707, 0.0931, 0.0867, 0.0801, 0.0835, 0.0772],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 17:05:45,975 INFO [train.py:903] (2/4) Epoch 20, batch 4150, loss[loss=0.2159, simple_loss=0.2916, pruned_loss=0.07008, over 19527.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2909, pruned_loss=0.06669, over 3792750.79 frames. ], batch size: 54, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:06:35,678 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.109e+02 4.757e+02 5.877e+02 6.653e+02 1.329e+03, threshold=1.175e+03, percent-clipped=1.0
+2023-04-02 17:06:47,898 INFO [train.py:903] (2/4) Epoch 20, batch 4200, loss[loss=0.1989, simple_loss=0.2768, pruned_loss=0.0605, over 19491.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2917, pruned_loss=0.06694, over 3804787.81 frames. ], batch size: 49, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:06:51,416 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 17:07:12,210 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=133951.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:07:31,938 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7468, 3.2148, 3.2636, 3.2801, 1.4498, 3.1462, 2.7493, 3.0511],
+       device='cuda:2'), covar=tensor([0.1804, 0.1037, 0.0873, 0.0980, 0.5133, 0.1013, 0.0838, 0.1386],
+       device='cuda:2'), in_proj_covar=tensor([0.0767, 0.0722, 0.0924, 0.0811, 0.0818, 0.0684, 0.0555, 0.0857],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 17:07:34,302 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0184, 2.7922, 2.2262, 2.2633, 1.9564, 2.4693, 1.1843, 2.0680],
+       device='cuda:2'), covar=tensor([0.0571, 0.0530, 0.0612, 0.0967, 0.1042, 0.0967, 0.1183, 0.0931],
+       device='cuda:2'), in_proj_covar=tensor([0.0357, 0.0350, 0.0356, 0.0380, 0.0454, 0.0381, 0.0331, 0.0337],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 17:07:50,931 INFO [train.py:903] (2/4) Epoch 20, batch 4250, loss[loss=0.2131, simple_loss=0.2915, pruned_loss=0.06733, over 18222.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.2913, pruned_loss=0.06652, over 3813681.26 frames. ], batch size: 83, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:08:08,179 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 17:08:20,547 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 17:08:32,206 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=134014.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:08:33,424 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=134015.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:08:41,170 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.039e+02 5.008e+02 5.790e+02 6.980e+02 1.679e+03, threshold=1.158e+03, percent-clipped=4.0
+2023-04-02 17:08:54,657 INFO [train.py:903] (2/4) Epoch 20, batch 4300, loss[loss=0.1982, simple_loss=0.2701, pruned_loss=0.06316, over 19488.00 frames. ], tot_loss[loss=0.2108, simple_loss=0.2902, pruned_loss=0.06572, over 3821383.47 frames. ], batch size: 49, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:09:28,879 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
+2023-04-02 17:09:50,627 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 17:09:56,287 INFO [train.py:903] (2/4) Epoch 20, batch 4350, loss[loss=0.2382, simple_loss=0.3233, pruned_loss=0.07652, over 19659.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.2896, pruned_loss=0.06557, over 3817964.05 frames. ], batch size: 55, lr: 4.11e-03, grad_scale: 4.0
+2023-04-02 17:10:30,263 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=134107.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 17:10:32,515 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=134109.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:10:48,193 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.336e+02 5.216e+02 6.315e+02 8.361e+02 2.012e+03, threshold=1.263e+03, percent-clipped=10.0
+2023-04-02 17:10:49,766 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4801, 2.2186, 1.6181, 1.4614, 2.0242, 1.3138, 1.2917, 1.8661],
+       device='cuda:2'), covar=tensor([0.1099, 0.0778, 0.1133, 0.0869, 0.0594, 0.1283, 0.0797, 0.0532],
+       device='cuda:2'), in_proj_covar=tensor([0.0295, 0.0310, 0.0330, 0.0256, 0.0243, 0.0333, 0.0288, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:10:57,692 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=134129.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:11:00,862 INFO [train.py:903] (2/4) Epoch 20, batch 4400, loss[loss=0.2474, simple_loss=0.3195, pruned_loss=0.08765, over 19470.00 frames. ], tot_loss[loss=0.2109, simple_loss=0.2901, pruned_loss=0.06584, over 3813482.22 frames. ], batch size: 64, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:11:01,135 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6778, 4.1459, 4.3852, 4.3877, 1.9415, 4.0994, 3.6030, 4.1153],
+       device='cuda:2'), covar=tensor([0.1682, 0.1091, 0.0603, 0.0663, 0.5347, 0.0995, 0.0665, 0.1164],
+       device='cuda:2'), in_proj_covar=tensor([0.0774, 0.0726, 0.0929, 0.0813, 0.0824, 0.0689, 0.0558, 0.0864],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 17:11:01,255 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=134132.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 17:11:03,633 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=134134.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:11:27,019 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4703, 1.4209, 1.9753, 1.3826, 2.9102, 3.8449, 3.5176, 4.0180],
+       device='cuda:2'), covar=tensor([0.1461, 0.3548, 0.2975, 0.2310, 0.0529, 0.0164, 0.0202, 0.0239],
+       device='cuda:2'), in_proj_covar=tensor([0.0269, 0.0318, 0.0348, 0.0264, 0.0239, 0.0183, 0.0215, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 17:11:29,074 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 17:11:37,423 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 17:12:05,046 INFO [train.py:903] (2/4) Epoch 20, batch 4450, loss[loss=0.2164, simple_loss=0.2995, pruned_loss=0.06664, over 19771.00 frames. ], tot_loss[loss=0.2107, simple_loss=0.2899, pruned_loss=0.06579, over 3802475.05 frames. ], batch size: 56, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:12:17,687 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8648, 2.7248, 2.2836, 2.8336, 2.5389, 2.1760, 2.2002, 2.6806],
+       device='cuda:2'), covar=tensor([0.0830, 0.1376, 0.1347, 0.0926, 0.1277, 0.0510, 0.1328, 0.0576],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0358, 0.0309, 0.0251, 0.0301, 0.0250, 0.0305, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:12:36,965 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=134207.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:12:46,597 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3105, 1.3837, 2.0006, 1.8356, 3.0430, 4.4473, 4.2627, 4.8715],
+       device='cuda:2'), covar=tensor([0.1693, 0.3832, 0.3286, 0.2183, 0.0642, 0.0266, 0.0198, 0.0197],
+       device='cuda:2'), in_proj_covar=tensor([0.0269, 0.0318, 0.0348, 0.0263, 0.0239, 0.0183, 0.0215, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 17:12:56,175 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.329e+02 4.942e+02 5.989e+02 7.537e+02 1.405e+03, threshold=1.198e+03, percent-clipped=2.0
+2023-04-02 17:13:08,110 INFO [train.py:903] (2/4) Epoch 20, batch 4500, loss[loss=0.1783, simple_loss=0.2533, pruned_loss=0.05169, over 18669.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2908, pruned_loss=0.06642, over 3793912.74 frames. ], batch size: 41, lr: 4.11e-03, grad_scale: 8.0
+2023-04-02 17:13:08,534 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=134232.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:13:35,990 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2047, 2.0150, 1.8172, 2.1093, 1.8706, 1.8264, 1.7403, 2.0209],
+       device='cuda:2'), covar=tensor([0.1073, 0.1567, 0.1436, 0.1224, 0.1561, 0.0579, 0.1395, 0.0725],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0356, 0.0308, 0.0250, 0.0300, 0.0249, 0.0304, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:14:10,218 INFO [train.py:903] (2/4) Epoch 20, batch 4550, loss[loss=0.1993, simple_loss=0.2767, pruned_loss=0.06102, over 19732.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2903, pruned_loss=0.06602, over 3795864.13 frames. ], batch size: 51, lr: 4.11e-03, grad_scale: 4.0
+2023-04-02 17:14:19,191 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 17:14:42,915 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 17:15:02,257 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=134322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:15:04,304 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.805e+02 4.924e+02 5.886e+02 8.898e+02 2.816e+03, threshold=1.177e+03, percent-clipped=9.0
+2023-04-02 17:15:09,050 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=134327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:15:14,424 INFO [train.py:903] (2/4) Epoch 20, batch 4600, loss[loss=0.2126, simple_loss=0.2899, pruned_loss=0.06763, over 19749.00 frames. ], tot_loss[loss=0.2108, simple_loss=0.2901, pruned_loss=0.06574, over 3798583.57 frames. ], batch size: 63, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:15:47,467 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=134359.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:16:15,900 INFO [train.py:903] (2/4) Epoch 20, batch 4650, loss[loss=0.1981, simple_loss=0.2857, pruned_loss=0.05529, over 19790.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2885, pruned_loss=0.06496, over 3808314.02 frames. ], batch size: 56, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:16:20,736 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=134385.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:16:32,920 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 17:16:44,600 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 17:16:52,783 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=134410.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:17:09,007 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.247e+02 4.575e+02 5.939e+02 8.134e+02 1.295e+03, threshold=1.188e+03, percent-clipped=3.0
+2023-04-02 17:17:19,256 INFO [train.py:903] (2/4) Epoch 20, batch 4700, loss[loss=0.1979, simple_loss=0.2846, pruned_loss=0.05558, over 19439.00 frames. ], tot_loss[loss=0.2086, simple_loss=0.2878, pruned_loss=0.06473, over 3802475.93 frames. ], batch size: 64, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:17:41,469 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 17:18:11,939 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=134474.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:18:20,712 INFO [train.py:903] (2/4) Epoch 20, batch 4750, loss[loss=0.229, simple_loss=0.2937, pruned_loss=0.08218, over 19390.00 frames. ], tot_loss[loss=0.2086, simple_loss=0.2878, pruned_loss=0.06468, over 3803132.37 frames. ], batch size: 48, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:18:56,444 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7122, 1.5547, 1.5136, 2.0705, 1.5170, 2.0719, 1.9764, 1.7514],
+       device='cuda:2'), covar=tensor([0.0836, 0.0932, 0.1003, 0.0811, 0.0923, 0.0716, 0.0838, 0.0686],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0221, 0.0224, 0.0242, 0.0225, 0.0210, 0.0187, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 17:19:14,950 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.087e+02 5.001e+02 5.955e+02 7.090e+02 1.974e+03, threshold=1.191e+03, percent-clipped=7.0
+2023-04-02 17:19:25,456 INFO [train.py:903] (2/4) Epoch 20, batch 4800, loss[loss=0.1765, simple_loss=0.2544, pruned_loss=0.04931, over 19753.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2881, pruned_loss=0.06439, over 3816782.66 frames. ], batch size: 46, lr: 4.10e-03, grad_scale: 8.0
+2023-04-02 17:20:26,819 INFO [train.py:903] (2/4) Epoch 20, batch 4850, loss[loss=0.1999, simple_loss=0.2838, pruned_loss=0.05801, over 19661.00 frames. ], tot_loss[loss=0.2087, simple_loss=0.2881, pruned_loss=0.06464, over 3805169.07 frames. ], batch size: 58, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:20:49,962 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 17:20:54,357 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 17:21:13,049 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 17:21:18,721 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 17:21:18,752 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 17:21:21,955 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.496e+02 4.787e+02 5.710e+02 7.760e+02 1.554e+03, threshold=1.142e+03, percent-clipped=3.0
+2023-04-02 17:21:31,383 INFO [train.py:903] (2/4) Epoch 20, batch 4900, loss[loss=0.2184, simple_loss=0.2969, pruned_loss=0.06996, over 19772.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2883, pruned_loss=0.06465, over 3811542.38 frames. ], batch size: 56, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:21:31,393 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 17:21:51,454 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 17:22:14,393 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=134666.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:22:21,058 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=134671.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:22:33,377 INFO [train.py:903] (2/4) Epoch 20, batch 4950, loss[loss=0.2478, simple_loss=0.322, pruned_loss=0.08686, over 18202.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.2897, pruned_loss=0.0655, over 3800508.43 frames. ], batch size: 83, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:22:37,649 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-02 17:22:49,221 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 17:23:15,463 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 17:23:28,332 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.953e+02 4.876e+02 5.783e+02 7.285e+02 1.244e+03, threshold=1.157e+03, percent-clipped=2.0
+2023-04-02 17:23:34,625 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=134730.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:23:37,542 INFO [train.py:903] (2/4) Epoch 20, batch 5000, loss[loss=0.2538, simple_loss=0.3221, pruned_loss=0.09272, over 19696.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2898, pruned_loss=0.0653, over 3812960.90 frames. ], batch size: 59, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:23:45,521 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 17:23:56,613 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 17:24:06,075 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=134755.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:24:37,432 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=134781.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:24:38,201 INFO [train.py:903] (2/4) Epoch 20, batch 5050, loss[loss=0.1868, simple_loss=0.2602, pruned_loss=0.05668, over 19719.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2896, pruned_loss=0.06538, over 3813708.02 frames. ], batch size: 46, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:24:44,167 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=134786.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:25:13,081 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 17:25:21,970 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
+2023-04-02 17:25:22,640 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7061, 2.6069, 2.1374, 2.0556, 1.9153, 2.2870, 1.1816, 1.9324],
+       device='cuda:2'), covar=tensor([0.0668, 0.0614, 0.0633, 0.0995, 0.0990, 0.1113, 0.1265, 0.0943],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0348, 0.0352, 0.0376, 0.0452, 0.0383, 0.0331, 0.0335],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 17:25:31,564 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.532e+02 4.915e+02 6.341e+02 8.226e+02 2.739e+03, threshold=1.268e+03, percent-clipped=9.0
+2023-04-02 17:25:41,325 INFO [train.py:903] (2/4) Epoch 20, batch 5100, loss[loss=0.1966, simple_loss=0.2703, pruned_loss=0.06148, over 15501.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2885, pruned_loss=0.065, over 3817976.80 frames. ], batch size: 34, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:25:50,455 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 17:25:53,848 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 17:25:58,149 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 17:25:58,878 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.70 vs. limit=5.0
+2023-04-02 17:26:41,227 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=134880.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:26:43,296 INFO [train.py:903] (2/4) Epoch 20, batch 5150, loss[loss=0.2369, simple_loss=0.3184, pruned_loss=0.07773, over 17542.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2891, pruned_loss=0.06506, over 3815272.77 frames. ], batch size: 101, lr: 4.10e-03, grad_scale: 4.0
+2023-04-02 17:26:47,041 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3009, 1.0309, 1.3689, 1.3356, 2.6385, 1.0101, 2.2822, 3.0766],
+       device='cuda:2'), covar=tensor([0.0709, 0.3989, 0.3488, 0.2377, 0.1248, 0.3099, 0.1461, 0.0514],
+       device='cuda:2'), in_proj_covar=tensor([0.0401, 0.0361, 0.0380, 0.0342, 0.0371, 0.0346, 0.0372, 0.0397],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:26:55,958 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 17:27:03,555 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 17:27:10,859 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 17:27:32,553 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 17:27:37,091 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.618e+02 4.964e+02 6.321e+02 8.056e+02 1.479e+03, threshold=1.264e+03, percent-clipped=3.0
+2023-04-02 17:27:46,174 INFO [train.py:903] (2/4) Epoch 20, batch 5200, loss[loss=0.1892, simple_loss=0.281, pruned_loss=0.04874, over 19525.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2884, pruned_loss=0.06471, over 3832821.61 frames. ], batch size: 56, lr: 4.10e-03, grad_scale: 8.0
+2023-04-02 17:28:00,831 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 17:28:46,960 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 17:28:49,183 INFO [train.py:903] (2/4) Epoch 20, batch 5250, loss[loss=0.2271, simple_loss=0.3054, pruned_loss=0.07436, over 18393.00 frames. ], tot_loss[loss=0.2087, simple_loss=0.288, pruned_loss=0.06466, over 3845729.74 frames. ], batch size: 84, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:29:42,805 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.326e+02 4.845e+02 5.899e+02 8.450e+02 1.811e+03, threshold=1.180e+03, percent-clipped=4.0
+2023-04-02 17:29:51,986 INFO [train.py:903] (2/4) Epoch 20, batch 5300, loss[loss=0.1602, simple_loss=0.2402, pruned_loss=0.04012, over 19759.00 frames. ], tot_loss[loss=0.2082, simple_loss=0.2878, pruned_loss=0.06432, over 3852296.09 frames. ], batch size: 46, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:29:59,080 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=135037.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:30:04,964 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=135042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:30:11,592 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 17:30:30,738 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=135062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:30:36,517 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=135067.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:30:54,696 INFO [train.py:903] (2/4) Epoch 20, batch 5350, loss[loss=0.1998, simple_loss=0.2769, pruned_loss=0.06129, over 19460.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2892, pruned_loss=0.06532, over 3835372.42 frames. ], batch size: 49, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:31:29,755 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 17:31:48,518 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.364e+02 5.248e+02 6.375e+02 8.534e+02 1.946e+03, threshold=1.275e+03, percent-clipped=9.0
+2023-04-02 17:31:57,760 INFO [train.py:903] (2/4) Epoch 20, batch 5400, loss[loss=0.1966, simple_loss=0.282, pruned_loss=0.05559, over 19654.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2902, pruned_loss=0.06633, over 3830582.16 frames. ], batch size: 55, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:31:59,398 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3806, 1.4278, 1.7213, 1.6272, 2.6907, 2.2351, 2.8988, 1.2028],
+       device='cuda:2'), covar=tensor([0.2574, 0.4571, 0.2809, 0.2050, 0.1540, 0.2175, 0.1358, 0.4629],
+       device='cuda:2'), in_proj_covar=tensor([0.0522, 0.0628, 0.0694, 0.0474, 0.0610, 0.0519, 0.0650, 0.0538],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 17:33:00,877 INFO [train.py:903] (2/4) Epoch 20, batch 5450, loss[loss=0.2106, simple_loss=0.2918, pruned_loss=0.06468, over 19494.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.2893, pruned_loss=0.06576, over 3841711.97 frames. ], batch size: 64, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:33:09,044 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=135189.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:33:15,491 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2470, 2.0259, 1.8346, 2.1353, 1.8280, 1.8262, 1.7111, 2.0646],
+       device='cuda:2'), covar=tensor([0.0935, 0.1332, 0.1407, 0.1060, 0.1425, 0.0544, 0.1363, 0.0649],
+       device='cuda:2'), in_proj_covar=tensor([0.0263, 0.0351, 0.0305, 0.0248, 0.0297, 0.0247, 0.0303, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:33:52,674 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=135224.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:33:54,895 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.649e+02 5.255e+02 6.010e+02 7.558e+02 1.824e+03, threshold=1.202e+03, percent-clipped=3.0
+2023-04-02 17:34:03,100 INFO [train.py:903] (2/4) Epoch 20, batch 5500, loss[loss=0.1886, simple_loss=0.2644, pruned_loss=0.05642, over 19754.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2899, pruned_loss=0.06618, over 3823448.40 frames. ], batch size: 47, lr: 4.09e-03, grad_scale: 4.0
+2023-04-02 17:34:29,174 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 17:34:30,745 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0596, 2.8157, 2.1477, 2.1547, 1.9642, 2.4720, 0.9444, 1.9502],
+       device='cuda:2'), covar=tensor([0.0637, 0.0541, 0.0741, 0.1047, 0.1129, 0.1063, 0.1453, 0.1072],
+       device='cuda:2'), in_proj_covar=tensor([0.0358, 0.0351, 0.0354, 0.0379, 0.0455, 0.0384, 0.0333, 0.0339],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 17:35:05,530 INFO [train.py:903] (2/4) Epoch 20, batch 5550, loss[loss=0.1755, simple_loss=0.2559, pruned_loss=0.04749, over 19740.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2894, pruned_loss=0.0656, over 3823012.59 frames. ], batch size: 46, lr: 4.09e-03, grad_scale: 4.0
+2023-04-02 17:35:13,921 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 17:35:20,847 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7541, 4.0111, 4.4825, 4.5517, 1.8832, 4.2162, 3.6258, 3.8683],
+       device='cuda:2'), covar=tensor([0.1975, 0.1605, 0.0901, 0.0992, 0.6941, 0.1901, 0.1072, 0.2099],
+       device='cuda:2'), in_proj_covar=tensor([0.0769, 0.0724, 0.0928, 0.0813, 0.0821, 0.0691, 0.0554, 0.0862],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 17:36:00,656 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.142e+02 4.884e+02 6.418e+02 8.039e+02 2.322e+03, threshold=1.284e+03, percent-clipped=8.0
+2023-04-02 17:36:03,998 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 17:36:07,360 INFO [train.py:903] (2/4) Epoch 20, batch 5600, loss[loss=0.1898, simple_loss=0.2773, pruned_loss=0.05115, over 19529.00 frames. ], tot_loss[loss=0.2106, simple_loss=0.2896, pruned_loss=0.06577, over 3821295.15 frames. ], batch size: 54, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:36:18,180 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=135339.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:36:31,076 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1108, 2.0053, 1.9127, 1.7109, 1.5715, 1.7589, 0.6011, 1.0110],
+       device='cuda:2'), covar=tensor([0.0655, 0.0594, 0.0445, 0.0786, 0.1190, 0.0844, 0.1270, 0.1079],
+       device='cuda:2'), in_proj_covar=tensor([0.0361, 0.0354, 0.0355, 0.0381, 0.0458, 0.0388, 0.0335, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 17:37:11,262 INFO [train.py:903] (2/4) Epoch 20, batch 5650, loss[loss=0.219, simple_loss=0.2868, pruned_loss=0.07558, over 19131.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2885, pruned_loss=0.06513, over 3830974.21 frames. ], batch size: 42, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:38:01,367 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 17:38:05,717 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.932e+02 4.892e+02 5.590e+02 6.975e+02 1.698e+03, threshold=1.118e+03, percent-clipped=3.0
+2023-04-02 17:38:12,543 INFO [train.py:903] (2/4) Epoch 20, batch 5700, loss[loss=0.2322, simple_loss=0.3033, pruned_loss=0.08053, over 19326.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2886, pruned_loss=0.06509, over 3834413.50 frames. ], batch size: 66, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:39:14,104 INFO [train.py:903] (2/4) Epoch 20, batch 5750, loss[loss=0.2638, simple_loss=0.3276, pruned_loss=0.1, over 13946.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.291, pruned_loss=0.0664, over 3839542.15 frames. ], batch size: 137, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:39:17,228 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 17:39:25,442 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 17:39:31,249 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 17:40:10,280 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.984e+02 5.062e+02 5.931e+02 7.729e+02 1.708e+03, threshold=1.186e+03, percent-clipped=6.0
+2023-04-02 17:40:18,219 INFO [train.py:903] (2/4) Epoch 20, batch 5800, loss[loss=0.2121, simple_loss=0.2942, pruned_loss=0.06499, over 18096.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2903, pruned_loss=0.06619, over 3842048.54 frames. ], batch size: 83, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:40:19,535 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=135533.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:41:20,579 INFO [train.py:903] (2/4) Epoch 20, batch 5850, loss[loss=0.23, simple_loss=0.3077, pruned_loss=0.07617, over 19582.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.2915, pruned_loss=0.06708, over 3837923.73 frames. ], batch size: 61, lr: 4.09e-03, grad_scale: 8.0
+2023-04-02 17:41:36,386 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=135595.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:42:08,925 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=135620.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:42:11,762 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.54 vs. limit=2.0
+2023-04-02 17:42:15,863 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.765e+02 5.164e+02 6.346e+02 8.557e+02 2.066e+03, threshold=1.269e+03, percent-clipped=9.0
+2023-04-02 17:42:23,022 INFO [train.py:903] (2/4) Epoch 20, batch 5900, loss[loss=0.1796, simple_loss=0.265, pruned_loss=0.04712, over 19854.00 frames. ], tot_loss[loss=0.2134, simple_loss=0.292, pruned_loss=0.06736, over 3836193.29 frames. ], batch size: 52, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:42:25,417 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 17:42:43,065 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=135648.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:42:43,132 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=135648.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:42:46,314 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 17:43:24,700 INFO [train.py:903] (2/4) Epoch 20, batch 5950, loss[loss=0.2188, simple_loss=0.3008, pruned_loss=0.06842, over 19754.00 frames. ], tot_loss[loss=0.2147, simple_loss=0.2935, pruned_loss=0.06798, over 3828591.13 frames. ], batch size: 54, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:44:19,054 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.081e+02 5.126e+02 6.708e+02 1.004e+03 2.382e+03, threshold=1.342e+03, percent-clipped=11.0
+2023-04-02 17:44:27,263 INFO [train.py:903] (2/4) Epoch 20, batch 6000, loss[loss=0.1787, simple_loss=0.2645, pruned_loss=0.04648, over 19597.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2916, pruned_loss=0.0668, over 3838656.47 frames. ], batch size: 52, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:44:27,264 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 17:44:39,943 INFO [train.py:937] (2/4) Epoch 20, validation: loss=0.1697, simple_loss=0.2697, pruned_loss=0.0349, over 944034.00 frames. 
+2023-04-02 17:44:39,945 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 17:45:41,602 INFO [train.py:903] (2/4) Epoch 20, batch 6050, loss[loss=0.1909, simple_loss=0.2764, pruned_loss=0.05274, over 19762.00 frames. ], tot_loss[loss=0.2125, simple_loss=0.2914, pruned_loss=0.06675, over 3838930.09 frames. ], batch size: 54, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:46:10,071 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-02 17:46:36,905 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.594e+02 4.873e+02 5.806e+02 7.519e+02 1.887e+03, threshold=1.161e+03, percent-clipped=2.0
+2023-04-02 17:46:43,929 INFO [train.py:903] (2/4) Epoch 20, batch 6100, loss[loss=0.207, simple_loss=0.2848, pruned_loss=0.06457, over 19685.00 frames. ], tot_loss[loss=0.2139, simple_loss=0.2924, pruned_loss=0.06775, over 3815608.18 frames. ], batch size: 53, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:47:46,917 INFO [train.py:903] (2/4) Epoch 20, batch 6150, loss[loss=0.2351, simple_loss=0.3121, pruned_loss=0.07907, over 19690.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.2907, pruned_loss=0.06657, over 3816846.46 frames. ], batch size: 59, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:48:15,328 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=135904.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:48:16,119 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 17:48:21,075 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3214, 1.1924, 1.6587, 1.1640, 2.4829, 3.3323, 3.0347, 3.5243],
+       device='cuda:2'), covar=tensor([0.1451, 0.3862, 0.3373, 0.2508, 0.0600, 0.0209, 0.0224, 0.0295],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0318, 0.0347, 0.0264, 0.0239, 0.0183, 0.0215, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 17:48:38,633 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0117, 5.0822, 5.8830, 5.8531, 1.9129, 5.5697, 4.6648, 5.5072],
+       device='cuda:2'), covar=tensor([0.1765, 0.0857, 0.0608, 0.0664, 0.6267, 0.0726, 0.0595, 0.1302],
+       device='cuda:2'), in_proj_covar=tensor([0.0768, 0.0723, 0.0927, 0.0809, 0.0820, 0.0685, 0.0557, 0.0859],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 17:48:41,890 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.532e+02 4.701e+02 6.211e+02 7.118e+02 1.417e+03, threshold=1.242e+03, percent-clipped=3.0
+2023-04-02 17:48:43,260 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0537, 1.2757, 1.7873, 0.9982, 2.5334, 3.3300, 3.0360, 3.5715],
+       device='cuda:2'), covar=tensor([0.1634, 0.3786, 0.3212, 0.2602, 0.0536, 0.0208, 0.0233, 0.0251],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0319, 0.0348, 0.0264, 0.0239, 0.0183, 0.0215, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 17:48:45,691 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=135929.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:48:49,686 INFO [train.py:903] (2/4) Epoch 20, batch 6200, loss[loss=0.1718, simple_loss=0.2549, pruned_loss=0.04438, over 19584.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2902, pruned_loss=0.06625, over 3808500.40 frames. ], batch size: 52, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:49:52,103 INFO [train.py:903] (2/4) Epoch 20, batch 6250, loss[loss=0.2164, simple_loss=0.2899, pruned_loss=0.07148, over 19613.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2889, pruned_loss=0.06586, over 3814028.35 frames. ], batch size: 50, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:50:04,689 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=135992.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:50:15,858 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=136000.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:50:19,545 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2725, 1.2916, 1.4759, 1.4187, 1.8489, 1.7901, 1.8681, 0.6223],
+       device='cuda:2'), covar=tensor([0.2437, 0.4300, 0.2616, 0.1972, 0.1591, 0.2415, 0.1480, 0.4723],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0636, 0.0699, 0.0477, 0.0617, 0.0525, 0.0658, 0.0543],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 17:50:24,786 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 17:50:30,650 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=136012.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:50:48,360 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.357e+02 5.185e+02 6.758e+02 8.208e+02 2.074e+03, threshold=1.352e+03, percent-clipped=8.0
+2023-04-02 17:50:55,343 INFO [train.py:903] (2/4) Epoch 20, batch 6300, loss[loss=0.2424, simple_loss=0.3213, pruned_loss=0.08173, over 17255.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.2903, pruned_loss=0.06678, over 3803846.08 frames. ], batch size: 101, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:50:56,863 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3268, 1.6614, 1.9410, 1.8820, 2.9042, 1.5767, 2.7132, 3.1901],
+       device='cuda:2'), covar=tensor([0.0707, 0.2989, 0.2635, 0.1978, 0.0980, 0.2463, 0.1935, 0.0510],
+       device='cuda:2'), in_proj_covar=tensor([0.0404, 0.0360, 0.0380, 0.0342, 0.0372, 0.0347, 0.0372, 0.0397],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:51:58,458 INFO [train.py:903] (2/4) Epoch 20, batch 6350, loss[loss=0.2368, simple_loss=0.3123, pruned_loss=0.08067, over 19784.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.2906, pruned_loss=0.06693, over 3810982.14 frames. ], batch size: 56, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:52:30,869 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=136107.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:52:53,616 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.408e+02 5.045e+02 5.932e+02 7.156e+02 1.987e+03, threshold=1.186e+03, percent-clipped=3.0
+2023-04-02 17:53:01,256 INFO [train.py:903] (2/4) Epoch 20, batch 6400, loss[loss=0.2921, simple_loss=0.3507, pruned_loss=0.1167, over 13651.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.29, pruned_loss=0.06629, over 3794812.33 frames. ], batch size: 137, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:53:36,340 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=136160.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:54:02,561 INFO [train.py:903] (2/4) Epoch 20, batch 6450, loss[loss=0.2029, simple_loss=0.2645, pruned_loss=0.07068, over 19741.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2912, pruned_loss=0.06693, over 3784033.81 frames. ], batch size: 46, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:54:51,304 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 17:54:59,001 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.358e+02 5.012e+02 6.099e+02 8.089e+02 3.011e+03, threshold=1.220e+03, percent-clipped=7.0
+2023-04-02 17:55:01,043 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.41 vs. limit=2.0
+2023-04-02 17:55:07,138 INFO [train.py:903] (2/4) Epoch 20, batch 6500, loss[loss=0.2371, simple_loss=0.3174, pruned_loss=0.07835, over 17172.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2907, pruned_loss=0.06665, over 3798521.68 frames. ], batch size: 101, lr: 4.08e-03, grad_scale: 8.0
+2023-04-02 17:55:12,989 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 17:55:20,961 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6439, 1.7124, 1.8750, 2.0831, 1.5208, 1.9394, 1.9272, 1.7861],
+       device='cuda:2'), covar=tensor([0.3957, 0.3470, 0.1911, 0.2075, 0.3620, 0.2054, 0.4926, 0.3237],
+       device='cuda:2'), in_proj_covar=tensor([0.0878, 0.0942, 0.0700, 0.0919, 0.0862, 0.0793, 0.0826, 0.0768],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 17:55:41,770 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9485, 1.9267, 1.7497, 2.0612, 1.9709, 1.6640, 1.7077, 1.8942],
+       device='cuda:2'), covar=tensor([0.0975, 0.1404, 0.1371, 0.0895, 0.1127, 0.0816, 0.1459, 0.0761],
+       device='cuda:2'), in_proj_covar=tensor([0.0264, 0.0353, 0.0305, 0.0248, 0.0297, 0.0246, 0.0304, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 17:56:09,980 INFO [train.py:903] (2/4) Epoch 20, batch 6550, loss[loss=0.1869, simple_loss=0.2638, pruned_loss=0.05499, over 19779.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2915, pruned_loss=0.06699, over 3800986.89 frames. ], batch size: 47, lr: 4.07e-03, grad_scale: 8.0
+2023-04-02 17:56:48,280 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-02 17:57:06,360 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.205e+02 5.319e+02 6.594e+02 8.030e+02 1.579e+03, threshold=1.319e+03, percent-clipped=2.0
+2023-04-02 17:57:14,420 INFO [train.py:903] (2/4) Epoch 20, batch 6600, loss[loss=0.2249, simple_loss=0.3139, pruned_loss=0.06791, over 19588.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2911, pruned_loss=0.06643, over 3797066.68 frames. ], batch size: 61, lr: 4.07e-03, grad_scale: 8.0
+2023-04-02 17:57:28,443 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=136344.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:57:41,140 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=136353.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:57:45,651 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=136356.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:57:53,924 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=136363.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:58:16,846 INFO [train.py:903] (2/4) Epoch 20, batch 6650, loss[loss=0.2048, simple_loss=0.285, pruned_loss=0.06225, over 19694.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2911, pruned_loss=0.06678, over 3799459.13 frames. ], batch size: 53, lr: 4.07e-03, grad_scale: 8.0
+2023-04-02 17:58:26,125 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=136388.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 17:58:43,792 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-02 17:59:14,394 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.147e+02 4.763e+02 5.879e+02 7.861e+02 2.647e+03, threshold=1.176e+03, percent-clipped=6.0
+2023-04-02 17:59:22,074 INFO [train.py:903] (2/4) Epoch 20, batch 6700, loss[loss=0.2066, simple_loss=0.2976, pruned_loss=0.0578, over 17481.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.291, pruned_loss=0.0669, over 3788804.34 frames. ], batch size: 101, lr: 4.07e-03, grad_scale: 8.0
+2023-04-02 17:59:55,291 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=136459.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:00:08,540 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=136471.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:00:20,892 INFO [train.py:903] (2/4) Epoch 20, batch 6750, loss[loss=0.1993, simple_loss=0.2901, pruned_loss=0.05426, over 19651.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2914, pruned_loss=0.06687, over 3805265.50 frames. ], batch size: 58, lr: 4.07e-03, grad_scale: 8.0
+2023-04-02 18:00:21,353 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2531, 2.2631, 2.5496, 2.9429, 2.1915, 2.8083, 2.5077, 2.2481],
+       device='cuda:2'), covar=tensor([0.4310, 0.4277, 0.1944, 0.2645, 0.4547, 0.2256, 0.4902, 0.3597],
+       device='cuda:2'), in_proj_covar=tensor([0.0882, 0.0947, 0.0704, 0.0924, 0.0865, 0.0797, 0.0830, 0.0773],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 18:00:45,733 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=136504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:01:11,797 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.251e+02 5.547e+02 6.932e+02 9.039e+02 1.788e+03, threshold=1.386e+03, percent-clipped=9.0
+2023-04-02 18:01:19,058 INFO [train.py:903] (2/4) Epoch 20, batch 6800, loss[loss=0.2009, simple_loss=0.2744, pruned_loss=0.06369, over 19736.00 frames. ], tot_loss[loss=0.2108, simple_loss=0.29, pruned_loss=0.0658, over 3824547.76 frames. ], batch size: 51, lr: 4.07e-03, grad_scale: 8.0
+2023-04-02 18:02:04,288 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 18:02:05,343 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 18:02:07,959 INFO [train.py:903] (2/4) Epoch 21, batch 0, loss[loss=0.2486, simple_loss=0.3147, pruned_loss=0.09124, over 19751.00 frames. ], tot_loss[loss=0.2486, simple_loss=0.3147, pruned_loss=0.09124, over 19751.00 frames. ], batch size: 51, lr: 3.97e-03, grad_scale: 8.0
+2023-04-02 18:02:07,959 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 18:02:18,730 INFO [train.py:937] (2/4) Epoch 21, validation: loss=0.1691, simple_loss=0.2696, pruned_loss=0.03427, over 944034.00 frames. 
+2023-04-02 18:02:18,730 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 18:02:30,989 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 18:03:20,708 INFO [train.py:903] (2/4) Epoch 21, batch 50, loss[loss=0.2933, simple_loss=0.3537, pruned_loss=0.1165, over 13080.00 frames. ], tot_loss[loss=0.2122, simple_loss=0.2915, pruned_loss=0.0665, over 848371.80 frames. ], batch size: 135, lr: 3.97e-03, grad_scale: 4.0
+2023-04-02 18:03:24,695 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.53 vs. limit=2.0
+2023-04-02 18:03:33,355 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=136619.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:03:43,288 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.449e+02 4.947e+02 6.173e+02 6.953e+02 1.295e+03, threshold=1.235e+03, percent-clipped=0.0
+2023-04-02 18:03:54,622 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 18:04:22,857 INFO [train.py:903] (2/4) Epoch 21, batch 100, loss[loss=0.2204, simple_loss=0.301, pruned_loss=0.06989, over 18174.00 frames. ], tot_loss[loss=0.2106, simple_loss=0.2899, pruned_loss=0.0657, over 1522445.10 frames. ], batch size: 84, lr: 3.97e-03, grad_scale: 4.0
+2023-04-02 18:04:25,211 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=136661.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:04:35,107 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 18:04:42,075 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5758, 1.4658, 1.4045, 1.9311, 1.4786, 1.8315, 1.8483, 1.5520],
+       device='cuda:2'), covar=tensor([0.0877, 0.0972, 0.1067, 0.0761, 0.0846, 0.0796, 0.0860, 0.0785],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0222, 0.0226, 0.0242, 0.0226, 0.0212, 0.0187, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 18:05:00,466 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.61 vs. limit=2.0
+2023-04-02 18:05:09,050 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=136697.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:05:25,010 INFO [train.py:903] (2/4) Epoch 21, batch 150, loss[loss=0.2238, simple_loss=0.3058, pruned_loss=0.07092, over 19667.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2907, pruned_loss=0.06625, over 2029217.96 frames. ], batch size: 55, lr: 3.97e-03, grad_scale: 4.0
+2023-04-02 18:05:32,011 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=136715.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:05:45,589 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.079e+02 5.031e+02 5.954e+02 7.665e+02 1.668e+03, threshold=1.191e+03, percent-clipped=3.0
+2023-04-02 18:05:45,985 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=136727.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:06:02,681 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=136740.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:06:18,613 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=136752.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:06:25,303 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 18:06:27,565 INFO [train.py:903] (2/4) Epoch 21, batch 200, loss[loss=0.2164, simple_loss=0.2996, pruned_loss=0.06665, over 19500.00 frames. ], tot_loss[loss=0.2129, simple_loss=0.2915, pruned_loss=0.06715, over 2410042.11 frames. ], batch size: 64, lr: 3.97e-03, grad_scale: 4.0
+2023-04-02 18:07:29,899 INFO [train.py:903] (2/4) Epoch 21, batch 250, loss[loss=0.2055, simple_loss=0.2948, pruned_loss=0.05806, over 19688.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.292, pruned_loss=0.06722, over 2719897.91 frames. ], batch size: 53, lr: 3.97e-03, grad_scale: 4.0
+2023-04-02 18:07:32,566 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6666, 1.3805, 1.5385, 1.4026, 3.2133, 1.1396, 2.3486, 3.6426],
+       device='cuda:2'), covar=tensor([0.0468, 0.2719, 0.2647, 0.1943, 0.0694, 0.2436, 0.1170, 0.0243],
+       device='cuda:2'), in_proj_covar=tensor([0.0406, 0.0361, 0.0380, 0.0344, 0.0371, 0.0348, 0.0372, 0.0397],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:07:32,617 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=136812.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:07:47,532 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=136824.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:07:52,058 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.077e+02 4.815e+02 6.209e+02 8.068e+02 1.278e+03, threshold=1.242e+03, percent-clipped=1.0
+2023-04-02 18:08:32,582 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-02 18:08:33,038 INFO [train.py:903] (2/4) Epoch 21, batch 300, loss[loss=0.1936, simple_loss=0.2724, pruned_loss=0.05739, over 19850.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2907, pruned_loss=0.06648, over 2969458.69 frames. ], batch size: 52, lr: 3.97e-03, grad_scale: 4.0
+2023-04-02 18:08:53,742 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=136875.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:09:07,901 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.02 vs. limit=5.0
+2023-04-02 18:09:23,336 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=136900.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:09:36,400 INFO [train.py:903] (2/4) Epoch 21, batch 350, loss[loss=0.1767, simple_loss=0.2544, pruned_loss=0.04947, over 19728.00 frames. ], tot_loss[loss=0.211, simple_loss=0.2901, pruned_loss=0.06601, over 3165955.88 frames. ], batch size: 47, lr: 3.97e-03, grad_scale: 4.0
+2023-04-02 18:09:38,644 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 18:09:56,983 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.395e+02 4.835e+02 5.943e+02 7.281e+02 1.741e+03, threshold=1.189e+03, percent-clipped=3.0
+2023-04-02 18:10:38,506 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8851, 1.2237, 1.5094, 0.5694, 1.9401, 2.4318, 2.1407, 2.5939],
+       device='cuda:2'), covar=tensor([0.1645, 0.3904, 0.3438, 0.2865, 0.0643, 0.0278, 0.0342, 0.0369],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0319, 0.0347, 0.0264, 0.0240, 0.0183, 0.0215, 0.0251],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 18:10:39,342 INFO [train.py:903] (2/4) Epoch 21, batch 400, loss[loss=0.2324, simple_loss=0.3117, pruned_loss=0.07656, over 19684.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2901, pruned_loss=0.06523, over 3313060.37 frames. ], batch size: 59, lr: 3.97e-03, grad_scale: 8.0
+2023-04-02 18:11:35,378 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=137005.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:11:41,215 INFO [train.py:903] (2/4) Epoch 21, batch 450, loss[loss=0.2324, simple_loss=0.3116, pruned_loss=0.0766, over 19790.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2899, pruned_loss=0.06535, over 3439432.15 frames. ], batch size: 56, lr: 3.96e-03, grad_scale: 4.0
+2023-04-02 18:12:03,760 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.868e+02 4.613e+02 5.973e+02 7.527e+02 1.521e+03, threshold=1.195e+03, percent-clipped=6.0
+2023-04-02 18:12:12,942 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 18:12:14,059 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 18:12:43,474 INFO [train.py:903] (2/4) Epoch 21, batch 500, loss[loss=0.2146, simple_loss=0.2898, pruned_loss=0.06972, over 19769.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2899, pruned_loss=0.06533, over 3529998.06 frames. ], batch size: 63, lr: 3.96e-03, grad_scale: 4.0
+2023-04-02 18:12:53,166 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=137068.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:13:25,186 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=137093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:13:45,870 INFO [train.py:903] (2/4) Epoch 21, batch 550, loss[loss=0.2131, simple_loss=0.3039, pruned_loss=0.06118, over 19524.00 frames. ], tot_loss[loss=0.2113, simple_loss=0.2907, pruned_loss=0.06593, over 3590085.99 frames. ], batch size: 54, lr: 3.96e-03, grad_scale: 4.0
+2023-04-02 18:13:59,971 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=137120.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:14:09,845 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.012e+02 5.365e+02 6.823e+02 8.347e+02 2.113e+03, threshold=1.365e+03, percent-clipped=7.0
+2023-04-02 18:14:48,995 INFO [train.py:903] (2/4) Epoch 21, batch 600, loss[loss=0.2534, simple_loss=0.3221, pruned_loss=0.09234, over 19660.00 frames. ], tot_loss[loss=0.2128, simple_loss=0.292, pruned_loss=0.0668, over 3622963.98 frames. ], batch size: 58, lr: 3.96e-03, grad_scale: 4.0
+2023-04-02 18:14:57,089 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6301, 4.2408, 2.6724, 3.6971, 1.2500, 4.1410, 4.0252, 4.1510],
+       device='cuda:2'), covar=tensor([0.0559, 0.0984, 0.1980, 0.0884, 0.3743, 0.0653, 0.0870, 0.0989],
+       device='cuda:2'), in_proj_covar=tensor([0.0492, 0.0403, 0.0486, 0.0338, 0.0401, 0.0423, 0.0418, 0.0453],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:15:00,561 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=137168.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:15:29,930 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 18:15:53,982 INFO [train.py:903] (2/4) Epoch 21, batch 650, loss[loss=0.2675, simple_loss=0.3376, pruned_loss=0.09869, over 19504.00 frames. ], tot_loss[loss=0.2132, simple_loss=0.2923, pruned_loss=0.06712, over 3671098.73 frames. ], batch size: 64, lr: 3.96e-03, grad_scale: 4.0
+2023-04-02 18:16:12,086 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6384, 1.3366, 1.5311, 1.4717, 3.2002, 1.1644, 2.4252, 3.6052],
+       device='cuda:2'), covar=tensor([0.0483, 0.2829, 0.2887, 0.1923, 0.0686, 0.2564, 0.1278, 0.0255],
+       device='cuda:2'), in_proj_covar=tensor([0.0405, 0.0362, 0.0382, 0.0343, 0.0371, 0.0347, 0.0373, 0.0398],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:16:16,600 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.985e+02 4.775e+02 5.968e+02 8.002e+02 1.696e+03, threshold=1.194e+03, percent-clipped=7.0
+2023-04-02 18:16:56,146 INFO [train.py:903] (2/4) Epoch 21, batch 700, loss[loss=0.1932, simple_loss=0.2678, pruned_loss=0.05932, over 19754.00 frames. ], tot_loss[loss=0.2118, simple_loss=0.2909, pruned_loss=0.06641, over 3709970.71 frames. ], batch size: 46, lr: 3.96e-03, grad_scale: 4.0
+2023-04-02 18:17:26,138 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=137283.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:17:42,550 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7065, 1.7220, 1.6288, 1.4108, 1.2800, 1.4449, 0.2819, 0.6695],
+       device='cuda:2'), covar=tensor([0.0621, 0.0598, 0.0392, 0.0610, 0.1272, 0.0682, 0.1248, 0.1098],
+       device='cuda:2'), in_proj_covar=tensor([0.0359, 0.0352, 0.0355, 0.0380, 0.0458, 0.0388, 0.0335, 0.0339],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 18:17:54,693 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.52 vs. limit=2.0
+2023-04-02 18:18:00,855 INFO [train.py:903] (2/4) Epoch 21, batch 750, loss[loss=0.1991, simple_loss=0.2764, pruned_loss=0.06086, over 19607.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2899, pruned_loss=0.06552, over 3737058.10 frames. ], batch size: 50, lr: 3.96e-03, grad_scale: 4.0
+2023-04-02 18:18:22,899 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.306e+02 4.851e+02 6.236e+02 7.648e+02 2.101e+03, threshold=1.247e+03, percent-clipped=5.0
+2023-04-02 18:19:01,638 INFO [train.py:903] (2/4) Epoch 21, batch 800, loss[loss=0.2319, simple_loss=0.3161, pruned_loss=0.07391, over 19707.00 frames. ], tot_loss[loss=0.2127, simple_loss=0.2921, pruned_loss=0.06663, over 3750322.62 frames. ], batch size: 59, lr: 3.96e-03, grad_scale: 8.0
+2023-04-02 18:19:07,850 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 18:19:22,445 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=137376.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:19:34,009 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3706, 2.1652, 1.6294, 1.4831, 1.9867, 1.3149, 1.2755, 1.8691],
+       device='cuda:2'), covar=tensor([0.1082, 0.0784, 0.1094, 0.0835, 0.0569, 0.1352, 0.0816, 0.0542],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0313, 0.0336, 0.0260, 0.0245, 0.0337, 0.0292, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:19:53,531 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=137401.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:20:05,537 INFO [train.py:903] (2/4) Epoch 21, batch 850, loss[loss=0.2277, simple_loss=0.3086, pruned_loss=0.07339, over 19419.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2919, pruned_loss=0.06637, over 3765009.96 frames. ], batch size: 70, lr: 3.96e-03, grad_scale: 8.0
+2023-04-02 18:20:27,119 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.313e+02 5.583e+02 6.647e+02 8.818e+02 2.027e+03, threshold=1.329e+03, percent-clipped=5.0
+2023-04-02 18:20:48,394 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 18:21:06,665 INFO [train.py:903] (2/4) Epoch 21, batch 900, loss[loss=0.1598, simple_loss=0.2447, pruned_loss=0.03747, over 19380.00 frames. ], tot_loss[loss=0.2124, simple_loss=0.2916, pruned_loss=0.06656, over 3785658.37 frames. ], batch size: 47, lr: 3.96e-03, grad_scale: 8.0
+2023-04-02 18:21:59,573 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 18:22:08,624 INFO [train.py:903] (2/4) Epoch 21, batch 950, loss[loss=0.1694, simple_loss=0.2513, pruned_loss=0.04377, over 19319.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2908, pruned_loss=0.0662, over 3798964.04 frames. ], batch size: 44, lr: 3.96e-03, grad_scale: 8.0
+2023-04-02 18:22:31,546 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.353e+02 5.256e+02 6.264e+02 7.895e+02 1.664e+03, threshold=1.253e+03, percent-clipped=2.0
+2023-04-02 18:22:34,050 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3996, 1.4289, 1.6315, 1.6280, 2.3287, 2.1127, 2.3354, 1.0208],
+       device='cuda:2'), covar=tensor([0.2908, 0.4798, 0.3082, 0.2406, 0.1816, 0.2436, 0.1657, 0.5037],
+       device='cuda:2'), in_proj_covar=tensor([0.0530, 0.0639, 0.0703, 0.0482, 0.0619, 0.0527, 0.0661, 0.0544],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 18:22:45,746 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=137539.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:23:10,897 INFO [train.py:903] (2/4) Epoch 21, batch 1000, loss[loss=0.2, simple_loss=0.2692, pruned_loss=0.06542, over 19731.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2909, pruned_loss=0.06625, over 3815220.98 frames. ], batch size: 46, lr: 3.96e-03, grad_scale: 8.0
+2023-04-02 18:23:15,568 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=137564.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:23:55,873 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 18:24:10,012 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.30 vs. limit=5.0
+2023-04-02 18:24:14,000 INFO [train.py:903] (2/4) Epoch 21, batch 1050, loss[loss=0.2052, simple_loss=0.2911, pruned_loss=0.05962, over 18756.00 frames. ], tot_loss[loss=0.2123, simple_loss=0.2915, pruned_loss=0.06658, over 3811437.47 frames. ], batch size: 74, lr: 3.96e-03, grad_scale: 8.0
+2023-04-02 18:24:35,334 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.928e+02 5.318e+02 6.486e+02 8.521e+02 3.216e+03, threshold=1.297e+03, percent-clipped=7.0
+2023-04-02 18:24:36,542 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 18:25:17,799 INFO [train.py:903] (2/4) Epoch 21, batch 1100, loss[loss=0.1937, simple_loss=0.2848, pruned_loss=0.05126, over 19685.00 frames. ], tot_loss[loss=0.2121, simple_loss=0.2913, pruned_loss=0.06642, over 3817990.91 frames. ], batch size: 59, lr: 3.96e-03, grad_scale: 8.0
+2023-04-02 18:25:48,781 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2476, 3.7736, 3.9217, 3.9285, 1.6028, 3.7269, 3.2120, 3.6620],
+       device='cuda:2'), covar=tensor([0.1732, 0.0961, 0.0678, 0.0746, 0.5760, 0.1023, 0.0783, 0.1163],
+       device='cuda:2'), in_proj_covar=tensor([0.0778, 0.0729, 0.0938, 0.0824, 0.0828, 0.0696, 0.0565, 0.0867],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 18:26:19,703 INFO [train.py:903] (2/4) Epoch 21, batch 1150, loss[loss=0.1715, simple_loss=0.2448, pruned_loss=0.04909, over 19736.00 frames. ], tot_loss[loss=0.21, simple_loss=0.2895, pruned_loss=0.06527, over 3816794.58 frames. ], batch size: 46, lr: 3.95e-03, grad_scale: 4.0
+2023-04-02 18:26:43,796 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.088e+02 5.127e+02 6.263e+02 7.580e+02 1.245e+03, threshold=1.253e+03, percent-clipped=0.0
+2023-04-02 18:27:19,133 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5739, 1.5790, 1.7751, 1.7683, 2.5032, 2.3647, 2.6133, 1.3025],
+       device='cuda:2'), covar=tensor([0.2233, 0.3888, 0.2453, 0.1824, 0.1517, 0.1926, 0.1458, 0.4093],
+       device='cuda:2'), in_proj_covar=tensor([0.0530, 0.0640, 0.0704, 0.0483, 0.0618, 0.0528, 0.0662, 0.0544],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 18:27:22,172 INFO [train.py:903] (2/4) Epoch 21, batch 1200, loss[loss=0.1914, simple_loss=0.2688, pruned_loss=0.05704, over 19778.00 frames. ], tot_loss[loss=0.2109, simple_loss=0.2898, pruned_loss=0.066, over 3806080.27 frames. ], batch size: 48, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:27:46,782 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 18:27:50,664 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2353, 1.3199, 1.3946, 1.5139, 1.1356, 1.4525, 1.4675, 1.3532],
+       device='cuda:2'), covar=tensor([0.2857, 0.2346, 0.1388, 0.1559, 0.2592, 0.1409, 0.3270, 0.2300],
+       device='cuda:2'), in_proj_covar=tensor([0.0886, 0.0951, 0.0710, 0.0927, 0.0868, 0.0801, 0.0833, 0.0776],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 18:28:25,533 INFO [train.py:903] (2/4) Epoch 21, batch 1250, loss[loss=0.1953, simple_loss=0.287, pruned_loss=0.05174, over 19495.00 frames. ], tot_loss[loss=0.2106, simple_loss=0.2895, pruned_loss=0.06586, over 3789417.30 frames. ], batch size: 64, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:28:36,406 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3110, 1.1421, 1.5084, 1.3992, 2.8091, 1.1676, 2.2076, 3.2293],
+       device='cuda:2'), covar=tensor([0.0641, 0.3011, 0.2697, 0.1918, 0.0901, 0.2478, 0.1433, 0.0351],
+       device='cuda:2'), in_proj_covar=tensor([0.0403, 0.0360, 0.0379, 0.0343, 0.0370, 0.0345, 0.0373, 0.0397],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:28:48,816 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.413e+02 5.084e+02 5.991e+02 7.123e+02 1.423e+03, threshold=1.198e+03, percent-clipped=5.0
+2023-04-02 18:29:27,971 INFO [train.py:903] (2/4) Epoch 21, batch 1300, loss[loss=0.2214, simple_loss=0.2927, pruned_loss=0.07511, over 19663.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2893, pruned_loss=0.06582, over 3797642.79 frames. ], batch size: 55, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:29:36,714 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.38 vs. limit=5.0
+2023-04-02 18:30:30,615 INFO [train.py:903] (2/4) Epoch 21, batch 1350, loss[loss=0.2067, simple_loss=0.2913, pruned_loss=0.06106, over 19763.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2898, pruned_loss=0.06558, over 3790165.35 frames. ], batch size: 54, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:30:30,914 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=137910.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:30:34,415 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=137913.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:30:54,797 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.119e+02 5.098e+02 6.340e+02 8.452e+02 2.491e+03, threshold=1.268e+03, percent-clipped=6.0
+2023-04-02 18:30:59,193 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.47 vs. limit=2.0
+2023-04-02 18:31:33,358 INFO [train.py:903] (2/4) Epoch 21, batch 1400, loss[loss=0.2278, simple_loss=0.3045, pruned_loss=0.07557, over 19655.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2896, pruned_loss=0.06568, over 3808536.52 frames. ], batch size: 58, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:32:28,121 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 18:32:33,095 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4532, 1.5414, 1.7748, 1.7003, 2.6636, 2.3296, 2.7796, 1.0722],
+       device='cuda:2'), covar=tensor([0.2495, 0.4430, 0.2676, 0.2021, 0.1502, 0.2170, 0.1377, 0.4709],
+       device='cuda:2'), in_proj_covar=tensor([0.0533, 0.0644, 0.0707, 0.0485, 0.0621, 0.0529, 0.0666, 0.0548],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 18:32:37,232 INFO [train.py:903] (2/4) Epoch 21, batch 1450, loss[loss=0.2303, simple_loss=0.3119, pruned_loss=0.0743, over 19612.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2895, pruned_loss=0.06555, over 3814619.81 frames. ], batch size: 61, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:32:53,767 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8861, 1.9968, 2.2291, 2.5033, 1.8647, 2.4220, 2.2875, 2.0847],
+       device='cuda:2'), covar=tensor([0.4093, 0.3610, 0.1803, 0.2307, 0.3857, 0.1975, 0.4585, 0.3161],
+       device='cuda:2'), in_proj_covar=tensor([0.0886, 0.0949, 0.0709, 0.0927, 0.0867, 0.0800, 0.0831, 0.0775],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 18:33:01,289 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.354e+02 4.676e+02 5.543e+02 6.978e+02 2.034e+03, threshold=1.109e+03, percent-clipped=2.0
+2023-04-02 18:33:31,757 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
+2023-04-02 18:33:39,043 INFO [train.py:903] (2/4) Epoch 21, batch 1500, loss[loss=0.1852, simple_loss=0.2636, pruned_loss=0.05343, over 19469.00 frames. ], tot_loss[loss=0.2086, simple_loss=0.2878, pruned_loss=0.06468, over 3831775.67 frames. ], batch size: 49, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:33:50,780 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6880, 2.6074, 2.2209, 2.7165, 2.7130, 2.3506, 2.1329, 2.7134],
+       device='cuda:2'), covar=tensor([0.0910, 0.1457, 0.1374, 0.1042, 0.1193, 0.0509, 0.1354, 0.0599],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0354, 0.0307, 0.0248, 0.0297, 0.0249, 0.0307, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:34:26,142 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5570, 1.2779, 1.1610, 1.3963, 1.1093, 1.2367, 1.1154, 1.3762],
+       device='cuda:2'), covar=tensor([0.1187, 0.1242, 0.1784, 0.1130, 0.1438, 0.0859, 0.1798, 0.0948],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0355, 0.0309, 0.0249, 0.0298, 0.0251, 0.0309, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:34:42,049 INFO [train.py:903] (2/4) Epoch 21, batch 1550, loss[loss=0.2405, simple_loss=0.3133, pruned_loss=0.08384, over 19664.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2883, pruned_loss=0.06462, over 3832708.40 frames. ], batch size: 55, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:35:05,477 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.935e+02 5.280e+02 6.228e+02 7.726e+02 2.313e+03, threshold=1.246e+03, percent-clipped=5.0
+2023-04-02 18:35:44,850 INFO [train.py:903] (2/4) Epoch 21, batch 1600, loss[loss=0.255, simple_loss=0.3283, pruned_loss=0.09084, over 19677.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2886, pruned_loss=0.06458, over 3832444.85 frames. ], batch size: 58, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:36:07,163 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 18:36:48,267 INFO [train.py:903] (2/4) Epoch 21, batch 1650, loss[loss=0.2068, simple_loss=0.2912, pruned_loss=0.06121, over 19546.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2879, pruned_loss=0.06406, over 3825419.30 frames. ], batch size: 56, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:37:12,983 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.826e+02 4.591e+02 5.832e+02 7.172e+02 1.632e+03, threshold=1.166e+03, percent-clipped=1.0
+2023-04-02 18:37:43,164 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=138254.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:37:46,572 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=138257.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:37:49,815 INFO [train.py:903] (2/4) Epoch 21, batch 1700, loss[loss=0.1971, simple_loss=0.2834, pruned_loss=0.05536, over 19762.00 frames. ], tot_loss[loss=0.208, simple_loss=0.288, pruned_loss=0.06406, over 3840589.65 frames. ], batch size: 54, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:38:24,226 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=138288.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:38:28,559 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 18:38:53,714 INFO [train.py:903] (2/4) Epoch 21, batch 1750, loss[loss=0.2023, simple_loss=0.2897, pruned_loss=0.05746, over 17375.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2873, pruned_loss=0.0637, over 3839604.98 frames. ], batch size: 101, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:39:16,065 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.511e+02 4.819e+02 5.989e+02 8.047e+02 2.111e+03, threshold=1.198e+03, percent-clipped=8.0
+2023-04-02 18:39:30,307 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-02 18:39:30,906 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=138340.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:39:55,289 INFO [train.py:903] (2/4) Epoch 21, batch 1800, loss[loss=0.2481, simple_loss=0.3206, pruned_loss=0.08784, over 17242.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.2875, pruned_loss=0.06415, over 3830634.88 frames. ], batch size: 101, lr: 3.95e-03, grad_scale: 8.0
+2023-04-02 18:40:05,990 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=138369.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:40:10,933 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=138372.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:40:54,342 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 18:40:57,825 INFO [train.py:903] (2/4) Epoch 21, batch 1850, loss[loss=0.2602, simple_loss=0.3316, pruned_loss=0.09434, over 17433.00 frames. ], tot_loss[loss=0.2081, simple_loss=0.2877, pruned_loss=0.06423, over 3806540.60 frames. ], batch size: 101, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:41:22,806 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.428e+02 4.784e+02 5.677e+02 7.800e+02 1.333e+03, threshold=1.135e+03, percent-clipped=2.0
+2023-04-02 18:41:34,207 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 18:41:34,574 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2168, 2.0242, 1.9579, 1.7648, 1.5118, 1.7425, 0.5699, 1.1459],
+       device='cuda:2'), covar=tensor([0.0591, 0.0614, 0.0431, 0.0786, 0.1118, 0.0873, 0.1221, 0.1021],
+       device='cuda:2'), in_proj_covar=tensor([0.0360, 0.0354, 0.0359, 0.0383, 0.0460, 0.0388, 0.0335, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 18:42:01,833 INFO [train.py:903] (2/4) Epoch 21, batch 1900, loss[loss=0.2473, simple_loss=0.3272, pruned_loss=0.08371, over 19489.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2887, pruned_loss=0.06492, over 3791535.98 frames. ], batch size: 64, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:42:18,798 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 18:42:23,559 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 18:42:48,366 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 18:43:04,462 INFO [train.py:903] (2/4) Epoch 21, batch 1950, loss[loss=0.2202, simple_loss=0.2993, pruned_loss=0.07052, over 19581.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2888, pruned_loss=0.06488, over 3801572.08 frames. ], batch size: 61, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:43:27,759 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.334e+02 4.783e+02 6.007e+02 7.405e+02 3.008e+03, threshold=1.201e+03, percent-clipped=4.0
+2023-04-02 18:43:49,770 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2464, 2.1380, 2.0458, 1.8503, 1.6610, 1.8123, 0.5287, 1.2228],
+       device='cuda:2'), covar=tensor([0.0607, 0.0579, 0.0416, 0.0724, 0.1091, 0.0874, 0.1285, 0.1010],
+       device='cuda:2'), in_proj_covar=tensor([0.0361, 0.0354, 0.0360, 0.0383, 0.0461, 0.0389, 0.0336, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 18:44:06,917 INFO [train.py:903] (2/4) Epoch 21, batch 2000, loss[loss=0.2283, simple_loss=0.3122, pruned_loss=0.07223, over 19663.00 frames. ], tot_loss[loss=0.209, simple_loss=0.2886, pruned_loss=0.0647, over 3800679.32 frames. ], batch size: 58, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:44:09,477 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9026, 4.4776, 2.6378, 3.9660, 1.1213, 4.4166, 4.2749, 4.4597],
+       device='cuda:2'), covar=tensor([0.0557, 0.0924, 0.2134, 0.0837, 0.3854, 0.0701, 0.0837, 0.0980],
+       device='cuda:2'), in_proj_covar=tensor([0.0497, 0.0407, 0.0493, 0.0344, 0.0402, 0.0429, 0.0421, 0.0458],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:45:03,879 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 18:45:08,462 INFO [train.py:903] (2/4) Epoch 21, batch 2050, loss[loss=0.2748, simple_loss=0.3356, pruned_loss=0.1069, over 13551.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2887, pruned_loss=0.06478, over 3790099.82 frames. ], batch size: 136, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:45:22,122 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 18:45:23,297 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 18:45:28,204 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=138625.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:45:32,726 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=138628.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:45:33,541 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.887e+02 4.818e+02 6.151e+02 8.119e+02 1.355e+03, threshold=1.230e+03, percent-clipped=5.0
+2023-04-02 18:45:38,225 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=138632.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:45:45,240 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 18:45:59,992 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=138650.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:46:03,349 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6108, 4.2473, 2.7685, 3.7599, 1.3583, 4.1130, 3.9925, 4.1703],
+       device='cuda:2'), covar=tensor([0.0627, 0.0896, 0.1907, 0.0769, 0.3462, 0.0684, 0.0884, 0.1147],
+       device='cuda:2'), in_proj_covar=tensor([0.0493, 0.0404, 0.0487, 0.0342, 0.0398, 0.0425, 0.0417, 0.0454],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:46:03,528 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=138653.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:46:12,219 INFO [train.py:903] (2/4) Epoch 21, batch 2100, loss[loss=0.2225, simple_loss=0.2982, pruned_loss=0.07337, over 19687.00 frames. ], tot_loss[loss=0.2097, simple_loss=0.2894, pruned_loss=0.06497, over 3795369.70 frames. ], batch size: 53, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:46:29,068 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2020, 1.2709, 1.2256, 1.0168, 1.0847, 1.0429, 0.0805, 0.3491],
+       device='cuda:2'), covar=tensor([0.0662, 0.0643, 0.0419, 0.0570, 0.1210, 0.0661, 0.1304, 0.1101],
+       device='cuda:2'), in_proj_covar=tensor([0.0360, 0.0353, 0.0359, 0.0382, 0.0460, 0.0388, 0.0335, 0.0340],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 18:46:33,636 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9545, 1.4354, 1.6926, 1.9096, 4.4799, 1.1932, 2.3678, 4.8112],
+       device='cuda:2'), covar=tensor([0.0403, 0.2938, 0.3100, 0.1789, 0.0708, 0.2743, 0.1646, 0.0177],
+       device='cuda:2'), in_proj_covar=tensor([0.0408, 0.0365, 0.0384, 0.0346, 0.0373, 0.0349, 0.0376, 0.0401],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:46:39,334 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 18:46:41,748 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=138684.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:47:00,996 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=138699.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:47:02,041 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 18:47:06,963 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=138704.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:47:14,538 INFO [train.py:903] (2/4) Epoch 21, batch 2150, loss[loss=0.2135, simple_loss=0.294, pruned_loss=0.06649, over 18806.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2895, pruned_loss=0.06518, over 3804279.12 frames. ], batch size: 74, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:47:21,574 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=138715.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:47:26,524 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0327, 2.1151, 2.3297, 2.8163, 2.1542, 2.7348, 2.3824, 2.1217],
+       device='cuda:2'), covar=tensor([0.4159, 0.3867, 0.1812, 0.2263, 0.4030, 0.1955, 0.4727, 0.3306],
+       device='cuda:2'), in_proj_covar=tensor([0.0883, 0.0946, 0.0707, 0.0924, 0.0865, 0.0797, 0.0827, 0.0772],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 18:47:37,630 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.976e+02 5.033e+02 5.895e+02 7.227e+02 1.459e+03, threshold=1.179e+03, percent-clipped=3.0
+2023-04-02 18:48:00,951 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=138747.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:48:18,134 INFO [train.py:903] (2/4) Epoch 21, batch 2200, loss[loss=0.2736, simple_loss=0.3477, pruned_loss=0.09974, over 17287.00 frames. ], tot_loss[loss=0.2097, simple_loss=0.2891, pruned_loss=0.06515, over 3803839.10 frames. ], batch size: 101, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:49:08,074 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=138799.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:49:20,491 INFO [train.py:903] (2/4) Epoch 21, batch 2250, loss[loss=0.2737, simple_loss=0.3503, pruned_loss=0.09854, over 18793.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2896, pruned_loss=0.06538, over 3796061.44 frames. ], batch size: 74, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:49:44,479 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.352e+02 5.230e+02 6.732e+02 8.271e+02 2.316e+03, threshold=1.346e+03, percent-clipped=7.0
+2023-04-02 18:50:23,822 INFO [train.py:903] (2/4) Epoch 21, batch 2300, loss[loss=0.2456, simple_loss=0.3167, pruned_loss=0.08727, over 13393.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2896, pruned_loss=0.06538, over 3797257.35 frames. ], batch size: 136, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:50:38,381 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 18:51:27,174 INFO [train.py:903] (2/4) Epoch 21, batch 2350, loss[loss=0.2014, simple_loss=0.2801, pruned_loss=0.06134, over 19851.00 frames. ], tot_loss[loss=0.2095, simple_loss=0.2892, pruned_loss=0.0649, over 3801764.14 frames. ], batch size: 52, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:51:48,951 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=138927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:51:50,720 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.927e+02 4.807e+02 6.646e+02 8.268e+02 1.737e+03, threshold=1.329e+03, percent-clipped=3.0
+2023-04-02 18:52:08,313 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 18:52:24,438 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 18:52:31,431 INFO [train.py:903] (2/4) Epoch 21, batch 2400, loss[loss=0.2466, simple_loss=0.3186, pruned_loss=0.08736, over 19849.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.29, pruned_loss=0.06534, over 3792599.04 frames. ], batch size: 52, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:53:25,691 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0311, 2.1116, 1.6190, 1.9951, 1.9963, 1.4531, 1.5899, 1.8194],
+       device='cuda:2'), covar=tensor([0.1247, 0.1757, 0.2026, 0.1327, 0.1628, 0.1168, 0.2016, 0.1201],
+       device='cuda:2'), in_proj_covar=tensor([0.0266, 0.0354, 0.0308, 0.0248, 0.0298, 0.0249, 0.0307, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:53:26,783 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=139003.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:53:34,421 INFO [train.py:903] (2/4) Epoch 21, batch 2450, loss[loss=0.1718, simple_loss=0.2554, pruned_loss=0.04412, over 19735.00 frames. ], tot_loss[loss=0.2101, simple_loss=0.2901, pruned_loss=0.06508, over 3787420.35 frames. ], batch size: 51, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:53:59,175 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=139028.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:53:59,945 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.106e+02 5.027e+02 6.383e+02 8.090e+02 1.476e+03, threshold=1.277e+03, percent-clipped=1.0
+2023-04-02 18:54:17,225 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139043.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:54:22,820 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139048.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:54:31,522 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=139055.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:54:38,302 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139059.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:54:39,183 INFO [train.py:903] (2/4) Epoch 21, batch 2500, loss[loss=0.2338, simple_loss=0.3217, pruned_loss=0.07295, over 19329.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2895, pruned_loss=0.06447, over 3799563.68 frames. ], batch size: 70, lr: 3.94e-03, grad_scale: 8.0
+2023-04-02 18:55:05,339 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=139080.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:55:35,343 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9600, 1.6967, 1.5757, 1.8557, 1.5286, 1.5561, 1.5215, 1.7524],
+       device='cuda:2'), covar=tensor([0.1036, 0.1465, 0.1523, 0.1180, 0.1444, 0.0585, 0.1501, 0.0801],
+       device='cuda:2'), in_proj_covar=tensor([0.0265, 0.0353, 0.0307, 0.0247, 0.0296, 0.0248, 0.0306, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 18:55:42,982 INFO [train.py:903] (2/4) Epoch 21, batch 2550, loss[loss=0.1867, simple_loss=0.2769, pruned_loss=0.04831, over 19663.00 frames. ], tot_loss[loss=0.2095, simple_loss=0.2896, pruned_loss=0.06471, over 3798381.74 frames. ], batch size: 60, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 18:56:06,420 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.656e+02 4.926e+02 6.170e+02 7.459e+02 2.294e+03, threshold=1.234e+03, percent-clipped=3.0
+2023-04-02 18:56:35,479 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 18:56:43,492 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=139158.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:56:45,330 INFO [train.py:903] (2/4) Epoch 21, batch 2600, loss[loss=0.2214, simple_loss=0.2975, pruned_loss=0.0726, over 19560.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2891, pruned_loss=0.06505, over 3809764.25 frames. ], batch size: 52, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 18:56:49,244 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=139163.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:57:02,175 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=139174.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:57:47,158 INFO [train.py:903] (2/4) Epoch 21, batch 2650, loss[loss=0.2227, simple_loss=0.3009, pruned_loss=0.07228, over 19530.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2879, pruned_loss=0.06443, over 3825921.57 frames. ], batch size: 54, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 18:58:08,387 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 18:58:13,098 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.645e+02 4.962e+02 5.879e+02 7.846e+02 2.263e+03, threshold=1.176e+03, percent-clipped=6.0
+2023-04-02 18:58:29,431 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6554, 1.5544, 1.5524, 2.0688, 1.6620, 2.0391, 2.1364, 1.8341],
+       device='cuda:2'), covar=tensor([0.0846, 0.0926, 0.1006, 0.0852, 0.0843, 0.0731, 0.0768, 0.0683],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0225, 0.0241, 0.0225, 0.0211, 0.0187, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 18:58:39,743 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3280, 1.4103, 1.6078, 1.5436, 2.4394, 2.1424, 2.6542, 1.1114],
+       device='cuda:2'), covar=tensor([0.2445, 0.4253, 0.2724, 0.2002, 0.1505, 0.2093, 0.1274, 0.4451],
+       device='cuda:2'), in_proj_covar=tensor([0.0529, 0.0638, 0.0705, 0.0482, 0.0619, 0.0525, 0.0659, 0.0546],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 18:58:45,377 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139256.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:58:49,503 INFO [train.py:903] (2/4) Epoch 21, batch 2700, loss[loss=0.213, simple_loss=0.2868, pruned_loss=0.06962, over 19718.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2873, pruned_loss=0.06404, over 3818398.17 frames. ], batch size: 51, lr: 3.93e-03, grad_scale: 4.0
+2023-04-02 18:59:04,240 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139271.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:59:33,188 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139294.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:59:49,948 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139307.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 18:59:52,985 INFO [train.py:903] (2/4) Epoch 21, batch 2750, loss[loss=0.204, simple_loss=0.2794, pruned_loss=0.06433, over 19676.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2864, pruned_loss=0.0638, over 3825059.82 frames. ], batch size: 53, lr: 3.93e-03, grad_scale: 4.0
+2023-04-02 19:00:18,059 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.927e+02 4.705e+02 5.796e+02 7.407e+02 1.811e+03, threshold=1.159e+03, percent-clipped=2.0
+2023-04-02 19:00:55,535 INFO [train.py:903] (2/4) Epoch 21, batch 2800, loss[loss=0.185, simple_loss=0.2706, pruned_loss=0.04968, over 19540.00 frames. ], tot_loss[loss=0.2082, simple_loss=0.2871, pruned_loss=0.06461, over 3813306.25 frames. ], batch size: 54, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:01:28,018 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=139386.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:01:58,449 INFO [train.py:903] (2/4) Epoch 21, batch 2850, loss[loss=0.1979, simple_loss=0.2809, pruned_loss=0.05743, over 19758.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2872, pruned_loss=0.06436, over 3822232.39 frames. ], batch size: 54, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:02:03,742 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=139414.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:02:09,489 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=139419.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:02:10,594 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5880, 4.1493, 4.2980, 4.3153, 1.7780, 4.0610, 3.5419, 4.0259],
+       device='cuda:2'), covar=tensor([0.1585, 0.0797, 0.0636, 0.0647, 0.5464, 0.0820, 0.0700, 0.1144],
+       device='cuda:2'), in_proj_covar=tensor([0.0778, 0.0730, 0.0942, 0.0820, 0.0826, 0.0693, 0.0568, 0.0870],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 19:02:23,967 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.945e+02 5.282e+02 6.184e+02 7.725e+02 1.552e+03, threshold=1.237e+03, percent-clipped=4.0
+2023-04-02 19:02:24,375 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=139430.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:02:35,344 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=139439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:02:42,185 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=139444.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:02:54,861 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=139455.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:02:57,821 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 19:03:00,109 INFO [train.py:903] (2/4) Epoch 21, batch 2900, loss[loss=0.2037, simple_loss=0.2902, pruned_loss=0.05863, over 19689.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2891, pruned_loss=0.0653, over 3820607.05 frames. ], batch size: 59, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:04:04,512 INFO [train.py:903] (2/4) Epoch 21, batch 2950, loss[loss=0.2419, simple_loss=0.3159, pruned_loss=0.08395, over 13981.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2887, pruned_loss=0.06487, over 3816926.23 frames. ], batch size: 137, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:04:28,834 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.677e+02 4.684e+02 5.947e+02 7.442e+02 1.403e+03, threshold=1.189e+03, percent-clipped=5.0
+2023-04-02 19:04:42,961 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0105, 0.9452, 1.1696, 1.4446, 2.3849, 1.2112, 2.2678, 2.8153],
+       device='cuda:2'), covar=tensor([0.0791, 0.3811, 0.3781, 0.2205, 0.1242, 0.2688, 0.1256, 0.0530],
+       device='cuda:2'), in_proj_covar=tensor([0.0408, 0.0362, 0.0381, 0.0343, 0.0369, 0.0347, 0.0373, 0.0399],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:04:49,990 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8812, 1.3335, 1.0887, 0.9805, 1.1487, 1.0059, 0.8733, 1.2468],
+       device='cuda:2'), covar=tensor([0.0631, 0.0815, 0.1156, 0.0733, 0.0576, 0.1269, 0.0662, 0.0481],
+       device='cuda:2'), in_proj_covar=tensor([0.0300, 0.0311, 0.0334, 0.0259, 0.0244, 0.0335, 0.0289, 0.0272],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:05:06,920 INFO [train.py:903] (2/4) Epoch 21, batch 3000, loss[loss=0.2262, simple_loss=0.3006, pruned_loss=0.07595, over 19585.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2903, pruned_loss=0.066, over 3797128.63 frames. ], batch size: 52, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:05:06,920 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 19:05:14,392 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2602, 1.3121, 1.5398, 1.6770, 1.2029, 1.5770, 1.5188, 1.3650],
+       device='cuda:2'), covar=tensor([0.3264, 0.3571, 0.1587, 0.1956, 0.3638, 0.1840, 0.3800, 0.2745],
+       device='cuda:2'), in_proj_covar=tensor([0.0890, 0.0953, 0.0710, 0.0929, 0.0869, 0.0803, 0.0834, 0.0775],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 19:05:15,732 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6952, 3.3478, 2.6703, 3.1121, 0.8250, 3.3235, 3.1587, 3.4909],
+       device='cuda:2'), covar=tensor([0.0837, 0.0874, 0.1741, 0.0978, 0.3876, 0.0904, 0.0926, 0.1262],
+       device='cuda:2'), in_proj_covar=tensor([0.0495, 0.0407, 0.0488, 0.0342, 0.0398, 0.0424, 0.0419, 0.0455],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:05:20,614 INFO [train.py:937] (2/4) Epoch 21, validation: loss=0.1693, simple_loss=0.2693, pruned_loss=0.03465, over 944034.00 frames. 
+2023-04-02 19:05:20,614 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 19:05:21,110 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3230, 1.3245, 1.4901, 1.4711, 1.8752, 1.8760, 1.8701, 0.6219],
+       device='cuda:2'), covar=tensor([0.2348, 0.4167, 0.2622, 0.1899, 0.1481, 0.2167, 0.1301, 0.4546],
+       device='cuda:2'), in_proj_covar=tensor([0.0530, 0.0638, 0.0706, 0.0482, 0.0618, 0.0527, 0.0660, 0.0546],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 19:05:24,362 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 19:05:57,548 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139589.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:06:12,382 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139600.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:06:12,513 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139600.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:06:23,819 INFO [train.py:903] (2/4) Epoch 21, batch 3050, loss[loss=0.1945, simple_loss=0.2872, pruned_loss=0.05093, over 19800.00 frames. ], tot_loss[loss=0.2119, simple_loss=0.2911, pruned_loss=0.06638, over 3790826.13 frames. ], batch size: 56, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:06:48,011 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.185e+02 5.171e+02 6.119e+02 7.965e+02 1.649e+03, threshold=1.224e+03, percent-clipped=3.0
+2023-04-02 19:06:57,082 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139638.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:07:03,647 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=139642.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:07:08,081 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2614, 1.3166, 1.7746, 1.2907, 2.7812, 3.7455, 3.4308, 3.8580],
+       device='cuda:2'), covar=tensor([0.1579, 0.3823, 0.3214, 0.2407, 0.0562, 0.0163, 0.0193, 0.0248],
+       device='cuda:2'), in_proj_covar=tensor([0.0269, 0.0319, 0.0349, 0.0263, 0.0241, 0.0185, 0.0216, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 19:07:14,493 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139651.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:07:24,504 INFO [train.py:903] (2/4) Epoch 21, batch 3100, loss[loss=0.2221, simple_loss=0.3044, pruned_loss=0.06994, over 19604.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2907, pruned_loss=0.06591, over 3797934.99 frames. ], batch size: 61, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:07:34,122 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=139667.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:08:25,943 INFO [train.py:903] (2/4) Epoch 21, batch 3150, loss[loss=0.2369, simple_loss=0.3157, pruned_loss=0.07907, over 19571.00 frames. ], tot_loss[loss=0.2107, simple_loss=0.29, pruned_loss=0.06575, over 3806675.66 frames. ], batch size: 61, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:08:32,315 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=139715.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:08:51,310 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.442e+02 5.084e+02 6.643e+02 9.166e+02 2.493e+03, threshold=1.329e+03, percent-clipped=12.0
+2023-04-02 19:08:52,499 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 19:09:19,214 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=139753.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:09:28,038 INFO [train.py:903] (2/4) Epoch 21, batch 3200, loss[loss=0.2339, simple_loss=0.312, pruned_loss=0.07789, over 19763.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2903, pruned_loss=0.06601, over 3810634.53 frames. ], batch size: 63, lr: 3.93e-03, grad_scale: 8.0
+2023-04-02 19:09:36,896 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=139766.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:10:01,994 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139787.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:10:13,286 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5747, 1.5515, 1.9012, 1.8454, 3.1552, 4.8033, 4.6593, 5.2470],
+       device='cuda:2'), covar=tensor([0.1510, 0.3628, 0.3274, 0.2115, 0.0578, 0.0194, 0.0164, 0.0154],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0322, 0.0352, 0.0265, 0.0243, 0.0186, 0.0217, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 19:10:27,865 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139807.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:10:30,923 INFO [train.py:903] (2/4) Epoch 21, batch 3250, loss[loss=0.2113, simple_loss=0.2937, pruned_loss=0.06445, over 19698.00 frames. ], tot_loss[loss=0.2101, simple_loss=0.2892, pruned_loss=0.06556, over 3809473.50 frames. ], batch size: 59, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:10:46,099 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139822.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:10:48,426 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139824.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:10:55,283 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.059e+02 5.030e+02 6.558e+02 8.674e+02 2.471e+03, threshold=1.312e+03, percent-clipped=9.0
+2023-04-02 19:11:32,326 INFO [train.py:903] (2/4) Epoch 21, batch 3300, loss[loss=0.2491, simple_loss=0.3329, pruned_loss=0.08265, over 19315.00 frames. ], tot_loss[loss=0.21, simple_loss=0.2887, pruned_loss=0.06563, over 3804370.41 frames. ], batch size: 66, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:11:35,811 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 19:11:43,160 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=139868.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:12:34,958 INFO [train.py:903] (2/4) Epoch 21, batch 3350, loss[loss=0.222, simple_loss=0.3076, pruned_loss=0.06814, over 19513.00 frames. ], tot_loss[loss=0.21, simple_loss=0.289, pruned_loss=0.06553, over 3814322.25 frames. ], batch size: 64, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:12:43,071 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1996, 1.3044, 1.7076, 1.3785, 2.6647, 3.8376, 3.5393, 3.9711],
+       device='cuda:2'), covar=tensor([0.1641, 0.3694, 0.3307, 0.2312, 0.0610, 0.0186, 0.0202, 0.0268],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0321, 0.0350, 0.0263, 0.0242, 0.0185, 0.0216, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 19:13:00,884 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.203e+02 4.734e+02 5.660e+02 7.256e+02 1.171e+03, threshold=1.132e+03, percent-clipped=0.0
+2023-04-02 19:13:04,630 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139933.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:13:17,288 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=139944.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:13:37,533 INFO [train.py:903] (2/4) Epoch 21, batch 3400, loss[loss=0.2184, simple_loss=0.306, pruned_loss=0.06539, over 19763.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2884, pruned_loss=0.06537, over 3822663.58 frames. ], batch size: 54, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:13:42,149 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7801, 1.2296, 1.5710, 1.4834, 3.3343, 1.1457, 2.4449, 3.7582],
+       device='cuda:2'), covar=tensor([0.0458, 0.2911, 0.2868, 0.1977, 0.0682, 0.2534, 0.1312, 0.0223],
+       device='cuda:2'), in_proj_covar=tensor([0.0407, 0.0363, 0.0382, 0.0343, 0.0369, 0.0346, 0.0373, 0.0398],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:13:52,384 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=139971.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:14:20,972 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9275, 1.8113, 1.5766, 1.9964, 1.6391, 1.5930, 1.5195, 1.7803],
+       device='cuda:2'), covar=tensor([0.1102, 0.1347, 0.1525, 0.0973, 0.1355, 0.0634, 0.1586, 0.0802],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0356, 0.0309, 0.0249, 0.0299, 0.0250, 0.0309, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:14:22,130 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=139996.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:14:41,307 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140009.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:14:42,107 INFO [train.py:903] (2/4) Epoch 21, batch 3450, loss[loss=0.2093, simple_loss=0.2948, pruned_loss=0.06189, over 19530.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2906, pruned_loss=0.06631, over 3821637.89 frames. ], batch size: 54, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:14:43,247 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 19:14:46,246 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.40 vs. limit=5.0
+2023-04-02 19:14:56,556 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140022.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:15:06,287 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.793e+02 5.068e+02 6.577e+02 8.644e+02 2.362e+03, threshold=1.315e+03, percent-clipped=9.0
+2023-04-02 19:15:11,059 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140034.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:15:27,221 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140047.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:15:28,338 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140048.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:15:41,637 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140059.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:15:42,379 INFO [train.py:903] (2/4) Epoch 21, batch 3500, loss[loss=0.2462, simple_loss=0.3201, pruned_loss=0.08613, over 19460.00 frames. ], tot_loss[loss=0.2115, simple_loss=0.2904, pruned_loss=0.06629, over 3827866.49 frames. ], batch size: 64, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:16:45,564 INFO [train.py:903] (2/4) Epoch 21, batch 3550, loss[loss=0.1832, simple_loss=0.2594, pruned_loss=0.05348, over 19294.00 frames. ], tot_loss[loss=0.2111, simple_loss=0.29, pruned_loss=0.06606, over 3822665.85 frames. ], batch size: 44, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:16:59,759 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140121.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:17:08,461 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:17:10,318 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.090e+02 5.095e+02 6.549e+02 8.089e+02 2.006e+03, threshold=1.310e+03, percent-clipped=2.0
+2023-04-02 19:17:12,581 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140131.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:17:34,939 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8957, 4.3574, 4.6220, 4.6093, 1.6948, 4.3643, 3.7366, 4.3387],
+       device='cuda:2'), covar=tensor([0.1621, 0.0796, 0.0550, 0.0631, 0.5772, 0.0873, 0.0629, 0.1054],
+       device='cuda:2'), in_proj_covar=tensor([0.0774, 0.0732, 0.0935, 0.0822, 0.0824, 0.0694, 0.0567, 0.0870],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 19:17:36,889 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140151.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:17:36,954 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.9387, 5.3683, 3.1587, 4.6626, 1.0747, 5.4234, 5.3528, 5.4367],
+       device='cuda:2'), covar=tensor([0.0385, 0.0742, 0.1691, 0.0720, 0.3953, 0.0565, 0.0738, 0.0970],
+       device='cuda:2'), in_proj_covar=tensor([0.0501, 0.0412, 0.0493, 0.0348, 0.0404, 0.0431, 0.0425, 0.0462],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:17:47,030 INFO [train.py:903] (2/4) Epoch 21, batch 3600, loss[loss=0.2289, simple_loss=0.3092, pruned_loss=0.07429, over 19670.00 frames. ], tot_loss[loss=0.211, simple_loss=0.2901, pruned_loss=0.06591, over 3830457.41 frames. ], batch size: 60, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:17:56,434 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140166.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:17:56,705 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2816, 2.0091, 1.5323, 1.3818, 1.8497, 1.1755, 1.3599, 1.7425],
+       device='cuda:2'), covar=tensor([0.0931, 0.0738, 0.1110, 0.0805, 0.0497, 0.1312, 0.0586, 0.0438],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0314, 0.0337, 0.0262, 0.0246, 0.0336, 0.0290, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:17:58,702 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140168.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:18:34,571 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5116, 2.5954, 2.1274, 2.5402, 2.4662, 2.0534, 1.9316, 2.4592],
+       device='cuda:2'), covar=tensor([0.1012, 0.1390, 0.1439, 0.1148, 0.1285, 0.0535, 0.1525, 0.0679],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0360, 0.0311, 0.0251, 0.0301, 0.0252, 0.0310, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:18:51,572 INFO [train.py:903] (2/4) Epoch 21, batch 3650, loss[loss=0.223, simple_loss=0.3049, pruned_loss=0.07056, over 19695.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2887, pruned_loss=0.0651, over 3832174.24 frames. ], batch size: 59, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:18:54,131 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140212.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:19:15,567 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.814e+02 5.123e+02 6.079e+02 7.474e+02 1.635e+03, threshold=1.216e+03, percent-clipped=1.0
+2023-04-02 19:19:37,403 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140246.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:19:54,181 INFO [train.py:903] (2/4) Epoch 21, batch 3700, loss[loss=0.1961, simple_loss=0.2799, pruned_loss=0.05618, over 19683.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2878, pruned_loss=0.06455, over 3845253.82 frames. ], batch size: 53, lr: 3.92e-03, grad_scale: 8.0
+2023-04-02 19:20:01,705 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140266.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:20:15,858 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140277.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:20:20,531 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140281.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:20:22,755 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140283.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:20:24,910 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0423, 4.4149, 4.7335, 4.7198, 1.8124, 4.3911, 3.8277, 4.4063],
+       device='cuda:2'), covar=tensor([0.1563, 0.0832, 0.0538, 0.0652, 0.5738, 0.0892, 0.0641, 0.1105],
+       device='cuda:2'), in_proj_covar=tensor([0.0765, 0.0723, 0.0923, 0.0811, 0.0812, 0.0687, 0.0560, 0.0859],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 19:20:49,156 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140304.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:20:55,390 INFO [train.py:903] (2/4) Epoch 21, batch 3750, loss[loss=0.2533, simple_loss=0.3181, pruned_loss=0.09424, over 19680.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2877, pruned_loss=0.06448, over 3837351.73 frames. ], batch size: 60, lr: 3.92e-03, grad_scale: 4.0
+2023-04-02 19:21:02,643 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140315.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:21:17,850 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:21:20,287 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140329.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:21:22,190 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.949e+02 4.554e+02 6.128e+02 7.118e+02 1.255e+03, threshold=1.226e+03, percent-clipped=1.0
+2023-04-02 19:21:33,835 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140340.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:21:40,762 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9939, 1.2434, 1.5717, 0.9572, 2.2678, 3.0025, 2.7228, 3.2037],
+       device='cuda:2'), covar=tensor([0.1743, 0.3922, 0.3540, 0.2739, 0.0662, 0.0232, 0.0267, 0.0302],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0320, 0.0348, 0.0262, 0.0242, 0.0184, 0.0215, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 19:21:57,849 INFO [train.py:903] (2/4) Epoch 21, batch 3800, loss[loss=0.1863, simple_loss=0.2623, pruned_loss=0.05517, over 19820.00 frames. ], tot_loss[loss=0.2098, simple_loss=0.2891, pruned_loss=0.06523, over 3819924.18 frames. ], batch size: 48, lr: 3.92e-03, grad_scale: 4.0
+2023-04-02 19:22:30,441 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 19:22:54,682 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140405.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:23:01,171 INFO [train.py:903] (2/4) Epoch 21, batch 3850, loss[loss=0.2226, simple_loss=0.3192, pruned_loss=0.06302, over 19667.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.2897, pruned_loss=0.06546, over 3818945.87 frames. ], batch size: 55, lr: 3.92e-03, grad_scale: 4.0
+2023-04-02 19:23:02,824 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3992, 1.4046, 1.6113, 1.5902, 2.2679, 2.1652, 2.3594, 0.8117],
+       device='cuda:2'), covar=tensor([0.2309, 0.4168, 0.2546, 0.1761, 0.1422, 0.1934, 0.1304, 0.4299],
+       device='cuda:2'), in_proj_covar=tensor([0.0531, 0.0639, 0.0705, 0.0483, 0.0616, 0.0528, 0.0660, 0.0545],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 19:23:25,869 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.131e+02 5.035e+02 6.153e+02 7.922e+02 1.662e+03, threshold=1.231e+03, percent-clipped=3.0
+2023-04-02 19:23:33,491 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.86 vs. limit=5.0
+2023-04-02 19:24:03,183 INFO [train.py:903] (2/4) Epoch 21, batch 3900, loss[loss=0.2253, simple_loss=0.3133, pruned_loss=0.06867, over 19542.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2897, pruned_loss=0.06568, over 3814743.04 frames. ], batch size: 56, lr: 3.92e-03, grad_scale: 4.0
+2023-04-02 19:24:04,900 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7602, 2.6848, 2.3339, 2.5702, 2.4358, 2.0895, 2.1093, 2.5551],
+       device='cuda:2'), covar=tensor([0.1035, 0.1700, 0.1618, 0.1158, 0.1656, 0.0709, 0.1697, 0.0751],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0360, 0.0311, 0.0250, 0.0301, 0.0252, 0.0310, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:24:09,105 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140465.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:24:10,664 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9993, 2.0629, 2.2865, 2.5778, 1.9640, 2.4848, 2.3310, 2.1726],
+       device='cuda:2'), covar=tensor([0.4079, 0.3726, 0.1789, 0.2274, 0.3966, 0.2036, 0.4475, 0.2998],
+       device='cuda:2'), in_proj_covar=tensor([0.0891, 0.0953, 0.0714, 0.0928, 0.0871, 0.0808, 0.0836, 0.0777],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 19:24:17,255 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140472.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:24:55,673 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140502.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:25:01,331 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140507.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:25:04,341 INFO [train.py:903] (2/4) Epoch 21, batch 3950, loss[loss=0.2022, simple_loss=0.2886, pruned_loss=0.05785, over 19594.00 frames. ], tot_loss[loss=0.2114, simple_loss=0.2903, pruned_loss=0.06627, over 3789994.31 frames. ], batch size: 57, lr: 3.91e-03, grad_scale: 4.0
+2023-04-02 19:25:10,222 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 19:25:20,317 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140522.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:25:26,781 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140527.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:25:26,878 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140527.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:25:31,859 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.897e+02 4.763e+02 5.824e+02 7.544e+02 1.413e+03, threshold=1.165e+03, percent-clipped=2.0
+2023-04-02 19:25:40,205 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140537.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:25:42,463 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140539.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:25:51,818 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140547.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:26:07,097 INFO [train.py:903] (2/4) Epoch 21, batch 4000, loss[loss=0.1839, simple_loss=0.2684, pruned_loss=0.04972, over 19582.00 frames. ], tot_loss[loss=0.2111, simple_loss=0.2903, pruned_loss=0.066, over 3781105.05 frames. ], batch size: 52, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:26:09,758 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140562.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:26:13,057 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140564.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:26:33,100 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140580.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:26:36,721 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:26:41,286 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:26:55,175 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 19:27:09,329 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140608.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:27:11,210 INFO [train.py:903] (2/4) Epoch 21, batch 4050, loss[loss=0.216, simple_loss=0.2885, pruned_loss=0.07177, over 19418.00 frames. ], tot_loss[loss=0.2107, simple_loss=0.2898, pruned_loss=0.06582, over 3766885.67 frames. ], batch size: 48, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:27:25,059 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140621.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:27:36,528 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.169e+02 5.165e+02 6.710e+02 8.332e+02 1.443e+03, threshold=1.342e+03, percent-clipped=3.0
+2023-04-02 19:27:37,937 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0924, 1.9466, 1.7691, 2.0374, 1.7766, 1.7544, 1.6241, 1.9546],
+       device='cuda:2'), covar=tensor([0.1036, 0.1418, 0.1442, 0.1016, 0.1410, 0.0576, 0.1525, 0.0735],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0359, 0.0311, 0.0249, 0.0300, 0.0252, 0.0310, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:28:13,404 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-02 19:28:13,819 INFO [train.py:903] (2/4) Epoch 21, batch 4100, loss[loss=0.251, simple_loss=0.3302, pruned_loss=0.08593, over 19581.00 frames. ], tot_loss[loss=0.2115, simple_loss=0.2906, pruned_loss=0.06623, over 3767495.93 frames. ], batch size: 61, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:28:52,815 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 19:29:08,488 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.79 vs. limit=5.0
+2023-04-02 19:29:15,740 INFO [train.py:903] (2/4) Epoch 21, batch 4150, loss[loss=0.2269, simple_loss=0.3091, pruned_loss=0.07235, over 18768.00 frames. ], tot_loss[loss=0.2103, simple_loss=0.29, pruned_loss=0.0653, over 3783792.09 frames. ], batch size: 74, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:29:42,680 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.451e+02 5.318e+02 6.390e+02 7.957e+02 1.686e+03, threshold=1.278e+03, percent-clipped=3.0
+2023-04-02 19:29:49,985 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140736.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:29:55,913 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140741.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:30:05,106 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140749.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:30:17,538 INFO [train.py:903] (2/4) Epoch 21, batch 4200, loss[loss=0.224, simple_loss=0.308, pruned_loss=0.07001, over 19308.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.2904, pruned_loss=0.06518, over 3800282.73 frames. ], batch size: 70, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:30:24,373 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 19:31:21,341 INFO [train.py:903] (2/4) Epoch 21, batch 4250, loss[loss=0.1871, simple_loss=0.262, pruned_loss=0.05609, over 19769.00 frames. ], tot_loss[loss=0.2101, simple_loss=0.2901, pruned_loss=0.06503, over 3804177.58 frames. ], batch size: 47, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:31:40,131 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 19:31:42,804 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140827.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:31:47,367 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.155e+02 5.291e+02 6.401e+02 8.566e+02 1.506e+03, threshold=1.280e+03, percent-clipped=6.0
+2023-04-02 19:31:50,827 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 19:31:53,739 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140836.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:32:01,546 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:32:13,493 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140851.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:32:24,304 INFO [train.py:903] (2/4) Epoch 21, batch 4300, loss[loss=0.1908, simple_loss=0.2788, pruned_loss=0.05144, over 18076.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2906, pruned_loss=0.06527, over 3801119.41 frames. ], batch size: 83, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:32:25,882 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140861.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:32:29,400 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140864.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:32:33,873 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=140868.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:32:37,167 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=140871.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:33:18,594 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 19:33:24,433 INFO [train.py:903] (2/4) Epoch 21, batch 4350, loss[loss=0.2013, simple_loss=0.2925, pruned_loss=0.05502, over 19619.00 frames. ], tot_loss[loss=0.2106, simple_loss=0.2898, pruned_loss=0.06572, over 3803380.24 frames. ], batch size: 57, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:33:51,509 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.395e+02 4.814e+02 5.846e+02 6.905e+02 1.613e+03, threshold=1.169e+03, percent-clipped=2.0
+2023-04-02 19:33:57,247 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140935.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:34:25,325 INFO [train.py:903] (2/4) Epoch 21, batch 4400, loss[loss=0.1802, simple_loss=0.2618, pruned_loss=0.04932, over 19775.00 frames. ], tot_loss[loss=0.2106, simple_loss=0.2892, pruned_loss=0.06603, over 3815187.08 frames. ], batch size: 48, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:34:32,100 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=140965.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:34:33,406 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140966.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:34:53,839 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 19:34:58,750 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=140986.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:35:02,872 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 19:35:05,716 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=140992.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:35:23,744 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-02 19:35:27,475 INFO [train.py:903] (2/4) Epoch 21, batch 4450, loss[loss=0.1936, simple_loss=0.2832, pruned_loss=0.05201, over 19676.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.29, pruned_loss=0.0666, over 3807240.96 frames. ], batch size: 59, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:35:37,880 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141017.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:35:54,627 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.268e+02 5.226e+02 6.450e+02 8.222e+02 2.218e+03, threshold=1.290e+03, percent-clipped=9.0
+2023-04-02 19:36:32,488 INFO [train.py:903] (2/4) Epoch 21, batch 4500, loss[loss=0.1715, simple_loss=0.2483, pruned_loss=0.04735, over 19753.00 frames. ], tot_loss[loss=0.2104, simple_loss=0.289, pruned_loss=0.06588, over 3815211.84 frames. ], batch size: 47, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:36:38,409 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8170, 3.4810, 2.4643, 3.0989, 1.0158, 3.4054, 3.2794, 3.3983],
+       device='cuda:2'), covar=tensor([0.0918, 0.1067, 0.1932, 0.0956, 0.3615, 0.0872, 0.1030, 0.1253],
+       device='cuda:2'), in_proj_covar=tensor([0.0494, 0.0404, 0.0484, 0.0342, 0.0394, 0.0425, 0.0417, 0.0453],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:37:01,373 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=141085.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:37:34,668 INFO [train.py:903] (2/4) Epoch 21, batch 4550, loss[loss=0.1913, simple_loss=0.2676, pruned_loss=0.05745, over 19406.00 frames. ], tot_loss[loss=0.2101, simple_loss=0.2887, pruned_loss=0.06574, over 3827561.18 frames. ], batch size: 48, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:37:37,510 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3499, 2.3860, 2.5929, 3.1158, 2.2983, 2.9620, 2.5702, 2.3230],
+       device='cuda:2'), covar=tensor([0.4134, 0.3740, 0.1779, 0.2414, 0.4342, 0.2015, 0.4620, 0.3216],
+       device='cuda:2'), in_proj_covar=tensor([0.0891, 0.0957, 0.0713, 0.0930, 0.0872, 0.0809, 0.0838, 0.0777],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 19:37:46,076 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 19:37:46,503 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=141120.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:37:59,728 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.292e+02 5.246e+02 6.195e+02 7.478e+02 1.454e+03, threshold=1.239e+03, percent-clipped=4.0
+2023-04-02 19:38:10,835 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 19:38:18,676 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141145.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:38:35,234 INFO [train.py:903] (2/4) Epoch 21, batch 4600, loss[loss=0.2365, simple_loss=0.317, pruned_loss=0.07799, over 17118.00 frames. ], tot_loss[loss=0.2109, simple_loss=0.2895, pruned_loss=0.06617, over 3810246.90 frames. ], batch size: 101, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:38:36,699 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=141161.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:38:49,781 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=141171.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:39:25,186 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=141200.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:39:36,153 INFO [train.py:903] (2/4) Epoch 21, batch 4650, loss[loss=0.2223, simple_loss=0.2965, pruned_loss=0.0741, over 19608.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2891, pruned_loss=0.06591, over 3815758.83 frames. ], batch size: 50, lr: 3.91e-03, grad_scale: 8.0
+2023-04-02 19:39:52,969 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=141222.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:39:56,079 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 19:40:02,331 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.173e+02 4.513e+02 5.853e+02 7.712e+02 1.984e+03, threshold=1.171e+03, percent-clipped=6.0
+2023-04-02 19:40:05,981 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 19:40:15,464 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=141242.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:40:21,219 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:40:37,896 INFO [train.py:903] (2/4) Epoch 21, batch 4700, loss[loss=0.2254, simple_loss=0.2967, pruned_loss=0.07712, over 19588.00 frames. ], tot_loss[loss=0.2095, simple_loss=0.2881, pruned_loss=0.06543, over 3806370.26 frames. ], batch size: 52, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:40:47,249 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141267.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:41:00,528 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 19:41:00,656 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=141279.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:41:08,825 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=141286.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:41:38,493 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=141309.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:41:39,488 INFO [train.py:903] (2/4) Epoch 21, batch 4750, loss[loss=0.246, simple_loss=0.3237, pruned_loss=0.08416, over 19696.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2888, pruned_loss=0.06546, over 3802157.49 frames. ], batch size: 59, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:42:03,070 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.546e+02 5.235e+02 6.308e+02 8.195e+02 2.468e+03, threshold=1.262e+03, percent-clipped=8.0
+2023-04-02 19:42:25,000 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=141347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:42:39,819 INFO [train.py:903] (2/4) Epoch 21, batch 4800, loss[loss=0.2779, simple_loss=0.3368, pruned_loss=0.1095, over 13732.00 frames. ], tot_loss[loss=0.2098, simple_loss=0.2893, pruned_loss=0.06521, over 3809200.92 frames. ], batch size: 136, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:43:23,162 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=141394.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:43:41,787 INFO [train.py:903] (2/4) Epoch 21, batch 4850, loss[loss=0.1836, simple_loss=0.256, pruned_loss=0.05562, over 19724.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2884, pruned_loss=0.06534, over 3803679.96 frames. ], batch size: 46, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:44:01,423 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=141424.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:44:04,792 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2750, 2.9922, 2.3354, 2.3470, 2.1968, 2.5586, 1.0597, 2.1837],
+       device='cuda:2'), covar=tensor([0.0602, 0.0568, 0.0647, 0.1016, 0.1029, 0.1182, 0.1387, 0.1004],
+       device='cuda:2'), in_proj_covar=tensor([0.0355, 0.0350, 0.0353, 0.0379, 0.0458, 0.0383, 0.0332, 0.0339],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 19:44:07,727 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 19:44:08,842 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.291e+02 5.192e+02 6.534e+02 8.985e+02 2.500e+03, threshold=1.307e+03, percent-clipped=12.0
+2023-04-02 19:44:13,645 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=141435.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 19:44:28,282 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 19:44:33,272 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 19:44:34,436 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 19:44:39,545 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=141456.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:44:41,986 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4074, 1.4079, 1.5559, 1.5469, 1.7894, 1.9225, 1.7599, 0.5589],
+       device='cuda:2'), covar=tensor([0.2356, 0.4221, 0.2556, 0.1921, 0.1625, 0.2186, 0.1433, 0.4652],
+       device='cuda:2'), in_proj_covar=tensor([0.0530, 0.0640, 0.0708, 0.0482, 0.0615, 0.0530, 0.0659, 0.0547],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 19:44:44,224 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=141459.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:44:45,061 INFO [train.py:903] (2/4) Epoch 21, batch 4900, loss[loss=0.2107, simple_loss=0.2939, pruned_loss=0.0638, over 19112.00 frames. ], tot_loss[loss=0.21, simple_loss=0.2891, pruned_loss=0.06551, over 3812550.41 frames. ], batch size: 69, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:44:47,086 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 19:45:05,751 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 19:45:10,386 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141481.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:45:35,680 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.41 vs. limit=5.0
+2023-04-02 19:45:40,783 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=141505.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:45:46,102 INFO [train.py:903] (2/4) Epoch 21, batch 4950, loss[loss=0.2224, simple_loss=0.2857, pruned_loss=0.07957, over 19412.00 frames. ], tot_loss[loss=0.2109, simple_loss=0.2897, pruned_loss=0.06601, over 3826764.11 frames. ], batch size: 48, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:46:03,681 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 19:46:10,479 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.127e+02 5.116e+02 6.031e+02 7.721e+02 1.403e+03, threshold=1.206e+03, percent-clipped=1.0
+2023-04-02 19:46:26,561 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=141542.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:46:28,471 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 19:46:32,396 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0701, 1.7171, 1.9313, 2.8285, 2.1184, 2.4172, 2.4847, 2.1224],
+       device='cuda:2'), covar=tensor([0.0787, 0.0923, 0.0928, 0.0718, 0.0779, 0.0715, 0.0840, 0.0627],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0222, 0.0225, 0.0240, 0.0224, 0.0211, 0.0187, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 19:46:46,923 INFO [train.py:903] (2/4) Epoch 21, batch 5000, loss[loss=0.2008, simple_loss=0.2947, pruned_loss=0.05346, over 19615.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2883, pruned_loss=0.06501, over 3828869.55 frames. ], batch size: 61, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:46:49,271 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1518, 2.0801, 1.9478, 2.2284, 2.0143, 1.8125, 1.8970, 2.0669],
+       device='cuda:2'), covar=tensor([0.0853, 0.1176, 0.1120, 0.0752, 0.1047, 0.0499, 0.1125, 0.0580],
+       device='cuda:2'), in_proj_covar=tensor([0.0269, 0.0357, 0.0310, 0.0248, 0.0298, 0.0251, 0.0308, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 19:46:53,583 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 19:46:55,089 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141567.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:47:08,267 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 19:47:48,203 INFO [train.py:903] (2/4) Epoch 21, batch 5050, loss[loss=0.2205, simple_loss=0.3049, pruned_loss=0.06805, over 19659.00 frames. ], tot_loss[loss=0.21, simple_loss=0.2894, pruned_loss=0.06533, over 3832620.19 frames. ], batch size: 55, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:48:03,190 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=141620.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:48:16,452 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.325e+02 4.754e+02 5.832e+02 6.826e+02 1.423e+03, threshold=1.166e+03, percent-clipped=2.0
+2023-04-02 19:48:20,700 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-02 19:48:21,982 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-02 19:48:25,914 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 19:48:39,172 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=141650.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:48:53,397 INFO [train.py:903] (2/4) Epoch 21, batch 5100, loss[loss=0.2242, simple_loss=0.308, pruned_loss=0.07019, over 19675.00 frames. ], tot_loss[loss=0.2095, simple_loss=0.2888, pruned_loss=0.0651, over 3816723.86 frames. ], batch size: 58, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:49:04,593 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 19:49:07,002 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 19:49:11,617 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 19:49:12,037 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141675.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:49:17,704 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=141680.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:49:30,077 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=141691.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:49:50,675 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141705.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:49:56,352 INFO [train.py:903] (2/4) Epoch 21, batch 5150, loss[loss=0.2427, simple_loss=0.3183, pruned_loss=0.08353, over 19416.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2904, pruned_loss=0.06602, over 3805593.66 frames. ], batch size: 70, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:50:09,420 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 19:50:20,923 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.369e+02 4.996e+02 6.424e+02 8.131e+02 1.633e+03, threshold=1.285e+03, percent-clipped=6.0
+2023-04-02 19:50:33,486 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3615, 1.4393, 1.7268, 1.5593, 2.7084, 2.2304, 2.9223, 1.1988],
+       device='cuda:2'), covar=tensor([0.2650, 0.4532, 0.2930, 0.2118, 0.1525, 0.2278, 0.1426, 0.4650],
+       device='cuda:2'), in_proj_covar=tensor([0.0533, 0.0641, 0.0711, 0.0485, 0.0619, 0.0533, 0.0662, 0.0550],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 19:50:46,528 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 19:50:58,082 INFO [train.py:903] (2/4) Epoch 21, batch 5200, loss[loss=0.2027, simple_loss=0.2902, pruned_loss=0.05758, over 18725.00 frames. ], tot_loss[loss=0.2098, simple_loss=0.289, pruned_loss=0.06533, over 3806444.76 frames. ], batch size: 74, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:51:14,043 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 19:51:22,169 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=141779.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 19:51:51,429 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=141803.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:51:54,959 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=141806.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:51:58,266 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 19:51:59,437 INFO [train.py:903] (2/4) Epoch 21, batch 5250, loss[loss=0.2504, simple_loss=0.3124, pruned_loss=0.09421, over 13380.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2893, pruned_loss=0.06525, over 3802481.39 frames. ], batch size: 135, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:52:28,863 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.823e+02 4.884e+02 6.185e+02 7.574e+02 1.457e+03, threshold=1.237e+03, percent-clipped=1.0
+2023-04-02 19:53:02,560 INFO [train.py:903] (2/4) Epoch 21, batch 5300, loss[loss=0.2402, simple_loss=0.3095, pruned_loss=0.08548, over 19644.00 frames. ], tot_loss[loss=0.2116, simple_loss=0.2905, pruned_loss=0.06632, over 3797358.69 frames. ], batch size: 58, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:53:23,409 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=141876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:53:24,174 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 19:53:36,402 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1059, 1.9694, 1.8340, 1.7142, 1.5177, 1.7406, 0.4826, 1.0749],
+       device='cuda:2'), covar=tensor([0.0582, 0.0591, 0.0437, 0.0717, 0.1147, 0.0854, 0.1271, 0.1002],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0352, 0.0355, 0.0380, 0.0458, 0.0384, 0.0333, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 19:53:45,703 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=141894.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 19:53:55,942 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=141901.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:54:06,887 INFO [train.py:903] (2/4) Epoch 21, batch 5350, loss[loss=0.2419, simple_loss=0.3262, pruned_loss=0.0788, over 19635.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2897, pruned_loss=0.06564, over 3793213.29 frames. ], batch size: 57, lr: 3.90e-03, grad_scale: 8.0
+2023-04-02 19:54:16,544 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=141918.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:54:32,496 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.261e+02 4.997e+02 5.942e+02 7.628e+02 1.099e+03, threshold=1.188e+03, percent-clipped=0.0
+2023-04-02 19:54:35,114 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=141934.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:54:43,717 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 19:54:51,483 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=141946.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:55:07,460 INFO [train.py:903] (2/4) Epoch 21, batch 5400, loss[loss=0.1739, simple_loss=0.2542, pruned_loss=0.04685, over 19739.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2904, pruned_loss=0.06598, over 3804929.96 frames. ], batch size: 51, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 19:56:10,558 INFO [train.py:903] (2/4) Epoch 21, batch 5450, loss[loss=0.2457, simple_loss=0.319, pruned_loss=0.0862, over 19678.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.2906, pruned_loss=0.06591, over 3815342.19 frames. ], batch size: 60, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 19:56:39,853 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.702e+02 5.354e+02 6.392e+02 8.231e+02 1.329e+03, threshold=1.278e+03, percent-clipped=1.0
+2023-04-02 19:57:14,043 INFO [train.py:903] (2/4) Epoch 21, batch 5500, loss[loss=0.195, simple_loss=0.2737, pruned_loss=0.0581, over 19762.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2911, pruned_loss=0.06614, over 3795303.51 frames. ], batch size: 54, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 19:57:18,015 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=142062.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:57:41,998 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 19:57:48,312 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=142087.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:58:17,745 INFO [train.py:903] (2/4) Epoch 21, batch 5550, loss[loss=0.1812, simple_loss=0.2558, pruned_loss=0.05334, over 19763.00 frames. ], tot_loss[loss=0.2101, simple_loss=0.2895, pruned_loss=0.06532, over 3800243.09 frames. ], batch size: 47, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 19:58:26,200 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 19:58:43,634 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.159e+02 4.904e+02 5.778e+02 7.569e+02 2.193e+03, threshold=1.156e+03, percent-clipped=4.0
+2023-04-02 19:59:07,795 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=142150.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 19:59:15,742 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 19:59:19,356 INFO [train.py:903] (2/4) Epoch 21, batch 5600, loss[loss=0.2358, simple_loss=0.3142, pruned_loss=0.07866, over 19574.00 frames. ], tot_loss[loss=0.2108, simple_loss=0.2899, pruned_loss=0.06582, over 3803428.76 frames. ], batch size: 61, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 19:59:36,299 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=142174.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 19:59:37,410 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=142175.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 20:00:08,598 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=142199.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:00:20,408 INFO [train.py:903] (2/4) Epoch 21, batch 5650, loss[loss=0.213, simple_loss=0.2885, pruned_loss=0.06872, over 19743.00 frames. ], tot_loss[loss=0.2107, simple_loss=0.2897, pruned_loss=0.06583, over 3800864.52 frames. ], batch size: 51, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:00:36,107 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5275, 2.2115, 1.6939, 1.3814, 2.0662, 1.2034, 1.4264, 1.9566],
+       device='cuda:2'), covar=tensor([0.1187, 0.0893, 0.1184, 0.1029, 0.0613, 0.1483, 0.0814, 0.0526],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0315, 0.0338, 0.0263, 0.0246, 0.0338, 0.0291, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:00:49,291 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.717e+02 4.896e+02 5.835e+02 7.915e+02 1.772e+03, threshold=1.167e+03, percent-clipped=3.0
+2023-04-02 20:01:10,302 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 20:01:22,627 INFO [train.py:903] (2/4) Epoch 21, batch 5700, loss[loss=0.1792, simple_loss=0.2498, pruned_loss=0.05424, over 19757.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2891, pruned_loss=0.06559, over 3810276.32 frames. ], batch size: 47, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:01:45,770 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=142278.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:01:59,748 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=142290.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:02:26,052 INFO [train.py:903] (2/4) Epoch 21, batch 5750, loss[loss=0.1862, simple_loss=0.2547, pruned_loss=0.0588, over 19319.00 frames. ], tot_loss[loss=0.2117, simple_loss=0.2905, pruned_loss=0.0665, over 3816437.53 frames. ], batch size: 44, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:02:28,334 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 20:02:36,336 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 20:02:41,012 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 20:02:51,479 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.086e+02 5.170e+02 6.700e+02 8.460e+02 1.665e+03, threshold=1.340e+03, percent-clipped=6.0
+2023-04-02 20:03:26,598 INFO [train.py:903] (2/4) Epoch 21, batch 5800, loss[loss=0.2504, simple_loss=0.3132, pruned_loss=0.09382, over 13345.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2909, pruned_loss=0.06651, over 3806856.91 frames. ], batch size: 136, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:03:59,389 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
+2023-04-02 20:04:08,905 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=142393.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:04:22,760 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=142405.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:04:28,049 INFO [train.py:903] (2/4) Epoch 21, batch 5850, loss[loss=0.1939, simple_loss=0.2756, pruned_loss=0.05612, over 18223.00 frames. ], tot_loss[loss=0.2111, simple_loss=0.2902, pruned_loss=0.06601, over 3808933.21 frames. ], batch size: 83, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:04:34,184 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2362, 1.9540, 1.9956, 2.8670, 1.9384, 2.4841, 2.5449, 2.2416],
+       device='cuda:2'), covar=tensor([0.0758, 0.0862, 0.0952, 0.0734, 0.0873, 0.0694, 0.0790, 0.0639],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0221, 0.0226, 0.0239, 0.0224, 0.0210, 0.0186, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 20:04:46,794 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2298, 1.3076, 1.2491, 1.1107, 1.0395, 1.0961, 0.1837, 0.3719],
+       device='cuda:2'), covar=tensor([0.0701, 0.0612, 0.0424, 0.0550, 0.1256, 0.0680, 0.1224, 0.1094],
+       device='cuda:2'), in_proj_covar=tensor([0.0358, 0.0354, 0.0357, 0.0382, 0.0459, 0.0386, 0.0335, 0.0342],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 20:04:57,527 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.411e+02 4.867e+02 6.014e+02 7.504e+02 1.855e+03, threshold=1.203e+03, percent-clipped=4.0
+2023-04-02 20:05:31,487 INFO [train.py:903] (2/4) Epoch 21, batch 5900, loss[loss=0.2006, simple_loss=0.2893, pruned_loss=0.05597, over 18544.00 frames. ], tot_loss[loss=0.212, simple_loss=0.2911, pruned_loss=0.06642, over 3798416.32 frames. ], batch size: 84, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:05:35,049 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 20:05:36,572 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4093, 1.3431, 1.4307, 1.4590, 2.9894, 1.0647, 2.4029, 3.4293],
+       device='cuda:2'), covar=tensor([0.0523, 0.2644, 0.2961, 0.1815, 0.0732, 0.2491, 0.1148, 0.0257],
+       device='cuda:2'), in_proj_covar=tensor([0.0406, 0.0363, 0.0383, 0.0346, 0.0373, 0.0347, 0.0374, 0.0398],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:05:58,750 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 20:06:36,831 INFO [train.py:903] (2/4) Epoch 21, batch 5950, loss[loss=0.2751, simple_loss=0.3393, pruned_loss=0.1054, over 19755.00 frames. ], tot_loss[loss=0.2126, simple_loss=0.2917, pruned_loss=0.06671, over 3800114.61 frames. ], batch size: 63, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:07:02,050 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.165e+02 4.752e+02 5.691e+02 7.550e+02 2.003e+03, threshold=1.138e+03, percent-clipped=5.0
+2023-04-02 20:07:37,099 INFO [train.py:903] (2/4) Epoch 21, batch 6000, loss[loss=0.1608, simple_loss=0.2406, pruned_loss=0.04052, over 19732.00 frames. ], tot_loss[loss=0.2115, simple_loss=0.2906, pruned_loss=0.06625, over 3804755.05 frames. ], batch size: 46, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:07:37,100 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 20:07:50,394 INFO [train.py:937] (2/4) Epoch 21, validation: loss=0.1692, simple_loss=0.2693, pruned_loss=0.03459, over 944034.00 frames. 
+2023-04-02 20:07:50,395 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 20:08:26,836 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=142591.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:08:52,465 INFO [train.py:903] (2/4) Epoch 21, batch 6050, loss[loss=0.1871, simple_loss=0.2599, pruned_loss=0.05715, over 18677.00 frames. ], tot_loss[loss=0.2102, simple_loss=0.2895, pruned_loss=0.06545, over 3811969.53 frames. ], batch size: 41, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:09:03,417 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2434, 2.2936, 2.5234, 3.1377, 2.3041, 2.9733, 2.5985, 2.3122],
+       device='cuda:2'), covar=tensor([0.4260, 0.4129, 0.1878, 0.2491, 0.4566, 0.2235, 0.4562, 0.3384],
+       device='cuda:2'), in_proj_covar=tensor([0.0893, 0.0955, 0.0713, 0.0927, 0.0872, 0.0809, 0.0835, 0.0776],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 20:09:18,887 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.159e+02 4.812e+02 5.741e+02 7.692e+02 1.541e+03, threshold=1.148e+03, percent-clipped=3.0
+2023-04-02 20:09:41,436 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=142649.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:09:53,720 INFO [train.py:903] (2/4) Epoch 21, batch 6100, loss[loss=0.2245, simple_loss=0.3055, pruned_loss=0.07174, over 19287.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2886, pruned_loss=0.06464, over 3827153.03 frames. ], batch size: 66, lr: 3.89e-03, grad_scale: 8.0
+2023-04-02 20:09:55,353 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=142661.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:10:12,506 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=142674.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:10:28,127 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=142686.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:10:55,896 INFO [train.py:903] (2/4) Epoch 21, batch 6150, loss[loss=0.1936, simple_loss=0.2847, pruned_loss=0.05124, over 19667.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2891, pruned_loss=0.06509, over 3826010.89 frames. ], batch size: 58, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:11:25,006 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.643e+02 5.511e+02 6.918e+02 9.659e+02 2.206e+03, threshold=1.384e+03, percent-clipped=13.0
+2023-04-02 20:11:26,171 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 20:11:36,751 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=142742.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:11:59,015 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1326, 1.3282, 1.6998, 1.1931, 2.5813, 3.5194, 3.1974, 3.7449],
+       device='cuda:2'), covar=tensor([0.1733, 0.3867, 0.3439, 0.2548, 0.0627, 0.0198, 0.0220, 0.0255],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0319, 0.0349, 0.0262, 0.0240, 0.0184, 0.0214, 0.0253],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 20:11:59,800 INFO [train.py:903] (2/4) Epoch 21, batch 6200, loss[loss=0.1962, simple_loss=0.2875, pruned_loss=0.05242, over 19691.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2889, pruned_loss=0.06483, over 3828554.45 frames. ], batch size: 59, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:12:03,976 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 20:12:14,772 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5926, 1.6580, 1.9627, 1.8533, 1.4067, 1.7721, 1.9736, 1.8193],
+       device='cuda:2'), covar=tensor([0.3953, 0.3672, 0.1857, 0.2341, 0.3833, 0.2216, 0.4768, 0.3241],
+       device='cuda:2'), in_proj_covar=tensor([0.0890, 0.0955, 0.0712, 0.0924, 0.0871, 0.0809, 0.0835, 0.0773],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 20:13:02,732 INFO [train.py:903] (2/4) Epoch 21, batch 6250, loss[loss=0.2204, simple_loss=0.301, pruned_loss=0.06995, over 18099.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2886, pruned_loss=0.06506, over 3822645.06 frames. ], batch size: 83, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:13:09,063 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3582, 3.5088, 2.1086, 2.2762, 3.1082, 1.8135, 1.7612, 2.4308],
+       device='cuda:2'), covar=tensor([0.1312, 0.0704, 0.1107, 0.0866, 0.0588, 0.1287, 0.0949, 0.0690],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0314, 0.0336, 0.0262, 0.0245, 0.0335, 0.0291, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:13:28,467 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.899e+02 5.305e+02 6.117e+02 7.859e+02 2.157e+03, threshold=1.223e+03, percent-clipped=2.0
+2023-04-02 20:13:30,680 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 20:14:05,179 INFO [train.py:903] (2/4) Epoch 21, batch 6300, loss[loss=0.1903, simple_loss=0.2745, pruned_loss=0.05303, over 19603.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.289, pruned_loss=0.06471, over 3820276.26 frames. ], batch size: 61, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:15:07,132 INFO [train.py:903] (2/4) Epoch 21, batch 6350, loss[loss=0.2628, simple_loss=0.3303, pruned_loss=0.09762, over 17496.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2896, pruned_loss=0.06475, over 3823128.51 frames. ], batch size: 101, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:15:11,948 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2222, 1.2858, 1.7129, 0.9657, 2.3299, 3.1039, 2.7969, 3.2929],
+       device='cuda:2'), covar=tensor([0.1461, 0.3693, 0.3187, 0.2495, 0.0579, 0.0196, 0.0246, 0.0264],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0319, 0.0348, 0.0262, 0.0240, 0.0184, 0.0214, 0.0252],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 20:15:36,284 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.232e+02 4.679e+02 5.550e+02 7.220e+02 1.923e+03, threshold=1.110e+03, percent-clipped=1.0
+2023-04-02 20:15:39,971 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=142935.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:16:11,264 INFO [train.py:903] (2/4) Epoch 21, batch 6400, loss[loss=0.1892, simple_loss=0.2751, pruned_loss=0.05161, over 19776.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2887, pruned_loss=0.06456, over 3828675.37 frames. ], batch size: 54, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:17:14,711 INFO [train.py:903] (2/4) Epoch 21, batch 6450, loss[loss=0.2159, simple_loss=0.2983, pruned_loss=0.06678, over 19757.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2891, pruned_loss=0.06481, over 3818578.78 frames. ], batch size: 63, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:17:40,515 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.231e+02 4.995e+02 6.270e+02 8.275e+02 2.312e+03, threshold=1.254e+03, percent-clipped=6.0
+2023-04-02 20:18:01,467 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 20:18:04,913 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=143050.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:18:16,200 INFO [train.py:903] (2/4) Epoch 21, batch 6500, loss[loss=0.1947, simple_loss=0.2743, pruned_loss=0.05753, over 19582.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2893, pruned_loss=0.06491, over 3826402.74 frames. ], batch size: 52, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:18:23,415 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 20:18:48,310 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.24 vs. limit=5.0
+2023-04-02 20:18:48,996 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=143086.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:19:16,583 INFO [train.py:903] (2/4) Epoch 21, batch 6550, loss[loss=0.1724, simple_loss=0.256, pruned_loss=0.0444, over 19744.00 frames. ], tot_loss[loss=0.2097, simple_loss=0.2892, pruned_loss=0.06511, over 3810504.51 frames. ], batch size: 51, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:19:44,580 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.797e+02 5.073e+02 6.169e+02 7.633e+02 2.146e+03, threshold=1.234e+03, percent-clipped=4.0
+2023-04-02 20:19:46,047 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0239, 3.6557, 2.4212, 3.2857, 0.8181, 3.6024, 3.4482, 3.5624],
+       device='cuda:2'), covar=tensor([0.0781, 0.1107, 0.2082, 0.0928, 0.3988, 0.0783, 0.1060, 0.1053],
+       device='cuda:2'), in_proj_covar=tensor([0.0501, 0.0406, 0.0491, 0.0345, 0.0400, 0.0429, 0.0421, 0.0456],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:20:19,906 INFO [train.py:903] (2/4) Epoch 21, batch 6600, loss[loss=0.1899, simple_loss=0.2624, pruned_loss=0.0587, over 19744.00 frames. ], tot_loss[loss=0.2098, simple_loss=0.2895, pruned_loss=0.06507, over 3804304.63 frames. ], batch size: 46, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:21:11,136 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=143201.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:21:22,420 INFO [train.py:903] (2/4) Epoch 21, batch 6650, loss[loss=0.1933, simple_loss=0.2811, pruned_loss=0.05277, over 19666.00 frames. ], tot_loss[loss=0.2097, simple_loss=0.2895, pruned_loss=0.06496, over 3817115.98 frames. ], batch size: 58, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:21:46,324 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.68 vs. limit=5.0
+2023-04-02 20:21:47,869 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.522e+02 4.940e+02 5.672e+02 7.065e+02 1.538e+03, threshold=1.134e+03, percent-clipped=2.0
+2023-04-02 20:22:23,655 INFO [train.py:903] (2/4) Epoch 21, batch 6700, loss[loss=0.2259, simple_loss=0.3059, pruned_loss=0.07294, over 19554.00 frames. ], tot_loss[loss=0.2095, simple_loss=0.2893, pruned_loss=0.06484, over 3820608.79 frames. ], batch size: 61, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:23:19,553 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=143306.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:23:23,648 INFO [train.py:903] (2/4) Epoch 21, batch 6750, loss[loss=0.2111, simple_loss=0.2989, pruned_loss=0.06169, over 19609.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2886, pruned_loss=0.0645, over 3814101.47 frames. ], batch size: 57, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:23:48,066 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=143331.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:23:48,849 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.668e+02 4.995e+02 6.197e+02 7.772e+02 2.067e+03, threshold=1.239e+03, percent-clipped=6.0
+2023-04-02 20:24:20,248 INFO [train.py:903] (2/4) Epoch 21, batch 6800, loss[loss=0.2317, simple_loss=0.3084, pruned_loss=0.07745, over 19101.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2897, pruned_loss=0.06499, over 3804513.38 frames. ], batch size: 69, lr: 3.88e-03, grad_scale: 8.0
+2023-04-02 20:24:21,776 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8262, 4.3713, 2.8302, 3.8367, 1.0005, 4.3005, 4.2484, 4.3096],
+       device='cuda:2'), covar=tensor([0.0539, 0.0864, 0.1836, 0.0822, 0.3805, 0.0714, 0.0857, 0.1099],
+       device='cuda:2'), in_proj_covar=tensor([0.0494, 0.0401, 0.0486, 0.0341, 0.0395, 0.0423, 0.0418, 0.0451],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:25:06,018 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 20:25:07,061 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 20:25:09,787 INFO [train.py:903] (2/4) Epoch 22, batch 0, loss[loss=0.1935, simple_loss=0.2714, pruned_loss=0.05776, over 19607.00 frames. ], tot_loss[loss=0.1935, simple_loss=0.2714, pruned_loss=0.05776, over 19607.00 frames. ], batch size: 50, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:25:09,787 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 20:25:18,296 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3639, 1.3403, 1.3753, 1.7662, 1.4459, 1.5871, 1.5957, 1.5424],
+       device='cuda:2'), covar=tensor([0.0818, 0.0908, 0.0945, 0.0611, 0.0940, 0.0833, 0.0918, 0.0670],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0228, 0.0240, 0.0227, 0.0213, 0.0187, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-02 20:25:20,463 INFO [train.py:937] (2/4) Epoch 22, validation: loss=0.1683, simple_loss=0.2691, pruned_loss=0.03373, over 944034.00 frames. 
+2023-04-02 20:25:20,463 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 20:25:29,860 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3262, 3.7887, 3.9262, 3.9705, 1.7268, 3.7475, 3.3057, 3.6675],
+       device='cuda:2'), covar=tensor([0.1537, 0.0964, 0.0678, 0.0711, 0.5645, 0.0996, 0.0716, 0.1202],
+       device='cuda:2'), in_proj_covar=tensor([0.0776, 0.0734, 0.0943, 0.0827, 0.0825, 0.0701, 0.0568, 0.0874],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 20:25:31,914 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 20:25:55,298 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=143418.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 20:26:14,246 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.150e+02 4.908e+02 5.891e+02 8.006e+02 1.582e+03, threshold=1.178e+03, percent-clipped=4.0
+2023-04-02 20:26:21,017 INFO [train.py:903] (2/4) Epoch 22, batch 50, loss[loss=0.1751, simple_loss=0.2547, pruned_loss=0.04775, over 19785.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2859, pruned_loss=0.06231, over 871321.94 frames. ], batch size: 48, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:26:42,109 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=143457.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:26:47,965 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9298, 1.7668, 1.6008, 1.9421, 1.6849, 1.6468, 1.5711, 1.8227],
+       device='cuda:2'), covar=tensor([0.1025, 0.1359, 0.1447, 0.0976, 0.1199, 0.0540, 0.1391, 0.0714],
+       device='cuda:2'), in_proj_covar=tensor([0.0267, 0.0354, 0.0308, 0.0247, 0.0296, 0.0248, 0.0307, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:26:53,922 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 20:27:13,779 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=143482.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:27:19,985 INFO [train.py:903] (2/4) Epoch 22, batch 100, loss[loss=0.2043, simple_loss=0.285, pruned_loss=0.06182, over 19733.00 frames. ], tot_loss[loss=0.2112, simple_loss=0.291, pruned_loss=0.0657, over 1534326.53 frames. ], batch size: 51, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:27:23,821 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=143491.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 20:27:31,520 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 20:28:12,239 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.507e+02 5.227e+02 6.391e+02 8.671e+02 1.540e+03, threshold=1.278e+03, percent-clipped=3.0
+2023-04-02 20:28:19,046 INFO [train.py:903] (2/4) Epoch 22, batch 150, loss[loss=0.2301, simple_loss=0.3126, pruned_loss=0.07379, over 19677.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2892, pruned_loss=0.06536, over 2045333.09 frames. ], batch size: 55, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:28:45,109 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0595, 3.4508, 2.0442, 2.0555, 3.0383, 1.7328, 1.6125, 2.2453],
+       device='cuda:2'), covar=tensor([0.1366, 0.0585, 0.1053, 0.0809, 0.0542, 0.1292, 0.0924, 0.0680],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0313, 0.0334, 0.0260, 0.0245, 0.0335, 0.0289, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:29:18,917 INFO [train.py:903] (2/4) Epoch 22, batch 200, loss[loss=0.193, simple_loss=0.2584, pruned_loss=0.0638, over 19755.00 frames. ], tot_loss[loss=0.2086, simple_loss=0.2878, pruned_loss=0.06477, over 2424517.64 frames. ], batch size: 47, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:29:18,962 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 20:29:32,292 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.81 vs. limit=2.0
+2023-04-02 20:30:12,489 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.534e+02 5.144e+02 6.083e+02 7.742e+02 1.350e+03, threshold=1.217e+03, percent-clipped=1.0
+2023-04-02 20:30:20,919 INFO [train.py:903] (2/4) Epoch 22, batch 250, loss[loss=0.2521, simple_loss=0.3293, pruned_loss=0.08747, over 19695.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.287, pruned_loss=0.06402, over 2752134.64 frames. ], batch size: 59, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:30:33,627 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.31 vs. limit=5.0
+2023-04-02 20:31:20,920 INFO [train.py:903] (2/4) Epoch 22, batch 300, loss[loss=0.1912, simple_loss=0.2704, pruned_loss=0.056, over 19616.00 frames. ], tot_loss[loss=0.2081, simple_loss=0.2874, pruned_loss=0.06436, over 2991817.73 frames. ], batch size: 50, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:32:15,079 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.028e+02 5.065e+02 6.247e+02 8.237e+02 1.383e+03, threshold=1.249e+03, percent-clipped=3.0
+2023-04-02 20:32:22,204 INFO [train.py:903] (2/4) Epoch 22, batch 350, loss[loss=0.217, simple_loss=0.2977, pruned_loss=0.06815, over 19802.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2876, pruned_loss=0.06396, over 3189242.00 frames. ], batch size: 56, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:32:29,136 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 20:32:51,101 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=143762.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 20:33:20,934 INFO [train.py:903] (2/4) Epoch 22, batch 400, loss[loss=0.2372, simple_loss=0.3095, pruned_loss=0.08248, over 18031.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2883, pruned_loss=0.06438, over 3332110.01 frames. ], batch size: 83, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:34:15,302 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.174e+02 5.215e+02 6.557e+02 8.093e+02 2.351e+03, threshold=1.311e+03, percent-clipped=8.0
+2023-04-02 20:34:17,792 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=143835.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 20:34:20,915 INFO [train.py:903] (2/4) Epoch 22, batch 450, loss[loss=0.184, simple_loss=0.2765, pruned_loss=0.04577, over 19680.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2885, pruned_loss=0.06423, over 3457167.75 frames. ], batch size: 59, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:34:57,882 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 20:34:58,981 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 20:35:08,554 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=143877.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 20:35:22,927 INFO [train.py:903] (2/4) Epoch 22, batch 500, loss[loss=0.1774, simple_loss=0.2598, pruned_loss=0.04747, over 19781.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2886, pruned_loss=0.06452, over 3533434.89 frames. ], batch size: 48, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:36:17,498 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.793e+02 5.123e+02 6.359e+02 8.434e+02 1.804e+03, threshold=1.272e+03, percent-clipped=4.0
+2023-04-02 20:36:23,289 INFO [train.py:903] (2/4) Epoch 22, batch 550, loss[loss=0.1904, simple_loss=0.2654, pruned_loss=0.05767, over 19405.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.289, pruned_loss=0.06441, over 3596912.02 frames. ], batch size: 48, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:36:37,270 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=143950.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 20:37:23,303 INFO [train.py:903] (2/4) Epoch 22, batch 600, loss[loss=0.1843, simple_loss=0.2613, pruned_loss=0.05364, over 19811.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2884, pruned_loss=0.06433, over 3639117.77 frames. ], batch size: 49, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:38:02,563 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0369, 2.1058, 2.3399, 2.7562, 1.9833, 2.6496, 2.3734, 2.1863],
+       device='cuda:2'), covar=tensor([0.4332, 0.4158, 0.1893, 0.2387, 0.4162, 0.2046, 0.4865, 0.3372],
+       device='cuda:2'), in_proj_covar=tensor([0.0894, 0.0961, 0.0715, 0.0932, 0.0875, 0.0813, 0.0843, 0.0777],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 20:38:06,646 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 20:38:17,789 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.931e+02 4.914e+02 6.190e+02 8.004e+02 1.732e+03, threshold=1.238e+03, percent-clipped=3.0
+2023-04-02 20:38:23,572 INFO [train.py:903] (2/4) Epoch 22, batch 650, loss[loss=0.2092, simple_loss=0.2941, pruned_loss=0.06218, over 19660.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2874, pruned_loss=0.06376, over 3688344.83 frames. ], batch size: 55, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:39:19,199 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7150, 4.2582, 4.4695, 4.5110, 1.5691, 4.2374, 3.6944, 4.1731],
+       device='cuda:2'), covar=tensor([0.1716, 0.0907, 0.0624, 0.0668, 0.6382, 0.0951, 0.0685, 0.1205],
+       device='cuda:2'), in_proj_covar=tensor([0.0773, 0.0733, 0.0936, 0.0821, 0.0825, 0.0695, 0.0565, 0.0866],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 20:39:26,362 INFO [train.py:903] (2/4) Epoch 22, batch 700, loss[loss=0.2045, simple_loss=0.2849, pruned_loss=0.06209, over 19663.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2868, pruned_loss=0.06317, over 3720763.70 frames. ], batch size: 53, lr: 3.78e-03, grad_scale: 8.0
+2023-04-02 20:39:58,303 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2418, 2.0560, 1.9630, 1.8109, 1.6032, 1.7647, 0.5478, 1.1483],
+       device='cuda:2'), covar=tensor([0.0560, 0.0578, 0.0444, 0.0691, 0.1074, 0.0906, 0.1260, 0.1045],
+       device='cuda:2'), in_proj_covar=tensor([0.0353, 0.0353, 0.0353, 0.0377, 0.0455, 0.0383, 0.0331, 0.0338],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 20:40:19,657 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.965e+02 4.796e+02 6.107e+02 7.975e+02 1.533e+03, threshold=1.221e+03, percent-clipped=5.0
+2023-04-02 20:40:20,064 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=144133.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 20:40:26,351 INFO [train.py:903] (2/4) Epoch 22, batch 750, loss[loss=0.1868, simple_loss=0.271, pruned_loss=0.05123, over 19658.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2873, pruned_loss=0.06372, over 3744196.46 frames. ], batch size: 53, lr: 3.77e-03, grad_scale: 8.0
+2023-04-02 20:40:49,201 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=144158.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 20:41:26,351 INFO [train.py:903] (2/4) Epoch 22, batch 800, loss[loss=0.2278, simple_loss=0.3014, pruned_loss=0.07711, over 17273.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2869, pruned_loss=0.06363, over 3765608.66 frames. ], batch size: 101, lr: 3.77e-03, grad_scale: 8.0
+2023-04-02 20:41:44,773 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 20:41:48,041 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=144206.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 20:42:02,006 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6873, 1.6779, 1.6525, 1.4483, 1.3244, 1.4228, 0.2668, 0.6836],
+       device='cuda:2'), covar=tensor([0.0667, 0.0607, 0.0388, 0.0594, 0.1246, 0.0747, 0.1266, 0.1085],
+       device='cuda:2'), in_proj_covar=tensor([0.0354, 0.0354, 0.0355, 0.0378, 0.0457, 0.0384, 0.0332, 0.0339],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 20:42:09,762 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3452, 3.0728, 2.1556, 2.7657, 0.8288, 3.0549, 2.8816, 3.0125],
+       device='cuda:2'), covar=tensor([0.0995, 0.1255, 0.2019, 0.1026, 0.3698, 0.0909, 0.1081, 0.1335],
+       device='cuda:2'), in_proj_covar=tensor([0.0501, 0.0409, 0.0491, 0.0344, 0.0403, 0.0429, 0.0424, 0.0459],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:42:10,155 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-02 20:42:19,065 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=144231.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 20:42:20,959 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.163e+02 5.021e+02 6.351e+02 8.019e+02 1.751e+03, threshold=1.270e+03, percent-clipped=5.0
+2023-04-02 20:42:26,670 INFO [train.py:903] (2/4) Epoch 22, batch 850, loss[loss=0.1863, simple_loss=0.2653, pruned_loss=0.05366, over 19481.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2865, pruned_loss=0.06375, over 3779151.33 frames. ], batch size: 49, lr: 3.77e-03, grad_scale: 8.0
+2023-04-02 20:42:41,804 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-02 20:42:56,618 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4792, 1.6300, 1.9027, 1.7899, 2.7061, 2.3366, 2.7642, 1.2977],
+       device='cuda:2'), covar=tensor([0.2430, 0.4077, 0.2617, 0.1858, 0.1459, 0.2064, 0.1481, 0.4263],
+       device='cuda:2'), in_proj_covar=tensor([0.0531, 0.0643, 0.0713, 0.0482, 0.0619, 0.0530, 0.0662, 0.0548],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 20:43:19,884 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 20:43:20,194 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7842, 1.4431, 1.6377, 1.6574, 3.3498, 1.2421, 2.4908, 3.8165],
+       device='cuda:2'), covar=tensor([0.0453, 0.2693, 0.2654, 0.1749, 0.0651, 0.2452, 0.1154, 0.0212],
+       device='cuda:2'), in_proj_covar=tensor([0.0404, 0.0362, 0.0381, 0.0343, 0.0371, 0.0348, 0.0373, 0.0400],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:43:26,414 INFO [train.py:903] (2/4) Epoch 22, batch 900, loss[loss=0.1666, simple_loss=0.2537, pruned_loss=0.03976, over 19590.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.2858, pruned_loss=0.063, over 3795762.71 frames. ], batch size: 50, lr: 3.77e-03, grad_scale: 8.0
+2023-04-02 20:44:21,527 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.404e+02 5.111e+02 6.361e+02 7.451e+02 1.172e+03, threshold=1.272e+03, percent-clipped=0.0
+2023-04-02 20:44:26,095 INFO [train.py:903] (2/4) Epoch 22, batch 950, loss[loss=0.2214, simple_loss=0.3064, pruned_loss=0.06824, over 19741.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.2873, pruned_loss=0.06426, over 3798927.97 frames. ], batch size: 63, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:44:30,666 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 20:45:27,345 INFO [train.py:903] (2/4) Epoch 22, batch 1000, loss[loss=0.2085, simple_loss=0.2943, pruned_loss=0.0614, over 19689.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2884, pruned_loss=0.06485, over 3804231.79 frames. ], batch size: 58, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:46:17,094 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=144429.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:46:17,956 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 20:46:22,210 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.871e+02 5.215e+02 6.539e+02 8.059e+02 1.779e+03, threshold=1.308e+03, percent-clipped=4.0
+2023-04-02 20:46:26,887 INFO [train.py:903] (2/4) Epoch 22, batch 1050, loss[loss=0.1939, simple_loss=0.28, pruned_loss=0.05387, over 19779.00 frames. ], tot_loss[loss=0.211, simple_loss=0.29, pruned_loss=0.06595, over 3780654.64 frames. ], batch size: 56, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:46:28,320 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0981, 5.4895, 2.9688, 4.6076, 1.1477, 5.6549, 5.4828, 5.6607],
+       device='cuda:2'), covar=tensor([0.0328, 0.0729, 0.1806, 0.0756, 0.3956, 0.0544, 0.0778, 0.0862],
+       device='cuda:2'), in_proj_covar=tensor([0.0495, 0.0405, 0.0485, 0.0341, 0.0398, 0.0425, 0.0420, 0.0455],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:47:00,684 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 20:47:26,633 INFO [train.py:903] (2/4) Epoch 22, batch 1100, loss[loss=0.2036, simple_loss=0.2692, pruned_loss=0.06894, over 19304.00 frames. ], tot_loss[loss=0.2105, simple_loss=0.2897, pruned_loss=0.06565, over 3791085.71 frames. ], batch size: 44, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:48:21,825 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.380e+02 5.103e+02 6.169e+02 7.547e+02 2.403e+03, threshold=1.234e+03, percent-clipped=2.0
+2023-04-02 20:48:27,965 INFO [train.py:903] (2/4) Epoch 22, batch 1150, loss[loss=0.19, simple_loss=0.2636, pruned_loss=0.05821, over 19778.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2882, pruned_loss=0.06468, over 3816457.05 frames. ], batch size: 49, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:48:53,395 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7980, 1.8871, 2.1411, 2.2525, 1.7015, 2.2010, 2.1414, 1.9386],
+       device='cuda:2'), covar=tensor([0.4169, 0.3537, 0.1913, 0.2313, 0.3935, 0.2106, 0.4911, 0.3372],
+       device='cuda:2'), in_proj_covar=tensor([0.0893, 0.0960, 0.0716, 0.0932, 0.0875, 0.0813, 0.0841, 0.0779],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 20:49:28,350 INFO [train.py:903] (2/4) Epoch 22, batch 1200, loss[loss=0.1937, simple_loss=0.2787, pruned_loss=0.05437, over 19552.00 frames. ], tot_loss[loss=0.2078, simple_loss=0.2873, pruned_loss=0.06412, over 3799999.60 frames. ], batch size: 54, lr: 3.77e-03, grad_scale: 8.0
+2023-04-02 20:50:00,809 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 20:50:23,751 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.253e+02 4.877e+02 6.112e+02 7.869e+02 2.071e+03, threshold=1.222e+03, percent-clipped=4.0
+2023-04-02 20:50:27,117 INFO [train.py:903] (2/4) Epoch 22, batch 1250, loss[loss=0.1875, simple_loss=0.2627, pruned_loss=0.05615, over 19736.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2877, pruned_loss=0.06442, over 3812143.05 frames. ], batch size: 51, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:51:28,173 INFO [train.py:903] (2/4) Epoch 22, batch 1300, loss[loss=0.2305, simple_loss=0.3154, pruned_loss=0.07282, over 19582.00 frames. ], tot_loss[loss=0.2081, simple_loss=0.288, pruned_loss=0.06412, over 3807845.18 frames. ], batch size: 61, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:52:26,778 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.265e+02 4.679e+02 5.951e+02 8.140e+02 2.957e+03, threshold=1.190e+03, percent-clipped=7.0
+2023-04-02 20:52:30,257 INFO [train.py:903] (2/4) Epoch 22, batch 1350, loss[loss=0.1988, simple_loss=0.2837, pruned_loss=0.05696, over 19483.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2891, pruned_loss=0.06469, over 3803524.03 frames. ], batch size: 64, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:52:39,361 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6879, 2.5055, 2.3253, 2.7730, 2.5468, 2.3267, 2.2675, 2.6353],
+       device='cuda:2'), covar=tensor([0.0923, 0.1665, 0.1476, 0.1067, 0.1379, 0.0579, 0.1366, 0.0729],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0358, 0.0313, 0.0250, 0.0300, 0.0251, 0.0310, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:53:08,282 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8853, 1.4610, 1.7794, 1.5493, 3.4851, 1.2195, 2.3480, 3.9139],
+       device='cuda:2'), covar=tensor([0.0493, 0.2657, 0.2608, 0.1942, 0.0733, 0.2553, 0.1461, 0.0236],
+       device='cuda:2'), in_proj_covar=tensor([0.0405, 0.0363, 0.0383, 0.0345, 0.0371, 0.0348, 0.0376, 0.0400],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:53:12,545 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=144773.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:53:31,337 INFO [train.py:903] (2/4) Epoch 22, batch 1400, loss[loss=0.2208, simple_loss=0.298, pruned_loss=0.07178, over 19519.00 frames. ], tot_loss[loss=0.2098, simple_loss=0.2896, pruned_loss=0.06503, over 3813256.12 frames. ], batch size: 56, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:54:28,427 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.383e+02 4.808e+02 5.945e+02 7.380e+02 1.517e+03, threshold=1.189e+03, percent-clipped=2.0
+2023-04-02 20:54:29,515 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 20:54:31,679 INFO [train.py:903] (2/4) Epoch 22, batch 1450, loss[loss=0.206, simple_loss=0.2709, pruned_loss=0.07053, over 19389.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2892, pruned_loss=0.06469, over 3820191.73 frames. ], batch size: 48, lr: 3.77e-03, grad_scale: 4.0
+2023-04-02 20:54:47,786 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.4145, 4.9507, 3.1169, 4.3934, 1.3720, 4.9616, 4.7785, 5.0367],
+       device='cuda:2'), covar=tensor([0.0393, 0.0814, 0.1873, 0.0777, 0.3749, 0.0560, 0.0817, 0.0876],
+       device='cuda:2'), in_proj_covar=tensor([0.0500, 0.0412, 0.0495, 0.0345, 0.0405, 0.0433, 0.0426, 0.0462],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:54:53,310 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3161, 3.5244, 2.2413, 2.1292, 3.2789, 2.0188, 1.7998, 2.4145],
+       device='cuda:2'), covar=tensor([0.1150, 0.0593, 0.0942, 0.0844, 0.0458, 0.1090, 0.0833, 0.0629],
+       device='cuda:2'), in_proj_covar=tensor([0.0299, 0.0315, 0.0335, 0.0263, 0.0246, 0.0334, 0.0289, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:55:30,805 INFO [train.py:903] (2/4) Epoch 22, batch 1500, loss[loss=0.2123, simple_loss=0.2957, pruned_loss=0.06442, over 19390.00 frames. ], tot_loss[loss=0.21, simple_loss=0.2898, pruned_loss=0.06508, over 3817578.92 frames. ], batch size: 70, lr: 3.76e-03, grad_scale: 4.0
+2023-04-02 20:55:31,121 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=144888.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:56:27,869 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.316e+02 4.957e+02 5.987e+02 8.036e+02 1.770e+03, threshold=1.197e+03, percent-clipped=5.0
+2023-04-02 20:56:31,417 INFO [train.py:903] (2/4) Epoch 22, batch 1550, loss[loss=0.1908, simple_loss=0.2726, pruned_loss=0.05445, over 19589.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2892, pruned_loss=0.06457, over 3804690.54 frames. ], batch size: 50, lr: 3.76e-03, grad_scale: 4.0
+2023-04-02 20:57:30,407 INFO [train.py:903] (2/4) Epoch 22, batch 1600, loss[loss=0.1843, simple_loss=0.2571, pruned_loss=0.05569, over 19389.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2896, pruned_loss=0.06455, over 3823958.25 frames. ], batch size: 48, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 20:57:48,908 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1102, 1.3037, 1.4501, 1.4634, 2.7061, 1.0558, 2.2246, 3.0875],
+       device='cuda:2'), covar=tensor([0.0607, 0.2827, 0.2976, 0.1802, 0.0804, 0.2463, 0.1172, 0.0333],
+       device='cuda:2'), in_proj_covar=tensor([0.0408, 0.0365, 0.0388, 0.0349, 0.0375, 0.0351, 0.0378, 0.0404],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 20:57:50,814 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 20:58:02,383 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=145014.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:58:27,682 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.160e+02 4.884e+02 5.870e+02 7.908e+02 1.403e+03, threshold=1.174e+03, percent-clipped=3.0
+2023-04-02 20:58:31,135 INFO [train.py:903] (2/4) Epoch 22, batch 1650, loss[loss=0.2171, simple_loss=0.3008, pruned_loss=0.06674, over 19663.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.2885, pruned_loss=0.06368, over 3833831.27 frames. ], batch size: 53, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 20:58:39,536 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=145045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:59:27,032 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=145084.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 20:59:31,371 INFO [train.py:903] (2/4) Epoch 22, batch 1700, loss[loss=0.2008, simple_loss=0.289, pruned_loss=0.05629, over 19659.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2886, pruned_loss=0.06346, over 3831060.05 frames. ], batch size: 58, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 20:59:52,392 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.88 vs. limit=5.0
+2023-04-02 21:00:08,582 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 21:00:28,005 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.426e+02 4.845e+02 6.228e+02 7.810e+02 2.223e+03, threshold=1.246e+03, percent-clipped=2.0
+2023-04-02 21:00:33,038 INFO [train.py:903] (2/4) Epoch 22, batch 1750, loss[loss=0.2043, simple_loss=0.2839, pruned_loss=0.06236, over 19587.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2886, pruned_loss=0.0634, over 3835496.57 frames. ], batch size: 61, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:00:40,308 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=145144.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:01:09,157 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=145169.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:01:31,679 INFO [train.py:903] (2/4) Epoch 22, batch 1800, loss[loss=0.1995, simple_loss=0.2808, pruned_loss=0.05908, over 19780.00 frames. ], tot_loss[loss=0.2082, simple_loss=0.2889, pruned_loss=0.06374, over 3820944.95 frames. ], batch size: 54, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:01:55,270 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9318, 1.2308, 1.5972, 0.6106, 2.0819, 2.4299, 2.1295, 2.6172],
+       device='cuda:2'), covar=tensor([0.1639, 0.3811, 0.3318, 0.2807, 0.0615, 0.0288, 0.0366, 0.0401],
+       device='cuda:2'), in_proj_covar=tensor([0.0272, 0.0321, 0.0352, 0.0265, 0.0243, 0.0186, 0.0216, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 21:02:27,946 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.845e+02 5.086e+02 5.993e+02 7.804e+02 1.410e+03, threshold=1.199e+03, percent-clipped=2.0
+2023-04-02 21:02:27,983 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 21:02:31,523 INFO [train.py:903] (2/4) Epoch 22, batch 1850, loss[loss=0.2215, simple_loss=0.3008, pruned_loss=0.07112, over 19652.00 frames. ], tot_loss[loss=0.2082, simple_loss=0.2886, pruned_loss=0.06397, over 3813985.69 frames. ], batch size: 53, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:03:04,115 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 21:03:30,820 INFO [train.py:903] (2/4) Epoch 22, batch 1900, loss[loss=0.2127, simple_loss=0.2987, pruned_loss=0.06336, over 19593.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2874, pruned_loss=0.0634, over 3826074.28 frames. ], batch size: 61, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:03:45,070 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9764, 4.4312, 4.8129, 4.7723, 1.7696, 4.4475, 3.8711, 4.5252],
+       device='cuda:2'), covar=tensor([0.1667, 0.0780, 0.0541, 0.0647, 0.6304, 0.0826, 0.0650, 0.1058],
+       device='cuda:2'), in_proj_covar=tensor([0.0775, 0.0737, 0.0934, 0.0825, 0.0825, 0.0698, 0.0561, 0.0872],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 21:03:48,270 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 21:03:52,771 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 21:04:15,276 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 21:04:26,521 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.830e+02 5.286e+02 6.049e+02 6.874e+02 1.450e+03, threshold=1.210e+03, percent-clipped=2.0
+2023-04-02 21:04:30,790 INFO [train.py:903] (2/4) Epoch 22, batch 1950, loss[loss=0.2252, simple_loss=0.292, pruned_loss=0.07918, over 18708.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2877, pruned_loss=0.06375, over 3819374.53 frames. ], batch size: 41, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:04:44,278 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6444, 2.6422, 2.4531, 2.7403, 2.6491, 2.4083, 2.3107, 2.7904],
+       device='cuda:2'), covar=tensor([0.0976, 0.1494, 0.1365, 0.1061, 0.1258, 0.0496, 0.1283, 0.0602],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0356, 0.0312, 0.0249, 0.0300, 0.0250, 0.0309, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:04:55,827 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=145358.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:05:31,548 INFO [train.py:903] (2/4) Epoch 22, batch 2000, loss[loss=0.1764, simple_loss=0.2669, pruned_loss=0.0429, over 19643.00 frames. ], tot_loss[loss=0.2072, simple_loss=0.2874, pruned_loss=0.06351, over 3812961.16 frames. ], batch size: 53, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:05:32,818 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=145389.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:05:32,926 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=145389.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:06:19,692 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=145428.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:06:27,594 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.585e+02 4.801e+02 6.060e+02 7.916e+02 1.266e+03, threshold=1.212e+03, percent-clipped=1.0
+2023-04-02 21:06:27,628 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 21:06:30,126 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0086, 1.2210, 1.5436, 0.8315, 2.2624, 3.0287, 2.7048, 3.2364],
+       device='cuda:2'), covar=tensor([0.1729, 0.3935, 0.3593, 0.2765, 0.0635, 0.0235, 0.0266, 0.0297],
+       device='cuda:2'), in_proj_covar=tensor([0.0272, 0.0321, 0.0352, 0.0265, 0.0243, 0.0186, 0.0216, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 21:06:30,885 INFO [train.py:903] (2/4) Epoch 22, batch 2050, loss[loss=0.2625, simple_loss=0.3396, pruned_loss=0.0927, over 19600.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2873, pruned_loss=0.06335, over 3815359.85 frames. ], batch size: 57, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:06:46,543 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 21:06:46,572 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 21:07:06,397 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 21:07:13,302 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=145473.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:07:30,900 INFO [train.py:903] (2/4) Epoch 22, batch 2100, loss[loss=0.2266, simple_loss=0.3032, pruned_loss=0.07501, over 19741.00 frames. ], tot_loss[loss=0.209, simple_loss=0.2888, pruned_loss=0.06456, over 3800407.16 frames. ], batch size: 63, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:07:51,393 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=145504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:08:01,441 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 21:08:22,530 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 21:08:27,087 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.088e+02 4.926e+02 6.113e+02 7.931e+02 1.598e+03, threshold=1.223e+03, percent-clipped=5.0
+2023-04-02 21:08:30,642 INFO [train.py:903] (2/4) Epoch 22, batch 2150, loss[loss=0.205, simple_loss=0.2922, pruned_loss=0.05886, over 19660.00 frames. ], tot_loss[loss=0.209, simple_loss=0.2886, pruned_loss=0.0647, over 3806103.59 frames. ], batch size: 60, lr: 3.76e-03, grad_scale: 8.0
+2023-04-02 21:08:38,978 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=145543.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:09:32,290 INFO [train.py:903] (2/4) Epoch 22, batch 2200, loss[loss=0.199, simple_loss=0.29, pruned_loss=0.05399, over 17534.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2886, pruned_loss=0.065, over 3794356.18 frames. ], batch size: 101, lr: 3.76e-03, grad_scale: 4.0
+2023-04-02 21:10:00,330 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=145612.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:10:08,468 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5739, 1.5224, 1.4342, 1.9712, 1.6632, 1.8560, 1.9335, 1.7299],
+       device='cuda:2'), covar=tensor([0.0810, 0.0853, 0.1013, 0.0690, 0.0718, 0.0691, 0.0785, 0.0640],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0221, 0.0226, 0.0240, 0.0225, 0.0212, 0.0186, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 21:10:29,863 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.244e+02 5.056e+02 6.179e+02 8.064e+02 2.249e+03, threshold=1.236e+03, percent-clipped=3.0
+2023-04-02 21:10:32,067 INFO [train.py:903] (2/4) Epoch 22, batch 2250, loss[loss=0.1712, simple_loss=0.2541, pruned_loss=0.04416, over 19750.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2884, pruned_loss=0.06501, over 3787882.07 frames. ], batch size: 46, lr: 3.76e-03, grad_scale: 4.0
+2023-04-02 21:11:01,347 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=145661.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:11:33,806 INFO [train.py:903] (2/4) Epoch 22, batch 2300, loss[loss=0.159, simple_loss=0.237, pruned_loss=0.04049, over 19770.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2875, pruned_loss=0.06397, over 3797728.54 frames. ], batch size: 48, lr: 3.75e-03, grad_scale: 4.0
+2023-04-02 21:11:45,970 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 21:12:22,753 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=145729.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:12:27,063 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=145733.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:12:30,302 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.518e+02 4.899e+02 6.109e+02 7.402e+02 2.135e+03, threshold=1.222e+03, percent-clipped=2.0
+2023-04-02 21:12:32,754 INFO [train.py:903] (2/4) Epoch 22, batch 2350, loss[loss=0.1967, simple_loss=0.2797, pruned_loss=0.05688, over 19517.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2878, pruned_loss=0.06439, over 3788198.54 frames. ], batch size: 54, lr: 3.75e-03, grad_scale: 4.0
+2023-04-02 21:12:54,273 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=145754.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:13:01,054 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=145760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:13:14,117 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 21:13:31,581 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 21:13:31,991 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=145785.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:13:35,674 INFO [train.py:903] (2/4) Epoch 22, batch 2400, loss[loss=0.2797, simple_loss=0.348, pruned_loss=0.1057, over 19776.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2881, pruned_loss=0.06421, over 3788951.67 frames. ], batch size: 54, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:13:48,778 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=145799.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:14:20,066 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=145824.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:14:34,015 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.210e+02 4.826e+02 5.747e+02 7.009e+02 1.532e+03, threshold=1.149e+03, percent-clipped=5.0
+2023-04-02 21:14:36,516 INFO [train.py:903] (2/4) Epoch 22, batch 2450, loss[loss=0.1986, simple_loss=0.2869, pruned_loss=0.05515, over 19668.00 frames. ], tot_loss[loss=0.2086, simple_loss=0.2885, pruned_loss=0.06433, over 3796020.67 frames. ], batch size: 59, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:14:37,990 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=145839.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 21:14:41,434 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9263, 1.1838, 1.6152, 0.5932, 2.0756, 2.4628, 2.1893, 2.6368],
+       device='cuda:2'), covar=tensor([0.1587, 0.3900, 0.3256, 0.2787, 0.0602, 0.0275, 0.0355, 0.0375],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0319, 0.0350, 0.0263, 0.0242, 0.0185, 0.0215, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 21:14:49,301 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=145848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:15:37,464 INFO [train.py:903] (2/4) Epoch 22, batch 2500, loss[loss=0.1947, simple_loss=0.2806, pruned_loss=0.05441, over 19714.00 frames. ], tot_loss[loss=0.2081, simple_loss=0.2883, pruned_loss=0.06397, over 3815696.40 frames. ], batch size: 51, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:16:01,289 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7001, 1.4504, 1.5538, 1.5268, 3.3011, 1.1998, 2.4186, 3.7145],
+       device='cuda:2'), covar=tensor([0.0533, 0.2670, 0.2783, 0.1877, 0.0681, 0.2398, 0.1242, 0.0249],
+       device='cuda:2'), in_proj_covar=tensor([0.0410, 0.0367, 0.0388, 0.0351, 0.0376, 0.0350, 0.0381, 0.0407],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:16:34,429 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.066e+02 4.836e+02 5.791e+02 7.519e+02 1.267e+03, threshold=1.158e+03, percent-clipped=1.0
+2023-04-02 21:16:36,601 INFO [train.py:903] (2/4) Epoch 22, batch 2550, loss[loss=0.2297, simple_loss=0.3103, pruned_loss=0.07458, over 19669.00 frames. ], tot_loss[loss=0.2087, simple_loss=0.2888, pruned_loss=0.06435, over 3816721.96 frames. ], batch size: 53, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:16:38,048 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.1887, 5.5568, 3.0262, 4.8852, 1.0420, 5.8251, 5.6363, 5.8147],
+       device='cuda:2'), covar=tensor([0.0375, 0.0827, 0.1791, 0.0651, 0.4047, 0.0431, 0.0626, 0.0779],
+       device='cuda:2'), in_proj_covar=tensor([0.0502, 0.0409, 0.0491, 0.0343, 0.0401, 0.0430, 0.0424, 0.0458],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:16:47,209 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0199, 1.0114, 1.2753, 1.4004, 2.4672, 1.2138, 2.3738, 2.9056],
+       device='cuda:2'), covar=tensor([0.0718, 0.3621, 0.3528, 0.2133, 0.1124, 0.2625, 0.1175, 0.0469],
+       device='cuda:2'), in_proj_covar=tensor([0.0408, 0.0366, 0.0387, 0.0349, 0.0374, 0.0349, 0.0379, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:16:54,917 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1156, 2.8225, 2.1749, 2.1544, 2.0258, 2.5192, 1.0969, 2.0725],
+       device='cuda:2'), covar=tensor([0.0641, 0.0614, 0.0716, 0.1094, 0.1061, 0.0931, 0.1283, 0.0957],
+       device='cuda:2'), in_proj_covar=tensor([0.0356, 0.0357, 0.0357, 0.0381, 0.0458, 0.0385, 0.0335, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 21:16:59,323 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=145956.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:17:33,989 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 21:17:38,146 INFO [train.py:903] (2/4) Epoch 22, batch 2600, loss[loss=0.2149, simple_loss=0.2977, pruned_loss=0.06601, over 17621.00 frames. ], tot_loss[loss=0.2087, simple_loss=0.2887, pruned_loss=0.06439, over 3828762.81 frames. ], batch size: 101, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:17:59,426 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=146005.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:18:00,059 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-02 21:18:05,441 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.09 vs. limit=2.0
+2023-04-02 21:18:22,946 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.1022, 4.4285, 4.8221, 4.7985, 1.8866, 4.5005, 3.9233, 4.5399],
+       device='cuda:2'), covar=tensor([0.1614, 0.0825, 0.0560, 0.0677, 0.5789, 0.0853, 0.0658, 0.1137],
+       device='cuda:2'), in_proj_covar=tensor([0.0778, 0.0738, 0.0939, 0.0826, 0.0827, 0.0702, 0.0564, 0.0876],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 21:18:31,806 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5382, 1.4223, 1.4704, 2.1713, 1.7274, 1.7847, 1.9644, 1.6976],
+       device='cuda:2'), covar=tensor([0.0870, 0.0965, 0.1010, 0.0672, 0.0813, 0.0813, 0.0830, 0.0711],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0218, 0.0222, 0.0237, 0.0222, 0.0208, 0.0183, 0.0200],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 21:18:38,079 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.365e+02 5.022e+02 6.231e+02 7.783e+02 1.698e+03, threshold=1.246e+03, percent-clipped=5.0
+2023-04-02 21:18:40,366 INFO [train.py:903] (2/4) Epoch 22, batch 2650, loss[loss=0.2298, simple_loss=0.3059, pruned_loss=0.07684, over 19659.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2892, pruned_loss=0.06477, over 3809214.98 frames. ], batch size: 60, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:19:00,429 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 21:19:01,975 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5894, 1.1798, 1.2315, 1.4712, 1.1214, 1.3524, 1.2714, 1.4197],
+       device='cuda:2'), covar=tensor([0.1148, 0.1353, 0.1536, 0.1033, 0.1315, 0.0640, 0.1522, 0.0832],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0357, 0.0311, 0.0250, 0.0301, 0.0250, 0.0309, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:19:16,636 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.36 vs. limit=5.0
+2023-04-02 21:19:21,364 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=146071.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:19:23,568 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4963, 1.4424, 1.4462, 2.0012, 1.5086, 1.7239, 1.8115, 1.6236],
+       device='cuda:2'), covar=tensor([0.0908, 0.0930, 0.1016, 0.0670, 0.0922, 0.0790, 0.0893, 0.0716],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0220, 0.0223, 0.0238, 0.0224, 0.0209, 0.0185, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 21:19:41,307 INFO [train.py:903] (2/4) Epoch 22, batch 2700, loss[loss=0.2003, simple_loss=0.291, pruned_loss=0.05484, over 19311.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2886, pruned_loss=0.06453, over 3821357.48 frames. ], batch size: 66, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:20:01,754 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=146104.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:20:20,662 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=146120.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:20:26,601 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1491, 2.0346, 1.9410, 1.7201, 1.6451, 1.7574, 0.6042, 1.1325],
+       device='cuda:2'), covar=tensor([0.0578, 0.0590, 0.0418, 0.0724, 0.1112, 0.0838, 0.1260, 0.0958],
+       device='cuda:2'), in_proj_covar=tensor([0.0355, 0.0356, 0.0359, 0.0381, 0.0459, 0.0388, 0.0335, 0.0342],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 21:20:32,045 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=146129.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:20:39,332 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.068e+02 4.787e+02 6.288e+02 8.148e+02 2.582e+03, threshold=1.258e+03, percent-clipped=4.0
+2023-04-02 21:20:41,746 INFO [train.py:903] (2/4) Epoch 22, batch 2750, loss[loss=0.2301, simple_loss=0.305, pruned_loss=0.07761, over 13441.00 frames. ], tot_loss[loss=0.2098, simple_loss=0.2895, pruned_loss=0.06505, over 3813662.75 frames. ], batch size: 136, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:21:18,180 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=146167.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:21:37,434 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=146183.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 21:21:43,817 INFO [train.py:903] (2/4) Epoch 22, batch 2800, loss[loss=0.2048, simple_loss=0.2785, pruned_loss=0.0655, over 19568.00 frames. ], tot_loss[loss=0.2094, simple_loss=0.2888, pruned_loss=0.06502, over 3812961.60 frames. ], batch size: 52, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:22:42,904 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.980e+02 4.555e+02 5.863e+02 7.335e+02 1.249e+03, threshold=1.173e+03, percent-clipped=1.0
+2023-04-02 21:22:45,126 INFO [train.py:903] (2/4) Epoch 22, batch 2850, loss[loss=0.1963, simple_loss=0.2773, pruned_loss=0.05767, over 19727.00 frames. ], tot_loss[loss=0.2087, simple_loss=0.2881, pruned_loss=0.06462, over 3810974.79 frames. ], batch size: 51, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:22:48,501 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
+2023-04-02 21:23:26,459 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3147, 2.1747, 2.1044, 1.8944, 1.7698, 1.9070, 0.6505, 1.2661],
+       device='cuda:2'), covar=tensor([0.0648, 0.0610, 0.0497, 0.0886, 0.1149, 0.0920, 0.1434, 0.1163],
+       device='cuda:2'), in_proj_covar=tensor([0.0358, 0.0359, 0.0362, 0.0385, 0.0464, 0.0389, 0.0338, 0.0345],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 21:23:42,915 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 21:23:45,159 INFO [train.py:903] (2/4) Epoch 22, batch 2900, loss[loss=0.2241, simple_loss=0.3013, pruned_loss=0.07347, over 19607.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.287, pruned_loss=0.06404, over 3824969.63 frames. ], batch size: 61, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:23:57,237 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=146298.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 21:24:33,191 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=146327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:24:43,685 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.365e+02 4.789e+02 5.854e+02 7.393e+02 1.532e+03, threshold=1.171e+03, percent-clipped=5.0
+2023-04-02 21:24:45,869 INFO [train.py:903] (2/4) Epoch 22, batch 2950, loss[loss=0.2151, simple_loss=0.2974, pruned_loss=0.06638, over 19601.00 frames. ], tot_loss[loss=0.209, simple_loss=0.2884, pruned_loss=0.06477, over 3811693.61 frames. ], batch size: 57, lr: 3.75e-03, grad_scale: 8.0
+2023-04-02 21:25:04,181 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=146352.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:25:11,577 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.55 vs. limit=2.0
+2023-04-02 21:25:32,572 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=146376.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:25:46,771 INFO [train.py:903] (2/4) Epoch 22, batch 3000, loss[loss=0.2248, simple_loss=0.3045, pruned_loss=0.07249, over 19605.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2885, pruned_loss=0.06488, over 3806040.65 frames. ], batch size: 57, lr: 3.75e-03, grad_scale: 4.0
+2023-04-02 21:25:46,771 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 21:25:59,193 INFO [train.py:937] (2/4) Epoch 22, validation: loss=0.1687, simple_loss=0.2687, pruned_loss=0.0344, over 944034.00 frames. 
+2023-04-02 21:25:59,194 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 21:26:02,604 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 21:26:16,078 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7552, 4.2635, 4.5177, 4.5179, 1.6947, 4.2262, 3.6632, 4.2515],
+       device='cuda:2'), covar=tensor([0.1769, 0.0776, 0.0571, 0.0694, 0.6023, 0.0870, 0.0702, 0.1078],
+       device='cuda:2'), in_proj_covar=tensor([0.0785, 0.0743, 0.0949, 0.0833, 0.0834, 0.0708, 0.0571, 0.0883],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 21:26:16,200 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=146401.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:26:58,620 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.135e+02 5.066e+02 6.686e+02 8.533e+02 1.871e+03, threshold=1.337e+03, percent-clipped=6.0
+2023-04-02 21:26:59,743 INFO [train.py:903] (2/4) Epoch 22, batch 3050, loss[loss=0.231, simple_loss=0.3085, pruned_loss=0.07677, over 19403.00 frames. ], tot_loss[loss=0.2099, simple_loss=0.2894, pruned_loss=0.06522, over 3804434.88 frames. ], batch size: 70, lr: 3.74e-03, grad_scale: 4.0
+2023-04-02 21:27:21,448 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9651, 2.0460, 2.2901, 2.5981, 1.9133, 2.4937, 2.3695, 2.1824],
+       device='cuda:2'), covar=tensor([0.4241, 0.4018, 0.1939, 0.2309, 0.4138, 0.2085, 0.4761, 0.3303],
+       device='cuda:2'), in_proj_covar=tensor([0.0899, 0.0963, 0.0719, 0.0932, 0.0880, 0.0816, 0.0845, 0.0782],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 21:28:00,893 INFO [train.py:903] (2/4) Epoch 22, batch 3100, loss[loss=0.2292, simple_loss=0.3071, pruned_loss=0.07565, over 19535.00 frames. ], tot_loss[loss=0.2097, simple_loss=0.2894, pruned_loss=0.06498, over 3805668.96 frames. ], batch size: 56, lr: 3.74e-03, grad_scale: 4.0
+2023-04-02 21:28:27,625 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=146511.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:28:59,179 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.441e+02 5.077e+02 6.322e+02 8.082e+02 1.628e+03, threshold=1.264e+03, percent-clipped=2.0
+2023-04-02 21:29:00,361 INFO [train.py:903] (2/4) Epoch 22, batch 3150, loss[loss=0.1806, simple_loss=0.2574, pruned_loss=0.0519, over 19378.00 frames. ], tot_loss[loss=0.2097, simple_loss=0.2895, pruned_loss=0.06499, over 3810059.73 frames. ], batch size: 47, lr: 3.74e-03, grad_scale: 4.0
+2023-04-02 21:29:20,745 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=146554.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 21:29:29,193 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 21:29:51,104 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=146579.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 21:30:00,731 INFO [train.py:903] (2/4) Epoch 22, batch 3200, loss[loss=0.2252, simple_loss=0.2997, pruned_loss=0.07537, over 19586.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2884, pruned_loss=0.06467, over 3797489.91 frames. ], batch size: 52, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:30:28,079 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=146609.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:30:47,482 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=146626.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:31:01,671 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.447e+02 4.719e+02 5.878e+02 7.469e+02 1.229e+03, threshold=1.176e+03, percent-clipped=0.0
+2023-04-02 21:31:02,818 INFO [train.py:903] (2/4) Epoch 22, batch 3250, loss[loss=0.1961, simple_loss=0.2794, pruned_loss=0.05645, over 19678.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2891, pruned_loss=0.06503, over 3808292.02 frames. ], batch size: 53, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:31:10,857 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=146644.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:31:11,354 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.52 vs. limit=5.0
+2023-04-02 21:31:19,063 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1289, 3.4334, 1.9586, 2.1493, 3.0532, 1.7414, 1.5416, 2.1725],
+       device='cuda:2'), covar=tensor([0.1350, 0.0599, 0.1075, 0.0837, 0.0517, 0.1277, 0.0960, 0.0706],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0317, 0.0337, 0.0265, 0.0248, 0.0336, 0.0291, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:32:00,574 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.09 vs. limit=2.0
+2023-04-02 21:32:02,482 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4250, 1.5426, 1.9043, 1.7571, 2.5540, 2.2214, 2.7073, 1.1799],
+       device='cuda:2'), covar=tensor([0.2752, 0.4568, 0.2744, 0.2037, 0.1614, 0.2369, 0.1554, 0.4717],
+       device='cuda:2'), in_proj_covar=tensor([0.0533, 0.0640, 0.0708, 0.0480, 0.0614, 0.0526, 0.0660, 0.0548],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 21:32:03,195 INFO [train.py:903] (2/4) Epoch 22, batch 3300, loss[loss=0.2028, simple_loss=0.2896, pruned_loss=0.05798, over 19530.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2883, pruned_loss=0.06461, over 3815314.72 frames. ], batch size: 54, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:32:09,860 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 21:32:59,758 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.231e+02 5.268e+02 6.638e+02 8.509e+02 1.642e+03, threshold=1.328e+03, percent-clipped=7.0
+2023-04-02 21:33:00,759 INFO [train.py:903] (2/4) Epoch 22, batch 3350, loss[loss=0.2838, simple_loss=0.339, pruned_loss=0.1143, over 19274.00 frames. ], tot_loss[loss=0.2106, simple_loss=0.2898, pruned_loss=0.06566, over 3818301.95 frames. ], batch size: 66, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:33:04,826 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.82 vs. limit=5.0
+2023-04-02 21:33:25,668 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8820, 1.4130, 1.5996, 1.6274, 3.4806, 1.0988, 2.4058, 3.9813],
+       device='cuda:2'), covar=tensor([0.0467, 0.2850, 0.2854, 0.1879, 0.0680, 0.2608, 0.1319, 0.0197],
+       device='cuda:2'), in_proj_covar=tensor([0.0407, 0.0362, 0.0384, 0.0346, 0.0370, 0.0347, 0.0377, 0.0402],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:33:31,346 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9305, 4.3357, 4.6149, 4.6165, 1.6396, 4.3379, 3.7502, 4.3010],
+       device='cuda:2'), covar=tensor([0.1664, 0.0916, 0.0625, 0.0663, 0.6369, 0.0915, 0.0720, 0.1217],
+       device='cuda:2'), in_proj_covar=tensor([0.0780, 0.0742, 0.0943, 0.0828, 0.0828, 0.0707, 0.0569, 0.0878],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 21:33:57,993 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.3206, 5.7009, 3.2536, 5.0430, 1.2407, 5.8692, 5.7339, 5.9558],
+       device='cuda:2'), covar=tensor([0.0406, 0.0992, 0.1760, 0.0622, 0.4026, 0.0460, 0.0700, 0.0759],
+       device='cuda:2'), in_proj_covar=tensor([0.0505, 0.0412, 0.0493, 0.0345, 0.0402, 0.0432, 0.0425, 0.0460],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:34:00,057 INFO [train.py:903] (2/4) Epoch 22, batch 3400, loss[loss=0.2168, simple_loss=0.2845, pruned_loss=0.07457, over 19822.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2893, pruned_loss=0.06496, over 3822163.79 frames. ], batch size: 48, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:34:36,128 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2973, 2.3727, 2.6245, 3.0737, 2.3174, 2.9844, 2.6676, 2.3917],
+       device='cuda:2'), covar=tensor([0.4483, 0.4066, 0.1928, 0.2682, 0.4554, 0.2208, 0.4905, 0.3379],
+       device='cuda:2'), in_proj_covar=tensor([0.0899, 0.0963, 0.0717, 0.0933, 0.0879, 0.0816, 0.0845, 0.0781],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 21:34:59,707 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.964e+02 5.013e+02 6.159e+02 8.066e+02 2.491e+03, threshold=1.232e+03, percent-clipped=4.0
+2023-04-02 21:35:00,913 INFO [train.py:903] (2/4) Epoch 22, batch 3450, loss[loss=0.2222, simple_loss=0.3049, pruned_loss=0.06973, over 18138.00 frames. ], tot_loss[loss=0.2095, simple_loss=0.2893, pruned_loss=0.06489, over 3824165.45 frames. ], batch size: 83, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:35:03,498 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6548, 1.7047, 1.2359, 1.4898, 1.5655, 1.1077, 1.0939, 1.3843],
+       device='cuda:2'), covar=tensor([0.1116, 0.1107, 0.1708, 0.1111, 0.1255, 0.1392, 0.2017, 0.1103],
+       device='cuda:2'), in_proj_covar=tensor([0.0270, 0.0354, 0.0310, 0.0249, 0.0300, 0.0250, 0.0307, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:35:04,224 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 21:35:28,819 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=146862.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:35:54,051 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=146882.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:36:00,710 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1422, 2.0592, 1.8443, 1.7642, 1.6060, 1.7839, 0.6583, 1.2669],
+       device='cuda:2'), covar=tensor([0.0587, 0.0561, 0.0491, 0.0739, 0.1043, 0.0882, 0.1270, 0.0955],
+       device='cuda:2'), in_proj_covar=tensor([0.0357, 0.0356, 0.0359, 0.0383, 0.0460, 0.0387, 0.0337, 0.0342],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 21:36:01,451 INFO [train.py:903] (2/4) Epoch 22, batch 3500, loss[loss=0.234, simple_loss=0.3132, pruned_loss=0.07744, over 17249.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2874, pruned_loss=0.06377, over 3834900.46 frames. ], batch size: 101, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:36:23,417 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=146907.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:36:43,222 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1116, 1.8467, 1.9882, 2.9604, 2.0110, 2.4297, 2.4379, 2.2063],
+       device='cuda:2'), covar=tensor([0.0795, 0.0918, 0.0961, 0.0741, 0.0898, 0.0753, 0.0914, 0.0656],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0221, 0.0224, 0.0239, 0.0225, 0.0210, 0.0186, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 21:37:00,107 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.850e+02 4.615e+02 6.325e+02 8.235e+02 2.059e+03, threshold=1.265e+03, percent-clipped=6.0
+2023-04-02 21:37:01,338 INFO [train.py:903] (2/4) Epoch 22, batch 3550, loss[loss=0.225, simple_loss=0.2962, pruned_loss=0.07687, over 19578.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2866, pruned_loss=0.06334, over 3836790.77 frames. ], batch size: 61, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:37:18,268 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=146953.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:38:02,339 INFO [train.py:903] (2/4) Epoch 22, batch 3600, loss[loss=0.1737, simple_loss=0.2502, pruned_loss=0.04862, over 19755.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2864, pruned_loss=0.0631, over 3839712.46 frames. ], batch size: 45, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:38:02,529 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=146988.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:38:40,777 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5965, 1.2565, 1.2689, 1.5450, 1.1308, 1.4128, 1.2892, 1.4539],
+       device='cuda:2'), covar=tensor([0.1103, 0.1218, 0.1486, 0.0981, 0.1314, 0.0596, 0.1432, 0.0787],
+       device='cuda:2'), in_proj_covar=tensor([0.0269, 0.0353, 0.0309, 0.0249, 0.0301, 0.0250, 0.0308, 0.0255],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:38:45,346 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1722, 1.8725, 1.9166, 2.6363, 1.7476, 2.4173, 2.4798, 2.1843],
+       device='cuda:2'), covar=tensor([0.0755, 0.0855, 0.0922, 0.0811, 0.0885, 0.0718, 0.0792, 0.0625],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0221, 0.0225, 0.0240, 0.0226, 0.0211, 0.0186, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 21:39:01,662 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.391e+02 4.948e+02 6.297e+02 8.667e+02 2.605e+03, threshold=1.259e+03, percent-clipped=8.0
+2023-04-02 21:39:02,704 INFO [train.py:903] (2/4) Epoch 22, batch 3650, loss[loss=0.1867, simple_loss=0.2522, pruned_loss=0.0606, over 19732.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2868, pruned_loss=0.06347, over 3839102.15 frames. ], batch size: 45, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:39:39,116 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=147068.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:39:41,812 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-02 21:40:03,857 INFO [train.py:903] (2/4) Epoch 22, batch 3700, loss[loss=0.2014, simple_loss=0.2755, pruned_loss=0.06365, over 19397.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2873, pruned_loss=0.06381, over 3825793.27 frames. ], batch size: 47, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:40:21,206 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=147103.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:40:43,476 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.51 vs. limit=2.0
+2023-04-02 21:41:02,894 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.261e+02 4.816e+02 5.960e+02 7.144e+02 1.653e+03, threshold=1.192e+03, percent-clipped=4.0
+2023-04-02 21:41:04,071 INFO [train.py:903] (2/4) Epoch 22, batch 3750, loss[loss=0.2557, simple_loss=0.3289, pruned_loss=0.09125, over 12863.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2866, pruned_loss=0.06324, over 3830386.09 frames. ], batch size: 136, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:41:07,726 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3532, 3.9668, 2.6226, 3.4696, 0.8942, 3.9167, 3.8090, 3.8859],
+       device='cuda:2'), covar=tensor([0.0698, 0.0990, 0.1955, 0.0884, 0.3966, 0.0763, 0.0962, 0.1059],
+       device='cuda:2'), in_proj_covar=tensor([0.0505, 0.0412, 0.0494, 0.0344, 0.0402, 0.0432, 0.0427, 0.0460],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:42:04,510 INFO [train.py:903] (2/4) Epoch 22, batch 3800, loss[loss=0.2008, simple_loss=0.2909, pruned_loss=0.05532, over 19646.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2866, pruned_loss=0.06295, over 3827044.07 frames. ], batch size: 55, lr: 3.74e-03, grad_scale: 8.0
+2023-04-02 21:42:26,704 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=147206.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:42:38,899 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-02 21:43:02,576 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.867e+02 5.077e+02 5.970e+02 7.548e+02 1.289e+03, threshold=1.194e+03, percent-clipped=1.0
+2023-04-02 21:43:03,538 INFO [train.py:903] (2/4) Epoch 22, batch 3850, loss[loss=0.2357, simple_loss=0.3073, pruned_loss=0.08205, over 19602.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.288, pruned_loss=0.06347, over 3831784.33 frames. ], batch size: 61, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:43:29,920 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3029, 3.9033, 2.7292, 3.4970, 1.2225, 3.8240, 3.7097, 3.8518],
+       device='cuda:2'), covar=tensor([0.0712, 0.0975, 0.1826, 0.0832, 0.3696, 0.0813, 0.0978, 0.1342],
+       device='cuda:2'), in_proj_covar=tensor([0.0504, 0.0411, 0.0493, 0.0344, 0.0401, 0.0431, 0.0426, 0.0459],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:43:31,169 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=147259.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:44:05,365 INFO [train.py:903] (2/4) Epoch 22, batch 3900, loss[loss=0.2028, simple_loss=0.287, pruned_loss=0.05932, over 19691.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.288, pruned_loss=0.06351, over 3818094.40 frames. ], batch size: 59, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:44:46,185 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=147321.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:44:49,774 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=147324.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:44:55,098 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=147328.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:45:04,846 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.696e+02 4.890e+02 6.799e+02 8.609e+02 1.784e+03, threshold=1.360e+03, percent-clipped=9.0
+2023-04-02 21:45:05,886 INFO [train.py:903] (2/4) Epoch 22, batch 3950, loss[loss=0.1836, simple_loss=0.2549, pruned_loss=0.05614, over 19787.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.288, pruned_loss=0.06385, over 3801377.86 frames. ], batch size: 47, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:45:08,143 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-02 21:45:12,761 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0506, 3.3877, 1.9254, 2.0667, 3.0972, 1.7874, 1.5806, 2.2124],
+       device='cuda:2'), covar=tensor([0.1542, 0.0672, 0.1169, 0.0884, 0.0500, 0.1258, 0.0967, 0.0730],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0318, 0.0339, 0.0265, 0.0250, 0.0336, 0.0292, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:45:18,210 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=147349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:45:30,122 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=147359.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:45:46,165 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4646, 2.2455, 1.6270, 1.5829, 2.0936, 1.3778, 1.3246, 1.8255],
+       device='cuda:2'), covar=tensor([0.1191, 0.0762, 0.1136, 0.0854, 0.0526, 0.1284, 0.0800, 0.0559],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0317, 0.0338, 0.0264, 0.0250, 0.0336, 0.0292, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:46:00,807 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=147384.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:46:04,829 INFO [train.py:903] (2/4) Epoch 22, batch 4000, loss[loss=0.1759, simple_loss=0.2558, pruned_loss=0.04801, over 19732.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2873, pruned_loss=0.06363, over 3821783.94 frames. ], batch size: 46, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:46:50,135 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=147425.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:46:52,243 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-02 21:47:03,830 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.354e+02 4.920e+02 5.925e+02 7.748e+02 1.160e+03, threshold=1.185e+03, percent-clipped=0.0
+2023-04-02 21:47:05,863 INFO [train.py:903] (2/4) Epoch 22, batch 4050, loss[loss=0.1863, simple_loss=0.2563, pruned_loss=0.05812, over 19704.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2865, pruned_loss=0.06333, over 3825999.34 frames. ], batch size: 45, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:47:24,625 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=147452.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:48:00,741 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3972, 1.4260, 1.6696, 1.6151, 2.3281, 2.1266, 2.3966, 1.0788],
+       device='cuda:2'), covar=tensor([0.2586, 0.4514, 0.2846, 0.2005, 0.1693, 0.2243, 0.1725, 0.4606],
+       device='cuda:2'), in_proj_covar=tensor([0.0534, 0.0644, 0.0713, 0.0480, 0.0616, 0.0528, 0.0663, 0.0548],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 21:48:07,527 INFO [train.py:903] (2/4) Epoch 22, batch 4100, loss[loss=0.2216, simple_loss=0.2997, pruned_loss=0.07179, over 19495.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2875, pruned_loss=0.06359, over 3823500.14 frames. ], batch size: 64, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:48:44,890 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-02 21:48:48,747 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6344, 4.0806, 4.2710, 4.2620, 1.5485, 4.0377, 3.5153, 3.9921],
+       device='cuda:2'), covar=tensor([0.1572, 0.0847, 0.0637, 0.0694, 0.5879, 0.0855, 0.0678, 0.1158],
+       device='cuda:2'), in_proj_covar=tensor([0.0779, 0.0742, 0.0945, 0.0825, 0.0826, 0.0707, 0.0568, 0.0882],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 21:49:07,918 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.284e+02 5.254e+02 6.349e+02 7.493e+02 1.711e+03, threshold=1.270e+03, percent-clipped=4.0
+2023-04-02 21:49:09,115 INFO [train.py:903] (2/4) Epoch 22, batch 4150, loss[loss=0.1919, simple_loss=0.2787, pruned_loss=0.05253, over 19583.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.2872, pruned_loss=0.06311, over 3823801.02 frames. ], batch size: 52, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:49:49,341 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9189, 2.0088, 2.2822, 2.5498, 1.8951, 2.4291, 2.3014, 2.1008],
+       device='cuda:2'), covar=tensor([0.4011, 0.3591, 0.1769, 0.2135, 0.3851, 0.2047, 0.4683, 0.3176],
+       device='cuda:2'), in_proj_covar=tensor([0.0893, 0.0959, 0.0712, 0.0927, 0.0873, 0.0811, 0.0839, 0.0777],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 21:49:53,531 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4847, 2.2689, 1.7214, 1.5502, 2.1074, 1.3172, 1.4245, 1.8775],
+       device='cuda:2'), covar=tensor([0.1090, 0.0806, 0.1013, 0.0826, 0.0591, 0.1304, 0.0730, 0.0519],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0315, 0.0335, 0.0263, 0.0248, 0.0335, 0.0289, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:49:56,984 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=147577.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:50:09,104 INFO [train.py:903] (2/4) Epoch 22, batch 4200, loss[loss=0.1792, simple_loss=0.2623, pruned_loss=0.04804, over 19633.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.2872, pruned_loss=0.06311, over 3824895.10 frames. ], batch size: 50, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:50:13,782 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-02 21:50:26,609 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=147602.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:50:27,405 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=147603.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:50:56,086 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-02 21:51:09,770 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.286e+02 4.933e+02 5.671e+02 7.351e+02 2.024e+03, threshold=1.134e+03, percent-clipped=5.0
+2023-04-02 21:51:10,932 INFO [train.py:903] (2/4) Epoch 22, batch 4250, loss[loss=0.1919, simple_loss=0.2772, pruned_loss=0.05334, over 19550.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.2873, pruned_loss=0.06308, over 3820513.37 frames. ], batch size: 56, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:51:13,553 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1331, 3.2344, 1.9727, 2.0221, 2.9038, 1.8418, 1.6669, 2.2618],
+       device='cuda:2'), covar=tensor([0.1177, 0.0616, 0.0988, 0.0790, 0.0554, 0.1100, 0.0823, 0.0612],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0316, 0.0336, 0.0265, 0.0249, 0.0336, 0.0291, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:51:25,901 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-02 21:51:38,183 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-02 21:51:51,752 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=147672.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:51:54,076 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4564, 2.4115, 2.0670, 2.5437, 2.2764, 2.1330, 2.1029, 2.4897],
+       device='cuda:2'), covar=tensor([0.1060, 0.1676, 0.1661, 0.1202, 0.1539, 0.0582, 0.1447, 0.0715],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0356, 0.0314, 0.0251, 0.0303, 0.0253, 0.0310, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:51:57,375 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=147677.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:52:11,224 INFO [train.py:903] (2/4) Epoch 22, batch 4300, loss[loss=0.1885, simple_loss=0.269, pruned_loss=0.05396, over 19717.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2881, pruned_loss=0.06309, over 3818694.22 frames. ], batch size: 51, lr: 3.73e-03, grad_scale: 4.0
+2023-04-02 21:52:17,405 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.42 vs. limit=2.0
+2023-04-02 21:52:22,661 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-02 21:52:33,850 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-02 21:52:47,214 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=147718.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:53:02,956 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-02 21:53:11,621 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.973e+02 5.055e+02 6.219e+02 8.115e+02 2.735e+03, threshold=1.244e+03, percent-clipped=11.0
+2023-04-02 21:53:11,639 INFO [train.py:903] (2/4) Epoch 22, batch 4350, loss[loss=0.2074, simple_loss=0.2824, pruned_loss=0.06621, over 19749.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2893, pruned_loss=0.06422, over 3810092.08 frames. ], batch size: 51, lr: 3.73e-03, grad_scale: 4.0
+2023-04-02 21:53:48,691 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=147769.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:54:11,265 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=147787.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:54:11,999 INFO [train.py:903] (2/4) Epoch 22, batch 4400, loss[loss=0.1957, simple_loss=0.2729, pruned_loss=0.05924, over 19737.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2889, pruned_loss=0.06448, over 3814462.99 frames. ], batch size: 48, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:54:20,670 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=147796.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:54:37,133 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-02 21:54:46,701 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-02 21:55:06,284 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=147833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:55:12,511 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.305e+02 5.137e+02 6.374e+02 7.743e+02 1.534e+03, threshold=1.275e+03, percent-clipped=3.0
+2023-04-02 21:55:12,529 INFO [train.py:903] (2/4) Epoch 22, batch 4450, loss[loss=0.1953, simple_loss=0.2853, pruned_loss=0.05265, over 19591.00 frames. ], tot_loss[loss=0.2098, simple_loss=0.2897, pruned_loss=0.06492, over 3815530.11 frames. ], batch size: 57, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:55:57,441 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=147875.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:55:57,477 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6399, 1.3895, 1.5092, 1.5900, 3.2376, 1.2645, 2.3736, 3.6921],
+       device='cuda:2'), covar=tensor([0.0553, 0.2800, 0.2891, 0.1919, 0.0791, 0.2445, 0.1310, 0.0263],
+       device='cuda:2'), in_proj_covar=tensor([0.0408, 0.0366, 0.0387, 0.0348, 0.0373, 0.0349, 0.0382, 0.0404],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:56:08,761 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=147884.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:56:12,927 INFO [train.py:903] (2/4) Epoch 22, batch 4500, loss[loss=0.1569, simple_loss=0.2378, pruned_loss=0.03795, over 16446.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2891, pruned_loss=0.06461, over 3814124.03 frames. ], batch size: 36, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:56:41,857 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=147911.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:57:03,817 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=147929.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:57:15,406 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.490e+02 4.535e+02 5.624e+02 7.235e+02 1.683e+03, threshold=1.125e+03, percent-clipped=3.0
+2023-04-02 21:57:15,425 INFO [train.py:903] (2/4) Epoch 22, batch 4550, loss[loss=0.2046, simple_loss=0.2751, pruned_loss=0.06701, over 19712.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2877, pruned_loss=0.06421, over 3809917.16 frames. ], batch size: 45, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:57:23,446 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-02 21:57:46,096 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-02 21:57:58,573 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=147974.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:58:15,826 INFO [train.py:903] (2/4) Epoch 22, batch 4600, loss[loss=0.2336, simple_loss=0.3086, pruned_loss=0.07933, over 19487.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2875, pruned_loss=0.06422, over 3792110.00 frames. ], batch size: 49, lr: 3.73e-03, grad_scale: 8.0
+2023-04-02 21:58:28,673 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=147999.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:58:56,667 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=148021.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:59:04,092 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
+2023-04-02 21:59:12,777 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5947, 1.2679, 1.4570, 1.6788, 3.1952, 1.2182, 2.3069, 3.5829],
+       device='cuda:2'), covar=tensor([0.0479, 0.2874, 0.3114, 0.1714, 0.0684, 0.2393, 0.1286, 0.0258],
+       device='cuda:2'), in_proj_covar=tensor([0.0408, 0.0366, 0.0387, 0.0347, 0.0374, 0.0348, 0.0381, 0.0403],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 21:59:16,076 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.327e+02 4.857e+02 6.032e+02 8.227e+02 1.754e+03, threshold=1.206e+03, percent-clipped=4.0
+2023-04-02 21:59:16,094 INFO [train.py:903] (2/4) Epoch 22, batch 4650, loss[loss=0.196, simple_loss=0.2733, pruned_loss=0.05935, over 18812.00 frames. ], tot_loss[loss=0.2078, simple_loss=0.2873, pruned_loss=0.06412, over 3796622.38 frames. ], batch size: 74, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 21:59:22,648 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=148043.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 21:59:32,297 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-02 21:59:43,967 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-02 21:59:53,336 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=148068.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:00:16,030 INFO [train.py:903] (2/4) Epoch 22, batch 4700, loss[loss=0.1743, simple_loss=0.2491, pruned_loss=0.04976, over 19720.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2884, pruned_loss=0.0646, over 3800297.33 frames. ], batch size: 46, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:00:39,959 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-02 22:01:15,681 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=148136.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:01:17,614 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.017e+02 5.448e+02 6.322e+02 7.572e+02 1.580e+03, threshold=1.264e+03, percent-clipped=4.0
+2023-04-02 22:01:17,633 INFO [train.py:903] (2/4) Epoch 22, batch 4750, loss[loss=0.2382, simple_loss=0.313, pruned_loss=0.08168, over 18827.00 frames. ], tot_loss[loss=0.2095, simple_loss=0.2892, pruned_loss=0.06492, over 3810680.52 frames. ], batch size: 74, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:01:21,305 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=148140.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:01:34,513 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.36 vs. limit=2.0
+2023-04-02 22:01:50,390 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=148165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:01:52,786 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=148167.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:02:05,587 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=148177.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:02:06,210 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.49 vs. limit=2.0
+2023-04-02 22:02:18,760 INFO [train.py:903] (2/4) Epoch 22, batch 4800, loss[loss=0.221, simple_loss=0.2907, pruned_loss=0.07567, over 19585.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2888, pruned_loss=0.06449, over 3820672.76 frames. ], batch size: 52, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:02:23,670 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=148192.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:02:57,703 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=148219.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:03:18,978 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.136e+02 4.799e+02 5.785e+02 7.279e+02 1.291e+03, threshold=1.157e+03, percent-clipped=1.0
+2023-04-02 22:03:18,996 INFO [train.py:903] (2/4) Epoch 22, batch 4850, loss[loss=0.1747, simple_loss=0.2538, pruned_loss=0.04782, over 18144.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2888, pruned_loss=0.06468, over 3792056.48 frames. ], batch size: 40, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:03:44,130 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-02 22:04:01,913 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=148273.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:04:02,918 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-02 22:04:08,080 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-02 22:04:09,284 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-02 22:04:18,709 INFO [train.py:903] (2/4) Epoch 22, batch 4900, loss[loss=0.2456, simple_loss=0.3169, pruned_loss=0.08709, over 19541.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2875, pruned_loss=0.06427, over 3813703.25 frames. ], batch size: 56, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:04:18,723 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-02 22:04:24,305 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=148292.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:04:39,205 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-02 22:04:40,581 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=148305.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:05:14,493 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=148334.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:05:19,523 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.031e+02 5.396e+02 6.572e+02 8.433e+02 1.736e+03, threshold=1.314e+03, percent-clipped=6.0
+2023-04-02 22:05:19,541 INFO [train.py:903] (2/4) Epoch 22, batch 4950, loss[loss=0.2231, simple_loss=0.3069, pruned_loss=0.06964, over 19612.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2884, pruned_loss=0.06487, over 3816287.40 frames. ], batch size: 57, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:05:26,432 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.43 vs. limit=5.0
+2023-04-02 22:05:35,930 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-02 22:06:01,172 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-02 22:06:20,896 INFO [train.py:903] (2/4) Epoch 22, batch 5000, loss[loss=0.2001, simple_loss=0.2786, pruned_loss=0.06077, over 19607.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2882, pruned_loss=0.06417, over 3820685.29 frames. ], batch size: 50, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:06:21,217 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=148388.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:06:25,708 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=148392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:06:29,626 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-02 22:06:40,553 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-02 22:06:55,453 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=148417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:07:19,244 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.597e+02 4.828e+02 6.337e+02 7.923e+02 1.456e+03, threshold=1.267e+03, percent-clipped=1.0
+2023-04-02 22:07:19,262 INFO [train.py:903] (2/4) Epoch 22, batch 5050, loss[loss=0.2196, simple_loss=0.3059, pruned_loss=0.06661, over 19791.00 frames. ], tot_loss[loss=0.21, simple_loss=0.2896, pruned_loss=0.06516, over 3819819.04 frames. ], batch size: 63, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:07:30,120 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=148447.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:07:46,901 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4726, 4.0861, 2.8103, 3.6006, 1.3403, 4.0332, 3.8891, 4.0377],
+       device='cuda:2'), covar=tensor([0.0706, 0.1036, 0.1840, 0.0860, 0.3529, 0.0661, 0.0902, 0.1132],
+       device='cuda:2'), in_proj_covar=tensor([0.0502, 0.0409, 0.0492, 0.0344, 0.0398, 0.0432, 0.0424, 0.0458],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:07:54,472 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-02 22:08:19,386 INFO [train.py:903] (2/4) Epoch 22, batch 5100, loss[loss=0.156, simple_loss=0.2347, pruned_loss=0.03868, over 19781.00 frames. ], tot_loss[loss=0.2082, simple_loss=0.288, pruned_loss=0.06425, over 3820744.20 frames. ], batch size: 47, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:08:21,058 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-02 22:08:30,466 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-02 22:08:33,788 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-02 22:08:39,192 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-02 22:08:53,317 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=148516.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:09:19,535 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.928e+02 5.468e+02 6.941e+02 9.893e+02 2.948e+03, threshold=1.388e+03, percent-clipped=12.0
+2023-04-02 22:09:19,553 INFO [train.py:903] (2/4) Epoch 22, batch 5150, loss[loss=0.2127, simple_loss=0.2946, pruned_loss=0.06537, over 19738.00 frames. ], tot_loss[loss=0.208, simple_loss=0.288, pruned_loss=0.06402, over 3822509.86 frames. ], batch size: 63, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:09:31,353 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-02 22:09:32,982 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=148548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:09:40,841 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-02 22:10:02,755 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=148573.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:10:05,882 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 22:10:20,783 INFO [train.py:903] (2/4) Epoch 22, batch 5200, loss[loss=0.218, simple_loss=0.3041, pruned_loss=0.06596, over 19360.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2878, pruned_loss=0.06373, over 3823176.89 frames. ], batch size: 70, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:10:23,531 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=148590.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:10:33,166 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-02 22:10:53,676 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=148615.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:10:58,743 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.74 vs. limit=2.0
+2023-04-02 22:11:17,520 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-02 22:11:21,000 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.230e+02 4.558e+02 5.776e+02 7.251e+02 2.001e+03, threshold=1.155e+03, percent-clipped=2.0
+2023-04-02 22:11:21,018 INFO [train.py:903] (2/4) Epoch 22, batch 5250, loss[loss=0.2079, simple_loss=0.2921, pruned_loss=0.06186, over 19674.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.2881, pruned_loss=0.06384, over 3826513.71 frames. ], batch size: 59, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:11:27,784 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4495, 1.3667, 1.5180, 1.4420, 3.0512, 1.1778, 2.3213, 3.4212],
+       device='cuda:2'), covar=tensor([0.0472, 0.2625, 0.2730, 0.1891, 0.0711, 0.2346, 0.1199, 0.0269],
+       device='cuda:2'), in_proj_covar=tensor([0.0410, 0.0367, 0.0387, 0.0348, 0.0375, 0.0351, 0.0384, 0.0405],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:11:27,895 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=148644.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:11:33,740 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=148649.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:11:35,083 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1299, 1.3319, 1.7071, 1.3165, 2.6638, 3.6874, 3.3800, 3.8170],
+       device='cuda:2'), covar=tensor([0.1702, 0.3741, 0.3386, 0.2474, 0.0644, 0.0188, 0.0200, 0.0258],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0326, 0.0357, 0.0268, 0.0248, 0.0190, 0.0218, 0.0262],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 22:11:58,291 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=148669.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:11:58,395 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=148669.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:12:20,276 INFO [train.py:903] (2/4) Epoch 22, batch 5300, loss[loss=0.1794, simple_loss=0.261, pruned_loss=0.04895, over 19756.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2892, pruned_loss=0.06469, over 3829154.27 frames. ], batch size: 47, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:12:39,146 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-02 22:13:17,792 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=148734.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:13:22,173 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.679e+02 5.309e+02 6.457e+02 8.011e+02 2.116e+03, threshold=1.291e+03, percent-clipped=5.0
+2023-04-02 22:13:22,191 INFO [train.py:903] (2/4) Epoch 22, batch 5350, loss[loss=0.1903, simple_loss=0.2642, pruned_loss=0.05826, over 19291.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2883, pruned_loss=0.06423, over 3823763.28 frames. ], batch size: 44, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:13:53,931 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=148764.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:13:55,510 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-02 22:13:58,121 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2924, 3.7912, 3.9062, 3.9014, 1.6893, 3.7128, 3.2698, 3.6415],
+       device='cuda:2'), covar=tensor([0.1551, 0.1020, 0.0694, 0.0742, 0.5376, 0.1038, 0.0700, 0.1215],
+       device='cuda:2'), in_proj_covar=tensor([0.0777, 0.0738, 0.0939, 0.0824, 0.0827, 0.0704, 0.0564, 0.0875],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 22:13:59,361 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5281, 3.1494, 2.2141, 2.2795, 2.2457, 2.7029, 0.9880, 2.2962],
+       device='cuda:2'), covar=tensor([0.0495, 0.0472, 0.0642, 0.1010, 0.0851, 0.0901, 0.1251, 0.0822],
+       device='cuda:2'), in_proj_covar=tensor([0.0354, 0.0356, 0.0357, 0.0380, 0.0461, 0.0387, 0.0336, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 22:14:24,407 INFO [train.py:903] (2/4) Epoch 22, batch 5400, loss[loss=0.2411, simple_loss=0.3093, pruned_loss=0.08647, over 13245.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2878, pruned_loss=0.06362, over 3832331.98 frames. ], batch size: 136, lr: 3.72e-03, grad_scale: 8.0
+2023-04-02 22:14:28,070 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=148791.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:15:24,091 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.599e+02 4.882e+02 5.931e+02 8.184e+02 2.288e+03, threshold=1.186e+03, percent-clipped=7.0
+2023-04-02 22:15:24,109 INFO [train.py:903] (2/4) Epoch 22, batch 5450, loss[loss=0.222, simple_loss=0.3045, pruned_loss=0.06975, over 19595.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2881, pruned_loss=0.06346, over 3828531.50 frames. ], batch size: 61, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:15:50,183 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=148860.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:16:05,295 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4708, 1.5189, 1.7763, 1.7199, 2.4124, 2.2207, 2.5564, 1.0820],
+       device='cuda:2'), covar=tensor([0.2460, 0.4222, 0.2608, 0.1905, 0.1649, 0.2116, 0.1542, 0.4587],
+       device='cuda:2'), in_proj_covar=tensor([0.0540, 0.0647, 0.0717, 0.0486, 0.0624, 0.0533, 0.0667, 0.0553],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 22:16:24,044 INFO [train.py:903] (2/4) Epoch 22, batch 5500, loss[loss=0.19, simple_loss=0.2726, pruned_loss=0.05373, over 17466.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2877, pruned_loss=0.06349, over 3834663.54 frames. ], batch size: 101, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:16:47,597 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=148906.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:16:49,403 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-02 22:17:25,271 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.265e+02 4.956e+02 6.031e+02 8.410e+02 1.981e+03, threshold=1.206e+03, percent-clipped=11.0
+2023-04-02 22:17:25,290 INFO [train.py:903] (2/4) Epoch 22, batch 5550, loss[loss=0.2076, simple_loss=0.2859, pruned_loss=0.0646, over 19545.00 frames. ], tot_loss[loss=0.2058, simple_loss=0.2862, pruned_loss=0.06274, over 3833095.87 frames. ], batch size: 54, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:17:33,838 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-02 22:17:36,211 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2757, 3.6341, 2.1927, 2.2060, 3.3647, 1.9496, 1.6187, 2.2338],
+       device='cuda:2'), covar=tensor([0.1339, 0.0697, 0.1058, 0.0867, 0.0479, 0.1227, 0.1012, 0.0741],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0317, 0.0338, 0.0264, 0.0248, 0.0339, 0.0291, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:18:10,834 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=148975.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:18:21,571 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-02 22:18:27,007 INFO [train.py:903] (2/4) Epoch 22, batch 5600, loss[loss=0.2271, simple_loss=0.3072, pruned_loss=0.07355, over 19082.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2873, pruned_loss=0.06365, over 3834506.07 frames. ], batch size: 69, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:18:41,659 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9868, 2.0718, 2.3567, 2.6288, 2.0092, 2.4959, 2.3896, 2.1182],
+       device='cuda:2'), covar=tensor([0.3958, 0.3957, 0.1790, 0.2411, 0.4071, 0.2117, 0.4509, 0.3219],
+       device='cuda:2'), in_proj_covar=tensor([0.0893, 0.0959, 0.0714, 0.0928, 0.0874, 0.0810, 0.0837, 0.0778],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 22:18:56,787 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=149013.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:19:05,999 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=149020.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:19:27,601 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.511e+02 5.096e+02 6.059e+02 8.103e+02 1.757e+03, threshold=1.212e+03, percent-clipped=10.0
+2023-04-02 22:19:27,619 INFO [train.py:903] (2/4) Epoch 22, batch 5650, loss[loss=0.22, simple_loss=0.3026, pruned_loss=0.0687, over 18050.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.287, pruned_loss=0.06356, over 3816356.35 frames. ], batch size: 83, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:19:35,883 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=149045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:19:41,136 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2556, 3.8049, 3.9389, 3.9179, 1.5260, 3.7460, 3.2432, 3.6964],
+       device='cuda:2'), covar=tensor([0.1740, 0.0921, 0.0703, 0.0798, 0.6054, 0.1059, 0.0742, 0.1229],
+       device='cuda:2'), in_proj_covar=tensor([0.0786, 0.0745, 0.0951, 0.0836, 0.0841, 0.0718, 0.0569, 0.0884],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 22:20:15,157 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-02 22:20:16,297 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=149078.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:20:18,954 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4426, 1.6035, 1.9456, 1.7444, 3.2123, 2.4642, 3.4846, 1.6522],
+       device='cuda:2'), covar=tensor([0.2761, 0.4664, 0.3081, 0.2063, 0.1574, 0.2373, 0.1560, 0.4483],
+       device='cuda:2'), in_proj_covar=tensor([0.0536, 0.0642, 0.0711, 0.0483, 0.0621, 0.0531, 0.0661, 0.0549],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 22:20:21,711 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-02 22:20:28,282 INFO [train.py:903] (2/4) Epoch 22, batch 5700, loss[loss=0.206, simple_loss=0.293, pruned_loss=0.05952, over 19097.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2869, pruned_loss=0.06354, over 3818324.95 frames. ], batch size: 69, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:21:17,806 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=149128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:21:29,596 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.928e+02 4.618e+02 6.077e+02 7.635e+02 1.470e+03, threshold=1.215e+03, percent-clipped=6.0
+2023-04-02 22:21:29,614 INFO [train.py:903] (2/4) Epoch 22, batch 5750, loss[loss=0.1785, simple_loss=0.25, pruned_loss=0.05353, over 19773.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2868, pruned_loss=0.0635, over 3827351.58 frames. ], batch size: 46, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:21:30,815 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-02 22:21:39,630 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-02 22:21:46,341 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-02 22:21:59,277 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=149162.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:22:29,890 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=149187.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:22:30,644 INFO [train.py:903] (2/4) Epoch 22, batch 5800, loss[loss=0.1829, simple_loss=0.257, pruned_loss=0.05443, over 19776.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2874, pruned_loss=0.06392, over 3814752.98 frames. ], batch size: 47, lr: 3.71e-03, grad_scale: 4.0
+2023-04-02 22:22:37,186 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=149193.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:23:23,082 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=149231.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:23:30,410 INFO [train.py:903] (2/4) Epoch 22, batch 5850, loss[loss=0.1687, simple_loss=0.2522, pruned_loss=0.04261, over 19425.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.2876, pruned_loss=0.06413, over 3815521.23 frames. ], batch size: 48, lr: 3.71e-03, grad_scale: 4.0
+2023-04-02 22:23:31,585 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.414e+02 5.174e+02 6.346e+02 7.936e+02 1.645e+03, threshold=1.269e+03, percent-clipped=7.0
+2023-04-02 22:23:52,865 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=149256.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:24:30,286 INFO [train.py:903] (2/4) Epoch 22, batch 5900, loss[loss=0.1869, simple_loss=0.271, pruned_loss=0.05136, over 19575.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2872, pruned_loss=0.06388, over 3820709.27 frames. ], batch size: 52, lr: 3.71e-03, grad_scale: 4.0
+2023-04-02 22:24:35,574 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-02 22:24:56,375 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-02 22:25:31,743 INFO [train.py:903] (2/4) Epoch 22, batch 5950, loss[loss=0.2192, simple_loss=0.2937, pruned_loss=0.07235, over 19774.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2864, pruned_loss=0.06372, over 3809284.32 frames. ], batch size: 54, lr: 3.71e-03, grad_scale: 4.0
+2023-04-02 22:25:32,878 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.792e+02 4.957e+02 5.985e+02 7.132e+02 1.534e+03, threshold=1.197e+03, percent-clipped=1.0
+2023-04-02 22:26:28,441 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=149384.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:26:33,220 INFO [train.py:903] (2/4) Epoch 22, batch 6000, loss[loss=0.2072, simple_loss=0.2921, pruned_loss=0.06121, over 18308.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2873, pruned_loss=0.06404, over 3811302.03 frames. ], batch size: 83, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:26:33,221 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 22:26:46,911 INFO [train.py:937] (2/4) Epoch 22, validation: loss=0.1681, simple_loss=0.2682, pruned_loss=0.03398, over 944034.00 frames. 
+2023-04-02 22:26:46,912 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 22:27:13,604 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=149409.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:27:48,664 INFO [train.py:903] (2/4) Epoch 22, batch 6050, loss[loss=0.2534, simple_loss=0.323, pruned_loss=0.09191, over 18828.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2872, pruned_loss=0.06401, over 3813108.94 frames. ], batch size: 74, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:27:49,811 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.518e+02 4.880e+02 5.766e+02 7.280e+02 1.810e+03, threshold=1.153e+03, percent-clipped=3.0
+2023-04-02 22:28:02,637 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=149449.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:28:32,538 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=149474.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:28:50,322 INFO [train.py:903] (2/4) Epoch 22, batch 6100, loss[loss=0.1604, simple_loss=0.2368, pruned_loss=0.04198, over 19412.00 frames. ], tot_loss[loss=0.206, simple_loss=0.286, pruned_loss=0.06302, over 3822195.53 frames. ], batch size: 48, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:29:16,828 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3530, 1.3131, 1.9291, 1.6993, 3.1473, 4.6380, 4.4604, 5.0060],
+       device='cuda:2'), covar=tensor([0.1676, 0.4055, 0.3491, 0.2271, 0.0609, 0.0186, 0.0180, 0.0213],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0323, 0.0354, 0.0265, 0.0246, 0.0188, 0.0216, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 22:29:42,760 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=149532.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:29:48,970 INFO [train.py:903] (2/4) Epoch 22, batch 6150, loss[loss=0.1957, simple_loss=0.2721, pruned_loss=0.05963, over 19730.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2872, pruned_loss=0.06384, over 3817833.17 frames. ], batch size: 51, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:29:50,022 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.191e+02 4.761e+02 6.063e+02 7.648e+02 1.908e+03, threshold=1.213e+03, percent-clipped=8.0
+2023-04-02 22:30:19,811 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-02 22:30:43,261 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=149583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:30:49,417 INFO [train.py:903] (2/4) Epoch 22, batch 6200, loss[loss=0.1752, simple_loss=0.2612, pruned_loss=0.04464, over 19594.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2872, pruned_loss=0.06376, over 3820103.76 frames. ], batch size: 52, lr: 3.71e-03, grad_scale: 8.0
+2023-04-02 22:31:35,875 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
+2023-04-02 22:31:51,302 INFO [train.py:903] (2/4) Epoch 22, batch 6250, loss[loss=0.2107, simple_loss=0.2995, pruned_loss=0.06099, over 17435.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2874, pruned_loss=0.06372, over 3796280.59 frames. ], batch size: 101, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:31:52,392 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.896e+02 5.068e+02 6.178e+02 8.268e+02 1.694e+03, threshold=1.236e+03, percent-clipped=5.0
+2023-04-02 22:32:21,872 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-02 22:32:52,472 INFO [train.py:903] (2/4) Epoch 22, batch 6300, loss[loss=0.1708, simple_loss=0.2462, pruned_loss=0.04769, over 16903.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2864, pruned_loss=0.06301, over 3808144.56 frames. ], batch size: 37, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:32:59,739 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.55 vs. limit=2.0
+2023-04-02 22:33:33,518 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-02 22:33:51,830 INFO [train.py:903] (2/4) Epoch 22, batch 6350, loss[loss=0.1909, simple_loss=0.2629, pruned_loss=0.05946, over 19730.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2871, pruned_loss=0.06341, over 3802390.79 frames. ], batch size: 45, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:33:52,936 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.101e+02 5.551e+02 6.531e+02 8.044e+02 1.579e+03, threshold=1.306e+03, percent-clipped=6.0
+2023-04-02 22:34:23,965 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=149764.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 22:34:48,907 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.31 vs. limit=2.0
+2023-04-02 22:34:52,488 INFO [train.py:903] (2/4) Epoch 22, batch 6400, loss[loss=0.1915, simple_loss=0.2758, pruned_loss=0.05361, over 18742.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2872, pruned_loss=0.06341, over 3805416.02 frames. ], batch size: 74, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:35:25,518 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.77 vs. limit=2.0
+2023-04-02 22:35:51,423 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0980, 1.7806, 1.4909, 1.1297, 1.5793, 1.1402, 1.1935, 1.6661],
+       device='cuda:2'), covar=tensor([0.0826, 0.0789, 0.0999, 0.0889, 0.0568, 0.1307, 0.0626, 0.0468],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0318, 0.0340, 0.0268, 0.0249, 0.0338, 0.0292, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:35:54,282 INFO [train.py:903] (2/4) Epoch 22, batch 6450, loss[loss=0.1859, simple_loss=0.276, pruned_loss=0.0479, over 19664.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2864, pruned_loss=0.06301, over 3828244.05 frames. ], batch size: 58, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:35:55,271 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.826e+02 4.788e+02 5.699e+02 7.070e+02 1.580e+03, threshold=1.140e+03, percent-clipped=2.0
+2023-04-02 22:36:23,901 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1223, 1.3563, 1.5743, 1.3314, 2.7643, 1.0177, 2.1702, 3.0916],
+       device='cuda:2'), covar=tensor([0.0586, 0.2703, 0.2695, 0.1844, 0.0701, 0.2421, 0.1211, 0.0326],
+       device='cuda:2'), in_proj_covar=tensor([0.0414, 0.0368, 0.0388, 0.0347, 0.0375, 0.0354, 0.0384, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:36:39,132 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-02 22:36:40,521 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=149876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:36:54,748 INFO [train.py:903] (2/4) Epoch 22, batch 6500, loss[loss=0.2495, simple_loss=0.3248, pruned_loss=0.08712, over 19513.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2856, pruned_loss=0.0625, over 3826397.50 frames. ], batch size: 64, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:37:00,234 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-02 22:37:41,928 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=149927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:37:55,092 INFO [train.py:903] (2/4) Epoch 22, batch 6550, loss[loss=0.246, simple_loss=0.3245, pruned_loss=0.08373, over 19706.00 frames. ], tot_loss[loss=0.2052, simple_loss=0.2855, pruned_loss=0.06243, over 3831253.86 frames. ], batch size: 63, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:37:56,255 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.115e+02 4.654e+02 5.933e+02 7.304e+02 1.667e+03, threshold=1.187e+03, percent-clipped=4.0
+2023-04-02 22:38:55,832 INFO [train.py:903] (2/4) Epoch 22, batch 6600, loss[loss=0.1864, simple_loss=0.2771, pruned_loss=0.04783, over 18148.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.286, pruned_loss=0.06273, over 3818230.09 frames. ], batch size: 83, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:38:59,640 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=149991.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:39:59,893 INFO [train.py:903] (2/4) Epoch 22, batch 6650, loss[loss=0.2323, simple_loss=0.3128, pruned_loss=0.07589, over 19532.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2869, pruned_loss=0.06344, over 3813223.21 frames. ], batch size: 54, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:40:01,054 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.517e+02 4.673e+02 5.867e+02 7.414e+02 1.313e+03, threshold=1.173e+03, percent-clipped=2.0
+2023-04-02 22:40:04,701 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=150042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:40:54,109 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9749, 1.8075, 1.5244, 1.8332, 1.7477, 1.4166, 1.4899, 1.7668],
+       device='cuda:2'), covar=tensor([0.1096, 0.1493, 0.1725, 0.1184, 0.1418, 0.0836, 0.1666, 0.0880],
+       device='cuda:2'), in_proj_covar=tensor([0.0268, 0.0352, 0.0311, 0.0249, 0.0300, 0.0249, 0.0307, 0.0254],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:40:59,354 INFO [train.py:903] (2/4) Epoch 22, batch 6700, loss[loss=0.207, simple_loss=0.2933, pruned_loss=0.06032, over 19662.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2864, pruned_loss=0.06298, over 3823957.02 frames. ], batch size: 53, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:41:10,403 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=150097.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:41:23,662 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=150108.0, num_to_drop=1, layers_to_drop={1}
+2023-04-02 22:41:51,114 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9544, 4.3865, 4.6557, 4.6454, 1.6934, 4.3778, 3.7595, 4.3683],
+       device='cuda:2'), covar=tensor([0.1649, 0.0776, 0.0601, 0.0655, 0.6230, 0.0891, 0.0676, 0.1166],
+       device='cuda:2'), in_proj_covar=tensor([0.0787, 0.0749, 0.0955, 0.0833, 0.0839, 0.0714, 0.0568, 0.0882],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 22:41:57,255 INFO [train.py:903] (2/4) Epoch 22, batch 6750, loss[loss=0.2491, simple_loss=0.3192, pruned_loss=0.08954, over 19281.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2871, pruned_loss=0.06353, over 3832943.30 frames. ], batch size: 66, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:41:58,371 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.145e+02 4.879e+02 6.504e+02 7.654e+02 1.720e+03, threshold=1.301e+03, percent-clipped=5.0
+2023-04-02 22:42:53,133 INFO [train.py:903] (2/4) Epoch 22, batch 6800, loss[loss=0.1881, simple_loss=0.2715, pruned_loss=0.0524, over 19621.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2878, pruned_loss=0.06409, over 3824628.44 frames. ], batch size: 50, lr: 3.70e-03, grad_scale: 8.0
+2023-04-02 22:43:20,004 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7822, 3.9487, 4.3476, 4.3520, 2.7934, 4.0605, 3.7470, 4.1151],
+       device='cuda:2'), covar=tensor([0.1385, 0.3353, 0.0632, 0.0688, 0.4137, 0.1345, 0.0629, 0.1022],
+       device='cuda:2'), in_proj_covar=tensor([0.0786, 0.0747, 0.0954, 0.0833, 0.0836, 0.0712, 0.0567, 0.0882],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 22:43:38,426 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-02 22:43:39,484 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-02 22:43:42,625 INFO [train.py:903] (2/4) Epoch 23, batch 0, loss[loss=0.224, simple_loss=0.3021, pruned_loss=0.073, over 19762.00 frames. ], tot_loss[loss=0.224, simple_loss=0.3021, pruned_loss=0.073, over 19762.00 frames. ], batch size: 63, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:43:42,626 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 22:43:54,253 INFO [train.py:937] (2/4) Epoch 23, validation: loss=0.1688, simple_loss=0.2693, pruned_loss=0.03418, over 944034.00 frames. 
+2023-04-02 22:43:54,254 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 22:44:03,541 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=150223.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 22:44:06,620 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-02 22:44:21,433 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.019e+02 4.848e+02 5.561e+02 7.527e+02 1.735e+03, threshold=1.112e+03, percent-clipped=5.0
+2023-04-02 22:44:31,832 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=150247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:44:35,237 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1041, 1.7990, 1.5244, 1.2162, 1.6362, 1.2368, 1.0978, 1.5986],
+       device='cuda:2'), covar=tensor([0.0900, 0.0829, 0.1073, 0.0861, 0.0527, 0.1330, 0.0708, 0.0482],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0320, 0.0342, 0.0269, 0.0250, 0.0339, 0.0294, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:44:55,830 INFO [train.py:903] (2/4) Epoch 23, batch 50, loss[loss=0.1985, simple_loss=0.2726, pruned_loss=0.06219, over 19743.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2853, pruned_loss=0.06135, over 865777.34 frames. ], batch size: 51, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:45:03,061 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=150272.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:45:27,185 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=150292.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:45:30,265 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-02 22:45:36,396 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=150298.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:45:57,947 INFO [train.py:903] (2/4) Epoch 23, batch 100, loss[loss=0.2094, simple_loss=0.2929, pruned_loss=0.06297, over 18753.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2858, pruned_loss=0.0625, over 1523757.79 frames. ], batch size: 74, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:46:06,470 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=150323.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:46:07,246 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-02 22:46:26,512 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.179e+02 4.910e+02 5.630e+02 7.676e+02 1.557e+03, threshold=1.126e+03, percent-clipped=7.0
+2023-04-02 22:46:48,751 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1900, 3.3639, 2.0195, 1.8698, 3.0910, 1.7085, 1.6021, 2.2976],
+       device='cuda:2'), covar=tensor([0.1369, 0.0658, 0.1072, 0.1021, 0.0624, 0.1340, 0.1044, 0.0706],
+       device='cuda:2'), in_proj_covar=tensor([0.0305, 0.0318, 0.0340, 0.0268, 0.0248, 0.0337, 0.0292, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:46:59,547 INFO [train.py:903] (2/4) Epoch 23, batch 150, loss[loss=0.2122, simple_loss=0.285, pruned_loss=0.06969, over 19377.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.286, pruned_loss=0.06268, over 2050394.67 frames. ], batch size: 48, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:47:59,876 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-02 22:48:01,003 INFO [train.py:903] (2/4) Epoch 23, batch 200, loss[loss=0.2247, simple_loss=0.3024, pruned_loss=0.07349, over 19536.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.288, pruned_loss=0.06395, over 2435636.26 frames. ], batch size: 54, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:48:30,849 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.764e+02 5.350e+02 6.653e+02 9.712e+02 2.771e+03, threshold=1.331e+03, percent-clipped=16.0
+2023-04-02 22:48:33,190 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=150441.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:48:38,323 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-02 22:49:02,669 INFO [train.py:903] (2/4) Epoch 23, batch 250, loss[loss=0.2405, simple_loss=0.3162, pruned_loss=0.08236, over 17415.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2887, pruned_loss=0.06443, over 2749930.14 frames. ], batch size: 101, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:49:20,033 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=150479.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 22:49:43,869 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1652, 1.2123, 1.6507, 1.2954, 2.5274, 3.5469, 3.2392, 3.8280],
+       device='cuda:2'), covar=tensor([0.1696, 0.4090, 0.3607, 0.2475, 0.0641, 0.0199, 0.0240, 0.0254],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0325, 0.0355, 0.0267, 0.0246, 0.0189, 0.0217, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 22:49:48,392 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.4341, 5.2934, 6.1724, 6.1480, 2.2464, 5.8096, 4.9581, 5.8660],
+       device='cuda:2'), covar=tensor([0.1535, 0.0705, 0.0522, 0.0551, 0.5728, 0.0644, 0.0569, 0.1047],
+       device='cuda:2'), in_proj_covar=tensor([0.0784, 0.0744, 0.0952, 0.0832, 0.0836, 0.0711, 0.0566, 0.0878],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 22:49:49,695 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=150504.0, num_to_drop=1, layers_to_drop={0}
+2023-04-02 22:49:54,006 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5544, 1.7427, 2.0024, 1.9636, 3.2184, 2.6467, 3.5788, 1.6680],
+       device='cuda:2'), covar=tensor([0.2485, 0.4164, 0.2727, 0.1816, 0.1488, 0.2095, 0.1488, 0.4065],
+       device='cuda:2'), in_proj_covar=tensor([0.0535, 0.0642, 0.0715, 0.0484, 0.0618, 0.0530, 0.0661, 0.0548],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 22:50:05,854 INFO [train.py:903] (2/4) Epoch 23, batch 300, loss[loss=0.1952, simple_loss=0.2743, pruned_loss=0.05799, over 19468.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2873, pruned_loss=0.06371, over 2991888.00 frames. ], batch size: 49, lr: 3.61e-03, grad_scale: 4.0
+2023-04-02 22:50:34,494 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.361e+02 5.024e+02 5.928e+02 7.198e+02 2.066e+03, threshold=1.186e+03, percent-clipped=3.0
+2023-04-02 22:50:54,909 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=150555.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:50:56,010 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=150556.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:51:07,069 INFO [train.py:903] (2/4) Epoch 23, batch 350, loss[loss=0.1733, simple_loss=0.2548, pruned_loss=0.04585, over 19730.00 frames. ], tot_loss[loss=0.2082, simple_loss=0.2882, pruned_loss=0.06413, over 3157016.01 frames. ], batch size: 51, lr: 3.61e-03, grad_scale: 4.0
+2023-04-02 22:51:11,921 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-02 22:52:09,601 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.77 vs. limit=2.0
+2023-04-02 22:52:09,970 INFO [train.py:903] (2/4) Epoch 23, batch 400, loss[loss=0.231, simple_loss=0.3054, pruned_loss=0.07829, over 19662.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2877, pruned_loss=0.06377, over 3303619.59 frames. ], batch size: 60, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:52:36,583 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=150636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:52:39,026 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7748, 1.8413, 2.1556, 2.3143, 1.6603, 2.1197, 2.1505, 1.9870],
+       device='cuda:2'), covar=tensor([0.4246, 0.3761, 0.1993, 0.2438, 0.3998, 0.2304, 0.4992, 0.3491],
+       device='cuda:2'), in_proj_covar=tensor([0.0903, 0.0968, 0.0719, 0.0932, 0.0883, 0.0819, 0.0845, 0.0784],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 22:52:40,893 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.962e+02 5.093e+02 6.486e+02 8.008e+02 1.724e+03, threshold=1.297e+03, percent-clipped=3.0
+2023-04-02 22:53:11,930 INFO [train.py:903] (2/4) Epoch 23, batch 450, loss[loss=0.1758, simple_loss=0.2504, pruned_loss=0.05053, over 19781.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2871, pruned_loss=0.06357, over 3417341.27 frames. ], batch size: 48, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:53:46,043 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-02 22:53:46,070 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-02 22:54:15,721 INFO [train.py:903] (2/4) Epoch 23, batch 500, loss[loss=0.2208, simple_loss=0.2995, pruned_loss=0.07102, over 19617.00 frames. ], tot_loss[loss=0.2086, simple_loss=0.2886, pruned_loss=0.06433, over 3495252.04 frames. ], batch size: 57, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:54:29,693 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.8337, 5.3822, 3.1769, 4.7595, 1.1127, 5.3729, 5.2870, 5.4440],
+       device='cuda:2'), covar=tensor([0.0363, 0.0755, 0.1671, 0.0647, 0.3972, 0.0481, 0.0732, 0.0923],
+       device='cuda:2'), in_proj_covar=tensor([0.0505, 0.0413, 0.0498, 0.0346, 0.0402, 0.0436, 0.0425, 0.0460],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 22:54:45,176 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.118e+02 5.191e+02 6.635e+02 8.528e+02 2.142e+03, threshold=1.327e+03, percent-clipped=5.0
+2023-04-02 22:54:57,375 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=150750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:54:58,643 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=150751.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:55:17,407 INFO [train.py:903] (2/4) Epoch 23, batch 550, loss[loss=0.2299, simple_loss=0.3036, pruned_loss=0.07807, over 19768.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2891, pruned_loss=0.06471, over 3576143.38 frames. ], batch size: 63, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:55:40,338 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2182, 1.2562, 1.4826, 1.3800, 1.7988, 1.6929, 1.8095, 0.6433],
+       device='cuda:2'), covar=tensor([0.2776, 0.4621, 0.2776, 0.2216, 0.1705, 0.2686, 0.1553, 0.5061],
+       device='cuda:2'), in_proj_covar=tensor([0.0534, 0.0642, 0.0711, 0.0483, 0.0616, 0.0531, 0.0660, 0.0547],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 22:56:14,494 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=150812.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:56:18,589 INFO [train.py:903] (2/4) Epoch 23, batch 600, loss[loss=0.1901, simple_loss=0.2674, pruned_loss=0.05643, over 19611.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2891, pruned_loss=0.06452, over 3638823.09 frames. ], batch size: 50, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:56:45,471 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=150837.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:56:48,647 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.714e+02 5.000e+02 5.859e+02 6.998e+02 1.831e+03, threshold=1.172e+03, percent-clipped=2.0
+2023-04-02 22:56:59,192 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-02 22:57:21,235 INFO [train.py:903] (2/4) Epoch 23, batch 650, loss[loss=0.2104, simple_loss=0.2998, pruned_loss=0.06056, over 19290.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2891, pruned_loss=0.06434, over 3681414.34 frames. ], batch size: 66, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:58:02,423 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=150899.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:58:23,645 INFO [train.py:903] (2/4) Epoch 23, batch 700, loss[loss=0.1826, simple_loss=0.2638, pruned_loss=0.05067, over 19420.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2883, pruned_loss=0.06358, over 3718797.87 frames. ], batch size: 48, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 22:58:27,273 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=150918.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 22:58:52,730 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.226e+02 5.019e+02 5.794e+02 7.164e+02 1.349e+03, threshold=1.159e+03, percent-clipped=1.0
+2023-04-02 22:58:58,138 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.00 vs. limit=5.0
+2023-04-02 22:59:26,031 INFO [train.py:903] (2/4) Epoch 23, batch 750, loss[loss=0.1814, simple_loss=0.2661, pruned_loss=0.04838, over 19592.00 frames. ], tot_loss[loss=0.2096, simple_loss=0.2901, pruned_loss=0.06458, over 3735672.09 frames. ], batch size: 52, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 23:00:17,651 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=151007.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:00:26,910 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=151014.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:00:28,679 INFO [train.py:903] (2/4) Epoch 23, batch 800, loss[loss=0.2113, simple_loss=0.2726, pruned_loss=0.07498, over 17345.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2895, pruned_loss=0.0644, over 3759012.78 frames. ], batch size: 38, lr: 3.61e-03, grad_scale: 8.0
+2023-04-02 23:00:36,356 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
+2023-04-02 23:00:38,120 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2582, 1.4513, 1.5792, 1.5244, 2.8960, 1.1944, 2.3034, 3.2100],
+       device='cuda:2'), covar=tensor([0.0515, 0.2431, 0.2446, 0.1670, 0.0707, 0.2219, 0.1195, 0.0310],
+       device='cuda:2'), in_proj_covar=tensor([0.0416, 0.0370, 0.0389, 0.0350, 0.0379, 0.0354, 0.0385, 0.0408],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:00:44,078 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-02 23:00:46,702 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-02 23:00:48,234 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=151032.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:00:57,133 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.089e+02 5.089e+02 6.161e+02 7.478e+02 1.780e+03, threshold=1.232e+03, percent-clipped=6.0
+2023-04-02 23:01:09,786 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.72 vs. limit=2.0
+2023-04-02 23:01:29,764 INFO [train.py:903] (2/4) Epoch 23, batch 850, loss[loss=0.1851, simple_loss=0.2775, pruned_loss=0.04636, over 19715.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2896, pruned_loss=0.06449, over 3782366.14 frames. ], batch size: 59, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:01:38,467 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.77 vs. limit=2.0
+2023-04-02 23:02:00,705 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4452, 1.5059, 1.6704, 1.6204, 2.1857, 2.1339, 2.2903, 0.8085],
+       device='cuda:2'), covar=tensor([0.2394, 0.4038, 0.2506, 0.1889, 0.1529, 0.2080, 0.1408, 0.4516],
+       device='cuda:2'), in_proj_covar=tensor([0.0531, 0.0638, 0.0707, 0.0481, 0.0611, 0.0526, 0.0653, 0.0545],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 23:02:04,863 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=151094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:02:25,399 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-02 23:02:31,808 INFO [train.py:903] (2/4) Epoch 23, batch 900, loss[loss=0.1817, simple_loss=0.2589, pruned_loss=0.05228, over 19770.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2891, pruned_loss=0.06392, over 3789120.49 frames. ], batch size: 47, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:03:02,019 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.084e+02 5.070e+02 6.543e+02 8.443e+02 1.332e+03, threshold=1.309e+03, percent-clipped=3.0
+2023-04-02 23:03:21,199 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-02 23:03:32,675 INFO [train.py:903] (2/4) Epoch 23, batch 950, loss[loss=0.2253, simple_loss=0.3055, pruned_loss=0.07256, over 19773.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2891, pruned_loss=0.06458, over 3805618.16 frames. ], batch size: 56, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:03:39,536 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-02 23:04:11,635 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.9029, 5.3799, 2.9493, 4.6999, 1.3668, 5.4567, 5.2885, 5.5065],
+       device='cuda:2'), covar=tensor([0.0382, 0.0792, 0.1864, 0.0728, 0.3533, 0.0509, 0.0729, 0.0841],
+       device='cuda:2'), in_proj_covar=tensor([0.0504, 0.0413, 0.0497, 0.0346, 0.0400, 0.0435, 0.0426, 0.0459],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:04:16,135 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
+2023-04-02 23:04:17,808 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=151202.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:04:27,651 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=151209.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:04:35,166 INFO [train.py:903] (2/4) Epoch 23, batch 1000, loss[loss=0.2018, simple_loss=0.2762, pruned_loss=0.06364, over 19732.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2883, pruned_loss=0.06436, over 3809244.33 frames. ], batch size: 51, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:04:47,465 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5535, 1.6725, 1.8964, 1.8153, 2.7873, 2.3796, 2.9505, 1.3264],
+       device='cuda:2'), covar=tensor([0.2464, 0.4180, 0.2742, 0.1869, 0.1529, 0.2107, 0.1415, 0.4301],
+       device='cuda:2'), in_proj_covar=tensor([0.0534, 0.0642, 0.0711, 0.0484, 0.0616, 0.0528, 0.0658, 0.0548],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 23:05:04,890 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.333e+02 5.146e+02 6.401e+02 7.951e+02 1.702e+03, threshold=1.280e+03, percent-clipped=4.0
+2023-04-02 23:05:32,291 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-02 23:05:33,596 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=151262.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:05:37,846 INFO [train.py:903] (2/4) Epoch 23, batch 1050, loss[loss=0.2141, simple_loss=0.2888, pruned_loss=0.06967, over 19593.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2873, pruned_loss=0.06369, over 3812696.21 frames. ], batch size: 52, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:05:42,840 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=151270.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:06:12,763 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-02 23:06:14,324 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=151295.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:06:21,321 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=151300.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:06:40,098 INFO [train.py:903] (2/4) Epoch 23, batch 1100, loss[loss=0.1993, simple_loss=0.2663, pruned_loss=0.06617, over 19742.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.287, pruned_loss=0.06334, over 3818017.08 frames. ], batch size: 47, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:06:40,416 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=151316.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:07:09,140 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.937e+02 5.070e+02 6.152e+02 7.617e+02 1.362e+03, threshold=1.230e+03, percent-clipped=2.0
+2023-04-02 23:07:40,867 INFO [train.py:903] (2/4) Epoch 23, batch 1150, loss[loss=0.2217, simple_loss=0.3072, pruned_loss=0.06815, over 17312.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2873, pruned_loss=0.06325, over 3816617.49 frames. ], batch size: 101, lr: 3.60e-03, grad_scale: 4.0
+2023-04-02 23:07:55,705 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=151377.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:08:43,930 INFO [train.py:903] (2/4) Epoch 23, batch 1200, loss[loss=0.2423, simple_loss=0.3103, pruned_loss=0.08713, over 13457.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2871, pruned_loss=0.06307, over 3820972.63 frames. ], batch size: 135, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:09:14,769 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.106e+02 4.896e+02 6.001e+02 7.643e+02 1.247e+03, threshold=1.200e+03, percent-clipped=2.0
+2023-04-02 23:09:18,073 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-02 23:09:45,290 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=151465.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:09:46,023 INFO [train.py:903] (2/4) Epoch 23, batch 1250, loss[loss=0.2079, simple_loss=0.2974, pruned_loss=0.05917, over 19679.00 frames. ], tot_loss[loss=0.2078, simple_loss=0.2878, pruned_loss=0.06386, over 3823152.59 frames. ], batch size: 59, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:10:12,466 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4797, 2.2365, 1.6692, 1.4843, 2.0765, 1.2283, 1.3830, 1.8614],
+       device='cuda:2'), covar=tensor([0.1051, 0.0791, 0.1097, 0.0837, 0.0533, 0.1335, 0.0763, 0.0554],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0316, 0.0339, 0.0266, 0.0246, 0.0339, 0.0291, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:10:16,536 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=151490.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:10:17,544 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8158, 1.9203, 2.0256, 2.3363, 1.9162, 2.2838, 2.1072, 1.9916],
+       device='cuda:2'), covar=tensor([0.3324, 0.2777, 0.1523, 0.1780, 0.2854, 0.1556, 0.3521, 0.2403],
+       device='cuda:2'), in_proj_covar=tensor([0.0906, 0.0973, 0.0719, 0.0936, 0.0884, 0.0817, 0.0844, 0.0787],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 23:10:46,708 INFO [train.py:903] (2/4) Epoch 23, batch 1300, loss[loss=0.2027, simple_loss=0.2961, pruned_loss=0.05464, over 19608.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2887, pruned_loss=0.06457, over 3829344.45 frames. ], batch size: 50, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:11:16,030 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.826e+02 5.118e+02 6.046e+02 8.032e+02 1.744e+03, threshold=1.209e+03, percent-clipped=5.0
+2023-04-02 23:11:22,856 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=151546.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:11:46,624 INFO [train.py:903] (2/4) Epoch 23, batch 1350, loss[loss=0.1931, simple_loss=0.2684, pruned_loss=0.05895, over 19743.00 frames. ], tot_loss[loss=0.2093, simple_loss=0.2889, pruned_loss=0.06489, over 3823576.91 frames. ], batch size: 51, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:12:48,223 INFO [train.py:903] (2/4) Epoch 23, batch 1400, loss[loss=0.2032, simple_loss=0.2862, pruned_loss=0.06008, over 19519.00 frames. ], tot_loss[loss=0.2097, simple_loss=0.2891, pruned_loss=0.06518, over 3816853.01 frames. ], batch size: 54, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:13:08,472 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=151633.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:13:13,655 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7611, 4.0823, 4.6013, 4.6191, 2.0473, 4.3127, 3.7526, 4.0466],
+       device='cuda:2'), covar=tensor([0.2169, 0.1279, 0.0786, 0.1013, 0.6704, 0.1739, 0.1061, 0.1757],
+       device='cuda:2'), in_proj_covar=tensor([0.0784, 0.0745, 0.0954, 0.0833, 0.0840, 0.0712, 0.0568, 0.0886],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-02 23:13:17,804 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.750e+02 5.043e+02 6.240e+02 8.237e+02 1.280e+03, threshold=1.248e+03, percent-clipped=3.0
+2023-04-02 23:13:21,401 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=151644.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:13:38,340 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=151658.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:13:40,483 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=151660.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:13:41,871 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=151661.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:13:48,344 INFO [train.py:903] (2/4) Epoch 23, batch 1450, loss[loss=0.2357, simple_loss=0.3091, pruned_loss=0.08115, over 13383.00 frames. ], tot_loss[loss=0.2078, simple_loss=0.2873, pruned_loss=0.06422, over 3815893.01 frames. ], batch size: 136, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:13:48,378 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-02 23:14:36,975 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=151706.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:14:49,057 INFO [train.py:903] (2/4) Epoch 23, batch 1500, loss[loss=0.2099, simple_loss=0.2841, pruned_loss=0.06788, over 19591.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2877, pruned_loss=0.06443, over 3823522.53 frames. ], batch size: 61, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:15:18,488 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.327e+02 4.905e+02 6.054e+02 7.299e+02 2.065e+03, threshold=1.211e+03, percent-clipped=4.0
+2023-04-02 23:15:32,948 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5306, 1.5987, 1.8592, 1.7780, 2.6419, 2.2975, 2.8414, 1.3728],
+       device='cuda:2'), covar=tensor([0.2552, 0.4317, 0.2709, 0.1992, 0.1695, 0.2218, 0.1620, 0.4488],
+       device='cuda:2'), in_proj_covar=tensor([0.0540, 0.0647, 0.0717, 0.0488, 0.0620, 0.0533, 0.0665, 0.0554],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-02 23:15:40,385 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=151759.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:15:47,606 INFO [train.py:903] (2/4) Epoch 23, batch 1550, loss[loss=0.2423, simple_loss=0.3154, pruned_loss=0.0846, over 19558.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2883, pruned_loss=0.06432, over 3838190.89 frames. ], batch size: 61, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:15:59,929 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=151775.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:16:45,637 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7246, 4.3042, 2.9176, 3.8255, 1.0288, 4.2412, 4.1513, 4.2549],
+       device='cuda:2'), covar=tensor([0.0572, 0.0815, 0.1733, 0.0785, 0.3953, 0.0664, 0.0852, 0.1067],
+       device='cuda:2'), in_proj_covar=tensor([0.0508, 0.0411, 0.0497, 0.0347, 0.0401, 0.0436, 0.0428, 0.0458],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:16:50,035 INFO [train.py:903] (2/4) Epoch 23, batch 1600, loss[loss=0.1705, simple_loss=0.2494, pruned_loss=0.04583, over 19410.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2875, pruned_loss=0.06369, over 3840019.55 frames. ], batch size: 48, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:16:53,620 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=151819.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:17:10,281 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-02 23:17:20,214 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.366e+02 4.863e+02 5.887e+02 6.951e+02 2.426e+03, threshold=1.177e+03, percent-clipped=3.0
+2023-04-02 23:17:50,196 INFO [train.py:903] (2/4) Epoch 23, batch 1650, loss[loss=0.1678, simple_loss=0.2594, pruned_loss=0.03813, over 19655.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2876, pruned_loss=0.06366, over 3841132.89 frames. ], batch size: 55, lr: 3.60e-03, grad_scale: 8.0
+2023-04-02 23:18:51,777 INFO [train.py:903] (2/4) Epoch 23, batch 1700, loss[loss=0.1791, simple_loss=0.2654, pruned_loss=0.04642, over 19616.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2885, pruned_loss=0.0641, over 3821845.98 frames. ], batch size: 50, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:18:53,417 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=151917.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:19:21,471 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.136e+02 5.018e+02 6.073e+02 7.613e+02 1.748e+03, threshold=1.215e+03, percent-clipped=5.0
+2023-04-02 23:19:23,179 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=151942.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:19:26,197 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-02 23:19:42,986 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9667, 1.7978, 1.5200, 1.7895, 1.8189, 1.5248, 1.4819, 1.7509],
+       device='cuda:2'), covar=tensor([0.1165, 0.1518, 0.1870, 0.1275, 0.1392, 0.0990, 0.1904, 0.1020],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0359, 0.0318, 0.0255, 0.0307, 0.0255, 0.0313, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:19:52,382 INFO [train.py:903] (2/4) Epoch 23, batch 1750, loss[loss=0.2118, simple_loss=0.2914, pruned_loss=0.06608, over 19663.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2884, pruned_loss=0.06416, over 3834935.71 frames. ], batch size: 59, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:20:41,324 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.9455, 5.3858, 2.9698, 4.7402, 1.1852, 5.4950, 5.3274, 5.4992],
+       device='cuda:2'), covar=tensor([0.0395, 0.0858, 0.1974, 0.0730, 0.4054, 0.0522, 0.0743, 0.1036],
+       device='cuda:2'), in_proj_covar=tensor([0.0508, 0.0412, 0.0497, 0.0347, 0.0400, 0.0435, 0.0429, 0.0458],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:20:53,728 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=152015.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:20:54,416 INFO [train.py:903] (2/4) Epoch 23, batch 1800, loss[loss=0.1922, simple_loss=0.2834, pruned_loss=0.05053, over 19762.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2874, pruned_loss=0.06358, over 3838092.47 frames. ], batch size: 54, lr: 3.59e-03, grad_scale: 4.0
+2023-04-02 23:21:13,151 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=152031.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:21:24,567 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=152040.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:21:26,133 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.33 vs. limit=5.0
+2023-04-02 23:21:26,672 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.151e+02 5.200e+02 6.601e+02 8.823e+02 1.720e+03, threshold=1.320e+03, percent-clipped=12.0
+2023-04-02 23:21:36,339 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=152050.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:21:44,273 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=152056.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:21:48,439 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-02 23:21:55,073 INFO [train.py:903] (2/4) Epoch 23, batch 1850, loss[loss=0.2167, simple_loss=0.3013, pruned_loss=0.06608, over 19478.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2875, pruned_loss=0.06333, over 3838129.92 frames. ], batch size: 64, lr: 3.59e-03, grad_scale: 4.0
+2023-04-02 23:22:27,487 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-02 23:22:54,485 INFO [train.py:903] (2/4) Epoch 23, batch 1900, loss[loss=0.206, simple_loss=0.2758, pruned_loss=0.06806, over 19793.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2879, pruned_loss=0.06364, over 3844949.06 frames. ], batch size: 47, lr: 3.59e-03, grad_scale: 4.0
+2023-04-02 23:23:09,866 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-02 23:23:16,373 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-02 23:23:26,804 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.505e+02 4.994e+02 5.968e+02 7.712e+02 2.482e+03, threshold=1.194e+03, percent-clipped=3.0
+2023-04-02 23:23:41,402 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-02 23:23:52,758 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=152163.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:23:55,366 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=152165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:23:56,157 INFO [train.py:903] (2/4) Epoch 23, batch 1950, loss[loss=0.1981, simple_loss=0.2859, pruned_loss=0.0551, over 19532.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2867, pruned_loss=0.06293, over 3844360.90 frames. ], batch size: 54, lr: 3.59e-03, grad_scale: 4.0
+2023-04-02 23:24:58,529 INFO [train.py:903] (2/4) Epoch 23, batch 2000, loss[loss=0.2129, simple_loss=0.2981, pruned_loss=0.0638, over 19400.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2866, pruned_loss=0.06293, over 3838882.90 frames. ], batch size: 48, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:25:28,731 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.131e+02 4.661e+02 5.613e+02 7.041e+02 1.127e+03, threshold=1.123e+03, percent-clipped=0.0
+2023-04-02 23:25:30,248 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=152243.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:25:53,687 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-02 23:25:58,367 INFO [train.py:903] (2/4) Epoch 23, batch 2050, loss[loss=0.1883, simple_loss=0.2655, pruned_loss=0.05557, over 19391.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2871, pruned_loss=0.0635, over 3827826.77 frames. ], batch size: 48, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:26:09,969 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3318, 1.3917, 1.7719, 1.6401, 2.5348, 2.0778, 2.5542, 1.2387],
+       device='cuda:2'), covar=tensor([0.2800, 0.4769, 0.2897, 0.2186, 0.1683, 0.2563, 0.1868, 0.4726],
+       device='cuda:2'), in_proj_covar=tensor([0.0535, 0.0643, 0.0715, 0.0486, 0.0619, 0.0531, 0.0663, 0.0550],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 23:26:13,090 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-02 23:26:13,443 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=152278.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:26:14,189 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-02 23:26:29,821 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=152291.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:26:36,223 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-02 23:26:51,153 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4923, 2.2421, 1.6166, 1.4652, 2.0526, 1.3059, 1.3685, 1.9618],
+       device='cuda:2'), covar=tensor([0.1001, 0.0637, 0.1103, 0.0811, 0.0581, 0.1317, 0.0747, 0.0479],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0316, 0.0339, 0.0267, 0.0250, 0.0341, 0.0292, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:26:58,782 INFO [train.py:903] (2/4) Epoch 23, batch 2100, loss[loss=0.1812, simple_loss=0.2686, pruned_loss=0.04685, over 19787.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2875, pruned_loss=0.06357, over 3831223.04 frames. ], batch size: 56, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:27:27,816 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-02 23:27:29,283 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4875, 1.4120, 1.4144, 2.0504, 1.6970, 1.7636, 1.9137, 1.5963],
+       device='cuda:2'), covar=tensor([0.0848, 0.0938, 0.1007, 0.0658, 0.0755, 0.0771, 0.0801, 0.0721],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0221, 0.0223, 0.0239, 0.0226, 0.0212, 0.0187, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 23:27:31,217 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.686e+02 4.808e+02 5.705e+02 7.050e+02 1.568e+03, threshold=1.141e+03, percent-clipped=6.0
+2023-04-02 23:27:48,005 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-02 23:27:59,782 INFO [train.py:903] (2/4) Epoch 23, batch 2150, loss[loss=0.2039, simple_loss=0.2784, pruned_loss=0.06471, over 19787.00 frames. ], tot_loss[loss=0.2087, simple_loss=0.2888, pruned_loss=0.06435, over 3831804.05 frames. ], batch size: 48, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:29:00,653 INFO [train.py:903] (2/4) Epoch 23, batch 2200, loss[loss=0.2205, simple_loss=0.3041, pruned_loss=0.0684, over 19529.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2884, pruned_loss=0.06427, over 3842525.66 frames. ], batch size: 54, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:29:01,727 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3606, 3.1340, 2.1662, 2.8013, 0.9380, 3.0495, 2.9311, 3.0312],
+       device='cuda:2'), covar=tensor([0.1074, 0.1258, 0.2204, 0.1058, 0.3591, 0.0923, 0.1188, 0.1269],
+       device='cuda:2'), in_proj_covar=tensor([0.0508, 0.0412, 0.0498, 0.0346, 0.0400, 0.0435, 0.0427, 0.0459],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:29:07,508 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=152421.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:29:31,742 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.170e+02 5.084e+02 6.029e+02 8.181e+02 1.825e+03, threshold=1.206e+03, percent-clipped=10.0
+2023-04-02 23:29:37,614 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=152446.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:29:58,456 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=152463.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:30:01,460 INFO [train.py:903] (2/4) Epoch 23, batch 2250, loss[loss=0.271, simple_loss=0.3367, pruned_loss=0.1026, over 13645.00 frames. ], tot_loss[loss=0.2078, simple_loss=0.2877, pruned_loss=0.06397, over 3820703.73 frames. ], batch size: 136, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:30:02,905 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6034, 1.3313, 1.5071, 1.5447, 3.1784, 1.1276, 2.4156, 3.6779],
+       device='cuda:2'), covar=tensor([0.0478, 0.2800, 0.2890, 0.1885, 0.0683, 0.2483, 0.1199, 0.0222],
+       device='cuda:2'), in_proj_covar=tensor([0.0413, 0.0369, 0.0389, 0.0350, 0.0376, 0.0353, 0.0384, 0.0408],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:31:01,772 INFO [train.py:903] (2/4) Epoch 23, batch 2300, loss[loss=0.242, simple_loss=0.3176, pruned_loss=0.08323, over 19592.00 frames. ], tot_loss[loss=0.2089, simple_loss=0.2889, pruned_loss=0.06444, over 3820810.77 frames. ], batch size: 61, lr: 3.59e-03, grad_scale: 4.0
+2023-04-02 23:31:17,223 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-02 23:31:25,347 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=152534.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:31:36,142 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.429e+02 4.927e+02 5.902e+02 7.617e+02 2.113e+03, threshold=1.180e+03, percent-clipped=5.0
+2023-04-02 23:31:55,703 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=152559.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:32:04,344 INFO [train.py:903] (2/4) Epoch 23, batch 2350, loss[loss=0.2236, simple_loss=0.306, pruned_loss=0.07056, over 19783.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.2873, pruned_loss=0.06313, over 3822422.63 frames. ], batch size: 56, lr: 3.59e-03, grad_scale: 4.0
+2023-04-02 23:32:13,370 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7654, 4.3164, 3.0073, 3.7987, 1.0413, 4.3503, 4.1737, 4.3220],
+       device='cuda:2'), covar=tensor([0.0621, 0.1024, 0.1701, 0.0885, 0.4145, 0.0654, 0.0890, 0.1059],
+       device='cuda:2'), in_proj_covar=tensor([0.0511, 0.0415, 0.0500, 0.0349, 0.0403, 0.0437, 0.0429, 0.0461],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:32:30,250 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=152587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:32:43,257 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-02 23:32:45,496 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=152600.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:32:54,416 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=152607.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:33:03,100 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-02 23:33:05,156 INFO [train.py:903] (2/4) Epoch 23, batch 2400, loss[loss=0.2337, simple_loss=0.3138, pruned_loss=0.07679, over 19797.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.2873, pruned_loss=0.06316, over 3833435.77 frames. ], batch size: 56, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:33:28,184 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=152635.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:33:38,290 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.633e+02 5.347e+02 6.485e+02 7.646e+02 1.871e+03, threshold=1.297e+03, percent-clipped=3.0
+2023-04-02 23:34:06,660 INFO [train.py:903] (2/4) Epoch 23, batch 2450, loss[loss=0.2004, simple_loss=0.2825, pruned_loss=0.05921, over 19471.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.287, pruned_loss=0.06304, over 3833813.78 frames. ], batch size: 49, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:34:51,429 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=152702.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:35:06,552 INFO [train.py:903] (2/4) Epoch 23, batch 2500, loss[loss=0.1682, simple_loss=0.2548, pruned_loss=0.04077, over 19742.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.2866, pruned_loss=0.06304, over 3840332.19 frames. ], batch size: 51, lr: 3.59e-03, grad_scale: 8.0
+2023-04-02 23:35:13,351 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3778, 3.1017, 2.3520, 2.7657, 0.9061, 3.0770, 2.9287, 3.0381],
+       device='cuda:2'), covar=tensor([0.1048, 0.1212, 0.1932, 0.1187, 0.3634, 0.0905, 0.1057, 0.1347],
+       device='cuda:2'), in_proj_covar=tensor([0.0515, 0.0416, 0.0502, 0.0351, 0.0404, 0.0440, 0.0431, 0.0464],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:35:40,597 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.829e+02 4.968e+02 5.949e+02 7.714e+02 2.745e+03, threshold=1.190e+03, percent-clipped=5.0
+2023-04-02 23:35:42,057 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=152744.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:35:48,959 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=152750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:36:08,243 INFO [train.py:903] (2/4) Epoch 23, batch 2550, loss[loss=0.2334, simple_loss=0.311, pruned_loss=0.07793, over 19677.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2866, pruned_loss=0.06319, over 3835040.95 frames. ], batch size: 58, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:36:32,156 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
+2023-04-02 23:36:57,884 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=152807.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:37:01,058 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-02 23:37:08,440 INFO [train.py:903] (2/4) Epoch 23, batch 2600, loss[loss=0.1884, simple_loss=0.2594, pruned_loss=0.05876, over 19740.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.2868, pruned_loss=0.06329, over 3833343.53 frames. ], batch size: 45, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:37:40,420 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.218e+02 4.724e+02 5.510e+02 7.301e+02 1.657e+03, threshold=1.102e+03, percent-clipped=4.0
+2023-04-02 23:38:08,554 INFO [train.py:903] (2/4) Epoch 23, batch 2650, loss[loss=0.1686, simple_loss=0.2465, pruned_loss=0.04539, over 18654.00 frames. ], tot_loss[loss=0.2072, simple_loss=0.2871, pruned_loss=0.06367, over 3833009.25 frames. ], batch size: 41, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:38:27,765 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-02 23:38:32,673 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5470, 1.7203, 2.1097, 1.8927, 3.2862, 2.7346, 3.5297, 1.6884],
+       device='cuda:2'), covar=tensor([0.2560, 0.4410, 0.2694, 0.1881, 0.1477, 0.2090, 0.1520, 0.4143],
+       device='cuda:2'), in_proj_covar=tensor([0.0534, 0.0647, 0.0717, 0.0486, 0.0619, 0.0533, 0.0663, 0.0551],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-02 23:39:08,682 INFO [train.py:903] (2/4) Epoch 23, batch 2700, loss[loss=0.2509, simple_loss=0.3136, pruned_loss=0.09413, over 13896.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2862, pruned_loss=0.06312, over 3822020.28 frames. ], batch size: 137, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:39:16,620 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=152922.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:39:35,101 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3148, 3.6238, 2.2405, 2.2201, 3.3656, 2.0440, 1.6496, 2.3581],
+       device='cuda:2'), covar=tensor([0.1311, 0.0620, 0.1026, 0.0871, 0.0550, 0.1155, 0.1028, 0.0685],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0316, 0.0336, 0.0265, 0.0248, 0.0338, 0.0290, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:39:42,350 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.879e+02 4.895e+02 5.730e+02 7.672e+02 1.465e+03, threshold=1.146e+03, percent-clipped=5.0
+2023-04-02 23:39:43,669 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=152944.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:39:43,873 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0184, 1.2285, 1.4958, 0.9071, 2.1535, 3.0438, 2.7341, 3.2773],
+       device='cuda:2'), covar=tensor([0.1798, 0.3913, 0.3676, 0.2788, 0.0676, 0.0220, 0.0262, 0.0281],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0322, 0.0352, 0.0264, 0.0244, 0.0188, 0.0216, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 23:39:51,726 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=152951.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:40:00,040 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=152958.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:40:09,446 INFO [train.py:903] (2/4) Epoch 23, batch 2750, loss[loss=0.2396, simple_loss=0.3279, pruned_loss=0.07563, over 19665.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2845, pruned_loss=0.06208, over 3816046.12 frames. ], batch size: 55, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:40:31,181 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=152983.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:40:57,898 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=153006.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:41:10,184 INFO [train.py:903] (2/4) Epoch 23, batch 2800, loss[loss=0.1834, simple_loss=0.2562, pruned_loss=0.05528, over 19766.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2843, pruned_loss=0.06178, over 3822585.46 frames. ], batch size: 47, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:41:28,005 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=153031.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:41:42,352 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.106e+02 4.940e+02 6.140e+02 7.865e+02 1.529e+03, threshold=1.228e+03, percent-clipped=3.0
+2023-04-02 23:42:02,580 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=153059.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:42:10,891 INFO [train.py:903] (2/4) Epoch 23, batch 2850, loss[loss=0.2537, simple_loss=0.3304, pruned_loss=0.08849, over 17447.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2854, pruned_loss=0.06228, over 3829230.18 frames. ], batch size: 101, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:42:11,290 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=153066.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:42:36,413 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=153088.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:43:09,820 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-02 23:43:10,996 INFO [train.py:903] (2/4) Epoch 23, batch 2900, loss[loss=0.1883, simple_loss=0.2705, pruned_loss=0.05309, over 19571.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2862, pruned_loss=0.0626, over 3822314.49 frames. ], batch size: 52, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:43:34,529 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=153135.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:43:45,170 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.545e+02 5.074e+02 6.117e+02 7.609e+02 1.538e+03, threshold=1.223e+03, percent-clipped=2.0
+2023-04-02 23:44:10,300 INFO [train.py:903] (2/4) Epoch 23, batch 2950, loss[loss=0.181, simple_loss=0.2548, pruned_loss=0.05361, over 19752.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2867, pruned_loss=0.06298, over 3825242.71 frames. ], batch size: 47, lr: 3.58e-03, grad_scale: 4.0
+2023-04-02 23:44:25,523 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=153178.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:44:54,240 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=153203.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:44:54,280 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=153203.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:45:09,889 INFO [train.py:903] (2/4) Epoch 23, batch 3000, loss[loss=0.1999, simple_loss=0.2832, pruned_loss=0.05832, over 19678.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2881, pruned_loss=0.06392, over 3827557.53 frames. ], batch size: 60, lr: 3.58e-03, grad_scale: 4.0
+2023-04-02 23:45:09,889 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-02 23:45:23,394 INFO [train.py:937] (2/4) Epoch 23, validation: loss=0.1686, simple_loss=0.2685, pruned_loss=0.03441, over 944034.00 frames. 
+2023-04-02 23:45:23,395 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-02 23:45:26,710 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-02 23:45:57,203 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.963e+02 5.132e+02 6.544e+02 7.997e+02 1.730e+03, threshold=1.309e+03, percent-clipped=4.0
+2023-04-02 23:46:06,635 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1458, 1.8951, 1.7915, 2.0734, 1.7922, 1.8825, 1.7750, 2.0670],
+       device='cuda:2'), covar=tensor([0.1011, 0.1397, 0.1454, 0.0982, 0.1352, 0.0521, 0.1312, 0.0681],
+       device='cuda:2'), in_proj_covar=tensor([0.0271, 0.0354, 0.0311, 0.0252, 0.0302, 0.0250, 0.0307, 0.0256],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:46:24,010 INFO [train.py:903] (2/4) Epoch 23, batch 3050, loss[loss=0.1561, simple_loss=0.2441, pruned_loss=0.03405, over 19768.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2881, pruned_loss=0.06433, over 3827244.53 frames. ], batch size: 47, lr: 3.58e-03, grad_scale: 4.0
+2023-04-02 23:47:00,366 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=153296.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:47:25,776 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=153315.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:47:26,477 INFO [train.py:903] (2/4) Epoch 23, batch 3100, loss[loss=0.1964, simple_loss=0.2868, pruned_loss=0.05297, over 19696.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2885, pruned_loss=0.06406, over 3836227.33 frames. ], batch size: 59, lr: 3.58e-03, grad_scale: 4.0
+2023-04-02 23:47:33,573 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=153322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:47:54,341 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=153340.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:47:59,279 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.375e+02 4.897e+02 6.414e+02 9.491e+02 6.432e+03, threshold=1.283e+03, percent-clipped=11.0
+2023-04-02 23:48:03,098 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=153347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:48:25,986 INFO [train.py:903] (2/4) Epoch 23, batch 3150, loss[loss=0.2291, simple_loss=0.3033, pruned_loss=0.07745, over 13832.00 frames. ], tot_loss[loss=0.2081, simple_loss=0.2883, pruned_loss=0.06395, over 3835110.71 frames. ], batch size: 136, lr: 3.58e-03, grad_scale: 4.0
+2023-04-02 23:48:54,102 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-02 23:49:26,056 INFO [train.py:903] (2/4) Epoch 23, batch 3200, loss[loss=0.2371, simple_loss=0.3155, pruned_loss=0.0793, over 19655.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2878, pruned_loss=0.06387, over 3820261.32 frames. ], batch size: 55, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:49:54,892 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=153439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:50:00,120 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.031e+02 5.043e+02 6.093e+02 8.078e+02 1.420e+03, threshold=1.219e+03, percent-clipped=2.0
+2023-04-02 23:50:17,405 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=153459.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:50:26,643 INFO [train.py:903] (2/4) Epoch 23, batch 3250, loss[loss=0.2172, simple_loss=0.2977, pruned_loss=0.06837, over 19530.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2886, pruned_loss=0.06424, over 3831038.05 frames. ], batch size: 54, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:50:43,095 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=153479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:50:48,933 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=153484.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:51:20,332 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3825, 3.1386, 2.1036, 2.8061, 0.7855, 3.0959, 2.9645, 2.9857],
+       device='cuda:2'), covar=tensor([0.1013, 0.1186, 0.2086, 0.1040, 0.3678, 0.0887, 0.1108, 0.1318],
+       device='cuda:2'), in_proj_covar=tensor([0.0509, 0.0414, 0.0497, 0.0348, 0.0400, 0.0437, 0.0429, 0.0463],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:51:20,809 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-02 23:51:27,759 INFO [train.py:903] (2/4) Epoch 23, batch 3300, loss[loss=0.1754, simple_loss=0.2606, pruned_loss=0.04514, over 19428.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2877, pruned_loss=0.06379, over 3821214.18 frames. ], batch size: 48, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:51:34,810 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-02 23:52:00,746 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.814e+02 5.081e+02 6.216e+02 8.009e+02 2.047e+03, threshold=1.243e+03, percent-clipped=5.0
+2023-04-02 23:52:26,360 INFO [train.py:903] (2/4) Epoch 23, batch 3350, loss[loss=0.2741, simple_loss=0.3401, pruned_loss=0.1041, over 13966.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2885, pruned_loss=0.06429, over 3826607.51 frames. ], batch size: 136, lr: 3.58e-03, grad_scale: 8.0
+2023-04-02 23:53:00,290 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=153594.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:53:17,358 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9462, 1.3021, 1.6807, 0.5527, 2.0728, 2.4854, 2.1686, 2.6194],
+       device='cuda:2'), covar=tensor([0.1559, 0.3680, 0.3123, 0.2711, 0.0610, 0.0271, 0.0352, 0.0357],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0324, 0.0352, 0.0265, 0.0244, 0.0189, 0.0217, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-02 23:53:26,223 INFO [train.py:903] (2/4) Epoch 23, batch 3400, loss[loss=0.2193, simple_loss=0.3032, pruned_loss=0.06768, over 19568.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2884, pruned_loss=0.06422, over 3823644.69 frames. ], batch size: 61, lr: 3.57e-03, grad_scale: 8.0
+2023-04-02 23:53:56,990 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=153640.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:53:59,273 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3515, 3.0872, 2.2551, 2.8287, 0.6423, 3.0894, 2.9322, 3.0323],
+       device='cuda:2'), covar=tensor([0.1058, 0.1278, 0.2010, 0.1020, 0.3930, 0.0906, 0.1095, 0.1374],
+       device='cuda:2'), in_proj_covar=tensor([0.0511, 0.0414, 0.0497, 0.0348, 0.0401, 0.0438, 0.0430, 0.0462],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:54:01,360 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.785e+02 5.295e+02 6.743e+02 8.549e+02 2.424e+03, threshold=1.349e+03, percent-clipped=5.0
+2023-04-02 23:54:28,039 INFO [train.py:903] (2/4) Epoch 23, batch 3450, loss[loss=0.2007, simple_loss=0.2689, pruned_loss=0.06629, over 19296.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2881, pruned_loss=0.06354, over 3832205.31 frames. ], batch size: 44, lr: 3.57e-03, grad_scale: 8.0
+2023-04-02 23:54:31,540 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-02 23:54:51,835 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
+2023-04-02 23:55:10,117 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-02 23:55:28,715 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.05 vs. limit=5.0
+2023-04-02 23:55:30,145 INFO [train.py:903] (2/4) Epoch 23, batch 3500, loss[loss=0.2872, simple_loss=0.3418, pruned_loss=0.1163, over 13177.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2884, pruned_loss=0.06407, over 3811968.84 frames. ], batch size: 136, lr: 3.57e-03, grad_scale: 8.0
+2023-04-02 23:55:35,124 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5345, 2.2594, 2.3362, 2.7098, 2.3979, 2.1281, 2.1011, 2.5341],
+       device='cuda:2'), covar=tensor([0.1041, 0.1787, 0.1492, 0.1051, 0.1457, 0.0610, 0.1446, 0.0752],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0359, 0.0316, 0.0255, 0.0307, 0.0253, 0.0312, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:56:02,445 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.496e+02 4.938e+02 5.821e+02 7.521e+02 2.332e+03, threshold=1.164e+03, percent-clipped=1.0
+2023-04-02 23:56:17,969 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=153755.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:56:30,177 INFO [train.py:903] (2/4) Epoch 23, batch 3550, loss[loss=0.1983, simple_loss=0.2903, pruned_loss=0.05319, over 19662.00 frames. ], tot_loss[loss=0.2081, simple_loss=0.2885, pruned_loss=0.06385, over 3813301.80 frames. ], batch size: 58, lr: 3.57e-03, grad_scale: 8.0
+2023-04-02 23:56:34,059 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7117, 1.6586, 1.6355, 2.1627, 1.5450, 2.0122, 1.8523, 1.8605],
+       device='cuda:2'), covar=tensor([0.0816, 0.0892, 0.0926, 0.0713, 0.0885, 0.0729, 0.0945, 0.0657],
+       device='cuda:2'), in_proj_covar=tensor([0.0209, 0.0218, 0.0223, 0.0237, 0.0225, 0.0210, 0.0185, 0.0201],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-02 23:56:44,119 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0273, 3.4799, 1.9399, 2.0447, 3.1444, 1.6892, 1.4713, 2.1683],
+       device='cuda:2'), covar=tensor([0.1308, 0.0548, 0.1121, 0.0826, 0.0493, 0.1246, 0.1010, 0.0746],
+       device='cuda:2'), in_proj_covar=tensor([0.0305, 0.0316, 0.0341, 0.0266, 0.0249, 0.0342, 0.0291, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-02 23:56:50,061 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=153783.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:57:30,147 INFO [train.py:903] (2/4) Epoch 23, batch 3600, loss[loss=0.1927, simple_loss=0.2729, pruned_loss=0.05628, over 19778.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2878, pruned_loss=0.06343, over 3821295.51 frames. ], batch size: 54, lr: 3.57e-03, grad_scale: 8.0
+2023-04-02 23:58:05,068 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.445e+02 5.155e+02 6.351e+02 8.015e+02 2.586e+03, threshold=1.270e+03, percent-clipped=6.0
+2023-04-02 23:58:12,375 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=153850.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:58:30,880 INFO [train.py:903] (2/4) Epoch 23, batch 3650, loss[loss=0.1973, simple_loss=0.2704, pruned_loss=0.06213, over 19389.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2885, pruned_loss=0.06406, over 3803405.80 frames. ], batch size: 48, lr: 3.57e-03, grad_scale: 8.0
+2023-04-02 23:58:42,975 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=153875.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:59:08,939 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=153898.0, num_to_drop=0, layers_to_drop=set()
+2023-04-02 23:59:31,665 INFO [train.py:903] (2/4) Epoch 23, batch 3700, loss[loss=0.2299, simple_loss=0.3065, pruned_loss=0.0767, over 19437.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2885, pruned_loss=0.06419, over 3810802.13 frames. ], batch size: 64, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:00:00,704 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=153941.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:00:04,691 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.006e+02 4.617e+02 5.510e+02 6.874e+02 2.344e+03, threshold=1.102e+03, percent-clipped=3.0
+2023-04-03 00:00:23,763 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.46 vs. limit=2.0
+2023-04-03 00:00:31,959 INFO [train.py:903] (2/4) Epoch 23, batch 3750, loss[loss=0.2162, simple_loss=0.2997, pruned_loss=0.0663, over 19667.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.288, pruned_loss=0.06397, over 3810816.52 frames. ], batch size: 60, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:01:27,863 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=154011.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:01:33,245 INFO [train.py:903] (2/4) Epoch 23, batch 3800, loss[loss=0.1842, simple_loss=0.2581, pruned_loss=0.05513, over 18606.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2877, pruned_loss=0.06367, over 3827496.11 frames. ], batch size: 41, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:01:59,815 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=154036.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:02:05,111 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-03 00:02:08,273 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.228e+02 4.923e+02 6.103e+02 7.526e+02 2.694e+03, threshold=1.221e+03, percent-clipped=9.0
+2023-04-03 00:02:33,014 INFO [train.py:903] (2/4) Epoch 23, batch 3850, loss[loss=0.226, simple_loss=0.2996, pruned_loss=0.07626, over 19658.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2868, pruned_loss=0.06308, over 3832561.87 frames. ], batch size: 55, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:02:35,323 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154067.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 00:03:09,338 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:03:14,333 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.45 vs. limit=2.0
+2023-04-03 00:03:15,500 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.84 vs. limit=5.0
+2023-04-03 00:03:18,572 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154102.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:03:35,946 INFO [train.py:903] (2/4) Epoch 23, batch 3900, loss[loss=0.2259, simple_loss=0.2949, pruned_loss=0.0785, over 19656.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.285, pruned_loss=0.06203, over 3837384.08 frames. ], batch size: 58, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:04:09,481 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.867e+02 4.608e+02 5.656e+02 7.392e+02 1.919e+03, threshold=1.131e+03, percent-clipped=3.0
+2023-04-03 00:04:22,848 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=154154.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:04:37,503 INFO [train.py:903] (2/4) Epoch 23, batch 3950, loss[loss=0.1695, simple_loss=0.2563, pruned_loss=0.04136, over 19375.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2852, pruned_loss=0.06228, over 3831145.48 frames. ], batch size: 47, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:04:44,231 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-03 00:04:52,331 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=154179.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:05:37,019 INFO [train.py:903] (2/4) Epoch 23, batch 4000, loss[loss=0.1852, simple_loss=0.269, pruned_loss=0.05068, over 19580.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2845, pruned_loss=0.06179, over 3837291.26 frames. ], batch size: 52, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:05:50,660 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-03 00:06:02,281 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-03 00:06:06,085 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:06:12,359 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.243e+02 5.130e+02 6.145e+02 8.525e+02 2.203e+03, threshold=1.229e+03, percent-clipped=9.0
+2023-04-03 00:06:27,024 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-03 00:06:37,053 INFO [train.py:903] (2/4) Epoch 23, batch 4050, loss[loss=0.1722, simple_loss=0.2521, pruned_loss=0.04614, over 19060.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2859, pruned_loss=0.06244, over 3830057.64 frames. ], batch size: 42, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:07:01,679 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154285.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:07:23,109 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154304.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:07:29,684 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154309.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:07:37,600 INFO [train.py:903] (2/4) Epoch 23, batch 4100, loss[loss=0.2368, simple_loss=0.3189, pruned_loss=0.07731, over 19548.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.287, pruned_loss=0.06344, over 3824945.49 frames. ], batch size: 56, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:08:11,157 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.231e+02 5.105e+02 5.940e+02 7.682e+02 1.555e+03, threshold=1.188e+03, percent-clipped=4.0
+2023-04-03 00:08:13,551 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-03 00:08:25,638 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154355.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 00:08:39,414 INFO [train.py:903] (2/4) Epoch 23, batch 4150, loss[loss=0.2728, simple_loss=0.345, pruned_loss=0.1004, over 14059.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2874, pruned_loss=0.06377, over 3796028.21 frames. ], batch size: 136, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:09:22,074 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154400.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:09:33,989 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154411.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 00:09:39,112 INFO [train.py:903] (2/4) Epoch 23, batch 4200, loss[loss=0.2172, simple_loss=0.2971, pruned_loss=0.06859, over 19548.00 frames. ], tot_loss[loss=0.2072, simple_loss=0.2872, pruned_loss=0.06362, over 3799546.52 frames. ], batch size: 56, lr: 3.57e-03, grad_scale: 8.0
+2023-04-03 00:09:41,410 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-03 00:10:07,072 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154438.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:10:14,758 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.103e+02 4.744e+02 5.863e+02 7.378e+02 1.705e+03, threshold=1.173e+03, percent-clipped=3.0
+2023-04-03 00:10:17,220 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154446.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:10:40,158 INFO [train.py:903] (2/4) Epoch 23, batch 4250, loss[loss=0.1864, simple_loss=0.2578, pruned_loss=0.05748, over 19767.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2861, pruned_loss=0.06258, over 3815435.13 frames. ], batch size: 47, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:10:54,212 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-03 00:11:05,348 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-03 00:11:12,109 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154492.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:11:40,259 INFO [train.py:903] (2/4) Epoch 23, batch 4300, loss[loss=0.1679, simple_loss=0.2567, pruned_loss=0.03957, over 19862.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2856, pruned_loss=0.06213, over 3821268.77 frames. ], batch size: 52, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:11:53,672 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154526.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 00:11:55,886 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9513, 1.2537, 1.0430, 0.9361, 1.1749, 0.9058, 0.9360, 1.1445],
+       device='cuda:2'), covar=tensor([0.0585, 0.0606, 0.0707, 0.0605, 0.0409, 0.0874, 0.0441, 0.0381],
+       device='cuda:2'), in_proj_covar=tensor([0.0300, 0.0313, 0.0337, 0.0263, 0.0246, 0.0336, 0.0289, 0.0272],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:12:13,327 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.268e+02 4.652e+02 5.888e+02 7.584e+02 1.931e+03, threshold=1.178e+03, percent-clipped=3.0
+2023-04-03 00:12:24,541 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154553.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:12:33,756 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-03 00:12:36,080 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154561.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:12:41,454 INFO [train.py:903] (2/4) Epoch 23, batch 4350, loss[loss=0.2381, simple_loss=0.3191, pruned_loss=0.07859, over 19575.00 frames. ], tot_loss[loss=0.206, simple_loss=0.2863, pruned_loss=0.06283, over 3809405.78 frames. ], batch size: 52, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:13:01,190 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:13:04,725 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0975, 2.0557, 1.8268, 2.1707, 2.0372, 1.8224, 1.7748, 2.0370],
+       device='cuda:2'), covar=tensor([0.1053, 0.1389, 0.1545, 0.0973, 0.1299, 0.0601, 0.1430, 0.0765],
+       device='cuda:2'), in_proj_covar=tensor([0.0272, 0.0355, 0.0313, 0.0252, 0.0302, 0.0251, 0.0311, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:13:40,250 INFO [train.py:903] (2/4) Epoch 23, batch 4400, loss[loss=0.2056, simple_loss=0.2936, pruned_loss=0.05879, over 19763.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2876, pruned_loss=0.06354, over 3805625.20 frames. ], batch size: 54, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:14:04,354 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-03 00:14:14,044 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.271e+02 5.197e+02 6.555e+02 7.915e+02 1.480e+03, threshold=1.311e+03, percent-clipped=6.0
+2023-04-03 00:14:15,172 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-03 00:14:16,473 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154646.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:14:18,495 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154648.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:14:23,890 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154653.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:14:27,590 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=154656.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:14:38,571 INFO [train.py:903] (2/4) Epoch 23, batch 4450, loss[loss=0.2068, simple_loss=0.2882, pruned_loss=0.06272, over 19398.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2876, pruned_loss=0.06371, over 3803126.42 frames. ], batch size: 70, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:14:58,445 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=154681.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:15:18,443 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:15:19,415 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154699.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 00:15:38,748 INFO [train.py:903] (2/4) Epoch 23, batch 4500, loss[loss=0.172, simple_loss=0.2471, pruned_loss=0.04846, over 19733.00 frames. ], tot_loss[loss=0.2079, simple_loss=0.2879, pruned_loss=0.06399, over 3803415.30 frames. ], batch size: 47, lr: 3.56e-03, grad_scale: 4.0
+2023-04-03 00:16:06,378 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154738.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:16:13,915 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.080e+02 4.922e+02 6.448e+02 7.735e+02 1.395e+03, threshold=1.290e+03, percent-clipped=1.0
+2023-04-03 00:16:38,057 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154763.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:16:41,138 INFO [train.py:903] (2/4) Epoch 23, batch 4550, loss[loss=0.1724, simple_loss=0.2555, pruned_loss=0.04465, over 19846.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.2868, pruned_loss=0.06342, over 3806033.29 frames. ], batch size: 52, lr: 3.56e-03, grad_scale: 4.0
+2023-04-03 00:16:43,828 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154768.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:16:48,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-03 00:17:00,100 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=154782.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 00:17:08,981 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6175, 1.2539, 1.2631, 1.5075, 1.0809, 1.3909, 1.2420, 1.4434],
+       device='cuda:2'), covar=tensor([0.1168, 0.1266, 0.1615, 0.1023, 0.1370, 0.0626, 0.1535, 0.0853],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0356, 0.0314, 0.0253, 0.0304, 0.0253, 0.0312, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:17:11,891 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-03 00:17:16,355 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.8337, 5.3410, 3.0826, 4.6626, 1.3322, 5.3513, 5.2243, 5.3954],
+       device='cuda:2'), covar=tensor([0.0394, 0.0721, 0.1814, 0.0752, 0.3690, 0.0613, 0.0832, 0.1112],
+       device='cuda:2'), in_proj_covar=tensor([0.0513, 0.0414, 0.0496, 0.0348, 0.0399, 0.0438, 0.0428, 0.0463],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:17:31,863 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=154807.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 00:17:34,168 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=154809.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:17:39,915 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154814.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 00:17:41,847 INFO [train.py:903] (2/4) Epoch 23, batch 4600, loss[loss=0.2053, simple_loss=0.279, pruned_loss=0.06581, over 19492.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2865, pruned_loss=0.063, over 3824207.33 frames. ], batch size: 49, lr: 3.56e-03, grad_scale: 4.0
+2023-04-03 00:17:43,474 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=154817.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:18:02,706 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=154834.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:18:04,534 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154836.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:18:13,465 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=154842.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:18:17,276 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.766e+02 4.757e+02 5.456e+02 7.137e+02 2.039e+03, threshold=1.091e+03, percent-clipped=4.0
+2023-04-03 00:18:39,908 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8244, 1.3507, 1.5229, 1.7574, 3.4161, 1.2010, 2.4966, 3.9050],
+       device='cuda:2'), covar=tensor([0.0558, 0.2956, 0.2989, 0.1854, 0.0712, 0.2583, 0.1356, 0.0234],
+       device='cuda:2'), in_proj_covar=tensor([0.0411, 0.0367, 0.0389, 0.0350, 0.0373, 0.0350, 0.0383, 0.0404],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:18:41,884 INFO [train.py:903] (2/4) Epoch 23, batch 4650, loss[loss=0.2494, simple_loss=0.3178, pruned_loss=0.09046, over 14348.00 frames. ], tot_loss[loss=0.2058, simple_loss=0.2863, pruned_loss=0.06263, over 3822579.80 frames. ], batch size: 136, lr: 3.56e-03, grad_scale: 4.0
+2023-04-03 00:18:45,726 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2519, 1.2456, 1.2264, 1.3179, 1.0562, 1.3659, 1.3439, 1.2996],
+       device='cuda:2'), covar=tensor([0.0943, 0.0997, 0.1129, 0.0727, 0.0883, 0.0873, 0.0818, 0.0784],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0221, 0.0226, 0.0240, 0.0226, 0.0212, 0.0187, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-03 00:18:57,537 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-03 00:19:09,932 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-03 00:19:42,546 INFO [train.py:903] (2/4) Epoch 23, batch 4700, loss[loss=0.2303, simple_loss=0.3052, pruned_loss=0.07771, over 19700.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2863, pruned_loss=0.06261, over 3823170.40 frames. ], batch size: 63, lr: 3.56e-03, grad_scale: 4.0
+2023-04-03 00:20:04,431 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-03 00:20:17,977 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.052e+02 4.550e+02 5.511e+02 7.065e+02 1.410e+03, threshold=1.102e+03, percent-clipped=2.0
+2023-04-03 00:20:25,039 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=154951.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:20:28,242 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=154954.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:20:44,142 INFO [train.py:903] (2/4) Epoch 23, batch 4750, loss[loss=0.1713, simple_loss=0.2515, pruned_loss=0.04559, over 19782.00 frames. ], tot_loss[loss=0.2056, simple_loss=0.2864, pruned_loss=0.06246, over 3829710.04 frames. ], batch size: 48, lr: 3.56e-03, grad_scale: 4.0
+2023-04-03 00:21:00,298 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=154979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:21:12,332 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=154990.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:21:17,051 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=154994.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:21:21,745 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4079, 2.5273, 2.6999, 3.2254, 2.5881, 3.2661, 2.6700, 2.3877],
+       device='cuda:2'), covar=tensor([0.4449, 0.3989, 0.1964, 0.2387, 0.4123, 0.1930, 0.5011, 0.3471],
+       device='cuda:2'), in_proj_covar=tensor([0.0907, 0.0975, 0.0723, 0.0937, 0.0886, 0.0825, 0.0846, 0.0788],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 00:21:45,312 INFO [train.py:903] (2/4) Epoch 23, batch 4800, loss[loss=0.1927, simple_loss=0.2791, pruned_loss=0.05314, over 19645.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2857, pruned_loss=0.06207, over 3838085.03 frames. ], batch size: 55, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:21:49,087 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=155019.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:21:54,304 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=155024.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:22:18,861 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=155044.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:22:19,577 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.470e+02 5.324e+02 6.216e+02 7.674e+02 2.163e+03, threshold=1.243e+03, percent-clipped=8.0
+2023-04-03 00:22:26,124 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=155049.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:22:44,537 INFO [train.py:903] (2/4) Epoch 23, batch 4850, loss[loss=0.1977, simple_loss=0.2652, pruned_loss=0.06512, over 19802.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2863, pruned_loss=0.06236, over 3840257.01 frames. ], batch size: 49, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:22:49,256 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6860, 1.6975, 1.5398, 1.3431, 1.2289, 1.3361, 0.3134, 0.6333],
+       device='cuda:2'), covar=tensor([0.0686, 0.0694, 0.0450, 0.0702, 0.1324, 0.0861, 0.1369, 0.1211],
+       device='cuda:2'), in_proj_covar=tensor([0.0358, 0.0353, 0.0360, 0.0383, 0.0461, 0.0389, 0.0336, 0.0340],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 00:22:49,263 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=155070.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 00:22:49,293 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2282, 1.3168, 1.4900, 1.4067, 2.1392, 1.8607, 2.2496, 0.7723],
+       device='cuda:2'), covar=tensor([0.2696, 0.4470, 0.2811, 0.2198, 0.1706, 0.2399, 0.1417, 0.4903],
+       device='cuda:2'), in_proj_covar=tensor([0.0538, 0.0647, 0.0720, 0.0490, 0.0623, 0.0535, 0.0660, 0.0555],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 00:23:03,367 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=155082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:23:10,497 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-03 00:23:11,887 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=155087.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:23:21,481 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=155095.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 00:23:29,056 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-03 00:23:32,631 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=155105.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:23:34,413 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-03 00:23:34,438 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-03 00:23:44,625 INFO [train.py:903] (2/4) Epoch 23, batch 4900, loss[loss=0.2246, simple_loss=0.311, pruned_loss=0.06916, over 19303.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2874, pruned_loss=0.06335, over 3824993.59 frames. ], batch size: 66, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:23:44,637 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-03 00:24:04,405 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-03 00:24:20,244 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.924e+02 5.163e+02 5.938e+02 7.647e+02 1.407e+03, threshold=1.188e+03, percent-clipped=5.0
+2023-04-03 00:24:25,536 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.49 vs. limit=2.0
+2023-04-03 00:24:46,212 INFO [train.py:903] (2/4) Epoch 23, batch 4950, loss[loss=0.1942, simple_loss=0.2747, pruned_loss=0.05687, over 19598.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2868, pruned_loss=0.06286, over 3809547.30 frames. ], batch size: 50, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:25:01,067 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-03 00:25:21,537 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=155197.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:25:22,308 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-03 00:25:29,823 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0033, 2.0460, 2.3376, 2.7299, 2.0729, 2.5762, 2.4282, 2.1786],
+       device='cuda:2'), covar=tensor([0.4140, 0.3976, 0.1845, 0.2452, 0.4103, 0.2219, 0.4374, 0.3199],
+       device='cuda:2'), in_proj_covar=tensor([0.0910, 0.0978, 0.0725, 0.0940, 0.0890, 0.0827, 0.0847, 0.0788],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 00:25:34,805 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=155207.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:25:44,524 INFO [train.py:903] (2/4) Epoch 23, batch 5000, loss[loss=0.2174, simple_loss=0.302, pruned_loss=0.06644, over 19670.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2864, pruned_loss=0.0629, over 3812521.84 frames. ], batch size: 58, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:25:52,531 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-03 00:25:54,039 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8166, 1.9511, 2.2304, 2.2867, 1.7190, 2.1711, 2.2661, 2.0845],
+       device='cuda:2'), covar=tensor([0.4085, 0.3677, 0.1858, 0.2473, 0.3879, 0.2195, 0.4628, 0.3233],
+       device='cuda:2'), in_proj_covar=tensor([0.0911, 0.0979, 0.0726, 0.0941, 0.0891, 0.0828, 0.0849, 0.0790],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 00:26:02,920 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=155232.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:26:03,632 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-03 00:26:19,060 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.096e+02 4.751e+02 5.889e+02 7.363e+02 1.722e+03, threshold=1.178e+03, percent-clipped=5.0
+2023-04-03 00:26:43,567 INFO [train.py:903] (2/4) Epoch 23, batch 5050, loss[loss=0.2246, simple_loss=0.299, pruned_loss=0.07511, over 13207.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2866, pruned_loss=0.06296, over 3814297.38 frames. ], batch size: 135, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:27:17,601 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-03 00:27:41,309 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.21 vs. limit=5.0
+2023-04-03 00:27:42,609 INFO [train.py:903] (2/4) Epoch 23, batch 5100, loss[loss=0.2129, simple_loss=0.2902, pruned_loss=0.06779, over 19673.00 frames. ], tot_loss[loss=0.2078, simple_loss=0.2879, pruned_loss=0.06389, over 3805102.81 frames. ], batch size: 55, lr: 3.56e-03, grad_scale: 8.0
+2023-04-03 00:27:45,275 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1654, 2.2041, 2.4324, 2.8739, 2.2440, 2.8082, 2.4182, 2.2600],
+       device='cuda:2'), covar=tensor([0.4600, 0.4381, 0.2063, 0.2876, 0.4830, 0.2309, 0.5244, 0.3658],
+       device='cuda:2'), in_proj_covar=tensor([0.0907, 0.0976, 0.0722, 0.0937, 0.0888, 0.0824, 0.0847, 0.0787],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 00:27:53,104 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-03 00:27:56,483 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-03 00:28:01,507 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-03 00:28:10,592 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=155338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:28:18,270 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.450e+02 5.084e+02 6.467e+02 7.878e+02 1.414e+03, threshold=1.293e+03, percent-clipped=6.0
+2023-04-03 00:28:36,978 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=155361.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:28:43,671 INFO [train.py:903] (2/4) Epoch 23, batch 5150, loss[loss=0.2085, simple_loss=0.284, pruned_loss=0.06648, over 19766.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2864, pruned_loss=0.06288, over 3824930.82 frames. ], batch size: 54, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:28:44,036 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6401, 1.4458, 1.5833, 1.5855, 3.2246, 1.1935, 2.4404, 3.6803],
+       device='cuda:2'), covar=tensor([0.0517, 0.2709, 0.2829, 0.1825, 0.0693, 0.2453, 0.1191, 0.0229],
+       device='cuda:2'), in_proj_covar=tensor([0.0417, 0.0370, 0.0392, 0.0352, 0.0376, 0.0354, 0.0387, 0.0409],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:28:56,745 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-03 00:29:08,637 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=155386.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:29:13,129 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4068, 1.5254, 1.8815, 1.6862, 2.7257, 2.2281, 2.8713, 1.2818],
+       device='cuda:2'), covar=tensor([0.2488, 0.4234, 0.2615, 0.1864, 0.1491, 0.2175, 0.1418, 0.4437],
+       device='cuda:2'), in_proj_covar=tensor([0.0538, 0.0647, 0.0719, 0.0490, 0.0622, 0.0535, 0.0659, 0.0553],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 00:29:30,422 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 00:29:38,193 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9355, 4.8795, 5.9103, 5.9160, 2.5501, 5.6708, 4.6021, 5.2149],
+       device='cuda:2'), covar=tensor([0.1789, 0.1215, 0.0701, 0.0806, 0.6108, 0.1465, 0.1104, 0.1465],
+       device='cuda:2'), in_proj_covar=tensor([0.0787, 0.0751, 0.0958, 0.0838, 0.0841, 0.0719, 0.0574, 0.0890],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 00:29:45,064 INFO [train.py:903] (2/4) Epoch 23, batch 5200, loss[loss=0.2536, simple_loss=0.3275, pruned_loss=0.08983, over 19397.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2878, pruned_loss=0.06353, over 3817667.11 frames. ], batch size: 70, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:29:58,654 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-03 00:30:02,265 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=155431.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:30:19,763 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.141e+02 5.305e+02 6.432e+02 7.969e+02 2.733e+03, threshold=1.286e+03, percent-clipped=6.0
+2023-04-03 00:30:30,701 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=155453.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:30:30,770 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=155453.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:30:41,480 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-03 00:30:44,915 INFO [train.py:903] (2/4) Epoch 23, batch 5250, loss[loss=0.1601, simple_loss=0.251, pruned_loss=0.03459, over 19834.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2876, pruned_loss=0.06311, over 3821238.75 frames. ], batch size: 52, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:30:55,583 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=155475.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:30:59,161 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=155478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:31:45,244 INFO [train.py:903] (2/4) Epoch 23, batch 5300, loss[loss=0.2044, simple_loss=0.2753, pruned_loss=0.06676, over 16047.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2869, pruned_loss=0.06307, over 3825611.57 frames. ], batch size: 35, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:32:04,591 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-03 00:32:21,406 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.105e+02 4.703e+02 5.856e+02 7.687e+02 1.612e+03, threshold=1.171e+03, percent-clipped=4.0
+2023-04-03 00:32:22,914 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=155546.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:32:46,438 INFO [train.py:903] (2/4) Epoch 23, batch 5350, loss[loss=0.1973, simple_loss=0.2846, pruned_loss=0.05494, over 19628.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.2874, pruned_loss=0.06304, over 3828808.51 frames. ], batch size: 57, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:33:18,092 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-03 00:33:46,942 INFO [train.py:903] (2/4) Epoch 23, batch 5400, loss[loss=0.2567, simple_loss=0.3344, pruned_loss=0.08948, over 19216.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2878, pruned_loss=0.06339, over 3814966.46 frames. ], batch size: 69, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:33:56,233 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=155623.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:34:21,904 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.892e+02 4.747e+02 5.806e+02 7.220e+02 1.360e+03, threshold=1.161e+03, percent-clipped=1.0
+2023-04-03 00:34:36,324 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9799, 1.2400, 1.6008, 0.8528, 2.2905, 3.0254, 2.6916, 3.2366],
+       device='cuda:2'), covar=tensor([0.1778, 0.3970, 0.3550, 0.2878, 0.0631, 0.0223, 0.0264, 0.0303],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0325, 0.0355, 0.0265, 0.0246, 0.0190, 0.0218, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 00:34:48,075 INFO [train.py:903] (2/4) Epoch 23, batch 5450, loss[loss=0.215, simple_loss=0.2837, pruned_loss=0.07312, over 19396.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.2872, pruned_loss=0.06311, over 3817062.14 frames. ], batch size: 48, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:34:58,349 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=155675.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:35:10,205 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2422, 1.5010, 1.9408, 1.6984, 3.2244, 4.6731, 4.4495, 5.0643],
+       device='cuda:2'), covar=tensor([0.1730, 0.3748, 0.3402, 0.2234, 0.0550, 0.0187, 0.0181, 0.0176],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0325, 0.0354, 0.0265, 0.0246, 0.0190, 0.0218, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 00:35:39,183 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-03 00:35:39,967 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=155709.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:35:47,576 INFO [train.py:903] (2/4) Epoch 23, batch 5500, loss[loss=0.1867, simple_loss=0.2586, pruned_loss=0.05745, over 19739.00 frames. ], tot_loss[loss=0.206, simple_loss=0.2866, pruned_loss=0.06267, over 3833511.06 frames. ], batch size: 46, lr: 3.55e-03, grad_scale: 4.0
+2023-04-03 00:36:10,860 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=155734.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:36:13,476 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-03 00:36:14,848 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6245, 4.1951, 2.7549, 3.7067, 0.7724, 4.1408, 4.0580, 4.1419],
+       device='cuda:2'), covar=tensor([0.0634, 0.0953, 0.1854, 0.0841, 0.4218, 0.0667, 0.0864, 0.1071],
+       device='cuda:2'), in_proj_covar=tensor([0.0518, 0.0418, 0.0502, 0.0352, 0.0404, 0.0442, 0.0433, 0.0467],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:36:21,502 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4927, 1.6640, 2.0351, 1.8515, 2.7438, 2.1992, 2.7239, 1.3743],
+       device='cuda:2'), covar=tensor([0.2713, 0.4513, 0.2857, 0.2071, 0.1680, 0.2534, 0.1826, 0.4679],
+       device='cuda:2'), in_proj_covar=tensor([0.0539, 0.0650, 0.0722, 0.0492, 0.0625, 0.0539, 0.0662, 0.0556],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 00:36:24,172 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.224e+02 5.057e+02 6.298e+02 8.158e+02 1.659e+03, threshold=1.260e+03, percent-clipped=6.0
+2023-04-03 00:36:46,707 INFO [train.py:903] (2/4) Epoch 23, batch 5550, loss[loss=0.1896, simple_loss=0.2704, pruned_loss=0.05443, over 19722.00 frames. ], tot_loss[loss=0.206, simple_loss=0.2864, pruned_loss=0.06282, over 3829735.16 frames. ], batch size: 51, lr: 3.55e-03, grad_scale: 4.0
+2023-04-03 00:36:56,206 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-03 00:37:30,540 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=155802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:37:30,682 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=155802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:37:34,227 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3070, 3.5453, 2.1783, 2.1817, 3.2541, 1.9190, 1.7819, 2.3917],
+       device='cuda:2'), covar=tensor([0.1279, 0.0591, 0.1023, 0.0862, 0.0570, 0.1196, 0.0915, 0.0638],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0314, 0.0336, 0.0265, 0.0247, 0.0339, 0.0289, 0.0272],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:37:42,232 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-03 00:37:48,755 INFO [train.py:903] (2/4) Epoch 23, batch 5600, loss[loss=0.1813, simple_loss=0.2601, pruned_loss=0.05122, over 19775.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2863, pruned_loss=0.06337, over 3815229.46 frames. ], batch size: 48, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:37:52,360 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=155819.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:37:59,006 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0770, 2.8614, 2.3301, 2.2823, 2.1050, 2.4476, 1.1227, 2.0314],
+       device='cuda:2'), covar=tensor([0.0709, 0.0637, 0.0694, 0.1193, 0.1124, 0.1075, 0.1398, 0.1160],
+       device='cuda:2'), in_proj_covar=tensor([0.0358, 0.0353, 0.0360, 0.0384, 0.0462, 0.0389, 0.0337, 0.0342],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 00:38:01,955 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
+2023-04-03 00:38:02,594 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=155827.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:38:23,383 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.767e+02 5.365e+02 7.033e+02 8.601e+02 1.530e+03, threshold=1.407e+03, percent-clipped=6.0
+2023-04-03 00:38:48,662 INFO [train.py:903] (2/4) Epoch 23, batch 5650, loss[loss=0.2258, simple_loss=0.3054, pruned_loss=0.07304, over 18796.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2864, pruned_loss=0.06302, over 3831592.53 frames. ], batch size: 74, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:38:50,823 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.42 vs. limit=2.0
+2023-04-03 00:39:33,344 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-03 00:39:47,803 INFO [train.py:903] (2/4) Epoch 23, batch 5700, loss[loss=0.2201, simple_loss=0.2992, pruned_loss=0.07054, over 19577.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2866, pruned_loss=0.06292, over 3835149.77 frames. ], batch size: 61, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:40:10,839 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=155934.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:40:17,494 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2119, 1.2693, 1.7398, 1.2502, 2.6748, 3.7944, 3.4718, 3.9522],
+       device='cuda:2'), covar=tensor([0.1686, 0.3954, 0.3400, 0.2561, 0.0666, 0.0170, 0.0215, 0.0286],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0324, 0.0353, 0.0264, 0.0246, 0.0190, 0.0217, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 00:40:24,771 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.238e+02 4.906e+02 6.184e+02 7.924e+02 2.131e+03, threshold=1.237e+03, percent-clipped=2.0
+2023-04-03 00:40:47,842 INFO [train.py:903] (2/4) Epoch 23, batch 5750, loss[loss=0.2013, simple_loss=0.2789, pruned_loss=0.06187, over 19871.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2866, pruned_loss=0.06296, over 3836918.09 frames. ], batch size: 52, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:40:49,191 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=155967.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:40:51,115 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-03 00:40:58,274 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.62 vs. limit=5.0
+2023-04-03 00:40:59,648 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-03 00:41:04,147 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-03 00:41:50,977 INFO [train.py:903] (2/4) Epoch 23, batch 5800, loss[loss=0.183, simple_loss=0.2746, pruned_loss=0.04571, over 19615.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.2868, pruned_loss=0.06301, over 3823949.31 frames. ], batch size: 61, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:41:54,507 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=156019.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:42:25,081 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.381e+02 4.982e+02 6.301e+02 7.857e+02 1.493e+03, threshold=1.260e+03, percent-clipped=3.0
+2023-04-03 00:42:39,982 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 00:42:50,181 INFO [train.py:903] (2/4) Epoch 23, batch 5850, loss[loss=0.1935, simple_loss=0.2776, pruned_loss=0.05471, over 19780.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.287, pruned_loss=0.06329, over 3822314.21 frames. ], batch size: 56, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:42:56,254 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 00:43:08,195 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=156082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:43:14,906 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=156088.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:43:48,543 INFO [train.py:903] (2/4) Epoch 23, batch 5900, loss[loss=0.226, simple_loss=0.3123, pruned_loss=0.06985, over 19753.00 frames. ], tot_loss[loss=0.2072, simple_loss=0.2875, pruned_loss=0.06345, over 3825660.36 frames. ], batch size: 63, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:43:52,965 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-03 00:44:08,166 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.40 vs. limit=2.0
+2023-04-03 00:44:10,890 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=156134.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:44:14,912 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-03 00:44:24,575 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.271e+02 5.043e+02 6.365e+02 8.179e+02 2.050e+03, threshold=1.273e+03, percent-clipped=8.0
+2023-04-03 00:44:25,632 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=156146.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:44:48,115 INFO [train.py:903] (2/4) Epoch 23, batch 5950, loss[loss=0.1999, simple_loss=0.2842, pruned_loss=0.05782, over 19619.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2872, pruned_loss=0.06335, over 3827734.86 frames. ], batch size: 57, lr: 3.55e-03, grad_scale: 8.0
+2023-04-03 00:45:19,169 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=156190.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:45:47,958 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=156215.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:45:48,678 INFO [train.py:903] (2/4) Epoch 23, batch 6000, loss[loss=0.2548, simple_loss=0.3348, pruned_loss=0.08736, over 19693.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.2865, pruned_loss=0.06316, over 3822116.32 frames. ], batch size: 59, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:45:48,678 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 00:46:01,153 INFO [train.py:937] (2/4) Epoch 23, validation: loss=0.1686, simple_loss=0.2684, pruned_loss=0.03439, over 944034.00 frames. 
+2023-04-03 00:46:01,154 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 00:46:23,269 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=156234.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:46:37,247 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.373e+02 4.873e+02 6.527e+02 8.069e+02 1.468e+03, threshold=1.305e+03, percent-clipped=4.0
+2023-04-03 00:46:55,713 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=156261.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:47:01,908 INFO [train.py:903] (2/4) Epoch 23, batch 6050, loss[loss=0.1601, simple_loss=0.2413, pruned_loss=0.03948, over 19360.00 frames. ], tot_loss[loss=0.209, simple_loss=0.2887, pruned_loss=0.06463, over 3816492.72 frames. ], batch size: 47, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:47:13,027 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.75 vs. limit=2.0
+2023-04-03 00:47:53,118 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=156308.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:48:02,113 INFO [train.py:903] (2/4) Epoch 23, batch 6100, loss[loss=0.2241, simple_loss=0.2958, pruned_loss=0.07617, over 19461.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2886, pruned_loss=0.06452, over 3812347.40 frames. ], batch size: 49, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:48:27,997 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=156338.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:48:37,362 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.018e+02 4.768e+02 6.249e+02 8.138e+02 1.749e+03, threshold=1.250e+03, percent-clipped=2.0
+2023-04-03 00:48:58,846 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=156363.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:49:01,839 INFO [train.py:903] (2/4) Epoch 23, batch 6150, loss[loss=0.2553, simple_loss=0.3325, pruned_loss=0.08902, over 19686.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2893, pruned_loss=0.06443, over 3825699.63 frames. ], batch size: 58, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:49:31,080 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=156390.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:49:31,825 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-03 00:50:00,565 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=156415.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:50:01,341 INFO [train.py:903] (2/4) Epoch 23, batch 6200, loss[loss=0.2262, simple_loss=0.3057, pruned_loss=0.07333, over 19016.00 frames. ], tot_loss[loss=0.2085, simple_loss=0.2889, pruned_loss=0.06412, over 3830566.47 frames. ], batch size: 75, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:50:22,384 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=156432.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:50:38,863 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.999e+02 4.815e+02 5.704e+02 6.895e+02 2.552e+03, threshold=1.141e+03, percent-clipped=3.0
+2023-04-03 00:51:02,803 INFO [train.py:903] (2/4) Epoch 23, batch 6250, loss[loss=0.2113, simple_loss=0.2882, pruned_loss=0.06724, over 19756.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2885, pruned_loss=0.06405, over 3838762.40 frames. ], batch size: 51, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:51:23,582 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.83 vs. limit=2.0
+2023-04-03 00:51:29,514 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6208, 4.7513, 5.3271, 5.3251, 2.2447, 4.9795, 4.3016, 5.0549],
+       device='cuda:2'), covar=tensor([0.1604, 0.1343, 0.0541, 0.0638, 0.5818, 0.0876, 0.0624, 0.1075],
+       device='cuda:2'), in_proj_covar=tensor([0.0780, 0.0746, 0.0948, 0.0826, 0.0833, 0.0715, 0.0569, 0.0880],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 00:51:32,671 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-03 00:52:02,822 INFO [train.py:903] (2/4) Epoch 23, batch 6300, loss[loss=0.248, simple_loss=0.3227, pruned_loss=0.08669, over 19463.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2889, pruned_loss=0.0644, over 3844102.03 frames. ], batch size: 64, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:52:04,450 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=156517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:52:34,289 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=156542.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:52:39,263 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.268e+02 5.353e+02 6.743e+02 8.019e+02 1.408e+03, threshold=1.349e+03, percent-clipped=4.0
+2023-04-03 00:52:40,674 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=156547.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:53:03,413 INFO [train.py:903] (2/4) Epoch 23, batch 6350, loss[loss=0.2108, simple_loss=0.2968, pruned_loss=0.06241, over 19787.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2879, pruned_loss=0.06375, over 3837930.17 frames. ], batch size: 56, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:53:17,261 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=156578.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:53:30,645 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0317, 1.8623, 1.6980, 2.0649, 1.8410, 1.7615, 1.7065, 2.0166],
+       device='cuda:2'), covar=tensor([0.1100, 0.1573, 0.1559, 0.1140, 0.1368, 0.0591, 0.1531, 0.0791],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0355, 0.0313, 0.0252, 0.0303, 0.0253, 0.0310, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 00:54:02,671 INFO [train.py:903] (2/4) Epoch 23, batch 6400, loss[loss=0.1751, simple_loss=0.2576, pruned_loss=0.0463, over 16455.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2874, pruned_loss=0.06378, over 3837613.10 frames. ], batch size: 36, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:54:39,391 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.510e+02 4.834e+02 5.927e+02 7.987e+02 2.615e+03, threshold=1.185e+03, percent-clipped=4.0
+2023-04-03 00:54:46,361 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=156652.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:55:04,059 INFO [train.py:903] (2/4) Epoch 23, batch 6450, loss[loss=0.2064, simple_loss=0.2865, pruned_loss=0.06316, over 19412.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2875, pruned_loss=0.06336, over 3832034.45 frames. ], batch size: 48, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:55:35,948 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=156693.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:55:39,534 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1709, 1.3488, 1.9105, 1.3550, 3.0589, 4.5847, 4.4502, 4.9926],
+       device='cuda:2'), covar=tensor([0.1687, 0.3991, 0.3425, 0.2411, 0.0600, 0.0184, 0.0182, 0.0181],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0324, 0.0353, 0.0264, 0.0246, 0.0189, 0.0216, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 00:55:47,919 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-03 00:56:04,449 INFO [train.py:903] (2/4) Epoch 23, batch 6500, loss[loss=0.2586, simple_loss=0.3217, pruned_loss=0.09773, over 19702.00 frames. ], tot_loss[loss=0.2072, simple_loss=0.2876, pruned_loss=0.06337, over 3837519.83 frames. ], batch size: 60, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:56:10,076 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-03 00:56:39,933 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.419e+02 5.077e+02 6.090e+02 8.057e+02 1.603e+03, threshold=1.218e+03, percent-clipped=6.0
+2023-04-03 00:57:04,750 INFO [train.py:903] (2/4) Epoch 23, batch 6550, loss[loss=0.1749, simple_loss=0.2531, pruned_loss=0.04832, over 16455.00 frames. ], tot_loss[loss=0.2072, simple_loss=0.2875, pruned_loss=0.06341, over 3834288.01 frames. ], batch size: 36, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:57:06,338 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=156767.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:57:06,401 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=156767.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:57:50,663 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=156803.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:58:04,880 INFO [train.py:903] (2/4) Epoch 23, batch 6600, loss[loss=0.1943, simple_loss=0.2814, pruned_loss=0.05357, over 19657.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2864, pruned_loss=0.06295, over 3832397.73 frames. ], batch size: 55, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:58:20,360 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=156828.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 00:58:34,787 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0217, 1.3021, 1.6652, 0.8592, 2.3479, 3.0630, 2.7263, 3.2467],
+       device='cuda:2'), covar=tensor([0.1697, 0.3790, 0.3386, 0.2786, 0.0604, 0.0202, 0.0272, 0.0304],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0324, 0.0353, 0.0265, 0.0245, 0.0190, 0.0216, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 00:58:41,922 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.453e+02 5.163e+02 6.336e+02 8.010e+02 1.885e+03, threshold=1.267e+03, percent-clipped=5.0
+2023-04-03 00:59:05,157 INFO [train.py:903] (2/4) Epoch 23, batch 6650, loss[loss=0.1907, simple_loss=0.2778, pruned_loss=0.05182, over 19677.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2865, pruned_loss=0.06284, over 3835512.27 frames. ], batch size: 53, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 00:59:51,146 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=156903.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:00:07,302 INFO [train.py:903] (2/4) Epoch 23, batch 6700, loss[loss=0.2437, simple_loss=0.3147, pruned_loss=0.0863, over 17204.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2864, pruned_loss=0.06305, over 3835174.69 frames. ], batch size: 101, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 01:00:41,738 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.603e+02 5.252e+02 6.535e+02 7.903e+02 1.565e+03, threshold=1.307e+03, percent-clipped=2.0
+2023-04-03 01:00:45,421 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=156949.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:01:04,457 INFO [train.py:903] (2/4) Epoch 23, batch 6750, loss[loss=0.2414, simple_loss=0.3281, pruned_loss=0.07741, over 19755.00 frames. ], tot_loss[loss=0.207, simple_loss=0.287, pruned_loss=0.06349, over 3830622.27 frames. ], batch size: 63, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 01:01:13,626 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=156974.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:02:00,909 INFO [train.py:903] (2/4) Epoch 23, batch 6800, loss[loss=0.2014, simple_loss=0.2855, pruned_loss=0.05863, over 19504.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2869, pruned_loss=0.06359, over 3831035.13 frames. ], batch size: 64, lr: 3.54e-03, grad_scale: 8.0
+2023-04-03 01:02:09,516 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=157023.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:02:14,962 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=157028.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:02:44,836 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-03 01:02:46,004 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-03 01:02:48,305 INFO [train.py:903] (2/4) Epoch 24, batch 0, loss[loss=0.2205, simple_loss=0.3065, pruned_loss=0.0673, over 19694.00 frames. ], tot_loss[loss=0.2205, simple_loss=0.3065, pruned_loss=0.0673, over 19694.00 frames. ], batch size: 60, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:02:48,305 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 01:02:59,935 INFO [train.py:937] (2/4) Epoch 24, validation: loss=0.1683, simple_loss=0.2685, pruned_loss=0.03408, over 944034.00 frames. 
+2023-04-03 01:02:59,936 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 01:03:03,176 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.276e+02 5.212e+02 6.445e+02 8.399e+02 3.393e+03, threshold=1.289e+03, percent-clipped=7.0
+2023-04-03 01:03:05,715 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=157048.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:03:12,277 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-03 01:04:00,819 INFO [train.py:903] (2/4) Epoch 24, batch 50, loss[loss=0.1664, simple_loss=0.2416, pruned_loss=0.04559, over 19754.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.28, pruned_loss=0.05985, over 870834.04 frames. ], batch size: 46, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:04:01,208 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7391, 2.6672, 2.2413, 2.1762, 1.8768, 2.3692, 1.1657, 1.9780],
+       device='cuda:2'), covar=tensor([0.0669, 0.0681, 0.0623, 0.0936, 0.1098, 0.0976, 0.1398, 0.0992],
+       device='cuda:2'), in_proj_covar=tensor([0.0361, 0.0357, 0.0362, 0.0386, 0.0466, 0.0391, 0.0338, 0.0342],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 01:04:20,650 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157111.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:04:32,474 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-03 01:04:47,081 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3621, 1.3930, 1.9096, 1.4054, 2.8378, 3.7113, 3.4013, 3.9842],
+       device='cuda:2'), covar=tensor([0.1618, 0.3835, 0.3235, 0.2432, 0.0578, 0.0202, 0.0241, 0.0286],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0326, 0.0355, 0.0266, 0.0246, 0.0190, 0.0217, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 01:05:01,217 INFO [train.py:903] (2/4) Epoch 24, batch 100, loss[loss=0.2035, simple_loss=0.2878, pruned_loss=0.05964, over 19663.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.2843, pruned_loss=0.06369, over 1514794.56 frames. ], batch size: 58, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:05:03,484 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.245e+02 5.500e+02 6.534e+02 8.918e+02 1.825e+03, threshold=1.307e+03, percent-clipped=7.0
+2023-04-03 01:05:11,356 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-03 01:05:19,826 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=157160.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:05:26,385 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4305, 1.4148, 1.5520, 1.4612, 3.0253, 1.2773, 2.3875, 3.4050],
+       device='cuda:2'), covar=tensor([0.0564, 0.2720, 0.2755, 0.1891, 0.0765, 0.2306, 0.1153, 0.0284],
+       device='cuda:2'), in_proj_covar=tensor([0.0414, 0.0368, 0.0390, 0.0351, 0.0374, 0.0350, 0.0383, 0.0407],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:06:02,080 INFO [train.py:903] (2/4) Epoch 24, batch 150, loss[loss=0.2345, simple_loss=0.3117, pruned_loss=0.0786, over 17555.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2847, pruned_loss=0.06243, over 2025088.55 frames. ], batch size: 101, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:06:42,470 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=157226.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:07:01,362 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-03 01:07:02,474 INFO [train.py:903] (2/4) Epoch 24, batch 200, loss[loss=0.186, simple_loss=0.2618, pruned_loss=0.05513, over 19774.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2852, pruned_loss=0.06242, over 2422601.13 frames. ], batch size: 46, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:07:04,624 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.193e+02 4.992e+02 5.973e+02 7.088e+02 2.080e+03, threshold=1.195e+03, percent-clipped=2.0
+2023-04-03 01:07:05,920 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:07:12,117 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7974, 2.4824, 2.3538, 2.7855, 2.5411, 2.3762, 2.2135, 2.7700],
+       device='cuda:2'), covar=tensor([0.0870, 0.1680, 0.1413, 0.1116, 0.1354, 0.0484, 0.1293, 0.0638],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0356, 0.0314, 0.0252, 0.0304, 0.0253, 0.0312, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:08:03,056 INFO [train.py:903] (2/4) Epoch 24, batch 250, loss[loss=0.1913, simple_loss=0.2709, pruned_loss=0.05583, over 19700.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2852, pruned_loss=0.06309, over 2718941.09 frames. ], batch size: 53, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:08:45,264 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6186, 1.5331, 1.5369, 2.0459, 1.6619, 1.8820, 1.8706, 1.7129],
+       device='cuda:2'), covar=tensor([0.0826, 0.0907, 0.0988, 0.0709, 0.0783, 0.0734, 0.0801, 0.0666],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0223, 0.0227, 0.0241, 0.0228, 0.0215, 0.0190, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 01:09:03,288 INFO [train.py:903] (2/4) Epoch 24, batch 300, loss[loss=0.2111, simple_loss=0.2952, pruned_loss=0.06343, over 19612.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2862, pruned_loss=0.06355, over 2976694.33 frames. ], batch size: 61, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:09:06,233 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.399e+02 5.405e+02 6.557e+02 9.024e+02 1.464e+03, threshold=1.311e+03, percent-clipped=9.0
+2023-04-03 01:09:25,572 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=157362.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:09:34,463 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5912, 1.2542, 1.4946, 1.4634, 3.1125, 1.1102, 2.3668, 3.6109],
+       device='cuda:2'), covar=tensor([0.0698, 0.3186, 0.3085, 0.2118, 0.0936, 0.2892, 0.1588, 0.0319],
+       device='cuda:2'), in_proj_covar=tensor([0.0414, 0.0369, 0.0390, 0.0352, 0.0374, 0.0350, 0.0383, 0.0407],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:09:36,389 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157372.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:09:39,529 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=157374.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:09:41,187 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.84 vs. limit=2.0
+2023-04-03 01:09:56,109 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1001, 1.7906, 1.4566, 1.1706, 1.5806, 1.1654, 1.1803, 1.6359],
+       device='cuda:2'), covar=tensor([0.0843, 0.0762, 0.1041, 0.0864, 0.0586, 0.1277, 0.0605, 0.0450],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0314, 0.0336, 0.0266, 0.0246, 0.0338, 0.0288, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:10:05,064 INFO [train.py:903] (2/4) Epoch 24, batch 350, loss[loss=0.2169, simple_loss=0.3009, pruned_loss=0.06649, over 18876.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2863, pruned_loss=0.06388, over 3166582.69 frames. ], batch size: 74, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:10:10,691 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 01:10:12,258 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=157400.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:10:39,434 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=157422.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 01:11:05,171 INFO [train.py:903] (2/4) Epoch 24, batch 400, loss[loss=0.2012, simple_loss=0.2755, pruned_loss=0.06345, over 19624.00 frames. ], tot_loss[loss=0.2091, simple_loss=0.2883, pruned_loss=0.06497, over 3297341.25 frames. ], batch size: 50, lr: 3.46e-03, grad_scale: 8.0
+2023-04-03 01:11:07,649 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.933e+02 4.825e+02 6.674e+02 8.153e+02 1.427e+03, threshold=1.335e+03, percent-clipped=2.0
+2023-04-03 01:11:48,251 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1936, 2.9243, 2.3511, 2.3033, 2.0182, 2.5147, 1.0192, 2.0852],
+       device='cuda:2'), covar=tensor([0.0635, 0.0583, 0.0645, 0.1052, 0.1083, 0.1056, 0.1384, 0.1025],
+       device='cuda:2'), in_proj_covar=tensor([0.0359, 0.0354, 0.0361, 0.0384, 0.0463, 0.0392, 0.0337, 0.0340],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 01:11:52,578 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=157482.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:11:56,137 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9342, 2.0551, 1.8544, 3.1033, 2.2399, 2.9665, 1.9661, 1.6389],
+       device='cuda:2'), covar=tensor([0.5660, 0.5023, 0.3236, 0.3283, 0.4939, 0.2414, 0.7106, 0.5770],
+       device='cuda:2'), in_proj_covar=tensor([0.0908, 0.0977, 0.0723, 0.0934, 0.0888, 0.0825, 0.0847, 0.0788],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 01:11:58,242 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=157487.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:12:01,767 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8578, 1.3486, 1.0900, 1.0373, 1.1883, 1.0517, 0.9451, 1.2358],
+       device='cuda:2'), covar=tensor([0.0702, 0.0843, 0.1230, 0.0797, 0.0665, 0.1368, 0.0633, 0.0558],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0315, 0.0338, 0.0267, 0.0247, 0.0339, 0.0290, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:12:05,706 INFO [train.py:903] (2/4) Epoch 24, batch 450, loss[loss=0.2166, simple_loss=0.2812, pruned_loss=0.076, over 19648.00 frames. ], tot_loss[loss=0.2095, simple_loss=0.2888, pruned_loss=0.0651, over 3422182.62 frames. ], batch size: 50, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:12:20,131 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:12:24,887 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=157507.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:12:31,933 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6875, 1.6962, 1.5730, 1.3649, 1.3162, 1.3684, 0.2174, 0.6235],
+       device='cuda:2'), covar=tensor([0.0698, 0.0679, 0.0490, 0.0700, 0.1394, 0.0797, 0.1387, 0.1169],
+       device='cuda:2'), in_proj_covar=tensor([0.0359, 0.0354, 0.0362, 0.0384, 0.0464, 0.0392, 0.0338, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 01:12:40,667 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-03 01:12:40,701 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-03 01:12:43,468 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5720, 2.3022, 1.7617, 1.6163, 2.1932, 1.4707, 1.3792, 1.9567],
+       device='cuda:2'), covar=tensor([0.1154, 0.0826, 0.1160, 0.0869, 0.0581, 0.1284, 0.0816, 0.0573],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0315, 0.0339, 0.0268, 0.0248, 0.0340, 0.0290, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:12:44,489 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=157524.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 01:13:08,942 INFO [train.py:903] (2/4) Epoch 24, batch 500, loss[loss=0.199, simple_loss=0.2909, pruned_loss=0.05355, over 19530.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2871, pruned_loss=0.06376, over 3503589.87 frames. ], batch size: 56, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:13:12,134 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.617e+02 5.203e+02 6.096e+02 8.720e+02 1.456e+03, threshold=1.219e+03, percent-clipped=3.0
+2023-04-03 01:14:02,831 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=157586.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:14:12,213 INFO [train.py:903] (2/4) Epoch 24, batch 550, loss[loss=0.2339, simple_loss=0.3149, pruned_loss=0.07645, over 19132.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2872, pruned_loss=0.06337, over 3566705.10 frames. ], batch size: 69, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:14:32,927 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5027, 1.5203, 1.7146, 1.6766, 2.4845, 2.3374, 2.5685, 1.1118],
+       device='cuda:2'), covar=tensor([0.2402, 0.4273, 0.2693, 0.1996, 0.1472, 0.2041, 0.1333, 0.4445],
+       device='cuda:2'), in_proj_covar=tensor([0.0538, 0.0647, 0.0721, 0.0491, 0.0620, 0.0534, 0.0661, 0.0552],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 01:14:41,067 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=157618.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:14:42,176 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=157619.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:15:13,030 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=157643.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:15:13,768 INFO [train.py:903] (2/4) Epoch 24, batch 600, loss[loss=0.2095, simple_loss=0.2952, pruned_loss=0.06192, over 19325.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2878, pruned_loss=0.06319, over 3629633.33 frames. ], batch size: 66, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:15:15,910 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.272e+02 4.646e+02 5.574e+02 6.767e+02 1.170e+03, threshold=1.115e+03, percent-clipped=0.0
+2023-04-03 01:15:28,512 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.1758, 5.5479, 3.2854, 4.9524, 1.0989, 5.7802, 5.5995, 5.7780],
+       device='cuda:2'), covar=tensor([0.0371, 0.0916, 0.1641, 0.0705, 0.4128, 0.0483, 0.0729, 0.0956],
+       device='cuda:2'), in_proj_covar=tensor([0.0515, 0.0415, 0.0498, 0.0349, 0.0402, 0.0439, 0.0432, 0.0468],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:15:29,134 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.01 vs. limit=5.0
+2023-04-03 01:15:39,848 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8225, 4.2298, 4.4773, 4.5036, 1.7116, 4.2318, 3.6210, 4.1773],
+       device='cuda:2'), covar=tensor([0.1638, 0.0895, 0.0622, 0.0665, 0.6218, 0.0925, 0.0757, 0.1193],
+       device='cuda:2'), in_proj_covar=tensor([0.0792, 0.0757, 0.0965, 0.0844, 0.0850, 0.0731, 0.0580, 0.0889],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 01:15:53,026 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-03 01:16:14,753 INFO [train.py:903] (2/4) Epoch 24, batch 650, loss[loss=0.2328, simple_loss=0.3082, pruned_loss=0.07865, over 12947.00 frames. ], tot_loss[loss=0.2088, simple_loss=0.2891, pruned_loss=0.06421, over 3677384.15 frames. ], batch size: 135, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:16:45,949 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157718.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:17:14,700 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=157743.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:17:15,390 INFO [train.py:903] (2/4) Epoch 24, batch 700, loss[loss=0.2311, simple_loss=0.3082, pruned_loss=0.07693, over 19564.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2877, pruned_loss=0.06363, over 3709710.54 frames. ], batch size: 61, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:17:15,553 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157744.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:17:20,745 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.032e+02 5.232e+02 6.869e+02 8.195e+02 1.483e+03, threshold=1.374e+03, percent-clipped=7.0
+2023-04-03 01:17:44,062 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157766.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 01:17:46,329 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=157768.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:18:19,077 INFO [train.py:903] (2/4) Epoch 24, batch 750, loss[loss=0.202, simple_loss=0.2938, pruned_loss=0.05508, over 19778.00 frames. ], tot_loss[loss=0.2078, simple_loss=0.2878, pruned_loss=0.06392, over 3746055.60 frames. ], batch size: 56, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:18:31,205 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.35 vs. limit=5.0
+2023-04-03 01:19:06,855 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=157833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:19:19,795 INFO [train.py:903] (2/4) Epoch 24, batch 800, loss[loss=0.2054, simple_loss=0.2841, pruned_loss=0.06332, over 17227.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2864, pruned_loss=0.06333, over 3758090.81 frames. ], batch size: 101, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:19:23,270 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.261e+02 5.074e+02 6.358e+02 8.526e+02 1.766e+03, threshold=1.272e+03, percent-clipped=4.0
+2023-04-03 01:19:30,256 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-03 01:19:37,371 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=157859.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:19:37,389 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6063, 1.4705, 1.4868, 2.2037, 1.5629, 1.7877, 1.8214, 1.6396],
+       device='cuda:2'), covar=tensor([0.0954, 0.1030, 0.1136, 0.0801, 0.0956, 0.0895, 0.0997, 0.0803],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0224, 0.0229, 0.0242, 0.0229, 0.0215, 0.0191, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 01:19:48,541 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157868.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 01:19:52,854 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=157871.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:19:59,136 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=157875.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:20:05,661 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=157881.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 01:20:20,136 INFO [train.py:903] (2/4) Epoch 24, batch 850, loss[loss=0.2167, simple_loss=0.2922, pruned_loss=0.07059, over 17532.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2867, pruned_loss=0.06326, over 3779238.76 frames. ], batch size: 101, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:20:27,416 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=157900.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:20:27,444 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1032, 2.0285, 1.9703, 1.8523, 1.5892, 1.7706, 0.8047, 1.2507],
+       device='cuda:2'), covar=tensor([0.0621, 0.0626, 0.0436, 0.0700, 0.1160, 0.0916, 0.1310, 0.1010],
+       device='cuda:2'), in_proj_covar=tensor([0.0361, 0.0357, 0.0363, 0.0388, 0.0467, 0.0394, 0.0339, 0.0343],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 01:20:37,625 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
+2023-04-03 01:21:05,409 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=157930.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:21:08,624 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-03 01:21:21,337 INFO [train.py:903] (2/4) Epoch 24, batch 900, loss[loss=0.1735, simple_loss=0.2513, pruned_loss=0.04785, over 19085.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2857, pruned_loss=0.06248, over 3792329.77 frames. ], batch size: 42, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:21:25,793 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.893e+02 4.800e+02 5.808e+02 7.910e+02 1.683e+03, threshold=1.162e+03, percent-clipped=5.0
+2023-04-03 01:22:10,132 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=157983.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 01:22:22,960 INFO [train.py:903] (2/4) Epoch 24, batch 950, loss[loss=0.2575, simple_loss=0.3237, pruned_loss=0.09564, over 19475.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2855, pruned_loss=0.06265, over 3802572.95 frames. ], batch size: 64, lr: 3.45e-03, grad_scale: 4.0
+2023-04-03 01:22:22,983 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-03 01:23:26,860 INFO [train.py:903] (2/4) Epoch 24, batch 1000, loss[loss=0.2251, simple_loss=0.2996, pruned_loss=0.07527, over 19596.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2852, pruned_loss=0.06232, over 3809068.14 frames. ], batch size: 61, lr: 3.45e-03, grad_scale: 4.0
+2023-04-03 01:23:28,214 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=158045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:23:31,292 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.770e+02 5.075e+02 5.979e+02 8.043e+02 1.884e+03, threshold=1.196e+03, percent-clipped=5.0
+2023-04-03 01:24:17,483 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-03 01:24:22,269 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=158089.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:24:22,529 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-03 01:24:27,540 INFO [train.py:903] (2/4) Epoch 24, batch 1050, loss[loss=0.1929, simple_loss=0.2772, pruned_loss=0.05433, over 19738.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2856, pruned_loss=0.0626, over 3814703.24 frames. ], batch size: 51, lr: 3.45e-03, grad_scale: 4.0
+2023-04-03 01:24:50,248 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=158114.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:24:52,321 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=158115.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:24:56,182 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-03 01:25:07,405 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8389, 1.4441, 1.5355, 1.3969, 3.4100, 1.0850, 2.4588, 3.8777],
+       device='cuda:2'), covar=tensor([0.0500, 0.2800, 0.2998, 0.2143, 0.0728, 0.2701, 0.1368, 0.0228],
+       device='cuda:2'), in_proj_covar=tensor([0.0419, 0.0373, 0.0394, 0.0354, 0.0377, 0.0354, 0.0389, 0.0410],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:25:20,114 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=158137.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 01:25:23,286 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=158140.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:25:23,372 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=158140.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:25:23,660 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.68 vs. limit=2.0
+2023-04-03 01:25:27,550 INFO [train.py:903] (2/4) Epoch 24, batch 1100, loss[loss=0.181, simple_loss=0.2714, pruned_loss=0.04529, over 19523.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2871, pruned_loss=0.0638, over 3809006.74 frames. ], batch size: 56, lr: 3.45e-03, grad_scale: 4.0
+2023-04-03 01:25:31,915 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.699e+02 5.122e+02 6.777e+02 7.992e+02 2.032e+03, threshold=1.355e+03, percent-clipped=5.0
+2023-04-03 01:25:51,746 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=158162.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 01:26:28,902 INFO [train.py:903] (2/4) Epoch 24, batch 1150, loss[loss=0.1717, simple_loss=0.2483, pruned_loss=0.04756, over 19744.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.2864, pruned_loss=0.06345, over 3823402.43 frames. ], batch size: 47, lr: 3.45e-03, grad_scale: 4.0
+2023-04-03 01:26:56,867 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=158215.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:26:58,667 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.89 vs. limit=5.0
+2023-04-03 01:27:25,341 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=158239.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 01:27:31,334 INFO [train.py:903] (2/4) Epoch 24, batch 1200, loss[loss=0.182, simple_loss=0.2767, pruned_loss=0.04364, over 19610.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2868, pruned_loss=0.06369, over 3814636.89 frames. ], batch size: 57, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:27:37,768 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.973e+02 4.926e+02 5.852e+02 7.782e+02 1.430e+03, threshold=1.170e+03, percent-clipped=2.0
+2023-04-03 01:27:56,335 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=158264.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 01:28:02,799 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-03 01:28:34,708 INFO [train.py:903] (2/4) Epoch 24, batch 1250, loss[loss=0.1931, simple_loss=0.2648, pruned_loss=0.06067, over 18611.00 frames. ], tot_loss[loss=0.2076, simple_loss=0.2873, pruned_loss=0.06398, over 3812038.62 frames. ], batch size: 41, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:28:43,383 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=158301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:29:15,075 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=158326.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:29:20,354 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=158330.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:29:26,987 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.5727, 4.1311, 2.7536, 3.5884, 1.2975, 4.1402, 4.0022, 4.0901],
+       device='cuda:2'), covar=tensor([0.0649, 0.1030, 0.1831, 0.0894, 0.3619, 0.0649, 0.0911, 0.1064],
+       device='cuda:2'), in_proj_covar=tensor([0.0513, 0.0414, 0.0500, 0.0348, 0.0402, 0.0439, 0.0432, 0.0465],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:29:35,685 INFO [train.py:903] (2/4) Epoch 24, batch 1300, loss[loss=0.2015, simple_loss=0.2847, pruned_loss=0.05914, over 19778.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2866, pruned_loss=0.06326, over 3814868.83 frames. ], batch size: 54, lr: 3.45e-03, grad_scale: 8.0
+2023-04-03 01:29:37,557 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.54 vs. limit=2.0
+2023-04-03 01:29:40,389 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.859e+02 5.283e+02 7.241e+02 8.945e+02 2.355e+03, threshold=1.448e+03, percent-clipped=9.0
+2023-04-03 01:30:36,951 INFO [train.py:903] (2/4) Epoch 24, batch 1350, loss[loss=0.1806, simple_loss=0.2643, pruned_loss=0.0485, over 19741.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.2866, pruned_loss=0.06304, over 3816012.58 frames. ], batch size: 51, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:30:40,611 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1981, 2.0848, 1.9990, 1.9033, 1.6382, 1.7696, 0.5185, 1.1775],
+       device='cuda:2'), covar=tensor([0.0625, 0.0614, 0.0468, 0.0729, 0.1181, 0.0863, 0.1423, 0.1067],
+       device='cuda:2'), in_proj_covar=tensor([0.0358, 0.0358, 0.0362, 0.0386, 0.0463, 0.0392, 0.0338, 0.0343],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 01:30:48,159 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=158402.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:31:38,829 INFO [train.py:903] (2/4) Epoch 24, batch 1400, loss[loss=0.1871, simple_loss=0.2714, pruned_loss=0.05138, over 19683.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2873, pruned_loss=0.06374, over 3816867.24 frames. ], batch size: 53, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:31:43,425 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.414e+02 5.106e+02 6.656e+02 8.188e+02 2.197e+03, threshold=1.331e+03, percent-clipped=4.0
+2023-04-03 01:31:59,423 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8414, 1.9690, 2.2680, 2.5046, 1.8911, 2.4240, 2.3162, 2.0106],
+       device='cuda:2'), covar=tensor([0.4330, 0.3811, 0.1912, 0.2360, 0.3981, 0.2160, 0.4744, 0.3467],
+       device='cuda:2'), in_proj_covar=tensor([0.0910, 0.0981, 0.0726, 0.0939, 0.0890, 0.0827, 0.0846, 0.0789],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 01:32:27,057 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=158484.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:32:40,273 INFO [train.py:903] (2/4) Epoch 24, batch 1450, loss[loss=0.1829, simple_loss=0.2651, pruned_loss=0.05035, over 19376.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.287, pruned_loss=0.06334, over 3836217.19 frames. ], batch size: 48, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:32:42,601 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-03 01:32:52,781 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3130, 1.3606, 1.5174, 1.4567, 1.6898, 1.8011, 1.6991, 0.7012],
+       device='cuda:2'), covar=tensor([0.2383, 0.4115, 0.2486, 0.1882, 0.1650, 0.2232, 0.1448, 0.4698],
+       device='cuda:2'), in_proj_covar=tensor([0.0543, 0.0652, 0.0725, 0.0495, 0.0623, 0.0538, 0.0665, 0.0558],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 01:33:41,525 INFO [train.py:903] (2/4) Epoch 24, batch 1500, loss[loss=0.182, simple_loss=0.2614, pruned_loss=0.05132, over 19485.00 frames. ], tot_loss[loss=0.2073, simple_loss=0.2874, pruned_loss=0.06357, over 3836747.80 frames. ], batch size: 49, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:33:46,116 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.633e+02 4.870e+02 5.968e+02 7.477e+02 1.869e+03, threshold=1.194e+03, percent-clipped=2.0
+2023-04-03 01:34:33,961 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=158586.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:34:42,451 INFO [train.py:903] (2/4) Epoch 24, batch 1550, loss[loss=0.2132, simple_loss=0.2966, pruned_loss=0.0649, over 17466.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2876, pruned_loss=0.06362, over 3829820.49 frames. ], batch size: 101, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:34:48,598 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=158599.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:35:04,312 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=158611.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:35:36,446 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-03 01:35:46,043 INFO [train.py:903] (2/4) Epoch 24, batch 1600, loss[loss=0.1797, simple_loss=0.2595, pruned_loss=0.05001, over 19703.00 frames. ], tot_loss[loss=0.2072, simple_loss=0.2875, pruned_loss=0.06342, over 3816307.98 frames. ], batch size: 46, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:35:51,809 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.433e+02 4.721e+02 6.000e+02 7.264e+02 1.836e+03, threshold=1.200e+03, percent-clipped=4.0
+2023-04-03 01:36:12,728 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-03 01:36:50,304 INFO [train.py:903] (2/4) Epoch 24, batch 1650, loss[loss=0.2069, simple_loss=0.2937, pruned_loss=0.06012, over 19718.00 frames. ], tot_loss[loss=0.2071, simple_loss=0.2871, pruned_loss=0.06352, over 3805051.42 frames. ], batch size: 63, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:37:02,710 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0859, 1.5606, 2.0216, 1.6134, 4.5339, 1.2815, 2.5336, 4.9991],
+       device='cuda:2'), covar=tensor([0.0444, 0.2767, 0.2683, 0.2083, 0.0772, 0.2529, 0.1483, 0.0156],
+       device='cuda:2'), in_proj_covar=tensor([0.0419, 0.0374, 0.0394, 0.0354, 0.0378, 0.0356, 0.0389, 0.0410],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:37:52,883 INFO [train.py:903] (2/4) Epoch 24, batch 1700, loss[loss=0.2202, simple_loss=0.3039, pruned_loss=0.06822, over 18810.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.2867, pruned_loss=0.06306, over 3819048.50 frames. ], batch size: 74, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:37:55,344 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=158746.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:37:57,371 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.031e+02 4.745e+02 5.793e+02 7.168e+02 1.456e+03, threshold=1.159e+03, percent-clipped=2.0
+2023-04-03 01:38:35,605 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-03 01:38:54,538 INFO [train.py:903] (2/4) Epoch 24, batch 1750, loss[loss=0.2336, simple_loss=0.3093, pruned_loss=0.07901, over 13263.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2873, pruned_loss=0.06326, over 3815218.46 frames. ], batch size: 136, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:38:56,098 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=158795.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:39:03,118 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=158801.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:39:57,552 INFO [train.py:903] (2/4) Epoch 24, batch 1800, loss[loss=0.2016, simple_loss=0.2809, pruned_loss=0.0611, over 19735.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2869, pruned_loss=0.06283, over 3809532.61 frames. ], batch size: 51, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:40:02,401 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.024e+02 4.690e+02 5.979e+02 7.282e+02 2.087e+03, threshold=1.196e+03, percent-clipped=3.0
+2023-04-03 01:40:08,495 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=158853.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 01:40:11,842 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=158855.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:40:19,318 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=158861.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:40:40,515 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=158880.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:40:56,883 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-03 01:40:58,003 INFO [train.py:903] (2/4) Epoch 24, batch 1850, loss[loss=0.2212, simple_loss=0.296, pruned_loss=0.07318, over 19568.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2866, pruned_loss=0.06315, over 3795025.98 frames. ], batch size: 61, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:41:32,433 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-03 01:42:00,400 INFO [train.py:903] (2/4) Epoch 24, batch 1900, loss[loss=0.1772, simple_loss=0.2599, pruned_loss=0.04731, over 19768.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.286, pruned_loss=0.06291, over 3802152.32 frames. ], batch size: 48, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:42:04,923 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.445e+02 4.936e+02 5.873e+02 7.509e+02 2.125e+03, threshold=1.175e+03, percent-clipped=8.0
+2023-04-03 01:42:18,828 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-03 01:42:24,116 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-03 01:42:41,442 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9247, 4.4749, 2.7248, 3.9276, 1.1219, 4.4760, 4.3075, 4.4655],
+       device='cuda:2'), covar=tensor([0.0501, 0.0882, 0.2003, 0.0752, 0.3940, 0.0589, 0.0885, 0.1094],
+       device='cuda:2'), in_proj_covar=tensor([0.0511, 0.0414, 0.0496, 0.0345, 0.0401, 0.0437, 0.0430, 0.0462],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:42:46,679 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-03 01:43:00,389 INFO [train.py:903] (2/4) Epoch 24, batch 1950, loss[loss=0.1921, simple_loss=0.2842, pruned_loss=0.04996, over 19590.00 frames. ], tot_loss[loss=0.206, simple_loss=0.2862, pruned_loss=0.06289, over 3817431.29 frames. ], batch size: 52, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:44:03,844 INFO [train.py:903] (2/4) Epoch 24, batch 2000, loss[loss=0.1962, simple_loss=0.2816, pruned_loss=0.05546, over 19660.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2866, pruned_loss=0.06319, over 3804315.83 frames. ], batch size: 55, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:44:08,591 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.425e+02 5.106e+02 6.605e+02 9.481e+02 1.726e+03, threshold=1.321e+03, percent-clipped=5.0
+2023-04-03 01:44:57,740 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=159087.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:44:59,855 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-03 01:45:03,909 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.50 vs. limit=5.0
+2023-04-03 01:45:06,681 INFO [train.py:903] (2/4) Epoch 24, batch 2050, loss[loss=0.1769, simple_loss=0.2513, pruned_loss=0.05119, over 16464.00 frames. ], tot_loss[loss=0.207, simple_loss=0.2869, pruned_loss=0.06355, over 3804146.22 frames. ], batch size: 36, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:45:19,168 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-03 01:45:20,294 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-03 01:45:35,006 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=159117.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:45:41,998 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-03 01:46:02,789 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=159139.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:46:03,077 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2517, 1.3224, 1.2723, 1.0816, 1.1141, 1.1133, 0.0762, 0.3685],
+       device='cuda:2'), covar=tensor([0.0778, 0.0731, 0.0460, 0.0615, 0.1377, 0.0684, 0.1365, 0.1158],
+       device='cuda:2'), in_proj_covar=tensor([0.0358, 0.0358, 0.0362, 0.0387, 0.0463, 0.0392, 0.0339, 0.0344],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 01:46:06,511 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=159142.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:46:08,192 INFO [train.py:903] (2/4) Epoch 24, batch 2100, loss[loss=0.2488, simple_loss=0.3227, pruned_loss=0.0875, over 18191.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.2861, pruned_loss=0.06285, over 3800302.26 frames. ], batch size: 83, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:46:10,468 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=159145.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:46:13,634 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.527e+02 4.786e+02 5.922e+02 8.131e+02 1.881e+03, threshold=1.184e+03, percent-clipped=4.0
+2023-04-03 01:46:37,339 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-03 01:46:49,830 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=159177.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:46:58,690 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-03 01:47:10,232 INFO [train.py:903] (2/4) Epoch 24, batch 2150, loss[loss=0.1956, simple_loss=0.2886, pruned_loss=0.05134, over 18079.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2862, pruned_loss=0.06303, over 3790100.66 frames. ], batch size: 83, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:47:13,881 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=159197.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 01:48:12,832 INFO [train.py:903] (2/4) Epoch 24, batch 2200, loss[loss=0.2198, simple_loss=0.3139, pruned_loss=0.06281, over 19523.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.2866, pruned_loss=0.06303, over 3796622.74 frames. ], batch size: 56, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:48:18,019 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.316e+02 4.881e+02 6.157e+02 7.813e+02 2.191e+03, threshold=1.231e+03, percent-clipped=6.0
+2023-04-03 01:48:25,300 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=159254.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:48:33,262 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=159260.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:48:41,402 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3884, 1.7558, 1.9099, 1.7642, 3.8866, 1.4311, 2.9325, 4.1668],
+       device='cuda:2'), covar=tensor([0.0562, 0.2981, 0.2954, 0.2270, 0.0823, 0.2819, 0.1511, 0.0253],
+       device='cuda:2'), in_proj_covar=tensor([0.0418, 0.0374, 0.0395, 0.0354, 0.0379, 0.0357, 0.0391, 0.0410],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:49:14,284 INFO [train.py:903] (2/4) Epoch 24, batch 2250, loss[loss=0.2385, simple_loss=0.3114, pruned_loss=0.08275, over 19316.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2881, pruned_loss=0.064, over 3804392.45 frames. ], batch size: 66, lr: 3.44e-03, grad_scale: 8.0
+2023-04-03 01:49:31,889 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=159308.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:49:37,467 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=159312.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 01:49:46,540 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3944, 1.3729, 1.5269, 1.5815, 2.9781, 1.1821, 2.4076, 3.4368],
+       device='cuda:2'), covar=tensor([0.0588, 0.2785, 0.2885, 0.1787, 0.0758, 0.2486, 0.1239, 0.0255],
+       device='cuda:2'), in_proj_covar=tensor([0.0417, 0.0373, 0.0394, 0.0354, 0.0378, 0.0356, 0.0390, 0.0409],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:50:16,682 INFO [train.py:903] (2/4) Epoch 24, batch 2300, loss[loss=0.2338, simple_loss=0.3044, pruned_loss=0.08162, over 19723.00 frames. ], tot_loss[loss=0.208, simple_loss=0.2884, pruned_loss=0.0638, over 3816437.67 frames. ], batch size: 63, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:50:21,056 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.893e+02 4.864e+02 6.208e+02 8.672e+02 1.812e+03, threshold=1.242e+03, percent-clipped=10.0
+2023-04-03 01:50:31,273 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-03 01:50:52,322 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6736, 1.6153, 1.8428, 1.7579, 4.1840, 1.1223, 2.6945, 4.5786],
+       device='cuda:2'), covar=tensor([0.0472, 0.2788, 0.2814, 0.1982, 0.0738, 0.2804, 0.1491, 0.0165],
+       device='cuda:2'), in_proj_covar=tensor([0.0415, 0.0370, 0.0391, 0.0351, 0.0375, 0.0354, 0.0387, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:51:19,167 INFO [train.py:903] (2/4) Epoch 24, batch 2350, loss[loss=0.2217, simple_loss=0.3123, pruned_loss=0.06552, over 19361.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2888, pruned_loss=0.06404, over 3812015.05 frames. ], batch size: 66, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:52:00,178 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-03 01:52:04,797 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=159431.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:52:17,050 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-03 01:52:19,425 INFO [train.py:903] (2/4) Epoch 24, batch 2400, loss[loss=0.2057, simple_loss=0.2808, pruned_loss=0.06531, over 19844.00 frames. ], tot_loss[loss=0.2084, simple_loss=0.2888, pruned_loss=0.064, over 3823446.35 frames. ], batch size: 52, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:52:25,062 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.677e+02 4.946e+02 5.943e+02 8.368e+02 2.189e+03, threshold=1.189e+03, percent-clipped=6.0
+2023-04-03 01:53:22,620 INFO [train.py:903] (2/4) Epoch 24, batch 2450, loss[loss=0.178, simple_loss=0.259, pruned_loss=0.04851, over 19754.00 frames. ], tot_loss[loss=0.2075, simple_loss=0.2882, pruned_loss=0.06335, over 3805987.83 frames. ], batch size: 51, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:53:42,102 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=159510.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:53:49,982 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=159516.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:53:55,524 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=159521.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:54:14,806 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=159535.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:54:21,728 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=159541.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:54:24,656 INFO [train.py:903] (2/4) Epoch 24, batch 2500, loss[loss=0.183, simple_loss=0.2542, pruned_loss=0.05585, over 16329.00 frames. ], tot_loss[loss=0.2092, simple_loss=0.2895, pruned_loss=0.06448, over 3797883.66 frames. ], batch size: 36, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:54:27,436 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=159546.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:54:29,311 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.080e+02 4.941e+02 6.110e+02 7.649e+02 1.406e+03, threshold=1.222e+03, percent-clipped=1.0
+2023-04-03 01:54:55,500 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=159568.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 01:55:25,752 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=159593.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 01:55:26,480 INFO [train.py:903] (2/4) Epoch 24, batch 2550, loss[loss=0.2248, simple_loss=0.3059, pruned_loss=0.07181, over 19605.00 frames. ], tot_loss[loss=0.2083, simple_loss=0.2887, pruned_loss=0.06401, over 3804056.86 frames. ], batch size: 57, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:56:19,868 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=159636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:56:20,616 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-03 01:56:29,396 INFO [train.py:903] (2/4) Epoch 24, batch 2600, loss[loss=0.2191, simple_loss=0.3082, pruned_loss=0.065, over 19782.00 frames. ], tot_loss[loss=0.2058, simple_loss=0.2862, pruned_loss=0.06267, over 3815443.21 frames. ], batch size: 56, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:56:34,436 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 01:56:34,953 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.356e+02 4.779e+02 5.928e+02 8.262e+02 1.528e+03, threshold=1.186e+03, percent-clipped=6.0
+2023-04-03 01:56:36,575 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=159649.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:56:39,990 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=159652.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:57:31,602 INFO [train.py:903] (2/4) Epoch 24, batch 2650, loss[loss=0.2125, simple_loss=0.295, pruned_loss=0.06502, over 19697.00 frames. ], tot_loss[loss=0.2052, simple_loss=0.2856, pruned_loss=0.06242, over 3813303.93 frames. ], batch size: 59, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:57:43,898 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-03 01:58:18,697 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9543, 1.2370, 1.6190, 0.6195, 2.1096, 2.4699, 2.1051, 2.5865],
+       device='cuda:2'), covar=tensor([0.1583, 0.3793, 0.3309, 0.2699, 0.0583, 0.0275, 0.0365, 0.0386],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0325, 0.0356, 0.0264, 0.0245, 0.0190, 0.0216, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 01:58:20,964 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4704, 2.0818, 1.6377, 1.3045, 1.9503, 1.2562, 1.2593, 1.8956],
+       device='cuda:2'), covar=tensor([0.1085, 0.0834, 0.1137, 0.1025, 0.0652, 0.1390, 0.0800, 0.0509],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0315, 0.0339, 0.0268, 0.0248, 0.0339, 0.0292, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:58:34,703 INFO [train.py:903] (2/4) Epoch 24, batch 2700, loss[loss=0.1973, simple_loss=0.2813, pruned_loss=0.05664, over 17288.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2856, pruned_loss=0.06251, over 3812854.32 frames. ], batch size: 101, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:58:39,056 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.760e+02 5.237e+02 6.508e+02 8.466e+02 2.382e+03, threshold=1.302e+03, percent-clipped=8.0
+2023-04-03 01:59:02,797 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6247, 2.3358, 1.7479, 1.5915, 2.1409, 1.4021, 1.4074, 1.9776],
+       device='cuda:2'), covar=tensor([0.1047, 0.0803, 0.1086, 0.0844, 0.0626, 0.1293, 0.0774, 0.0558],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0315, 0.0340, 0.0269, 0.0248, 0.0340, 0.0292, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 01:59:03,906 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=159767.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 01:59:36,014 INFO [train.py:903] (2/4) Epoch 24, batch 2750, loss[loss=0.175, simple_loss=0.2505, pruned_loss=0.04969, over 19778.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2859, pruned_loss=0.06269, over 3806181.12 frames. ], batch size: 48, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 01:59:46,862 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=159802.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:00:19,545 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=159827.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:00:40,396 INFO [train.py:903] (2/4) Epoch 24, batch 2800, loss[loss=0.168, simple_loss=0.2453, pruned_loss=0.04537, over 19361.00 frames. ], tot_loss[loss=0.2052, simple_loss=0.2855, pruned_loss=0.06245, over 3803667.77 frames. ], batch size: 47, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 02:00:45,927 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.444e+02 4.661e+02 5.641e+02 7.181e+02 2.352e+03, threshold=1.128e+03, percent-clipped=2.0
+2023-04-03 02:01:16,190 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=159873.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:01:40,847 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=159892.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:01:42,777 INFO [train.py:903] (2/4) Epoch 24, batch 2850, loss[loss=0.2042, simple_loss=0.2792, pruned_loss=0.06454, over 19836.00 frames. ], tot_loss[loss=0.207, simple_loss=0.287, pruned_loss=0.06354, over 3809655.97 frames. ], batch size: 52, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 02:02:10,743 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=159917.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:02:25,915 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=159928.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:02:39,642 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-03 02:02:45,336 INFO [train.py:903] (2/4) Epoch 24, batch 2900, loss[loss=0.1933, simple_loss=0.2636, pruned_loss=0.06151, over 19708.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2862, pruned_loss=0.06308, over 3809334.03 frames. ], batch size: 45, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 02:02:51,072 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.210e+02 4.874e+02 6.501e+02 8.672e+02 1.518e+03, threshold=1.300e+03, percent-clipped=5.0
+2023-04-03 02:03:45,532 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=159993.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:03:46,482 INFO [train.py:903] (2/4) Epoch 24, batch 2950, loss[loss=0.179, simple_loss=0.2584, pruned_loss=0.04979, over 19784.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2862, pruned_loss=0.0631, over 3805301.16 frames. ], batch size: 47, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 02:04:13,443 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8644, 1.4712, 1.4761, 1.7979, 1.4089, 1.5820, 1.4851, 1.6736],
+       device='cuda:2'), covar=tensor([0.1042, 0.1414, 0.1563, 0.1021, 0.1406, 0.0598, 0.1381, 0.0820],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0355, 0.0312, 0.0254, 0.0303, 0.0252, 0.0312, 0.0257],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:04:24,635 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=160023.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:04:45,844 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-03 02:04:49,472 INFO [train.py:903] (2/4) Epoch 24, batch 3000, loss[loss=0.2179, simple_loss=0.2985, pruned_loss=0.06862, over 17553.00 frames. ], tot_loss[loss=0.2077, simple_loss=0.2874, pruned_loss=0.06393, over 3785861.83 frames. ], batch size: 101, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 02:04:49,472 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 02:05:02,017 INFO [train.py:937] (2/4) Epoch 24, validation: loss=0.1679, simple_loss=0.268, pruned_loss=0.03397, over 944034.00 frames. 
+2023-04-03 02:05:02,018 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 02:05:08,130 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=160048.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:05:08,853 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.319e+02 4.966e+02 6.275e+02 7.790e+02 1.988e+03, threshold=1.255e+03, percent-clipped=5.0
+2023-04-03 02:05:33,090 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.54 vs. limit=2.0
+2023-04-03 02:05:47,965 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.31 vs. limit=5.0
+2023-04-03 02:06:04,589 INFO [train.py:903] (2/4) Epoch 24, batch 3050, loss[loss=0.1764, simple_loss=0.2688, pruned_loss=0.042, over 19727.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.2869, pruned_loss=0.06332, over 3805508.95 frames. ], batch size: 51, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 02:06:19,318 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-03 02:06:23,655 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=160108.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:07:08,744 INFO [train.py:903] (2/4) Epoch 24, batch 3100, loss[loss=0.181, simple_loss=0.252, pruned_loss=0.05507, over 18099.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2849, pruned_loss=0.0621, over 3822901.44 frames. ], batch size: 40, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 02:07:14,570 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.956e+02 4.859e+02 5.894e+02 7.109e+02 1.682e+03, threshold=1.179e+03, percent-clipped=4.0
+2023-04-03 02:07:37,224 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0729, 1.3279, 1.6503, 1.0469, 2.4810, 3.3790, 3.0204, 3.5818],
+       device='cuda:2'), covar=tensor([0.1688, 0.3787, 0.3456, 0.2685, 0.0643, 0.0200, 0.0226, 0.0283],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0327, 0.0357, 0.0265, 0.0246, 0.0191, 0.0217, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 02:07:52,721 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4507, 1.4963, 1.7819, 1.7183, 2.4862, 2.2062, 2.6602, 1.0853],
+       device='cuda:2'), covar=tensor([0.2525, 0.4314, 0.2727, 0.1959, 0.1619, 0.2182, 0.1522, 0.4807],
+       device='cuda:2'), in_proj_covar=tensor([0.0544, 0.0656, 0.0726, 0.0495, 0.0623, 0.0537, 0.0666, 0.0559],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 02:08:10,525 INFO [train.py:903] (2/4) Epoch 24, batch 3150, loss[loss=0.2406, simple_loss=0.3147, pruned_loss=0.08326, over 19680.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2838, pruned_loss=0.0613, over 3831236.96 frames. ], batch size: 55, lr: 3.43e-03, grad_scale: 8.0
+2023-04-03 02:08:36,015 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-03 02:08:39,774 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=160217.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:08:56,814 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8000, 1.8992, 2.0666, 2.3626, 1.8101, 2.2609, 2.1255, 1.9140],
+       device='cuda:2'), covar=tensor([0.3986, 0.3539, 0.1957, 0.2167, 0.3736, 0.1967, 0.4702, 0.3268],
+       device='cuda:2'), in_proj_covar=tensor([0.0919, 0.0990, 0.0731, 0.0945, 0.0896, 0.0831, 0.0853, 0.0794],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 02:09:14,362 INFO [train.py:903] (2/4) Epoch 24, batch 3200, loss[loss=0.193, simple_loss=0.274, pruned_loss=0.056, over 19537.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2842, pruned_loss=0.06172, over 3825285.97 frames. ], batch size: 54, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:09:18,011 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6079, 4.2418, 2.8271, 3.7443, 1.1311, 4.1565, 4.0181, 4.1059],
+       device='cuda:2'), covar=tensor([0.0630, 0.0936, 0.1768, 0.0775, 0.3657, 0.0709, 0.0896, 0.1185],
+       device='cuda:2'), in_proj_covar=tensor([0.0512, 0.0413, 0.0498, 0.0346, 0.0403, 0.0437, 0.0431, 0.0464],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:09:19,347 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2445, 1.2978, 1.2404, 1.0180, 1.0196, 1.0602, 0.1249, 0.3245],
+       device='cuda:2'), covar=tensor([0.0849, 0.0852, 0.0532, 0.0653, 0.1630, 0.0831, 0.1407, 0.1389],
+       device='cuda:2'), in_proj_covar=tensor([0.0358, 0.0356, 0.0361, 0.0383, 0.0461, 0.0391, 0.0338, 0.0345],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 02:09:20,052 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.297e+02 5.134e+02 6.599e+02 8.700e+02 2.161e+03, threshold=1.320e+03, percent-clipped=4.0
+2023-04-03 02:09:49,733 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=160272.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:10:17,061 INFO [train.py:903] (2/4) Epoch 24, batch 3250, loss[loss=0.2209, simple_loss=0.3016, pruned_loss=0.07012, over 19685.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2854, pruned_loss=0.06229, over 3823405.41 frames. ], batch size: 60, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:10:56,755 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=160325.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 02:11:04,779 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=160332.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:11:21,818 INFO [train.py:903] (2/4) Epoch 24, batch 3300, loss[loss=0.2155, simple_loss=0.3017, pruned_loss=0.06468, over 19505.00 frames. ], tot_loss[loss=0.207, simple_loss=0.287, pruned_loss=0.06345, over 3803375.34 frames. ], batch size: 64, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:11:24,400 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-03 02:11:27,809 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.182e+02 4.973e+02 5.834e+02 7.675e+02 1.997e+03, threshold=1.167e+03, percent-clipped=3.0
+2023-04-03 02:11:46,529 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=160364.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:12:15,761 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=160387.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:12:18,249 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=160389.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:12:23,803 INFO [train.py:903] (2/4) Epoch 24, batch 3350, loss[loss=0.1856, simple_loss=0.274, pruned_loss=0.04866, over 19261.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2866, pruned_loss=0.063, over 3811132.93 frames. ], batch size: 66, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:12:47,485 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0084, 5.0587, 5.8609, 5.8491, 2.0184, 5.5295, 4.6433, 5.5293],
+       device='cuda:2'), covar=tensor([0.1663, 0.0831, 0.0522, 0.0586, 0.6254, 0.0884, 0.0608, 0.1114],
+       device='cuda:2'), in_proj_covar=tensor([0.0787, 0.0753, 0.0959, 0.0839, 0.0842, 0.0731, 0.0572, 0.0891],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 02:13:26,806 INFO [train.py:903] (2/4) Epoch 24, batch 3400, loss[loss=0.1798, simple_loss=0.2555, pruned_loss=0.05202, over 19338.00 frames. ], tot_loss[loss=0.2067, simple_loss=0.287, pruned_loss=0.06321, over 3804892.29 frames. ], batch size: 44, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:13:32,537 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.093e+02 5.133e+02 6.647e+02 9.203e+02 1.938e+03, threshold=1.329e+03, percent-clipped=8.0
+2023-04-03 02:14:28,023 INFO [train.py:903] (2/4) Epoch 24, batch 3450, loss[loss=0.1955, simple_loss=0.2775, pruned_loss=0.05677, over 19838.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2861, pruned_loss=0.06248, over 3802289.18 frames. ], batch size: 52, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:14:31,635 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-03 02:15:29,542 INFO [train.py:903] (2/4) Epoch 24, batch 3500, loss[loss=0.2323, simple_loss=0.3133, pruned_loss=0.07567, over 19650.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2861, pruned_loss=0.06249, over 3806967.93 frames. ], batch size: 58, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:15:38,053 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.068e+02 4.685e+02 5.887e+02 7.904e+02 2.662e+03, threshold=1.177e+03, percent-clipped=4.0
+2023-04-03 02:16:26,915 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=160588.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:16:33,577 INFO [train.py:903] (2/4) Epoch 24, batch 3550, loss[loss=0.2203, simple_loss=0.2997, pruned_loss=0.0704, over 19305.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2849, pruned_loss=0.06189, over 3816626.79 frames. ], batch size: 66, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:16:57,348 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=160613.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:17:36,562 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=160643.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:17:37,258 INFO [train.py:903] (2/4) Epoch 24, batch 3600, loss[loss=0.2351, simple_loss=0.3036, pruned_loss=0.08329, over 19781.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2851, pruned_loss=0.06181, over 3824766.45 frames. ], batch size: 54, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:17:44,411 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.188e+02 4.811e+02 5.669e+02 7.209e+02 1.690e+03, threshold=1.134e+03, percent-clipped=3.0
+2023-04-03 02:18:07,971 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=160668.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:18:09,962 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=160669.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 02:18:20,456 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1481, 1.9689, 1.7763, 2.1885, 1.7601, 1.8339, 1.7903, 2.0151],
+       device='cuda:2'), covar=tensor([0.1030, 0.1480, 0.1498, 0.0988, 0.1438, 0.0545, 0.1367, 0.0738],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0358, 0.0313, 0.0256, 0.0306, 0.0255, 0.0314, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:18:36,982 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1084, 1.9396, 1.9090, 2.7243, 1.9577, 2.4000, 2.4625, 2.2155],
+       device='cuda:2'), covar=tensor([0.0823, 0.0905, 0.1004, 0.0796, 0.0901, 0.0711, 0.0842, 0.0638],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0222, 0.0228, 0.0239, 0.0225, 0.0212, 0.0188, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 02:18:40,043 INFO [train.py:903] (2/4) Epoch 24, batch 3650, loss[loss=0.2329, simple_loss=0.3208, pruned_loss=0.07251, over 19536.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2856, pruned_loss=0.06193, over 3820500.67 frames. ], batch size: 56, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:19:08,189 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1480, 2.0534, 1.9678, 1.7681, 1.5618, 1.6489, 0.9911, 1.2823],
+       device='cuda:2'), covar=tensor([0.0701, 0.0783, 0.0480, 0.0899, 0.1226, 0.1160, 0.1268, 0.1158],
+       device='cuda:2'), in_proj_covar=tensor([0.0359, 0.0359, 0.0362, 0.0385, 0.0462, 0.0394, 0.0339, 0.0345],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 02:19:40,900 INFO [train.py:903] (2/4) Epoch 24, batch 3700, loss[loss=0.2346, simple_loss=0.3053, pruned_loss=0.08196, over 13531.00 frames. ], tot_loss[loss=0.2056, simple_loss=0.2863, pruned_loss=0.06246, over 3824485.51 frames. ], batch size: 136, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:19:49,425 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.079e+02 4.616e+02 6.347e+02 7.690e+02 1.972e+03, threshold=1.269e+03, percent-clipped=6.0
+2023-04-03 02:20:22,984 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-03 02:20:30,330 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=160784.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 02:20:44,497 INFO [train.py:903] (2/4) Epoch 24, batch 3750, loss[loss=0.2054, simple_loss=0.2852, pruned_loss=0.06287, over 19676.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2869, pruned_loss=0.06278, over 3828214.80 frames. ], batch size: 55, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:21:15,777 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.70 vs. limit=5.0
+2023-04-03 02:21:45,654 INFO [train.py:903] (2/4) Epoch 24, batch 3800, loss[loss=0.2029, simple_loss=0.2739, pruned_loss=0.06598, over 19786.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2857, pruned_loss=0.06228, over 3838091.71 frames. ], batch size: 48, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:21:53,459 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.186e+02 4.635e+02 5.250e+02 7.046e+02 1.734e+03, threshold=1.050e+03, percent-clipped=4.0
+2023-04-03 02:22:18,590 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-03 02:22:47,095 INFO [train.py:903] (2/4) Epoch 24, batch 3850, loss[loss=0.2228, simple_loss=0.3055, pruned_loss=0.07007, over 19495.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2851, pruned_loss=0.06238, over 3825559.98 frames. ], batch size: 64, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:22:55,995 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-03 02:23:18,527 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=160919.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:23:48,688 INFO [train.py:903] (2/4) Epoch 24, batch 3900, loss[loss=0.1859, simple_loss=0.2636, pruned_loss=0.05417, over 19392.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2854, pruned_loss=0.06209, over 3816217.34 frames. ], batch size: 48, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:23:58,402 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.922e+02 5.134e+02 6.381e+02 7.692e+02 1.884e+03, threshold=1.276e+03, percent-clipped=12.0
+2023-04-03 02:24:38,104 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=160983.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:24:53,481 INFO [train.py:903] (2/4) Epoch 24, batch 3950, loss[loss=0.1962, simple_loss=0.2834, pruned_loss=0.05453, over 19652.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2843, pruned_loss=0.06129, over 3818896.19 frames. ], batch size: 55, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:24:57,052 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-03 02:25:41,894 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7806, 1.4178, 1.5594, 1.5289, 3.3518, 1.0275, 2.3772, 3.8231],
+       device='cuda:2'), covar=tensor([0.0481, 0.2817, 0.2944, 0.2010, 0.0699, 0.2681, 0.1446, 0.0217],
+       device='cuda:2'), in_proj_covar=tensor([0.0412, 0.0367, 0.0389, 0.0350, 0.0373, 0.0353, 0.0385, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:25:51,271 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=161040.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 02:25:55,364 INFO [train.py:903] (2/4) Epoch 24, batch 4000, loss[loss=0.1866, simple_loss=0.2782, pruned_loss=0.04755, over 17984.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.284, pruned_loss=0.06085, over 3823979.51 frames. ], batch size: 83, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:26:03,420 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.651e+02 5.074e+02 6.327e+02 7.723e+02 1.762e+03, threshold=1.265e+03, percent-clipped=6.0
+2023-04-03 02:26:21,960 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=161065.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 02:26:41,804 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-03 02:26:57,369 INFO [train.py:903] (2/4) Epoch 24, batch 4050, loss[loss=0.1889, simple_loss=0.264, pruned_loss=0.05692, over 19489.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2858, pruned_loss=0.06219, over 3820950.89 frames. ], batch size: 49, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:27:57,726 INFO [train.py:903] (2/4) Epoch 24, batch 4100, loss[loss=0.2133, simple_loss=0.2976, pruned_loss=0.06453, over 18696.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2869, pruned_loss=0.06315, over 3828310.73 frames. ], batch size: 74, lr: 3.42e-03, grad_scale: 8.0
+2023-04-03 02:28:06,051 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.204e+02 4.915e+02 6.129e+02 7.795e+02 1.333e+03, threshold=1.226e+03, percent-clipped=1.0
+2023-04-03 02:28:31,091 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-03 02:29:00,654 INFO [train.py:903] (2/4) Epoch 24, batch 4150, loss[loss=0.2039, simple_loss=0.2952, pruned_loss=0.05632, over 19485.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2874, pruned_loss=0.06324, over 3813027.58 frames. ], batch size: 64, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:29:49,607 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5748, 2.2938, 1.8527, 1.5755, 2.0985, 1.4239, 1.3600, 1.9745],
+       device='cuda:2'), covar=tensor([0.1101, 0.0855, 0.1046, 0.0865, 0.0573, 0.1348, 0.0807, 0.0524],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0315, 0.0337, 0.0267, 0.0247, 0.0340, 0.0290, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:29:50,553 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=161234.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:30:01,376 INFO [train.py:903] (2/4) Epoch 24, batch 4200, loss[loss=0.2012, simple_loss=0.2921, pruned_loss=0.05518, over 19564.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.2875, pruned_loss=0.06305, over 3816963.43 frames. ], batch size: 61, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:30:02,616 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-03 02:30:04,058 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3415, 1.3576, 1.2725, 1.1309, 1.1182, 1.1731, 0.3503, 0.6223],
+       device='cuda:2'), covar=tensor([0.0485, 0.0523, 0.0345, 0.0509, 0.0815, 0.0641, 0.1172, 0.0851],
+       device='cuda:2'), in_proj_covar=tensor([0.0361, 0.0361, 0.0365, 0.0388, 0.0466, 0.0395, 0.0342, 0.0347],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 02:30:08,527 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=161249.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:30:09,254 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.885e+02 4.684e+02 6.110e+02 7.845e+02 2.290e+03, threshold=1.222e+03, percent-clipped=7.0
+2023-04-03 02:30:24,259 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=161263.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:31:03,256 INFO [train.py:903] (2/4) Epoch 24, batch 4250, loss[loss=0.215, simple_loss=0.293, pruned_loss=0.06853, over 19318.00 frames. ], tot_loss[loss=0.2074, simple_loss=0.2882, pruned_loss=0.06333, over 3810622.90 frames. ], batch size: 66, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:31:17,058 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-03 02:31:28,264 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-03 02:31:44,254 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=161327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:32:04,737 INFO [train.py:903] (2/4) Epoch 24, batch 4300, loss[loss=0.2098, simple_loss=0.298, pruned_loss=0.06079, over 19550.00 frames. ], tot_loss[loss=0.2066, simple_loss=0.2875, pruned_loss=0.0629, over 3814788.33 frames. ], batch size: 56, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:32:12,544 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.040e+02 4.585e+02 5.768e+02 7.257e+02 2.214e+03, threshold=1.154e+03, percent-clipped=5.0
+2023-04-03 02:32:38,074 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2006, 1.3265, 1.6370, 1.1452, 2.4810, 3.3473, 3.0293, 3.5346],
+       device='cuda:2'), covar=tensor([0.1640, 0.3712, 0.3444, 0.2668, 0.0667, 0.0219, 0.0241, 0.0326],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0325, 0.0356, 0.0265, 0.0245, 0.0190, 0.0217, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 02:32:47,636 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=161378.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:32:57,532 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-03 02:33:06,257 INFO [train.py:903] (2/4) Epoch 24, batch 4350, loss[loss=0.2344, simple_loss=0.3161, pruned_loss=0.0763, over 18839.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2853, pruned_loss=0.06172, over 3814473.32 frames. ], batch size: 74, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:33:37,798 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=161419.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:34:07,041 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=161442.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:34:08,989 INFO [train.py:903] (2/4) Epoch 24, batch 4400, loss[loss=0.1998, simple_loss=0.2867, pruned_loss=0.05644, over 19524.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2862, pruned_loss=0.06227, over 3802379.29 frames. ], batch size: 56, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:34:15,585 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.985e+02 5.009e+02 6.093e+02 7.233e+02 1.222e+03, threshold=1.219e+03, percent-clipped=3.0
+2023-04-03 02:34:31,952 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-03 02:34:41,638 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-03 02:34:43,248 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3433, 1.3858, 1.5400, 1.4812, 1.7625, 1.8370, 1.8067, 0.6383],
+       device='cuda:2'), covar=tensor([0.2460, 0.4304, 0.2737, 0.1971, 0.1642, 0.2338, 0.1391, 0.4799],
+       device='cuda:2'), in_proj_covar=tensor([0.0540, 0.0651, 0.0725, 0.0493, 0.0623, 0.0535, 0.0661, 0.0556],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 02:34:50,975 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=161478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:35:10,541 INFO [train.py:903] (2/4) Epoch 24, batch 4450, loss[loss=0.1942, simple_loss=0.2865, pruned_loss=0.05091, over 19675.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.2873, pruned_loss=0.06317, over 3779620.38 frames. ], batch size: 58, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:36:10,900 INFO [train.py:903] (2/4) Epoch 24, batch 4500, loss[loss=0.2006, simple_loss=0.2795, pruned_loss=0.06086, over 19330.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.2869, pruned_loss=0.06335, over 3792843.49 frames. ], batch size: 66, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:36:17,775 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.067e+02 5.206e+02 6.185e+02 8.214e+02 2.130e+03, threshold=1.237e+03, percent-clipped=6.0
+2023-04-03 02:36:53,397 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=161578.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:37:10,282 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=161593.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:37:12,191 INFO [train.py:903] (2/4) Epoch 24, batch 4550, loss[loss=0.1763, simple_loss=0.2591, pruned_loss=0.04677, over 19465.00 frames. ], tot_loss[loss=0.2065, simple_loss=0.2866, pruned_loss=0.06324, over 3796403.43 frames. ], batch size: 49, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:37:20,026 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-03 02:37:28,118 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4824, 1.6279, 1.8503, 1.7353, 2.6865, 2.2701, 2.8340, 1.3220],
+       device='cuda:2'), covar=tensor([0.2452, 0.4117, 0.2572, 0.1864, 0.1478, 0.2129, 0.1466, 0.4217],
+       device='cuda:2'), in_proj_covar=tensor([0.0544, 0.0655, 0.0731, 0.0496, 0.0628, 0.0539, 0.0666, 0.0559],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 02:37:44,731 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-03 02:38:01,518 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=161634.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:38:15,064 INFO [train.py:903] (2/4) Epoch 24, batch 4600, loss[loss=0.1734, simple_loss=0.2588, pruned_loss=0.04397, over 19840.00 frames. ], tot_loss[loss=0.2068, simple_loss=0.2872, pruned_loss=0.06317, over 3803659.58 frames. ], batch size: 52, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:38:21,971 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.192e+02 4.894e+02 5.872e+02 7.852e+02 1.807e+03, threshold=1.174e+03, percent-clipped=3.0
+2023-04-03 02:38:33,811 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=161659.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:38:45,540 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6171, 1.4388, 1.6100, 1.5563, 3.2134, 1.2585, 2.4413, 3.6699],
+       device='cuda:2'), covar=tensor([0.0522, 0.2727, 0.2770, 0.1901, 0.0691, 0.2350, 0.1261, 0.0239],
+       device='cuda:2'), in_proj_covar=tensor([0.0413, 0.0367, 0.0388, 0.0349, 0.0373, 0.0351, 0.0385, 0.0405],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:39:15,645 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=161693.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:39:16,431 INFO [train.py:903] (2/4) Epoch 24, batch 4650, loss[loss=0.179, simple_loss=0.2586, pruned_loss=0.04975, over 19787.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2869, pruned_loss=0.06286, over 3808058.12 frames. ], batch size: 49, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:39:22,562 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=161698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:39:29,473 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6331, 1.2342, 1.3020, 1.5025, 1.1296, 1.4333, 1.2998, 1.4955],
+       device='cuda:2'), covar=tensor([0.1270, 0.1276, 0.1657, 0.1079, 0.1390, 0.0637, 0.1579, 0.0855],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0358, 0.0313, 0.0257, 0.0307, 0.0255, 0.0316, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:39:32,905 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0519, 1.8754, 1.9849, 2.5363, 2.0818, 2.2199, 2.2088, 2.1280],
+       device='cuda:2'), covar=tensor([0.0710, 0.0868, 0.0783, 0.0647, 0.0895, 0.0683, 0.0802, 0.0620],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0221, 0.0226, 0.0238, 0.0223, 0.0211, 0.0188, 0.0202],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-03 02:39:33,561 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-03 02:39:33,927 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=161708.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:39:44,908 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-03 02:39:53,578 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=161723.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:40:19,299 INFO [train.py:903] (2/4) Epoch 24, batch 4700, loss[loss=0.239, simple_loss=0.3203, pruned_loss=0.07891, over 18610.00 frames. ], tot_loss[loss=0.2058, simple_loss=0.2866, pruned_loss=0.06253, over 3792890.89 frames. ], batch size: 74, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:40:26,427 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.995e+02 5.147e+02 6.134e+02 7.606e+02 1.537e+03, threshold=1.227e+03, percent-clipped=3.0
+2023-04-03 02:40:39,902 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-03 02:40:43,374 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=161763.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:41:20,594 INFO [train.py:903] (2/4) Epoch 24, batch 4750, loss[loss=0.2013, simple_loss=0.2892, pruned_loss=0.05671, over 19697.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.287, pruned_loss=0.06292, over 3798375.01 frames. ], batch size: 59, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:41:56,371 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0941, 5.1317, 5.9484, 5.9476, 1.9720, 5.5939, 4.7083, 5.6039],
+       device='cuda:2'), covar=tensor([0.1751, 0.0816, 0.0567, 0.0623, 0.6139, 0.0995, 0.0625, 0.1134],
+       device='cuda:2'), in_proj_covar=tensor([0.0792, 0.0757, 0.0960, 0.0842, 0.0844, 0.0729, 0.0576, 0.0892],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 02:41:57,360 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=161822.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:42:09,935 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=161833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:42:23,972 INFO [train.py:903] (2/4) Epoch 24, batch 4800, loss[loss=0.2406, simple_loss=0.3203, pruned_loss=0.08042, over 19402.00 frames. ], tot_loss[loss=0.2069, simple_loss=0.2877, pruned_loss=0.06311, over 3810264.60 frames. ], batch size: 70, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:42:31,545 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.081e+02 5.225e+02 6.101e+02 7.305e+02 1.695e+03, threshold=1.220e+03, percent-clipped=2.0
+2023-04-03 02:43:04,826 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=161878.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:43:25,947 INFO [train.py:903] (2/4) Epoch 24, batch 4850, loss[loss=0.1799, simple_loss=0.269, pruned_loss=0.04537, over 19759.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2867, pruned_loss=0.06273, over 3810472.16 frames. ], batch size: 54, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:43:50,707 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-03 02:44:11,998 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-03 02:44:16,557 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-03 02:44:17,697 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-03 02:44:19,156 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=161937.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:44:24,034 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.79 vs. limit=2.0
+2023-04-03 02:44:27,636 INFO [train.py:903] (2/4) Epoch 24, batch 4900, loss[loss=0.1781, simple_loss=0.2619, pruned_loss=0.04713, over 19714.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2863, pruned_loss=0.06224, over 3811677.18 frames. ], batch size: 51, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:44:27,660 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-03 02:44:33,871 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=161949.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:44:34,701 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.672e+02 5.435e+02 6.496e+02 8.047e+02 2.666e+03, threshold=1.299e+03, percent-clipped=6.0
+2023-04-03 02:44:47,020 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-03 02:44:53,298 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=161964.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:44:55,532 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3166, 1.4825, 1.8363, 1.4321, 2.7186, 3.5184, 3.2951, 3.6962],
+       device='cuda:2'), covar=tensor([0.1580, 0.3604, 0.3240, 0.2505, 0.0687, 0.0276, 0.0201, 0.0309],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0326, 0.0357, 0.0265, 0.0246, 0.0191, 0.0218, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 02:45:05,670 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=161974.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:45:12,702 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
+2023-04-03 02:45:23,784 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=161989.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:45:28,867 INFO [train.py:903] (2/4) Epoch 24, batch 4950, loss[loss=0.2041, simple_loss=0.2882, pruned_loss=0.06003, over 19581.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.2869, pruned_loss=0.06245, over 3812929.29 frames. ], batch size: 61, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:45:44,734 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8789, 1.6073, 1.4916, 1.8220, 1.5684, 1.5778, 1.4514, 1.7278],
+       device='cuda:2'), covar=tensor([0.1075, 0.1246, 0.1576, 0.1121, 0.1310, 0.0607, 0.1517, 0.0790],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0356, 0.0311, 0.0255, 0.0304, 0.0253, 0.0314, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:45:47,843 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-03 02:46:12,997 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-03 02:46:33,466 INFO [train.py:903] (2/4) Epoch 24, batch 5000, loss[loss=0.2084, simple_loss=0.2946, pruned_loss=0.06112, over 19591.00 frames. ], tot_loss[loss=0.206, simple_loss=0.2873, pruned_loss=0.06235, over 3823456.38 frames. ], batch size: 52, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:46:41,315 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.890e+02 4.589e+02 5.769e+02 7.322e+02 1.477e+03, threshold=1.154e+03, percent-clipped=3.0
+2023-04-03 02:46:44,811 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-03 02:46:56,725 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-03 02:47:35,231 INFO [train.py:903] (2/4) Epoch 24, batch 5050, loss[loss=0.2045, simple_loss=0.2918, pruned_loss=0.05861, over 19722.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2862, pruned_loss=0.06183, over 3837200.52 frames. ], batch size: 63, lr: 3.41e-03, grad_scale: 8.0
+2023-04-03 02:47:36,683 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=162095.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:48:14,960 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-03 02:48:25,512 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=162134.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:48:37,731 INFO [train.py:903] (2/4) Epoch 24, batch 5100, loss[loss=0.226, simple_loss=0.3194, pruned_loss=0.06634, over 19769.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2866, pruned_loss=0.06219, over 3826786.07 frames. ], batch size: 63, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:48:44,637 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.860e+02 4.540e+02 5.777e+02 7.463e+02 1.637e+03, threshold=1.155e+03, percent-clipped=6.0
+2023-04-03 02:48:51,591 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-03 02:48:55,184 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-03 02:48:55,603 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=162159.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:48:58,701 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-03 02:49:18,978 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=162177.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:49:39,643 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=162193.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:49:40,375 INFO [train.py:903] (2/4) Epoch 24, batch 5150, loss[loss=0.1858, simple_loss=0.2595, pruned_loss=0.05608, over 18975.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2864, pruned_loss=0.06221, over 3812334.53 frames. ], batch size: 42, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:49:57,175 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-03 02:50:11,357 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=162218.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:50:31,594 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 02:50:43,109 INFO [train.py:903] (2/4) Epoch 24, batch 5200, loss[loss=0.1939, simple_loss=0.2897, pruned_loss=0.04902, over 19760.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2858, pruned_loss=0.06163, over 3819292.70 frames. ], batch size: 63, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:50:50,170 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=162249.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:50:51,041 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.192e+02 4.774e+02 5.644e+02 7.681e+02 1.514e+03, threshold=1.129e+03, percent-clipped=4.0
+2023-04-03 02:50:59,696 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-03 02:51:44,096 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-03 02:51:44,390 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=162292.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:51:46,282 INFO [train.py:903] (2/4) Epoch 24, batch 5250, loss[loss=0.2215, simple_loss=0.3073, pruned_loss=0.06782, over 19653.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2845, pruned_loss=0.06128, over 3815113.98 frames. ], batch size: 55, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:52:50,081 INFO [train.py:903] (2/4) Epoch 24, batch 5300, loss[loss=0.2387, simple_loss=0.3204, pruned_loss=0.07855, over 18752.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2842, pruned_loss=0.06109, over 3829799.15 frames. ], batch size: 74, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:52:57,096 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.926e+02 4.862e+02 5.825e+02 7.901e+02 2.284e+03, threshold=1.165e+03, percent-clipped=8.0
+2023-04-03 02:53:08,423 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-03 02:53:09,853 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3757, 3.9608, 2.6396, 3.5289, 0.7485, 3.9521, 3.8191, 3.8767],
+       device='cuda:2'), covar=tensor([0.0722, 0.1085, 0.1994, 0.0911, 0.4226, 0.0764, 0.0969, 0.1223],
+       device='cuda:2'), in_proj_covar=tensor([0.0517, 0.0422, 0.0507, 0.0355, 0.0406, 0.0446, 0.0440, 0.0472],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 02:53:51,567 INFO [train.py:903] (2/4) Epoch 24, batch 5350, loss[loss=0.1769, simple_loss=0.2513, pruned_loss=0.05128, over 19023.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2842, pruned_loss=0.06114, over 3834534.93 frames. ], batch size: 42, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:54:28,322 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-03 02:54:39,209 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0686, 0.9888, 1.0009, 1.1612, 0.9211, 1.1439, 1.0816, 1.0590],
+       device='cuda:2'), covar=tensor([0.0734, 0.0841, 0.0898, 0.0518, 0.0751, 0.0678, 0.0705, 0.0631],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0228, 0.0240, 0.0225, 0.0212, 0.0189, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 02:54:48,009 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=162439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:54:54,723 INFO [train.py:903] (2/4) Epoch 24, batch 5400, loss[loss=0.2033, simple_loss=0.2861, pruned_loss=0.06025, over 19594.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.284, pruned_loss=0.06145, over 3834786.60 frames. ], batch size: 52, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:55:02,635 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.752e+02 4.703e+02 6.237e+02 7.666e+02 1.372e+03, threshold=1.247e+03, percent-clipped=3.0
+2023-04-03 02:55:40,747 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.78 vs. limit=5.0
+2023-04-03 02:55:51,453 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3333, 1.3468, 1.8962, 1.3418, 2.8502, 3.8108, 3.5825, 4.0609],
+       device='cuda:2'), covar=tensor([0.1567, 0.3729, 0.3125, 0.2451, 0.0550, 0.0191, 0.0195, 0.0253],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0325, 0.0356, 0.0265, 0.0244, 0.0190, 0.0216, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 02:55:56,870 INFO [train.py:903] (2/4) Epoch 24, batch 5450, loss[loss=0.2275, simple_loss=0.3046, pruned_loss=0.07523, over 18491.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2837, pruned_loss=0.06127, over 3844945.11 frames. ], batch size: 84, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:56:41,313 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=162529.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:57:00,252 INFO [train.py:903] (2/4) Epoch 24, batch 5500, loss[loss=0.1978, simple_loss=0.2857, pruned_loss=0.05498, over 19771.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2845, pruned_loss=0.06131, over 3854160.82 frames. ], batch size: 56, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:57:05,472 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=162548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:57:07,334 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.996e+02 5.077e+02 6.464e+02 7.861e+02 1.317e+03, threshold=1.293e+03, percent-clipped=1.0
+2023-04-03 02:57:12,082 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=162554.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:57:25,042 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-03 02:57:36,151 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=162573.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:58:01,106 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=162593.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 02:58:02,007 INFO [train.py:903] (2/4) Epoch 24, batch 5550, loss[loss=0.2225, simple_loss=0.3046, pruned_loss=0.07025, over 19726.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2847, pruned_loss=0.06134, over 3856041.11 frames. ], batch size: 51, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 02:58:08,788 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-03 02:58:59,597 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-03 02:59:02,960 INFO [train.py:903] (2/4) Epoch 24, batch 5600, loss[loss=0.2039, simple_loss=0.2829, pruned_loss=0.06246, over 19659.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2846, pruned_loss=0.06157, over 3848048.44 frames. ], batch size: 53, lr: 3.40e-03, grad_scale: 16.0
+2023-04-03 02:59:12,273 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.260e+02 5.034e+02 5.949e+02 8.933e+02 2.100e+03, threshold=1.190e+03, percent-clipped=10.0
+2023-04-03 02:59:43,936 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7447, 2.6755, 2.3943, 2.7566, 2.5053, 2.3743, 2.2905, 2.7732],
+       device='cuda:2'), covar=tensor([0.1035, 0.1524, 0.1464, 0.1165, 0.1483, 0.0534, 0.1448, 0.0648],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0359, 0.0313, 0.0257, 0.0305, 0.0255, 0.0316, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:00:07,504 INFO [train.py:903] (2/4) Epoch 24, batch 5650, loss[loss=0.1955, simple_loss=0.2695, pruned_loss=0.06074, over 19353.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2831, pruned_loss=0.06129, over 3855778.91 frames. ], batch size: 47, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 03:00:24,978 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=162708.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:00:41,598 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.47 vs. limit=2.0
+2023-04-03 03:00:55,010 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-03 03:01:09,549 INFO [train.py:903] (2/4) Epoch 24, batch 5700, loss[loss=0.2223, simple_loss=0.3038, pruned_loss=0.07042, over 19665.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2833, pruned_loss=0.06157, over 3854246.13 frames. ], batch size: 60, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 03:01:17,488 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.412e+02 4.704e+02 5.740e+02 7.100e+02 1.656e+03, threshold=1.148e+03, percent-clipped=4.0
+2023-04-03 03:02:11,499 INFO [train.py:903] (2/4) Epoch 24, batch 5750, loss[loss=0.224, simple_loss=0.3, pruned_loss=0.074, over 17319.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.283, pruned_loss=0.06142, over 3844684.36 frames. ], batch size: 101, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 03:02:13,876 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-03 03:02:22,213 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-03 03:02:28,834 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-03 03:02:31,423 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=162810.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:03:01,631 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
+2023-04-03 03:03:03,519 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=162835.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:03:04,679 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7813, 1.1862, 1.4259, 1.2252, 2.4141, 1.0899, 2.0885, 2.7127],
+       device='cuda:2'), covar=tensor([0.0566, 0.2591, 0.2463, 0.1776, 0.0735, 0.2044, 0.1046, 0.0328],
+       device='cuda:2'), in_proj_covar=tensor([0.0415, 0.0369, 0.0390, 0.0350, 0.0373, 0.0354, 0.0387, 0.0407],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:03:13,229 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2651, 1.2695, 1.4140, 1.4093, 1.6512, 1.6956, 1.6621, 0.6071],
+       device='cuda:2'), covar=tensor([0.2639, 0.4420, 0.2872, 0.2163, 0.1765, 0.2514, 0.1490, 0.5301],
+       device='cuda:2'), in_proj_covar=tensor([0.0545, 0.0658, 0.0734, 0.0498, 0.0630, 0.0545, 0.0670, 0.0564],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 03:03:13,911 INFO [train.py:903] (2/4) Epoch 24, batch 5800, loss[loss=0.2687, simple_loss=0.3425, pruned_loss=0.09741, over 18093.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2837, pruned_loss=0.06153, over 3844955.07 frames. ], batch size: 83, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 03:03:15,386 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=162845.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:03:22,909 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.123e+02 4.857e+02 6.549e+02 8.249e+02 1.553e+03, threshold=1.310e+03, percent-clipped=3.0
+2023-04-03 03:03:51,970 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=162873.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:04:16,915 INFO [train.py:903] (2/4) Epoch 24, batch 5850, loss[loss=0.2039, simple_loss=0.2933, pruned_loss=0.05727, over 19329.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2858, pruned_loss=0.06244, over 3831315.22 frames. ], batch size: 66, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 03:04:49,657 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6161, 4.2256, 2.6719, 3.7110, 0.9911, 4.1636, 4.0406, 4.1206],
+       device='cuda:2'), covar=tensor([0.0601, 0.0937, 0.1976, 0.0880, 0.3896, 0.0750, 0.0938, 0.1102],
+       device='cuda:2'), in_proj_covar=tensor([0.0510, 0.0417, 0.0501, 0.0351, 0.0401, 0.0440, 0.0434, 0.0466],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:05:20,439 INFO [train.py:903] (2/4) Epoch 24, batch 5900, loss[loss=0.1872, simple_loss=0.2737, pruned_loss=0.05034, over 19786.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2855, pruned_loss=0.06208, over 3846759.25 frames. ], batch size: 56, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 03:05:26,353 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-03 03:05:28,684 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.343e+02 4.550e+02 5.410e+02 6.827e+02 1.573e+03, threshold=1.082e+03, percent-clipped=1.0
+2023-04-03 03:05:43,760 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=162964.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:05:44,439 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-03 03:05:44,635 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3616, 3.9676, 2.5669, 3.5321, 0.9239, 3.9131, 3.7779, 3.8441],
+       device='cuda:2'), covar=tensor([0.0714, 0.0990, 0.2068, 0.0876, 0.4038, 0.0773, 0.1005, 0.1249],
+       device='cuda:2'), in_proj_covar=tensor([0.0512, 0.0419, 0.0503, 0.0352, 0.0402, 0.0442, 0.0436, 0.0468],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:06:15,287 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=162988.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:06:16,471 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=162989.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:06:18,802 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3216, 2.2137, 2.0136, 1.9457, 1.8110, 1.8905, 0.5936, 1.3323],
+       device='cuda:2'), covar=tensor([0.0707, 0.0605, 0.0511, 0.0857, 0.1101, 0.0962, 0.1420, 0.1062],
+       device='cuda:2'), in_proj_covar=tensor([0.0361, 0.0360, 0.0363, 0.0389, 0.0467, 0.0396, 0.0342, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 03:06:21,817 INFO [train.py:903] (2/4) Epoch 24, batch 5950, loss[loss=0.2306, simple_loss=0.3076, pruned_loss=0.07679, over 19653.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2853, pruned_loss=0.06224, over 3829606.56 frames. ], batch size: 55, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 03:07:22,799 INFO [train.py:903] (2/4) Epoch 24, batch 6000, loss[loss=0.2237, simple_loss=0.3107, pruned_loss=0.0684, over 19764.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2848, pruned_loss=0.06206, over 3820182.36 frames. ], batch size: 63, lr: 3.40e-03, grad_scale: 8.0
+2023-04-03 03:07:22,799 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 03:07:35,188 INFO [train.py:937] (2/4) Epoch 24, validation: loss=0.1683, simple_loss=0.2679, pruned_loss=0.03436, over 944034.00 frames. 
+2023-04-03 03:07:35,189 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 03:07:43,475 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.958e+02 5.276e+02 6.488e+02 8.005e+02 1.643e+03, threshold=1.298e+03, percent-clipped=7.0
+2023-04-03 03:08:35,915 INFO [train.py:903] (2/4) Epoch 24, batch 6050, loss[loss=0.1819, simple_loss=0.2611, pruned_loss=0.05133, over 19598.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2831, pruned_loss=0.06156, over 3823882.24 frames. ], batch size: 50, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:08:53,248 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=163108.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:09:37,877 INFO [train.py:903] (2/4) Epoch 24, batch 6100, loss[loss=0.2107, simple_loss=0.2914, pruned_loss=0.06504, over 19355.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2834, pruned_loss=0.06147, over 3830236.39 frames. ], batch size: 66, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:09:42,780 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4898, 1.5071, 1.7660, 1.6703, 2.6161, 2.2681, 2.7158, 1.2717],
+       device='cuda:2'), covar=tensor([0.2486, 0.4460, 0.2728, 0.1935, 0.1513, 0.2186, 0.1479, 0.4382],
+       device='cuda:2'), in_proj_covar=tensor([0.0543, 0.0656, 0.0731, 0.0495, 0.0626, 0.0541, 0.0666, 0.0559],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 03:09:45,775 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.855e+02 5.048e+02 5.892e+02 7.607e+02 1.565e+03, threshold=1.178e+03, percent-clipped=5.0
+2023-04-03 03:09:52,218 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.81 vs. limit=5.0
+2023-04-03 03:10:34,793 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=163189.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:10:40,155 INFO [train.py:903] (2/4) Epoch 24, batch 6150, loss[loss=0.219, simple_loss=0.2946, pruned_loss=0.07172, over 19859.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2834, pruned_loss=0.06152, over 3815149.25 frames. ], batch size: 52, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:10:52,479 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8521, 1.6444, 1.4912, 1.7789, 1.4871, 1.5822, 1.4860, 1.7474],
+       device='cuda:2'), covar=tensor([0.1087, 0.1289, 0.1523, 0.1032, 0.1289, 0.0585, 0.1508, 0.0746],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0356, 0.0312, 0.0254, 0.0302, 0.0254, 0.0314, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:11:10,647 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-03 03:11:28,565 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.45 vs. limit=5.0
+2023-04-03 03:11:29,654 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.40 vs. limit=5.0
+2023-04-03 03:11:43,668 INFO [train.py:903] (2/4) Epoch 24, batch 6200, loss[loss=0.2038, simple_loss=0.2893, pruned_loss=0.05912, over 19167.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2826, pruned_loss=0.06095, over 3816477.41 frames. ], batch size: 69, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:11:44,110 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=163244.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:11:51,417 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.768e+02 4.538e+02 5.825e+02 7.342e+02 1.276e+03, threshold=1.165e+03, percent-clipped=3.0
+2023-04-03 03:12:00,549 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=163258.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:12:04,000 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1061, 1.9120, 1.8430, 2.1554, 1.8985, 1.8447, 1.6739, 2.0631],
+       device='cuda:2'), covar=tensor([0.1047, 0.1481, 0.1400, 0.0997, 0.1345, 0.0539, 0.1545, 0.0701],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0357, 0.0312, 0.0254, 0.0303, 0.0254, 0.0315, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:12:14,189 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=163269.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:12:38,708 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9905, 2.0725, 2.3208, 2.6198, 2.0015, 2.5305, 2.3313, 2.1340],
+       device='cuda:2'), covar=tensor([0.4284, 0.3872, 0.1914, 0.2503, 0.4062, 0.2160, 0.4921, 0.3460],
+       device='cuda:2'), in_proj_covar=tensor([0.0912, 0.0985, 0.0725, 0.0937, 0.0893, 0.0826, 0.0849, 0.0791],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 03:12:43,994 INFO [train.py:903] (2/4) Epoch 24, batch 6250, loss[loss=0.2146, simple_loss=0.2973, pruned_loss=0.06591, over 18844.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2831, pruned_loss=0.06136, over 3814989.77 frames. ], batch size: 74, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:12:56,428 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=163304.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:13:11,308 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-03 03:13:45,525 INFO [train.py:903] (2/4) Epoch 24, batch 6300, loss[loss=0.1718, simple_loss=0.2559, pruned_loss=0.04384, over 19482.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2837, pruned_loss=0.06192, over 3815095.48 frames. ], batch size: 49, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:13:54,810 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.313e+02 5.008e+02 6.887e+02 8.761e+02 2.377e+03, threshold=1.377e+03, percent-clipped=3.0
+2023-04-03 03:14:40,289 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.31 vs. limit=5.0
+2023-04-03 03:14:48,467 INFO [train.py:903] (2/4) Epoch 24, batch 6350, loss[loss=0.2159, simple_loss=0.2997, pruned_loss=0.06602, over 19539.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2833, pruned_loss=0.06175, over 3810975.98 frames. ], batch size: 54, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:15:30,625 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1229, 1.8694, 1.9237, 2.8395, 1.9966, 2.4599, 2.5108, 2.1528],
+       device='cuda:2'), covar=tensor([0.0843, 0.0915, 0.1009, 0.0733, 0.0881, 0.0698, 0.0856, 0.0649],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0228, 0.0240, 0.0226, 0.0214, 0.0190, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 03:15:50,638 INFO [train.py:903] (2/4) Epoch 24, batch 6400, loss[loss=0.2103, simple_loss=0.2956, pruned_loss=0.0625, over 17416.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2847, pruned_loss=0.06193, over 3812056.76 frames. ], batch size: 101, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:15:59,006 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.312e+02 4.869e+02 5.854e+02 7.378e+02 1.563e+03, threshold=1.171e+03, percent-clipped=2.0
+2023-04-03 03:16:00,357 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=163452.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:16:01,974 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.73 vs. limit=2.0
+2023-04-03 03:16:52,288 INFO [train.py:903] (2/4) Epoch 24, batch 6450, loss[loss=0.2019, simple_loss=0.2807, pruned_loss=0.06156, over 19686.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.284, pruned_loss=0.06129, over 3821755.75 frames. ], batch size: 53, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:17:01,267 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.91 vs. limit=2.0
+2023-04-03 03:17:26,447 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4062, 4.0396, 2.6042, 3.6113, 0.7773, 3.9996, 3.9082, 3.9534],
+       device='cuda:2'), covar=tensor([0.0693, 0.1042, 0.1935, 0.0805, 0.4189, 0.0656, 0.0842, 0.1246],
+       device='cuda:2'), in_proj_covar=tensor([0.0512, 0.0418, 0.0502, 0.0352, 0.0402, 0.0443, 0.0436, 0.0467],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:17:34,426 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-03 03:17:53,149 INFO [train.py:903] (2/4) Epoch 24, batch 6500, loss[loss=0.1831, simple_loss=0.2514, pruned_loss=0.05736, over 14779.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2847, pruned_loss=0.06181, over 3813907.84 frames. ], batch size: 32, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:17:56,713 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-03 03:18:01,366 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.063e+02 4.704e+02 6.024e+02 8.376e+02 1.457e+03, threshold=1.205e+03, percent-clipped=5.0
+2023-04-03 03:18:14,495 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=163560.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:18:22,409 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=163567.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:18:25,181 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=5.01 vs. limit=5.0
+2023-04-03 03:18:44,325 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=163585.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:18:55,198 INFO [train.py:903] (2/4) Epoch 24, batch 6550, loss[loss=0.2105, simple_loss=0.2949, pruned_loss=0.06305, over 19360.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2849, pruned_loss=0.06196, over 3797516.15 frames. ], batch size: 66, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:19:05,574 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=163602.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:19:25,613 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5721, 1.3471, 1.4389, 1.2066, 2.2140, 1.0042, 2.0360, 2.5346],
+       device='cuda:2'), covar=tensor([0.0741, 0.2622, 0.2875, 0.1816, 0.0913, 0.2202, 0.1149, 0.0440],
+       device='cuda:2'), in_proj_covar=tensor([0.0414, 0.0369, 0.0391, 0.0349, 0.0374, 0.0352, 0.0386, 0.0407],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:19:57,506 INFO [train.py:903] (2/4) Epoch 24, batch 6600, loss[loss=0.2018, simple_loss=0.293, pruned_loss=0.05535, over 19699.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2852, pruned_loss=0.06176, over 3789185.05 frames. ], batch size: 59, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:20:05,518 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.150e+02 5.011e+02 6.018e+02 7.633e+02 1.393e+03, threshold=1.204e+03, percent-clipped=8.0
+2023-04-03 03:20:25,830 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6322, 1.4601, 1.2525, 1.5720, 1.3489, 1.3152, 1.2960, 1.4802],
+       device='cuda:2'), covar=tensor([0.1299, 0.1558, 0.1990, 0.1357, 0.1627, 0.1029, 0.2031, 0.1065],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0360, 0.0315, 0.0256, 0.0306, 0.0256, 0.0316, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:20:57,662 INFO [train.py:903] (2/4) Epoch 24, batch 6650, loss[loss=0.1903, simple_loss=0.2776, pruned_loss=0.05152, over 18742.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.287, pruned_loss=0.06283, over 3799553.42 frames. ], batch size: 74, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:21:12,738 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6445, 1.5425, 1.5356, 2.2944, 1.6433, 2.0589, 1.9578, 1.8012],
+       device='cuda:2'), covar=tensor([0.0870, 0.0984, 0.1053, 0.0732, 0.0906, 0.0752, 0.0891, 0.0689],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0228, 0.0240, 0.0226, 0.0213, 0.0189, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 03:21:25,783 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=163717.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:21:58,173 INFO [train.py:903] (2/4) Epoch 24, batch 6700, loss[loss=0.1735, simple_loss=0.2519, pruned_loss=0.04758, over 19397.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2865, pruned_loss=0.06283, over 3802117.78 frames. ], batch size: 48, lr: 3.39e-03, grad_scale: 4.0
+2023-04-03 03:22:08,770 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.807e+02 4.744e+02 6.010e+02 8.153e+02 1.593e+03, threshold=1.202e+03, percent-clipped=6.0
+2023-04-03 03:22:24,860 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5344, 1.5938, 1.8363, 1.7707, 2.7826, 2.3266, 2.9541, 1.2923],
+       device='cuda:2'), covar=tensor([0.2545, 0.4460, 0.2837, 0.1954, 0.1513, 0.2213, 0.1407, 0.4430],
+       device='cuda:2'), in_proj_covar=tensor([0.0542, 0.0658, 0.0734, 0.0495, 0.0627, 0.0541, 0.0667, 0.0558],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 03:22:57,595 INFO [train.py:903] (2/4) Epoch 24, batch 6750, loss[loss=0.1606, simple_loss=0.2375, pruned_loss=0.04182, over 19016.00 frames. ], tot_loss[loss=0.2058, simple_loss=0.286, pruned_loss=0.06276, over 3796681.74 frames. ], batch size: 42, lr: 3.39e-03, grad_scale: 4.0
+2023-04-03 03:23:30,574 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=163823.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:23:53,913 INFO [train.py:903] (2/4) Epoch 24, batch 6800, loss[loss=0.2067, simple_loss=0.2817, pruned_loss=0.06587, over 19666.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.2869, pruned_loss=0.06302, over 3808548.47 frames. ], batch size: 53, lr: 3.39e-03, grad_scale: 8.0
+2023-04-03 03:23:58,831 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=163848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:24:03,016 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.305e+02 4.890e+02 5.869e+02 7.347e+02 2.478e+03, threshold=1.174e+03, percent-clipped=2.0
+2023-04-03 03:24:39,583 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-03 03:24:40,027 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-03 03:24:42,798 INFO [train.py:903] (2/4) Epoch 25, batch 0, loss[loss=0.1524, simple_loss=0.2331, pruned_loss=0.03585, over 19766.00 frames. ], tot_loss[loss=0.1524, simple_loss=0.2331, pruned_loss=0.03585, over 19766.00 frames. ], batch size: 47, lr: 3.32e-03, grad_scale: 8.0
+2023-04-03 03:24:42,798 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 03:24:54,396 INFO [train.py:937] (2/4) Epoch 25, validation: loss=0.1672, simple_loss=0.2675, pruned_loss=0.03346, over 944034.00 frames. 
+2023-04-03 03:24:54,397 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 03:25:06,953 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-03 03:25:12,144 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4224, 1.4442, 1.5863, 1.6365, 2.2650, 1.9956, 2.2193, 0.9577],
+       device='cuda:2'), covar=tensor([0.2712, 0.4725, 0.2989, 0.2190, 0.1642, 0.2525, 0.1702, 0.4926],
+       device='cuda:2'), in_proj_covar=tensor([0.0546, 0.0662, 0.0739, 0.0498, 0.0632, 0.0545, 0.0673, 0.0564],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 03:25:57,057 INFO [train.py:903] (2/4) Epoch 25, batch 50, loss[loss=0.2208, simple_loss=0.3034, pruned_loss=0.0691, over 19342.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2852, pruned_loss=0.06157, over 871308.23 frames. ], batch size: 66, lr: 3.32e-03, grad_scale: 8.0
+2023-04-03 03:26:35,499 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.099e+02 4.575e+02 5.589e+02 7.102e+02 2.434e+03, threshold=1.118e+03, percent-clipped=5.0
+2023-04-03 03:26:36,735 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-03 03:27:00,584 INFO [train.py:903] (2/4) Epoch 25, batch 100, loss[loss=0.2138, simple_loss=0.2967, pruned_loss=0.06547, over 13136.00 frames. ], tot_loss[loss=0.2041, simple_loss=0.285, pruned_loss=0.06162, over 1535276.02 frames. ], batch size: 136, lr: 3.32e-03, grad_scale: 8.0
+2023-04-03 03:27:03,101 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=163973.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:27:15,428 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-03 03:27:34,442 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=163998.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:27:42,634 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.12 vs. limit=5.0
+2023-04-03 03:28:05,197 INFO [train.py:903] (2/4) Epoch 25, batch 150, loss[loss=0.1576, simple_loss=0.2415, pruned_loss=0.03682, over 19593.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2841, pruned_loss=0.06145, over 2045368.87 frames. ], batch size: 50, lr: 3.32e-03, grad_scale: 8.0
+2023-04-03 03:28:42,974 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.518e+02 5.520e+02 6.265e+02 7.455e+02 1.438e+03, threshold=1.253e+03, percent-clipped=2.0
+2023-04-03 03:29:06,846 INFO [train.py:903] (2/4) Epoch 25, batch 200, loss[loss=0.1877, simple_loss=0.2749, pruned_loss=0.05024, over 19693.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2856, pruned_loss=0.06209, over 2442506.50 frames. ], batch size: 59, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:29:09,369 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-03 03:29:53,482 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=164108.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:30:10,581 INFO [train.py:903] (2/4) Epoch 25, batch 250, loss[loss=0.1905, simple_loss=0.2689, pruned_loss=0.05603, over 19374.00 frames. ], tot_loss[loss=0.206, simple_loss=0.2862, pruned_loss=0.06292, over 2755935.77 frames. ], batch size: 47, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:30:10,857 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5787, 1.2938, 1.5486, 1.5109, 3.1120, 1.1909, 2.4601, 3.6029],
+       device='cuda:2'), covar=tensor([0.0623, 0.3187, 0.3029, 0.2021, 0.0852, 0.2625, 0.1400, 0.0301],
+       device='cuda:2'), in_proj_covar=tensor([0.0414, 0.0369, 0.0391, 0.0348, 0.0374, 0.0352, 0.0387, 0.0406],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:30:32,840 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1279, 2.0001, 1.9080, 1.7477, 1.5844, 1.7168, 0.5817, 1.0202],
+       device='cuda:2'), covar=tensor([0.0673, 0.0641, 0.0488, 0.0820, 0.1227, 0.0963, 0.1377, 0.1132],
+       device='cuda:2'), in_proj_covar=tensor([0.0364, 0.0362, 0.0366, 0.0388, 0.0466, 0.0397, 0.0343, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 03:30:48,737 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.799e+02 4.875e+02 6.095e+02 7.386e+02 2.001e+03, threshold=1.219e+03, percent-clipped=3.0
+2023-04-03 03:31:13,870 INFO [train.py:903] (2/4) Epoch 25, batch 300, loss[loss=0.1858, simple_loss=0.2724, pruned_loss=0.04957, over 19762.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2854, pruned_loss=0.06273, over 2998219.80 frames. ], batch size: 54, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:31:16,557 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=164173.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:32:18,088 INFO [train.py:903] (2/4) Epoch 25, batch 350, loss[loss=0.19, simple_loss=0.2761, pruned_loss=0.05192, over 19579.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2844, pruned_loss=0.06255, over 3184428.48 frames. ], batch size: 52, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:32:25,190 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 03:32:42,696 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3762, 1.3288, 1.7931, 1.4232, 2.6504, 3.7680, 3.4341, 3.9211],
+       device='cuda:2'), covar=tensor([0.1573, 0.3913, 0.3433, 0.2508, 0.0722, 0.0197, 0.0218, 0.0257],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0328, 0.0358, 0.0266, 0.0247, 0.0190, 0.0217, 0.0265],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 03:32:54,600 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-03 03:32:54,991 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.912e+02 5.440e+02 6.552e+02 9.332e+02 1.789e+03, threshold=1.310e+03, percent-clipped=12.0
+2023-04-03 03:33:20,726 INFO [train.py:903] (2/4) Epoch 25, batch 400, loss[loss=0.1926, simple_loss=0.2742, pruned_loss=0.05552, over 19679.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2846, pruned_loss=0.06197, over 3337055.71 frames. ], batch size: 53, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:34:24,823 INFO [train.py:903] (2/4) Epoch 25, batch 450, loss[loss=0.2339, simple_loss=0.3156, pruned_loss=0.07607, over 19293.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2842, pruned_loss=0.06166, over 3442833.55 frames. ], batch size: 66, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:34:59,270 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-03 03:35:00,465 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-03 03:35:02,826 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.977e+02 4.778e+02 5.577e+02 7.081e+02 1.680e+03, threshold=1.115e+03, percent-clipped=3.0
+2023-04-03 03:35:27,605 INFO [train.py:903] (2/4) Epoch 25, batch 500, loss[loss=0.247, simple_loss=0.3254, pruned_loss=0.08429, over 17222.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2852, pruned_loss=0.06241, over 3506263.30 frames. ], batch size: 101, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:35:35,604 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=164378.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:36:31,236 INFO [train.py:903] (2/4) Epoch 25, batch 550, loss[loss=0.1851, simple_loss=0.2636, pruned_loss=0.05325, over 19860.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2845, pruned_loss=0.06219, over 3584847.82 frames. ], batch size: 52, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:37:09,261 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.449e+02 5.163e+02 6.218e+02 7.641e+02 1.675e+03, threshold=1.244e+03, percent-clipped=5.0
+2023-04-03 03:37:09,455 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=164452.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:37:14,154 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4446, 4.1304, 2.6536, 3.6290, 0.7645, 3.9995, 3.8675, 3.9467],
+       device='cuda:2'), covar=tensor([0.0618, 0.0829, 0.1792, 0.0813, 0.3860, 0.0684, 0.0927, 0.0921],
+       device='cuda:2'), in_proj_covar=tensor([0.0521, 0.0424, 0.0509, 0.0356, 0.0408, 0.0447, 0.0442, 0.0473],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:37:34,077 INFO [train.py:903] (2/4) Epoch 25, batch 600, loss[loss=0.2237, simple_loss=0.3055, pruned_loss=0.07092, over 18708.00 frames. ], tot_loss[loss=0.2052, simple_loss=0.2856, pruned_loss=0.06243, over 3618704.93 frames. ], batch size: 74, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:38:16,672 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-03 03:38:30,625 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=164517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:38:36,206 INFO [train.py:903] (2/4) Epoch 25, batch 650, loss[loss=0.2209, simple_loss=0.3006, pruned_loss=0.07064, over 19616.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2862, pruned_loss=0.06255, over 3670243.63 frames. ], batch size: 57, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:39:15,257 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.327e+02 4.538e+02 5.913e+02 7.820e+02 1.600e+03, threshold=1.183e+03, percent-clipped=2.0
+2023-04-03 03:39:33,648 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=164567.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:39:39,469 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6775, 1.5752, 1.5167, 2.1815, 1.4619, 1.9453, 1.8903, 1.7198],
+       device='cuda:2'), covar=tensor([0.0802, 0.0901, 0.1018, 0.0735, 0.0935, 0.0725, 0.0861, 0.0700],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0221, 0.0226, 0.0237, 0.0225, 0.0211, 0.0188, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-03 03:39:40,280 INFO [train.py:903] (2/4) Epoch 25, batch 700, loss[loss=0.2173, simple_loss=0.302, pruned_loss=0.06628, over 19674.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2859, pruned_loss=0.0625, over 3699105.40 frames. ], batch size: 55, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:39:58,601 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=164586.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:40:11,639 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=164596.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:40:44,578 INFO [train.py:903] (2/4) Epoch 25, batch 750, loss[loss=0.1788, simple_loss=0.2587, pruned_loss=0.04941, over 19849.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2853, pruned_loss=0.06246, over 3731126.06 frames. ], batch size: 52, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:40:57,975 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=164632.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:41:21,486 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.304e+02 5.157e+02 6.753e+02 8.219e+02 1.587e+03, threshold=1.351e+03, percent-clipped=10.0
+2023-04-03 03:41:32,773 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.62 vs. limit=2.0
+2023-04-03 03:41:48,138 INFO [train.py:903] (2/4) Epoch 25, batch 800, loss[loss=0.2113, simple_loss=0.2822, pruned_loss=0.07017, over 19724.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2857, pruned_loss=0.06248, over 3764905.53 frames. ], batch size: 51, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:41:52,851 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=164676.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:42:03,219 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-03 03:42:50,191 INFO [train.py:903] (2/4) Epoch 25, batch 850, loss[loss=0.2556, simple_loss=0.3314, pruned_loss=0.08989, over 19698.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2849, pruned_loss=0.06189, over 3783273.26 frames. ], batch size: 60, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:42:50,361 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=164722.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:43:29,202 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.532e+02 4.928e+02 6.003e+02 7.929e+02 1.446e+03, threshold=1.201e+03, percent-clipped=1.0
+2023-04-03 03:43:43,444 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=164764.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:43:44,371 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-03 03:43:52,639 INFO [train.py:903] (2/4) Epoch 25, batch 900, loss[loss=0.1794, simple_loss=0.2689, pruned_loss=0.04491, over 19682.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2863, pruned_loss=0.06235, over 3793966.97 frames. ], batch size: 53, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:44:29,969 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
+2023-04-03 03:44:38,706 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0438, 2.0982, 2.4182, 2.6742, 2.0056, 2.5404, 2.4286, 2.1888],
+       device='cuda:2'), covar=tensor([0.4654, 0.4380, 0.2064, 0.2694, 0.4586, 0.2517, 0.5059, 0.3633],
+       device='cuda:2'), in_proj_covar=tensor([0.0915, 0.0986, 0.0726, 0.0936, 0.0894, 0.0826, 0.0852, 0.0791],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 03:44:56,069 INFO [train.py:903] (2/4) Epoch 25, batch 950, loss[loss=0.2126, simple_loss=0.2848, pruned_loss=0.07014, over 19467.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2868, pruned_loss=0.06282, over 3794326.17 frames. ], batch size: 49, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:44:57,273 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-03 03:44:57,644 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=164823.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:45:15,725 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=164837.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:45:28,770 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=164848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:45:32,822 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.080e+02 4.681e+02 5.489e+02 6.922e+02 1.500e+03, threshold=1.098e+03, percent-clipped=4.0
+2023-04-03 03:45:43,197 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.81 vs. limit=2.0
+2023-04-03 03:46:00,732 INFO [train.py:903] (2/4) Epoch 25, batch 1000, loss[loss=0.1751, simple_loss=0.2572, pruned_loss=0.04644, over 19613.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2859, pruned_loss=0.0623, over 3781373.42 frames. ], batch size: 50, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:46:19,890 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=164888.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:46:53,184 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=164913.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:46:55,216 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-03 03:47:03,440 INFO [train.py:903] (2/4) Epoch 25, batch 1050, loss[loss=0.2286, simple_loss=0.306, pruned_loss=0.07561, over 19573.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2862, pruned_loss=0.06241, over 3785529.98 frames. ], batch size: 61, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:47:13,148 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=164930.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:47:27,171 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=164940.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:47:36,139 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-03 03:47:41,873 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.266e+02 4.678e+02 5.688e+02 6.996e+02 1.189e+03, threshold=1.138e+03, percent-clipped=3.0
+2023-04-03 03:47:45,596 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7346, 1.1873, 1.4302, 1.5588, 3.3076, 1.1980, 2.3562, 3.7975],
+       device='cuda:2'), covar=tensor([0.0537, 0.3023, 0.3078, 0.1945, 0.0756, 0.2616, 0.1451, 0.0226],
+       device='cuda:2'), in_proj_covar=tensor([0.0417, 0.0369, 0.0394, 0.0349, 0.0377, 0.0353, 0.0388, 0.0409],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:48:06,291 INFO [train.py:903] (2/4) Epoch 25, batch 1100, loss[loss=0.2206, simple_loss=0.297, pruned_loss=0.07211, over 19617.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2863, pruned_loss=0.06242, over 3793023.06 frames. ], batch size: 61, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:49:07,184 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=165020.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:49:09,317 INFO [train.py:903] (2/4) Epoch 25, batch 1150, loss[loss=0.207, simple_loss=0.2938, pruned_loss=0.06006, over 19539.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2854, pruned_loss=0.06241, over 3807287.43 frames. ], batch size: 54, lr: 3.31e-03, grad_scale: 8.0
+2023-04-03 03:49:40,414 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=165045.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:49:48,275 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.006e+02 5.101e+02 6.369e+02 8.453e+02 1.568e+03, threshold=1.274e+03, percent-clipped=10.0
+2023-04-03 03:49:52,178 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=165055.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:50:14,723 INFO [train.py:903] (2/4) Epoch 25, batch 1200, loss[loss=0.1951, simple_loss=0.2828, pruned_loss=0.05373, over 19524.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.286, pruned_loss=0.06233, over 3815997.27 frames. ], batch size: 54, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 03:50:41,039 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=165093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:50:46,463 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-03 03:51:01,331 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=165108.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:51:14,654 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=165118.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:51:18,446 INFO [train.py:903] (2/4) Epoch 25, batch 1250, loss[loss=0.2205, simple_loss=0.2915, pruned_loss=0.07475, over 19352.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2852, pruned_loss=0.06207, over 3821542.89 frames. ], batch size: 47, lr: 3.30e-03, grad_scale: 4.0
+2023-04-03 03:51:34,122 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=165135.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:51:41,196 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.83 vs. limit=2.0
+2023-04-03 03:51:43,131 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8065, 4.2945, 4.5000, 4.5176, 1.7554, 4.2561, 3.7062, 4.2182],
+       device='cuda:2'), covar=tensor([0.1634, 0.0849, 0.0609, 0.0638, 0.5954, 0.0981, 0.0674, 0.1123],
+       device='cuda:2'), in_proj_covar=tensor([0.0802, 0.0766, 0.0974, 0.0850, 0.0856, 0.0736, 0.0579, 0.0903],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 03:51:43,151 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=165141.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:51:49,311 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3600, 1.5086, 1.8685, 1.4398, 2.3520, 2.7932, 2.6562, 2.9326],
+       device='cuda:2'), covar=tensor([0.1425, 0.3078, 0.2710, 0.2402, 0.0981, 0.0345, 0.0247, 0.0366],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0329, 0.0359, 0.0267, 0.0248, 0.0191, 0.0218, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 03:51:57,593 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.318e+02 4.844e+02 6.322e+02 8.270e+02 1.695e+03, threshold=1.264e+03, percent-clipped=2.0
+2023-04-03 03:52:21,097 INFO [train.py:903] (2/4) Epoch 25, batch 1300, loss[loss=0.1586, simple_loss=0.2401, pruned_loss=0.0385, over 19789.00 frames. ], tot_loss[loss=0.2056, simple_loss=0.2861, pruned_loss=0.06258, over 3827394.20 frames. ], batch size: 49, lr: 3.30e-03, grad_scale: 4.0
+2023-04-03 03:53:23,838 INFO [train.py:903] (2/4) Epoch 25, batch 1350, loss[loss=0.1969, simple_loss=0.287, pruned_loss=0.05341, over 19663.00 frames. ], tot_loss[loss=0.2058, simple_loss=0.2863, pruned_loss=0.06262, over 3821318.79 frames. ], batch size: 58, lr: 3.30e-03, grad_scale: 4.0
+2023-04-03 03:53:27,635 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=165223.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:54:04,598 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.257e+02 4.919e+02 6.162e+02 7.502e+02 1.875e+03, threshold=1.232e+03, percent-clipped=3.0
+2023-04-03 03:54:29,447 INFO [train.py:903] (2/4) Epoch 25, batch 1400, loss[loss=0.2231, simple_loss=0.3042, pruned_loss=0.07099, over 19672.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2855, pruned_loss=0.06172, over 3836160.11 frames. ], batch size: 58, lr: 3.30e-03, grad_scale: 4.0
+2023-04-03 03:54:50,989 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4358, 1.2065, 1.5670, 1.3546, 3.0470, 1.1485, 2.2542, 3.4037],
+       device='cuda:2'), covar=tensor([0.0562, 0.2951, 0.2778, 0.1982, 0.0694, 0.2480, 0.1360, 0.0285],
+       device='cuda:2'), in_proj_covar=tensor([0.0413, 0.0367, 0.0391, 0.0348, 0.0373, 0.0350, 0.0386, 0.0407],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:54:53,480 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0691, 2.7725, 2.3293, 2.3649, 2.0150, 2.5476, 1.1804, 2.0895],
+       device='cuda:2'), covar=tensor([0.0665, 0.0640, 0.0577, 0.1003, 0.1184, 0.0977, 0.1371, 0.1022],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0359, 0.0363, 0.0388, 0.0465, 0.0394, 0.0341, 0.0347],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 03:55:05,151 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=165301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:55:18,674 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=165311.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:55:19,103 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.85 vs. limit=2.0
+2023-04-03 03:55:32,133 INFO [train.py:903] (2/4) Epoch 25, batch 1450, loss[loss=0.2009, simple_loss=0.2757, pruned_loss=0.06304, over 19757.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2857, pruned_loss=0.06179, over 3835810.49 frames. ], batch size: 47, lr: 3.30e-03, grad_scale: 4.0
+2023-04-03 03:55:33,162 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-03 03:55:37,004 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=165326.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:55:48,862 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=165336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:56:10,661 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.320e+02 4.584e+02 6.100e+02 8.063e+02 1.924e+03, threshold=1.220e+03, percent-clipped=4.0
+2023-04-03 03:56:33,836 INFO [train.py:903] (2/4) Epoch 25, batch 1500, loss[loss=0.235, simple_loss=0.3233, pruned_loss=0.0734, over 18067.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2864, pruned_loss=0.06257, over 3827155.73 frames. ], batch size: 83, lr: 3.30e-03, grad_scale: 4.0
+2023-04-03 03:56:59,416 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=165391.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:57:30,000 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=165416.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:57:36,928 INFO [train.py:903] (2/4) Epoch 25, batch 1550, loss[loss=0.2263, simple_loss=0.3083, pruned_loss=0.0721, over 19737.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2844, pruned_loss=0.06161, over 3822427.65 frames. ], batch size: 63, lr: 3.30e-03, grad_scale: 4.0
+2023-04-03 03:58:06,817 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2016, 1.8135, 1.5305, 1.2722, 1.6251, 1.2880, 1.1800, 1.6544],
+       device='cuda:2'), covar=tensor([0.0784, 0.0944, 0.1118, 0.0908, 0.0647, 0.1299, 0.0652, 0.0480],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0318, 0.0340, 0.0268, 0.0249, 0.0343, 0.0293, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 03:58:17,712 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.229e+02 4.957e+02 6.075e+02 6.924e+02 1.069e+03, threshold=1.215e+03, percent-clipped=0.0
+2023-04-03 03:58:37,746 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-03 03:58:42,890 INFO [train.py:903] (2/4) Epoch 25, batch 1600, loss[loss=0.194, simple_loss=0.2785, pruned_loss=0.05475, over 19772.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2837, pruned_loss=0.06134, over 3811355.55 frames. ], batch size: 56, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 03:58:51,619 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=165479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:58:59,593 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=165485.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:59:06,519 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-03 03:59:21,470 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=165504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 03:59:44,250 INFO [train.py:903] (2/4) Epoch 25, batch 1650, loss[loss=0.216, simple_loss=0.2937, pruned_loss=0.0692, over 19595.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2839, pruned_loss=0.06128, over 3804479.68 frames. ], batch size: 52, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:00:23,738 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.160e+02 4.584e+02 6.289e+02 7.621e+02 1.672e+03, threshold=1.258e+03, percent-clipped=5.0
+2023-04-03 04:00:44,049 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=165569.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:00:47,348 INFO [train.py:903] (2/4) Epoch 25, batch 1700, loss[loss=0.1826, simple_loss=0.2649, pruned_loss=0.05018, over 19846.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.284, pruned_loss=0.06121, over 3818759.06 frames. ], batch size: 52, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:01:22,707 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=165600.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:01:29,480 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-03 04:01:49,445 INFO [train.py:903] (2/4) Epoch 25, batch 1750, loss[loss=0.1915, simple_loss=0.2808, pruned_loss=0.05112, over 19533.00 frames. ], tot_loss[loss=0.2041, simple_loss=0.2847, pruned_loss=0.06174, over 3805311.19 frames. ], batch size: 54, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:01:53,780 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.32 vs. limit=5.0
+2023-04-03 04:02:29,207 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.400e+02 4.689e+02 5.610e+02 7.383e+02 2.270e+03, threshold=1.122e+03, percent-clipped=4.0
+2023-04-03 04:02:53,379 INFO [train.py:903] (2/4) Epoch 25, batch 1800, loss[loss=0.2054, simple_loss=0.2987, pruned_loss=0.05608, over 19527.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2854, pruned_loss=0.06223, over 3803452.69 frames. ], batch size: 56, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:03:51,797 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-03 04:03:56,452 INFO [train.py:903] (2/4) Epoch 25, batch 1850, loss[loss=0.1765, simple_loss=0.2583, pruned_loss=0.04734, over 19669.00 frames. ], tot_loss[loss=0.2052, simple_loss=0.2858, pruned_loss=0.06226, over 3804022.11 frames. ], batch size: 53, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:04:28,975 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-03 04:04:37,055 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.780e+02 4.826e+02 5.776e+02 6.973e+02 2.376e+03, threshold=1.155e+03, percent-clipped=4.0
+2023-04-03 04:04:56,244 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=165768.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:05:00,676 INFO [train.py:903] (2/4) Epoch 25, batch 1900, loss[loss=0.1921, simple_loss=0.2781, pruned_loss=0.05305, over 19658.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2858, pruned_loss=0.06224, over 3798712.65 frames. ], batch size: 55, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:05:16,875 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-03 04:05:22,726 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-03 04:05:24,242 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0795, 5.1535, 5.9442, 5.9577, 1.8815, 5.6771, 4.6624, 5.5649],
+       device='cuda:2'), covar=tensor([0.1763, 0.0836, 0.0606, 0.0620, 0.6495, 0.0835, 0.0658, 0.1237],
+       device='cuda:2'), in_proj_covar=tensor([0.0809, 0.0770, 0.0979, 0.0852, 0.0855, 0.0740, 0.0581, 0.0907],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 04:05:48,084 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-03 04:06:02,684 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=165821.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:06:03,532 INFO [train.py:903] (2/4) Epoch 25, batch 1950, loss[loss=0.2533, simple_loss=0.3338, pruned_loss=0.08637, over 17365.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2853, pruned_loss=0.06218, over 3799708.47 frames. ], batch size: 101, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:06:20,379 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3521, 1.3224, 1.4956, 1.4957, 1.7527, 1.8695, 1.7706, 0.6106],
+       device='cuda:2'), covar=tensor([0.2523, 0.4327, 0.2814, 0.1994, 0.1706, 0.2351, 0.1491, 0.5009],
+       device='cuda:2'), in_proj_covar=tensor([0.0542, 0.0655, 0.0730, 0.0493, 0.0625, 0.0538, 0.0661, 0.0560],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 04:06:44,209 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.055e+02 4.671e+02 6.009e+02 7.545e+02 1.239e+03, threshold=1.202e+03, percent-clipped=2.0
+2023-04-03 04:06:46,983 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1068, 1.3002, 1.5067, 1.4265, 2.7085, 1.1286, 2.1426, 3.1098],
+       device='cuda:2'), covar=tensor([0.0585, 0.2887, 0.3005, 0.1907, 0.0785, 0.2534, 0.1330, 0.0323],
+       device='cuda:2'), in_proj_covar=tensor([0.0415, 0.0370, 0.0393, 0.0350, 0.0375, 0.0354, 0.0388, 0.0409],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:06:48,309 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=165856.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:07:08,059 INFO [train.py:903] (2/4) Epoch 25, batch 2000, loss[loss=0.198, simple_loss=0.2861, pruned_loss=0.05491, over 19605.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2859, pruned_loss=0.06208, over 3818912.09 frames. ], batch size: 57, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:07:20,289 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=165881.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:08:00,823 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=165913.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:08:07,742 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-03 04:08:12,468 INFO [train.py:903] (2/4) Epoch 25, batch 2050, loss[loss=0.2106, simple_loss=0.283, pruned_loss=0.06915, over 19596.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2838, pruned_loss=0.06119, over 3815193.83 frames. ], batch size: 52, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:08:27,917 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-03 04:08:27,956 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-03 04:08:38,777 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0077, 3.6539, 2.4791, 3.2721, 0.9467, 3.6312, 3.4836, 3.5690],
+       device='cuda:2'), covar=tensor([0.0812, 0.1103, 0.2073, 0.0936, 0.3823, 0.0752, 0.0985, 0.1285],
+       device='cuda:2'), in_proj_covar=tensor([0.0514, 0.0421, 0.0503, 0.0351, 0.0402, 0.0444, 0.0437, 0.0468],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:08:48,983 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-03 04:08:51,220 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.115e+02 5.221e+02 6.289e+02 7.653e+02 1.251e+03, threshold=1.258e+03, percent-clipped=2.0
+2023-04-03 04:09:15,817 INFO [train.py:903] (2/4) Epoch 25, batch 2100, loss[loss=0.2323, simple_loss=0.3104, pruned_loss=0.07706, over 17466.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2834, pruned_loss=0.06118, over 3812783.84 frames. ], batch size: 101, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:09:44,638 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-03 04:10:08,522 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-03 04:10:19,017 INFO [train.py:903] (2/4) Epoch 25, batch 2150, loss[loss=0.2227, simple_loss=0.3067, pruned_loss=0.06937, over 17718.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2834, pruned_loss=0.06158, over 3825667.12 frames. ], batch size: 101, lr: 3.30e-03, grad_scale: 8.0
+2023-04-03 04:10:26,458 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6085, 1.7129, 1.9318, 1.9705, 1.5639, 1.9330, 1.9446, 1.8025],
+       device='cuda:2'), covar=tensor([0.4188, 0.3823, 0.2122, 0.2459, 0.4028, 0.2248, 0.5244, 0.3500],
+       device='cuda:2'), in_proj_covar=tensor([0.0917, 0.0992, 0.0729, 0.0937, 0.0895, 0.0829, 0.0855, 0.0793],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 04:10:27,628 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=166028.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:10:48,698 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0834, 2.0610, 1.7947, 1.6443, 1.5185, 1.6786, 0.5535, 1.1218],
+       device='cuda:2'), covar=tensor([0.0664, 0.0622, 0.0561, 0.0894, 0.1246, 0.0993, 0.1485, 0.1128],
+       device='cuda:2'), in_proj_covar=tensor([0.0362, 0.0359, 0.0363, 0.0387, 0.0465, 0.0392, 0.0341, 0.0346],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 04:10:58,801 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.324e+02 5.055e+02 6.614e+02 9.413e+02 1.694e+03, threshold=1.323e+03, percent-clipped=9.0
+2023-04-03 04:11:21,693 INFO [train.py:903] (2/4) Epoch 25, batch 2200, loss[loss=0.1546, simple_loss=0.2406, pruned_loss=0.03434, over 19307.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2838, pruned_loss=0.0618, over 3831526.13 frames. ], batch size: 44, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:11:22,024 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166072.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 04:11:38,572 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8651, 2.8428, 2.5427, 2.8656, 2.6643, 2.5280, 2.2620, 2.9179],
+       device='cuda:2'), covar=tensor([0.0878, 0.1346, 0.1280, 0.0997, 0.1291, 0.0443, 0.1389, 0.0532],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0355, 0.0311, 0.0254, 0.0301, 0.0252, 0.0313, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:12:02,237 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5395, 2.2845, 1.7118, 1.5794, 2.1404, 1.4145, 1.3342, 2.0143],
+       device='cuda:2'), covar=tensor([0.1079, 0.0826, 0.1142, 0.0828, 0.0552, 0.1282, 0.0800, 0.0475],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0318, 0.0340, 0.0267, 0.0249, 0.0341, 0.0293, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:12:14,466 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=166112.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:12:26,094 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4208, 2.0421, 1.5381, 1.2879, 1.9417, 1.2072, 1.3974, 1.9570],
+       device='cuda:2'), covar=tensor([0.0981, 0.0785, 0.1198, 0.0944, 0.0568, 0.1386, 0.0708, 0.0430],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0317, 0.0339, 0.0266, 0.0248, 0.0340, 0.0292, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:12:26,901 INFO [train.py:903] (2/4) Epoch 25, batch 2250, loss[loss=0.2237, simple_loss=0.3089, pruned_loss=0.06922, over 19307.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2835, pruned_loss=0.06136, over 3832414.25 frames. ], batch size: 66, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:12:34,248 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7491, 1.7650, 1.6858, 1.4732, 1.4662, 1.5051, 0.2506, 0.6789],
+       device='cuda:2'), covar=tensor([0.0672, 0.0633, 0.0394, 0.0651, 0.1161, 0.0713, 0.1361, 0.1161],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0360, 0.0364, 0.0389, 0.0466, 0.0393, 0.0343, 0.0347],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 04:13:04,902 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.096e+02 4.777e+02 5.716e+02 7.657e+02 1.924e+03, threshold=1.143e+03, percent-clipped=2.0
+2023-04-03 04:13:17,465 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6768, 2.4390, 1.7922, 1.6568, 2.2329, 1.4320, 1.4786, 2.1426],
+       device='cuda:2'), covar=tensor([0.1100, 0.0855, 0.1220, 0.0907, 0.0563, 0.1374, 0.0788, 0.0466],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0317, 0.0340, 0.0267, 0.0248, 0.0341, 0.0292, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:13:21,695 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=166165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:13:21,862 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:13:31,174 INFO [train.py:903] (2/4) Epoch 25, batch 2300, loss[loss=0.1979, simple_loss=0.2716, pruned_loss=0.06209, over 19517.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.284, pruned_loss=0.06177, over 3839301.70 frames. ], batch size: 49, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:13:42,668 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-03 04:14:00,633 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3460, 1.1529, 1.2849, 1.8333, 1.5300, 1.2710, 1.4043, 1.2971],
+       device='cuda:2'), covar=tensor([0.0994, 0.1415, 0.1071, 0.0736, 0.1155, 0.1249, 0.1241, 0.0982],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0222, 0.0226, 0.0239, 0.0226, 0.0213, 0.0189, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 04:14:34,774 INFO [train.py:903] (2/4) Epoch 25, batch 2350, loss[loss=0.1726, simple_loss=0.2588, pruned_loss=0.04324, over 19733.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.284, pruned_loss=0.06165, over 3831726.88 frames. ], batch size: 51, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:14:42,147 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=166227.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:15:14,913 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.796e+02 5.104e+02 6.317e+02 8.219e+02 1.547e+03, threshold=1.263e+03, percent-clipped=3.0
+2023-04-03 04:15:17,146 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-03 04:15:24,577 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6442, 1.3478, 1.3140, 1.5475, 1.1710, 1.4266, 1.2448, 1.4807],
+       device='cuda:2'), covar=tensor([0.1120, 0.1089, 0.1570, 0.1048, 0.1276, 0.0634, 0.1656, 0.0837],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0354, 0.0311, 0.0253, 0.0301, 0.0252, 0.0312, 0.0258],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:15:34,618 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-03 04:15:38,204 INFO [train.py:903] (2/4) Epoch 25, batch 2400, loss[loss=0.2088, simple_loss=0.2996, pruned_loss=0.05906, over 19592.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2837, pruned_loss=0.06132, over 3839592.96 frames. ], batch size: 61, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:15:48,893 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=166280.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:15:55,273 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=166284.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:16:25,801 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=166309.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:16:29,052 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0943, 5.5427, 2.9354, 4.7899, 1.3845, 5.7093, 5.5390, 5.7192],
+       device='cuda:2'), covar=tensor([0.0352, 0.0710, 0.1904, 0.0701, 0.3598, 0.0469, 0.0730, 0.0838],
+       device='cuda:2'), in_proj_covar=tensor([0.0517, 0.0421, 0.0504, 0.0353, 0.0404, 0.0446, 0.0438, 0.0469],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:16:41,770 INFO [train.py:903] (2/4) Epoch 25, batch 2450, loss[loss=0.2496, simple_loss=0.326, pruned_loss=0.08662, over 17490.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2842, pruned_loss=0.06112, over 3839674.30 frames. ], batch size: 101, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:16:46,765 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166325.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:17:20,237 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.023e+02 4.903e+02 5.916e+02 7.490e+02 1.353e+03, threshold=1.183e+03, percent-clipped=1.0
+2023-04-03 04:17:44,925 INFO [train.py:903] (2/4) Epoch 25, batch 2500, loss[loss=0.2126, simple_loss=0.2957, pruned_loss=0.06474, over 19548.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2845, pruned_loss=0.06138, over 3844374.30 frames. ], batch size: 56, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:17:52,019 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6893, 1.8325, 1.8431, 2.5205, 1.9255, 2.3173, 1.9158, 1.5861],
+       device='cuda:2'), covar=tensor([0.4879, 0.4384, 0.2786, 0.2667, 0.4371, 0.2420, 0.6200, 0.4986],
+       device='cuda:2'), in_proj_covar=tensor([0.0916, 0.0991, 0.0729, 0.0938, 0.0894, 0.0831, 0.0851, 0.0793],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 04:18:41,300 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=166416.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 04:18:48,038 INFO [train.py:903] (2/4) Epoch 25, batch 2550, loss[loss=0.1786, simple_loss=0.2696, pruned_loss=0.04383, over 19764.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2859, pruned_loss=0.06251, over 3831606.44 frames. ], batch size: 56, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:19:21,989 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 04:19:28,548 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.584e+02 5.112e+02 6.516e+02 8.109e+02 2.174e+03, threshold=1.303e+03, percent-clipped=8.0
+2023-04-03 04:19:40,791 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9828, 1.9579, 1.8887, 1.6543, 1.5557, 1.6311, 0.4811, 0.8951],
+       device='cuda:2'), covar=tensor([0.0673, 0.0618, 0.0412, 0.0752, 0.1238, 0.0852, 0.1331, 0.1111],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0360, 0.0363, 0.0387, 0.0467, 0.0393, 0.0340, 0.0345],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 04:19:46,425 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-03 04:19:53,265 INFO [train.py:903] (2/4) Epoch 25, batch 2600, loss[loss=0.2203, simple_loss=0.2942, pruned_loss=0.07316, over 19662.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.2867, pruned_loss=0.06255, over 3827552.95 frames. ], batch size: 55, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:20:08,606 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=166483.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:20:29,563 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166499.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:20:34,778 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.41 vs. limit=2.0
+2023-04-03 04:20:40,172 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=166508.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:20:41,204 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=166509.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:20:58,297 INFO [train.py:903] (2/4) Epoch 25, batch 2650, loss[loss=0.2188, simple_loss=0.2853, pruned_loss=0.07615, over 19495.00 frames. ], tot_loss[loss=0.2056, simple_loss=0.2866, pruned_loss=0.06235, over 3826672.59 frames. ], batch size: 49, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:21:05,499 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166527.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:21:10,269 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=166531.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 04:21:12,599 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3374, 1.2714, 1.6494, 1.1330, 2.4157, 3.3746, 3.0704, 3.5782],
+       device='cuda:2'), covar=tensor([0.1484, 0.3862, 0.3470, 0.2623, 0.0638, 0.0203, 0.0222, 0.0273],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0328, 0.0359, 0.0267, 0.0248, 0.0192, 0.0217, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 04:21:17,630 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=166536.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:21:19,744 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-03 04:21:32,650 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166549.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:21:38,181 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.868e+02 4.612e+02 5.770e+02 6.756e+02 1.610e+03, threshold=1.154e+03, percent-clipped=1.0
+2023-04-03 04:21:49,308 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=166561.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:22:03,050 INFO [train.py:903] (2/4) Epoch 25, batch 2700, loss[loss=0.2271, simple_loss=0.3047, pruned_loss=0.07477, over 19125.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2857, pruned_loss=0.06177, over 3825331.07 frames. ], batch size: 69, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:22:21,030 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.46 vs. limit=2.0
+2023-04-03 04:23:06,172 INFO [train.py:903] (2/4) Epoch 25, batch 2750, loss[loss=0.1926, simple_loss=0.2743, pruned_loss=0.05541, over 19730.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2854, pruned_loss=0.0618, over 3816969.31 frames. ], batch size: 45, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:23:08,940 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=166624.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:23:45,198 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.014e+02 4.918e+02 6.109e+02 7.546e+02 1.552e+03, threshold=1.222e+03, percent-clipped=5.0
+2023-04-03 04:24:04,563 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=166669.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:24:07,644 INFO [train.py:903] (2/4) Epoch 25, batch 2800, loss[loss=0.2209, simple_loss=0.2991, pruned_loss=0.0714, over 19657.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2843, pruned_loss=0.06156, over 3821856.81 frames. ], batch size: 55, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:24:43,350 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8477, 3.2986, 3.3354, 3.3519, 1.4630, 3.2264, 2.8359, 3.1134],
+       device='cuda:2'), covar=tensor([0.1749, 0.1071, 0.0893, 0.0926, 0.5779, 0.1147, 0.0810, 0.1403],
+       device='cuda:2'), in_proj_covar=tensor([0.0803, 0.0766, 0.0975, 0.0853, 0.0851, 0.0740, 0.0580, 0.0905],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 04:25:11,699 INFO [train.py:903] (2/4) Epoch 25, batch 2850, loss[loss=0.1923, simple_loss=0.2843, pruned_loss=0.05016, over 17283.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2846, pruned_loss=0.06187, over 3785562.21 frames. ], batch size: 101, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:25:50,391 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.797e+02 4.563e+02 5.950e+02 8.060e+02 1.987e+03, threshold=1.190e+03, percent-clipped=10.0
+2023-04-03 04:25:50,648 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166753.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:26:11,853 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-03 04:26:14,209 INFO [train.py:903] (2/4) Epoch 25, batch 2900, loss[loss=0.1852, simple_loss=0.268, pruned_loss=0.05122, over 19476.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2852, pruned_loss=0.06242, over 3808458.19 frames. ], batch size: 49, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:26:27,358 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166782.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:26:29,688 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=166784.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:26:33,199 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=166787.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 04:27:05,059 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=166812.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 04:27:07,349 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9163, 1.9645, 2.2071, 2.5491, 1.9259, 2.4873, 2.1631, 2.0014],
+       device='cuda:2'), covar=tensor([0.4365, 0.4123, 0.2074, 0.2631, 0.4490, 0.2337, 0.5320, 0.3595],
+       device='cuda:2'), in_proj_covar=tensor([0.0918, 0.0990, 0.0729, 0.0938, 0.0894, 0.0829, 0.0853, 0.0793],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 04:27:17,223 INFO [train.py:903] (2/4) Epoch 25, batch 2950, loss[loss=0.2067, simple_loss=0.2843, pruned_loss=0.06454, over 19623.00 frames. ], tot_loss[loss=0.2052, simple_loss=0.2856, pruned_loss=0.06246, over 3817659.45 frames. ], batch size: 50, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:27:44,187 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=166843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:27:56,482 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.385e+02 4.674e+02 5.957e+02 7.713e+02 2.101e+03, threshold=1.191e+03, percent-clipped=6.0
+2023-04-03 04:28:20,033 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=166871.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:28:21,101 INFO [train.py:903] (2/4) Epoch 25, batch 3000, loss[loss=0.1775, simple_loss=0.2473, pruned_loss=0.05387, over 19761.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2853, pruned_loss=0.06212, over 3814992.68 frames. ], batch size: 47, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:28:21,102 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 04:28:33,792 INFO [train.py:937] (2/4) Epoch 25, validation: loss=0.1677, simple_loss=0.2674, pruned_loss=0.034, over 944034.00 frames. 
+2023-04-03 04:28:33,797 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 04:28:35,118 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-03 04:28:44,927 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=166880.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:28:55,153 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.66 vs. limit=5.0
+2023-04-03 04:29:01,379 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=166893.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:29:17,269 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=166905.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:29:25,573 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
+2023-04-03 04:29:38,485 INFO [train.py:903] (2/4) Epoch 25, batch 3050, loss[loss=0.1946, simple_loss=0.2788, pruned_loss=0.05516, over 19584.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2856, pruned_loss=0.06244, over 3799509.51 frames. ], batch size: 52, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:30:09,942 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=166947.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:30:17,431 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.386e+02 4.942e+02 6.233e+02 8.295e+02 1.859e+03, threshold=1.247e+03, percent-clipped=9.0
+2023-04-03 04:30:23,339 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=166958.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:30:39,885 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7161, 4.1360, 4.3682, 4.3793, 2.0623, 4.1131, 3.6680, 4.1376],
+       device='cuda:2'), covar=tensor([0.1639, 0.1347, 0.0598, 0.0680, 0.5270, 0.1078, 0.0608, 0.1008],
+       device='cuda:2'), in_proj_covar=tensor([0.0798, 0.0763, 0.0971, 0.0850, 0.0846, 0.0738, 0.0578, 0.0899],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 04:30:41,891 INFO [train.py:903] (2/4) Epoch 25, batch 3100, loss[loss=0.2055, simple_loss=0.2742, pruned_loss=0.06843, over 19632.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.2864, pruned_loss=0.06318, over 3804831.46 frames. ], batch size: 50, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:30:58,966 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=166986.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:30:59,020 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1221, 1.7814, 1.4577, 1.2319, 1.6037, 1.1731, 1.0974, 1.5702],
+       device='cuda:2'), covar=tensor([0.0906, 0.0842, 0.1107, 0.0876, 0.0546, 0.1319, 0.0702, 0.0484],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0318, 0.0338, 0.0267, 0.0248, 0.0342, 0.0291, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:31:17,697 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1690, 1.3364, 1.9250, 1.4348, 3.1696, 4.6847, 4.4969, 5.0907],
+       device='cuda:2'), covar=tensor([0.1803, 0.4003, 0.3434, 0.2542, 0.0601, 0.0206, 0.0178, 0.0174],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0327, 0.0358, 0.0266, 0.0248, 0.0191, 0.0217, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 04:31:27,830 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=167008.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:31:44,386 INFO [train.py:903] (2/4) Epoch 25, batch 3150, loss[loss=0.1642, simple_loss=0.2539, pruned_loss=0.0373, over 19713.00 frames. ], tot_loss[loss=0.2058, simple_loss=0.2858, pruned_loss=0.06286, over 3806900.27 frames. ], batch size: 51, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:32:08,054 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167040.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:32:08,795 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-03 04:32:24,692 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.516e+02 5.039e+02 6.011e+02 8.459e+02 2.094e+03, threshold=1.202e+03, percent-clipped=4.0
+2023-04-03 04:32:39,339 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167065.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:32:48,315 INFO [train.py:903] (2/4) Epoch 25, batch 3200, loss[loss=0.1918, simple_loss=0.2814, pruned_loss=0.05109, over 17681.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2865, pruned_loss=0.06285, over 3792376.84 frames. ], batch size: 101, lr: 3.29e-03, grad_scale: 8.0
+2023-04-03 04:32:52,065 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6594, 4.2658, 2.6606, 3.7475, 0.9751, 4.2258, 4.1050, 4.2062],
+       device='cuda:2'), covar=tensor([0.0629, 0.0947, 0.1993, 0.0879, 0.3864, 0.0633, 0.0836, 0.1035],
+       device='cuda:2'), in_proj_covar=tensor([0.0516, 0.0418, 0.0504, 0.0353, 0.0402, 0.0446, 0.0438, 0.0470],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:33:20,650 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=167097.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:33:47,216 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=167118.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:33:47,412 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9149, 2.0045, 2.2207, 2.4597, 1.9386, 2.4098, 2.2821, 2.0759],
+       device='cuda:2'), covar=tensor([0.4124, 0.3680, 0.1892, 0.2319, 0.3899, 0.2069, 0.4582, 0.3238],
+       device='cuda:2'), in_proj_covar=tensor([0.0924, 0.0998, 0.0734, 0.0945, 0.0901, 0.0835, 0.0858, 0.0800],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 04:33:52,601 INFO [train.py:903] (2/4) Epoch 25, batch 3250, loss[loss=0.1878, simple_loss=0.2796, pruned_loss=0.04804, over 19756.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2856, pruned_loss=0.06194, over 3793464.51 frames. ], batch size: 54, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:33:52,930 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=167122.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:33:57,483 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=167126.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:33:57,762 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2364, 1.2883, 1.2716, 1.0526, 1.0764, 1.1140, 0.1298, 0.3990],
+       device='cuda:2'), covar=tensor([0.0683, 0.0661, 0.0446, 0.0579, 0.1310, 0.0637, 0.1397, 0.1198],
+       device='cuda:2'), in_proj_covar=tensor([0.0365, 0.0360, 0.0364, 0.0388, 0.0467, 0.0394, 0.0343, 0.0346],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 04:34:33,308 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.514e+02 4.897e+02 6.248e+02 7.764e+02 1.427e+03, threshold=1.250e+03, percent-clipped=4.0
+2023-04-03 04:34:56,638 INFO [train.py:903] (2/4) Epoch 25, batch 3300, loss[loss=0.2033, simple_loss=0.2853, pruned_loss=0.06069, over 19598.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2847, pruned_loss=0.06122, over 3803346.43 frames. ], batch size: 52, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:34:56,673 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-03 04:35:15,539 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0851, 1.0469, 1.4882, 1.1630, 2.1998, 2.8899, 2.6571, 3.2454],
+       device='cuda:2'), covar=tensor([0.1942, 0.5546, 0.4839, 0.2882, 0.0856, 0.0361, 0.0378, 0.0410],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0328, 0.0359, 0.0268, 0.0250, 0.0192, 0.0219, 0.0268],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 04:35:47,885 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=167212.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:35:50,103 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167214.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:35:59,021 INFO [train.py:903] (2/4) Epoch 25, batch 3350, loss[loss=0.2403, simple_loss=0.3256, pruned_loss=0.07749, over 19590.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2849, pruned_loss=0.06157, over 3809863.27 frames. ], batch size: 61, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:36:21,822 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:36:24,218 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=167241.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:36:25,499 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167242.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:36:41,238 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.112e+02 4.821e+02 5.770e+02 7.565e+02 1.496e+03, threshold=1.154e+03, percent-clipped=2.0
+2023-04-03 04:36:53,556 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167264.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:36:56,896 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167267.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:37:02,319 INFO [train.py:903] (2/4) Epoch 25, batch 3400, loss[loss=0.214, simple_loss=0.2867, pruned_loss=0.07063, over 19708.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2845, pruned_loss=0.0615, over 3820985.79 frames. ], batch size: 51, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:37:26,128 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167289.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:37:28,374 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=167291.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:38:08,145 INFO [train.py:903] (2/4) Epoch 25, batch 3450, loss[loss=0.1997, simple_loss=0.2839, pruned_loss=0.05773, over 19760.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2846, pruned_loss=0.06139, over 3826843.72 frames. ], batch size: 54, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:38:10,618 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-03 04:38:36,000 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1961, 1.2910, 1.2389, 1.0047, 1.1116, 1.0829, 0.0694, 0.3625],
+       device='cuda:2'), covar=tensor([0.0717, 0.0700, 0.0507, 0.0685, 0.1357, 0.0704, 0.1468, 0.1231],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0360, 0.0362, 0.0386, 0.0465, 0.0393, 0.0341, 0.0344],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 04:38:49,777 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.112e+02 4.608e+02 5.631e+02 6.989e+02 1.333e+03, threshold=1.126e+03, percent-clipped=1.0
+2023-04-03 04:39:07,033 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1794, 2.0470, 2.0011, 1.8103, 1.6715, 1.8299, 0.6019, 1.1402],
+       device='cuda:2'), covar=tensor([0.0675, 0.0648, 0.0434, 0.0732, 0.1278, 0.0841, 0.1285, 0.1109],
+       device='cuda:2'), in_proj_covar=tensor([0.0361, 0.0358, 0.0361, 0.0385, 0.0464, 0.0392, 0.0340, 0.0343],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 04:39:12,382 INFO [train.py:903] (2/4) Epoch 25, batch 3500, loss[loss=0.1911, simple_loss=0.2786, pruned_loss=0.05181, over 19757.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2859, pruned_loss=0.06207, over 3808779.36 frames. ], batch size: 54, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:39:42,143 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1951, 1.5909, 1.3103, 1.2146, 1.4995, 1.1534, 1.1760, 1.4537],
+       device='cuda:2'), covar=tensor([0.0796, 0.0757, 0.0796, 0.0678, 0.0482, 0.0963, 0.0549, 0.0464],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0318, 0.0336, 0.0266, 0.0248, 0.0342, 0.0291, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:39:56,160 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=167406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:40:15,428 INFO [train.py:903] (2/4) Epoch 25, batch 3550, loss[loss=0.221, simple_loss=0.2955, pruned_loss=0.07328, over 19712.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2862, pruned_loss=0.06226, over 3816485.05 frames. ], batch size: 63, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:40:51,402 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=167450.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:40:55,628 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.122e+02 5.129e+02 6.252e+02 7.981e+02 1.792e+03, threshold=1.250e+03, percent-clipped=6.0
+2023-04-03 04:41:06,589 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=167462.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:41:11,106 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=167466.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:41:13,897 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167468.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:41:17,994 INFO [train.py:903] (2/4) Epoch 25, batch 3600, loss[loss=0.2442, simple_loss=0.3363, pruned_loss=0.07607, over 19483.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2845, pruned_loss=0.06127, over 3813330.24 frames. ], batch size: 64, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:41:44,859 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167493.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:41:50,903 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167497.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:42:01,240 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4533, 1.2388, 1.4869, 1.5911, 3.0437, 1.3510, 2.2719, 3.4733],
+       device='cuda:2'), covar=tensor([0.0514, 0.2952, 0.2999, 0.1854, 0.0695, 0.2322, 0.1298, 0.0260],
+       device='cuda:2'), in_proj_covar=tensor([0.0417, 0.0373, 0.0394, 0.0349, 0.0377, 0.0353, 0.0391, 0.0411],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:42:20,841 INFO [train.py:903] (2/4) Epoch 25, batch 3650, loss[loss=0.216, simple_loss=0.2987, pruned_loss=0.06663, over 19523.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2839, pruned_loss=0.06113, over 3815440.29 frames. ], batch size: 54, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:42:21,242 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167522.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:42:36,704 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-03 04:43:00,372 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.203e+02 5.264e+02 6.466e+02 8.043e+02 1.528e+03, threshold=1.293e+03, percent-clipped=3.0
+2023-04-03 04:43:24,174 INFO [train.py:903] (2/4) Epoch 25, batch 3700, loss[loss=0.2555, simple_loss=0.3177, pruned_loss=0.09665, over 12923.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2847, pruned_loss=0.06185, over 3815179.11 frames. ], batch size: 136, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:43:31,617 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=167577.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:43:36,267 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=167581.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:44:28,030 INFO [train.py:903] (2/4) Epoch 25, batch 3750, loss[loss=0.1819, simple_loss=0.2554, pruned_loss=0.05425, over 19351.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2849, pruned_loss=0.06178, over 3818022.65 frames. ], batch size: 47, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:44:57,783 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8926, 1.9984, 2.2508, 2.4695, 1.8385, 2.3217, 2.2240, 2.0207],
+       device='cuda:2'), covar=tensor([0.4208, 0.3737, 0.1962, 0.2303, 0.4025, 0.2125, 0.5116, 0.3415],
+       device='cuda:2'), in_proj_covar=tensor([0.0923, 0.0995, 0.0731, 0.0943, 0.0898, 0.0832, 0.0857, 0.0797],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 04:45:08,825 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.966e+02 5.285e+02 6.593e+02 8.150e+02 1.742e+03, threshold=1.319e+03, percent-clipped=4.0
+2023-04-03 04:45:19,723 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9960, 3.6508, 2.4196, 3.2597, 0.9888, 3.6354, 3.4860, 3.5537],
+       device='cuda:2'), covar=tensor([0.0942, 0.1164, 0.2254, 0.0916, 0.3801, 0.0769, 0.1142, 0.1310],
+       device='cuda:2'), in_proj_covar=tensor([0.0521, 0.0422, 0.0509, 0.0356, 0.0407, 0.0450, 0.0441, 0.0473],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:45:19,945 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167662.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:45:31,293 INFO [train.py:903] (2/4) Epoch 25, batch 3800, loss[loss=0.1888, simple_loss=0.268, pruned_loss=0.05483, over 19617.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2857, pruned_loss=0.06223, over 3822780.03 frames. ], batch size: 50, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:45:50,911 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167687.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:46:01,947 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-03 04:46:32,954 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
+2023-04-03 04:46:35,337 INFO [train.py:903] (2/4) Epoch 25, batch 3850, loss[loss=0.2492, simple_loss=0.3209, pruned_loss=0.08878, over 17179.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2846, pruned_loss=0.06147, over 3837605.50 frames. ], batch size: 101, lr: 3.28e-03, grad_scale: 4.0
+2023-04-03 04:46:54,839 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=167737.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:47:16,484 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.257e+02 4.991e+02 5.959e+02 7.597e+02 1.650e+03, threshold=1.192e+03, percent-clipped=2.0
+2023-04-03 04:47:39,474 INFO [train.py:903] (2/4) Epoch 25, batch 3900, loss[loss=0.2252, simple_loss=0.3024, pruned_loss=0.07407, over 18757.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2833, pruned_loss=0.06055, over 3834673.38 frames. ], batch size: 74, lr: 3.28e-03, grad_scale: 4.0
+2023-04-03 04:47:55,785 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=167785.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:48:06,189 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=167794.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:48:43,216 INFO [train.py:903] (2/4) Epoch 25, batch 3950, loss[loss=0.2, simple_loss=0.2889, pruned_loss=0.05557, over 19664.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2841, pruned_loss=0.06118, over 3821168.11 frames. ], batch size: 58, lr: 3.28e-03, grad_scale: 4.0
+2023-04-03 04:48:45,699 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-03 04:48:56,957 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:49:01,638 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=167837.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:49:13,781 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.10 vs. limit=2.0
+2023-04-03 04:49:25,130 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.090e+02 4.848e+02 5.890e+02 7.638e+02 1.655e+03, threshold=1.178e+03, percent-clipped=7.0
+2023-04-03 04:49:29,106 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167858.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:49:34,614 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=167862.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:49:46,053 INFO [train.py:903] (2/4) Epoch 25, batch 4000, loss[loss=0.2509, simple_loss=0.3228, pruned_loss=0.08947, over 19665.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2844, pruned_loss=0.06129, over 3813301.08 frames. ], batch size: 60, lr: 3.28e-03, grad_scale: 8.0
+2023-04-03 04:50:32,152 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-03 04:50:33,727 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=167909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:50:50,806 INFO [train.py:903] (2/4) Epoch 25, batch 4050, loss[loss=0.167, simple_loss=0.2502, pruned_loss=0.04191, over 19775.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2846, pruned_loss=0.06156, over 3800376.91 frames. ], batch size: 47, lr: 3.28e-03, grad_scale: 4.0
+2023-04-03 04:51:32,266 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.281e+02 5.057e+02 6.529e+02 8.113e+02 1.821e+03, threshold=1.306e+03, percent-clipped=7.0
+2023-04-03 04:51:52,925 INFO [train.py:903] (2/4) Epoch 25, batch 4100, loss[loss=0.2329, simple_loss=0.3124, pruned_loss=0.07675, over 19612.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2853, pruned_loss=0.06195, over 3809790.15 frames. ], batch size: 50, lr: 3.28e-03, grad_scale: 4.0
+2023-04-03 04:52:24,783 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.42 vs. limit=2.0
+2023-04-03 04:52:27,620 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-03 04:52:56,845 INFO [train.py:903] (2/4) Epoch 25, batch 4150, loss[loss=0.2137, simple_loss=0.2981, pruned_loss=0.06463, over 19548.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2854, pruned_loss=0.06231, over 3792279.75 frames. ], batch size: 56, lr: 3.28e-03, grad_scale: 4.0
+2023-04-03 04:53:36,890 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=168053.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:53:39,909 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.124e+02 5.393e+02 6.582e+02 8.080e+02 1.683e+03, threshold=1.316e+03, percent-clipped=2.0
+2023-04-03 04:53:59,617 INFO [train.py:903] (2/4) Epoch 25, batch 4200, loss[loss=0.2411, simple_loss=0.3152, pruned_loss=0.08343, over 19792.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.285, pruned_loss=0.06232, over 3798189.99 frames. ], batch size: 56, lr: 3.28e-03, grad_scale: 4.0
+2023-04-03 04:54:01,980 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-03 04:54:10,948 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=168081.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:54:18,319 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-03 04:55:03,247 INFO [train.py:903] (2/4) Epoch 25, batch 4250, loss[loss=0.209, simple_loss=0.3008, pruned_loss=0.0586, over 19709.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.285, pruned_loss=0.06214, over 3811229.05 frames. ], batch size: 59, lr: 3.27e-03, grad_scale: 4.0
+2023-04-03 04:55:13,197 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=168129.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:55:17,977 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-03 04:55:20,782 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.35 vs. limit=5.0
+2023-04-03 04:55:29,583 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-03 04:55:46,754 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.141e+02 4.961e+02 6.439e+02 7.740e+02 2.119e+03, threshold=1.288e+03, percent-clipped=3.0
+2023-04-03 04:55:59,596 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=168165.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:56:07,289 INFO [train.py:903] (2/4) Epoch 25, batch 4300, loss[loss=0.2414, simple_loss=0.3118, pruned_loss=0.08549, over 13715.00 frames. ], tot_loss[loss=0.2052, simple_loss=0.2857, pruned_loss=0.0624, over 3798707.95 frames. ], batch size: 135, lr: 3.27e-03, grad_scale: 4.0
+2023-04-03 04:56:15,589 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.34 vs. limit=5.0
+2023-04-03 04:56:29,202 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.0421, 1.1031, 1.3681, 1.2757, 2.5965, 1.0752, 2.0854, 2.9615],
+       device='cuda:2'), covar=tensor([0.0809, 0.3324, 0.3102, 0.2139, 0.0999, 0.2600, 0.1444, 0.0420],
+       device='cuda:2'), in_proj_covar=tensor([0.0419, 0.0375, 0.0395, 0.0351, 0.0379, 0.0354, 0.0393, 0.0413],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 04:56:30,383 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=168190.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:56:37,450 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=168196.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:56:42,776 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.99 vs. limit=5.0
+2023-04-03 04:56:57,662 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.48 vs. limit=2.0
+2023-04-03 04:57:00,316 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-03 04:57:10,768 INFO [train.py:903] (2/4) Epoch 25, batch 4350, loss[loss=0.1782, simple_loss=0.2546, pruned_loss=0.0509, over 19749.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2852, pruned_loss=0.06218, over 3800297.56 frames. ], batch size: 47, lr: 3.27e-03, grad_scale: 4.0
+2023-04-03 04:57:38,637 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=168244.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:57:47,819 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=168251.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 04:57:49,662 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-03 04:57:53,365 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.429e+02 4.774e+02 5.735e+02 7.211e+02 1.236e+03, threshold=1.147e+03, percent-clipped=0.0
+2023-04-03 04:58:13,426 INFO [train.py:903] (2/4) Epoch 25, batch 4400, loss[loss=0.181, simple_loss=0.2657, pruned_loss=0.04819, over 19676.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2853, pruned_loss=0.06205, over 3810957.14 frames. ], batch size: 53, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 04:58:40,138 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-03 04:58:50,370 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-03 04:59:16,256 INFO [train.py:903] (2/4) Epoch 25, batch 4450, loss[loss=0.2027, simple_loss=0.2945, pruned_loss=0.05549, over 19663.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.285, pruned_loss=0.06183, over 3815528.31 frames. ], batch size: 58, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 04:59:59,622 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.939e+02 4.609e+02 5.804e+02 7.720e+02 1.927e+03, threshold=1.161e+03, percent-clipped=7.0
+2023-04-03 05:00:17,554 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
+2023-04-03 05:00:20,127 INFO [train.py:903] (2/4) Epoch 25, batch 4500, loss[loss=0.1803, simple_loss=0.272, pruned_loss=0.04433, over 19522.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.2862, pruned_loss=0.06279, over 3803974.36 frames. ], batch size: 54, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:00:44,722 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-03 05:00:52,074 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=168397.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:01:23,378 INFO [train.py:903] (2/4) Epoch 25, batch 4550, loss[loss=0.2139, simple_loss=0.2921, pruned_loss=0.0678, over 19667.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2849, pruned_loss=0.06207, over 3819223.07 frames. ], batch size: 60, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:01:34,600 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-03 05:01:59,969 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-03 05:02:02,790 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=168452.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:02:08,841 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.350e+02 4.803e+02 5.692e+02 6.651e+02 1.392e+03, threshold=1.138e+03, percent-clipped=3.0
+2023-04-03 05:02:15,270 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1058, 1.2347, 1.7198, 1.1662, 2.5939, 3.5339, 3.2508, 3.7383],
+       device='cuda:2'), covar=tensor([0.1678, 0.3982, 0.3393, 0.2630, 0.0624, 0.0195, 0.0225, 0.0290],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0327, 0.0357, 0.0267, 0.0248, 0.0191, 0.0217, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 05:02:27,741 INFO [train.py:903] (2/4) Epoch 25, batch 4600, loss[loss=0.1849, simple_loss=0.2706, pruned_loss=0.04962, over 19607.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2838, pruned_loss=0.06142, over 3834687.87 frames. ], batch size: 52, lr: 3.27e-03, grad_scale: 4.0
+2023-04-03 05:02:35,439 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=168477.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:02:59,876 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9280, 4.5121, 2.7790, 3.8979, 1.0416, 4.4735, 4.3745, 4.4356],
+       device='cuda:2'), covar=tensor([0.0520, 0.0857, 0.1881, 0.0837, 0.3957, 0.0617, 0.0842, 0.1150],
+       device='cuda:2'), in_proj_covar=tensor([0.0517, 0.0420, 0.0504, 0.0353, 0.0405, 0.0447, 0.0441, 0.0471],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:03:04,811 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=168500.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:03:20,612 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=168512.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:03:27,492 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-03 05:03:31,427 INFO [train.py:903] (2/4) Epoch 25, batch 4650, loss[loss=0.2146, simple_loss=0.292, pruned_loss=0.06855, over 19669.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.285, pruned_loss=0.0621, over 3830770.92 frames. ], batch size: 58, lr: 3.27e-03, grad_scale: 4.0
+2023-04-03 05:03:35,320 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=168525.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:03:50,722 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-03 05:04:02,095 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-03 05:04:02,461 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1418, 1.1169, 1.6105, 1.0401, 2.3005, 3.0029, 2.7712, 3.3197],
+       device='cuda:2'), covar=tensor([0.1705, 0.5217, 0.4369, 0.2793, 0.0750, 0.0279, 0.0333, 0.0334],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0326, 0.0356, 0.0267, 0.0248, 0.0191, 0.0217, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 05:04:16,035 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.438e+02 5.060e+02 6.015e+02 7.632e+02 1.453e+03, threshold=1.203e+03, percent-clipped=3.0
+2023-04-03 05:04:34,756 INFO [train.py:903] (2/4) Epoch 25, batch 4700, loss[loss=0.1903, simple_loss=0.2837, pruned_loss=0.04844, over 19659.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2852, pruned_loss=0.06212, over 3825984.97 frames. ], batch size: 58, lr: 3.27e-03, grad_scale: 4.0
+2023-04-03 05:04:58,615 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-03 05:05:04,400 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=168595.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:05:38,975 INFO [train.py:903] (2/4) Epoch 25, batch 4750, loss[loss=0.1705, simple_loss=0.2504, pruned_loss=0.04529, over 19385.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.285, pruned_loss=0.0622, over 3835127.37 frames. ], batch size: 47, lr: 3.27e-03, grad_scale: 4.0
+2023-04-03 05:06:06,418 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-03 05:06:09,930 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-03 05:06:22,550 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.376e+02 5.029e+02 6.051e+02 7.124e+02 1.309e+03, threshold=1.210e+03, percent-clipped=1.0
+2023-04-03 05:06:40,996 INFO [train.py:903] (2/4) Epoch 25, batch 4800, loss[loss=0.2547, simple_loss=0.3283, pruned_loss=0.09056, over 19327.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.285, pruned_loss=0.06211, over 3839508.67 frames. ], batch size: 66, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:06:59,403 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1777, 2.0262, 1.8299, 2.1477, 2.0313, 1.8430, 1.6878, 2.0408],
+       device='cuda:2'), covar=tensor([0.0998, 0.1389, 0.1385, 0.1046, 0.1315, 0.0564, 0.1498, 0.0731],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0356, 0.0315, 0.0253, 0.0303, 0.0254, 0.0314, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:07:29,206 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=168710.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:07:43,809 INFO [train.py:903] (2/4) Epoch 25, batch 4850, loss[loss=0.2049, simple_loss=0.2897, pruned_loss=0.06008, over 19526.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2843, pruned_loss=0.06164, over 3833006.35 frames. ], batch size: 56, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:08:09,418 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-03 05:08:29,303 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.525e+02 5.536e+02 6.758e+02 9.275e+02 1.787e+03, threshold=1.352e+03, percent-clipped=12.0
+2023-04-03 05:08:30,560 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-03 05:08:36,453 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-03 05:08:36,488 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-03 05:08:43,852 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=168768.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:08:47,092 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-03 05:08:48,234 INFO [train.py:903] (2/4) Epoch 25, batch 4900, loss[loss=0.1891, simple_loss=0.2788, pruned_loss=0.04973, over 19661.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2845, pruned_loss=0.0617, over 3832604.47 frames. ], batch size: 55, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:09:06,545 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-03 05:09:10,218 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1119, 0.9084, 1.0778, 1.4449, 1.0547, 0.9810, 1.0312, 1.0406],
+       device='cuda:2'), covar=tensor([0.1161, 0.1701, 0.1364, 0.0695, 0.1032, 0.1486, 0.1222, 0.1131],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0226, 0.0238, 0.0226, 0.0213, 0.0188, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 05:09:15,998 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=168793.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:09:52,871 INFO [train.py:903] (2/4) Epoch 25, batch 4950, loss[loss=0.2183, simple_loss=0.3002, pruned_loss=0.06827, over 19666.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2845, pruned_loss=0.06176, over 3823996.19 frames. ], batch size: 55, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:10:04,481 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-03 05:10:30,180 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-03 05:10:36,920 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.098e+02 4.693e+02 5.645e+02 7.417e+02 1.662e+03, threshold=1.129e+03, percent-clipped=1.0
+2023-04-03 05:10:49,048 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4322, 1.4899, 1.7935, 1.6576, 2.7097, 2.2897, 2.7773, 1.3526],
+       device='cuda:2'), covar=tensor([0.2670, 0.4707, 0.2995, 0.2080, 0.1629, 0.2275, 0.1642, 0.4695],
+       device='cuda:2'), in_proj_covar=tensor([0.0548, 0.0666, 0.0739, 0.0501, 0.0630, 0.0544, 0.0670, 0.0567],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 05:10:50,503 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-03 05:10:55,827 INFO [train.py:903] (2/4) Epoch 25, batch 5000, loss[loss=0.1499, simple_loss=0.2299, pruned_loss=0.03496, over 19753.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2852, pruned_loss=0.06195, over 3824825.48 frames. ], batch size: 46, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:11:02,566 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-03 05:11:13,720 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-03 05:11:58,384 INFO [train.py:903] (2/4) Epoch 25, batch 5050, loss[loss=0.2215, simple_loss=0.3047, pruned_loss=0.06913, over 19669.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2851, pruned_loss=0.06193, over 3813191.93 frames. ], batch size: 55, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:12:06,825 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0786, 2.1655, 2.4185, 2.7844, 2.1204, 2.6972, 2.4523, 2.2175],
+       device='cuda:2'), covar=tensor([0.4394, 0.4149, 0.1918, 0.2463, 0.4386, 0.2158, 0.4915, 0.3437],
+       device='cuda:2'), in_proj_covar=tensor([0.0920, 0.0994, 0.0731, 0.0941, 0.0896, 0.0833, 0.0851, 0.0796],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 05:12:18,663 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3461, 2.3731, 2.6394, 3.1209, 2.3732, 2.9552, 2.7192, 2.3670],
+       device='cuda:2'), covar=tensor([0.4307, 0.4345, 0.1930, 0.2667, 0.4668, 0.2328, 0.4707, 0.3500],
+       device='cuda:2'), in_proj_covar=tensor([0.0920, 0.0994, 0.0731, 0.0942, 0.0897, 0.0833, 0.0851, 0.0796],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 05:12:33,915 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-03 05:12:41,888 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.044e+02 4.713e+02 5.534e+02 7.099e+02 1.364e+03, threshold=1.107e+03, percent-clipped=2.0
+2023-04-03 05:12:55,408 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=168966.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:13:02,135 INFO [train.py:903] (2/4) Epoch 25, batch 5100, loss[loss=0.2206, simple_loss=0.3037, pruned_loss=0.06875, over 18738.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2849, pruned_loss=0.06138, over 3825692.66 frames. ], batch size: 74, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:13:11,261 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-03 05:13:14,752 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-03 05:13:19,307 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=168985.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:13:20,089 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-03 05:13:21,493 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=168987.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 05:13:26,023 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=168991.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:13:32,731 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6051, 1.4272, 1.4218, 2.1547, 1.7063, 1.9546, 2.0687, 1.6313],
+       device='cuda:2'), covar=tensor([0.0931, 0.1024, 0.1148, 0.0792, 0.0903, 0.0803, 0.0844, 0.0778],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0224, 0.0226, 0.0239, 0.0226, 0.0214, 0.0189, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 05:14:05,076 INFO [train.py:903] (2/4) Epoch 25, batch 5150, loss[loss=0.1606, simple_loss=0.2495, pruned_loss=0.03588, over 19845.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.2834, pruned_loss=0.06088, over 3832951.27 frames. ], batch size: 52, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:14:16,409 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-03 05:14:24,673 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0877, 5.5209, 3.4194, 4.8979, 0.7982, 5.7406, 5.4971, 5.7305],
+       device='cuda:2'), covar=tensor([0.0408, 0.0869, 0.1567, 0.0743, 0.4391, 0.0479, 0.0807, 0.0978],
+       device='cuda:2'), in_proj_covar=tensor([0.0524, 0.0427, 0.0511, 0.0358, 0.0412, 0.0454, 0.0446, 0.0477],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:14:48,108 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.896e+02 5.295e+02 6.704e+02 8.101e+02 2.101e+03, threshold=1.341e+03, percent-clipped=6.0
+2023-04-03 05:14:52,534 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 05:15:08,237 INFO [train.py:903] (2/4) Epoch 25, batch 5200, loss[loss=0.2018, simple_loss=0.288, pruned_loss=0.05776, over 19094.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2829, pruned_loss=0.06065, over 3841125.07 frames. ], batch size: 69, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:15:23,490 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-03 05:15:44,123 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=169100.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:16:08,669 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-03 05:16:13,023 INFO [train.py:903] (2/4) Epoch 25, batch 5250, loss[loss=0.1729, simple_loss=0.2694, pruned_loss=0.0382, over 19675.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2821, pruned_loss=0.06016, over 3845687.14 frames. ], batch size: 53, lr: 3.27e-03, grad_scale: 8.0
+2023-04-03 05:16:27,842 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=169134.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:16:56,981 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.150e+02 5.211e+02 5.791e+02 7.204e+02 1.532e+03, threshold=1.158e+03, percent-clipped=2.0
+2023-04-03 05:17:16,191 INFO [train.py:903] (2/4) Epoch 25, batch 5300, loss[loss=0.1887, simple_loss=0.2775, pruned_loss=0.0499, over 19689.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.283, pruned_loss=0.06037, over 3850942.34 frames. ], batch size: 59, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:17:22,417 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=169177.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:17:34,462 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-03 05:18:18,931 INFO [train.py:903] (2/4) Epoch 25, batch 5350, loss[loss=0.2193, simple_loss=0.302, pruned_loss=0.0683, over 19472.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2832, pruned_loss=0.06075, over 3838162.72 frames. ], batch size: 64, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:18:56,420 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-03 05:19:04,353 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.964e+02 4.992e+02 6.506e+02 8.048e+02 1.510e+03, threshold=1.301e+03, percent-clipped=6.0
+2023-04-03 05:19:07,159 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8154, 4.9322, 5.6114, 5.5846, 1.9909, 5.3156, 4.4360, 5.2835],
+       device='cuda:2'), covar=tensor([0.1746, 0.1164, 0.0581, 0.0680, 0.6474, 0.0904, 0.0673, 0.1147],
+       device='cuda:2'), in_proj_covar=tensor([0.0805, 0.0774, 0.0978, 0.0861, 0.0850, 0.0741, 0.0583, 0.0909],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 05:19:24,345 INFO [train.py:903] (2/4) Epoch 25, batch 5400, loss[loss=0.1756, simple_loss=0.261, pruned_loss=0.04507, over 19836.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2833, pruned_loss=0.06065, over 3824801.35 frames. ], batch size: 52, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:19:38,039 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.09 vs. limit=5.0
+2023-04-03 05:19:38,766 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6361, 2.6660, 2.1338, 2.7485, 2.6258, 2.2312, 2.1240, 2.4739],
+       device='cuda:2'), covar=tensor([0.0999, 0.1443, 0.1436, 0.0962, 0.1260, 0.0533, 0.1449, 0.0712],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0355, 0.0313, 0.0251, 0.0302, 0.0254, 0.0314, 0.0259],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:20:27,247 INFO [train.py:903] (2/4) Epoch 25, batch 5450, loss[loss=0.2596, simple_loss=0.3264, pruned_loss=0.09636, over 19684.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2835, pruned_loss=0.06032, over 3838761.83 frames. ], batch size: 60, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:20:33,629 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.37 vs. limit=5.0
+2023-04-03 05:20:36,088 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-03 05:20:36,594 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=169329.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:20:39,947 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=169331.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 05:20:46,767 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2021, 2.0893, 2.0301, 1.8697, 1.6975, 1.8848, 0.9086, 1.3541],
+       device='cuda:2'), covar=tensor([0.0643, 0.0680, 0.0483, 0.0822, 0.1041, 0.0868, 0.1302, 0.1018],
+       device='cuda:2'), in_proj_covar=tensor([0.0364, 0.0363, 0.0364, 0.0391, 0.0467, 0.0399, 0.0344, 0.0346],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 05:20:50,641 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
+2023-04-03 05:21:11,467 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.767e+02 4.467e+02 5.289e+02 7.172e+02 1.661e+03, threshold=1.058e+03, percent-clipped=2.0
+2023-04-03 05:21:29,438 INFO [train.py:903] (2/4) Epoch 25, batch 5500, loss[loss=0.235, simple_loss=0.3055, pruned_loss=0.08227, over 19519.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2838, pruned_loss=0.06043, over 3839715.07 frames. ], batch size: 56, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:21:57,690 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-03 05:22:24,189 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-03 05:22:33,001 INFO [train.py:903] (2/4) Epoch 25, batch 5550, loss[loss=0.1926, simple_loss=0.285, pruned_loss=0.05011, over 17969.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2846, pruned_loss=0.06082, over 3836799.25 frames. ], batch size: 83, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:22:43,807 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-03 05:23:01,518 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=169444.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:23:01,734 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=169444.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:23:04,035 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=169446.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 05:23:17,166 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.302e+02 5.192e+02 6.082e+02 7.576e+02 1.216e+03, threshold=1.216e+03, percent-clipped=3.0
+2023-04-03 05:23:33,237 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-03 05:23:36,948 INFO [train.py:903] (2/4) Epoch 25, batch 5600, loss[loss=0.1988, simple_loss=0.2881, pruned_loss=0.0547, over 19341.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2841, pruned_loss=0.06075, over 3828932.56 frames. ], batch size: 66, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:23:44,269 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=169478.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:24:38,816 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=169521.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:24:39,769 INFO [train.py:903] (2/4) Epoch 25, batch 5650, loss[loss=0.2364, simple_loss=0.3118, pruned_loss=0.08054, over 19563.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2842, pruned_loss=0.06065, over 3828935.69 frames. ], batch size: 61, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:25:24,921 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.766e+02 4.961e+02 6.158e+02 8.288e+02 1.627e+03, threshold=1.232e+03, percent-clipped=5.0
+2023-04-03 05:25:27,543 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=169559.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:25:30,456 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-03 05:25:37,646 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6633, 1.4912, 1.5366, 2.1268, 1.5742, 2.0382, 2.0447, 1.6887],
+       device='cuda:2'), covar=tensor([0.0865, 0.0960, 0.0989, 0.0751, 0.0854, 0.0717, 0.0774, 0.0701],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0222, 0.0225, 0.0238, 0.0225, 0.0212, 0.0188, 0.0203],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0004],
+       device='cuda:2')
+2023-04-03 05:25:43,204 INFO [train.py:903] (2/4) Epoch 25, batch 5700, loss[loss=0.1909, simple_loss=0.2627, pruned_loss=0.0596, over 19750.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2839, pruned_loss=0.06143, over 3807137.51 frames. ], batch size: 46, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:26:11,300 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=169593.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:26:11,677 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.70 vs. limit=2.0
+2023-04-03 05:26:12,797 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.30 vs. limit=5.0
+2023-04-03 05:26:22,656 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.43 vs. limit=2.0
+2023-04-03 05:26:29,628 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9407, 2.0420, 2.2980, 2.5771, 2.0003, 2.4284, 2.3112, 2.0679],
+       device='cuda:2'), covar=tensor([0.4039, 0.3606, 0.1844, 0.2359, 0.3852, 0.2054, 0.4579, 0.3278],
+       device='cuda:2'), in_proj_covar=tensor([0.0920, 0.0995, 0.0730, 0.0942, 0.0898, 0.0833, 0.0853, 0.0795],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 05:26:47,655 INFO [train.py:903] (2/4) Epoch 25, batch 5750, loss[loss=0.2102, simple_loss=0.2926, pruned_loss=0.0639, over 17032.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.283, pruned_loss=0.06098, over 3797391.80 frames. ], batch size: 101, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:26:48,834 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-03 05:26:59,202 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-03 05:27:04,009 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-03 05:27:06,660 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=169636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:27:09,118 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2125, 1.2630, 1.6585, 1.2921, 2.7363, 3.6923, 3.3636, 3.8058],
+       device='cuda:2'), covar=tensor([0.1643, 0.3979, 0.3620, 0.2616, 0.0620, 0.0193, 0.0227, 0.0276],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0326, 0.0356, 0.0267, 0.0248, 0.0192, 0.0217, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 05:27:10,230 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=169639.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:27:32,987 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.159e+02 4.765e+02 5.968e+02 8.362e+02 1.575e+03, threshold=1.194e+03, percent-clipped=5.0
+2023-04-03 05:27:52,461 INFO [train.py:903] (2/4) Epoch 25, batch 5800, loss[loss=0.1617, simple_loss=0.2449, pruned_loss=0.03929, over 19760.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2833, pruned_loss=0.06106, over 3813726.13 frames. ], batch size: 47, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:28:20,527 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9866, 1.1606, 1.5968, 0.6577, 2.1010, 2.4801, 2.1423, 2.5777],
+       device='cuda:2'), covar=tensor([0.1561, 0.3828, 0.3374, 0.2705, 0.0604, 0.0278, 0.0344, 0.0387],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0326, 0.0357, 0.0267, 0.0248, 0.0192, 0.0217, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 05:28:27,917 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=169700.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:28:30,493 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=169702.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 05:28:55,613 INFO [train.py:903] (2/4) Epoch 25, batch 5850, loss[loss=0.1899, simple_loss=0.2786, pruned_loss=0.0506, over 19679.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2826, pruned_loss=0.06053, over 3826571.15 frames. ], batch size: 60, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:29:00,347 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=169725.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:29:02,811 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=169727.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 05:29:08,737 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4429, 1.4592, 1.6683, 1.6684, 2.3310, 2.1708, 2.2817, 1.0498],
+       device='cuda:2'), covar=tensor([0.2640, 0.4579, 0.2796, 0.2057, 0.1535, 0.2238, 0.1534, 0.4663],
+       device='cuda:2'), in_proj_covar=tensor([0.0548, 0.0663, 0.0736, 0.0501, 0.0630, 0.0542, 0.0668, 0.0565],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 05:29:28,407 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=169747.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:29:41,211 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.382e+02 5.003e+02 6.037e+02 8.413e+02 1.989e+03, threshold=1.207e+03, percent-clipped=6.0
+2023-04-03 05:29:51,797 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=169765.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:29:59,831 INFO [train.py:903] (2/4) Epoch 25, batch 5900, loss[loss=0.1742, simple_loss=0.2613, pruned_loss=0.04359, over 19576.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2844, pruned_loss=0.06159, over 3822072.73 frames. ], batch size: 52, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:30:04,541 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-03 05:30:27,861 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-03 05:30:42,274 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=169804.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:30:56,641 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=169815.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:31:04,213 INFO [train.py:903] (2/4) Epoch 25, batch 5950, loss[loss=0.1978, simple_loss=0.2852, pruned_loss=0.05518, over 19735.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2846, pruned_loss=0.06159, over 3832582.88 frames. ], batch size: 63, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:31:28,354 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=169840.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:31:39,967 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=169849.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:31:49,609 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.314e+02 4.837e+02 6.128e+02 7.395e+02 1.765e+03, threshold=1.226e+03, percent-clipped=3.0
+2023-04-03 05:32:09,283 INFO [train.py:903] (2/4) Epoch 25, batch 6000, loss[loss=0.2025, simple_loss=0.2675, pruned_loss=0.06881, over 19769.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.285, pruned_loss=0.06192, over 3825894.23 frames. ], batch size: 47, lr: 3.26e-03, grad_scale: 8.0
+2023-04-03 05:32:09,283 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 05:32:21,940 INFO [train.py:937] (2/4) Epoch 25, validation: loss=0.1675, simple_loss=0.2674, pruned_loss=0.03383, over 944034.00 frames. 
+2023-04-03 05:32:21,941 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 05:32:25,714 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=169874.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:32:27,349 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.58 vs. limit=5.0
+2023-04-03 05:32:48,291 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=169892.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:32:57,510 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5535, 1.2606, 1.1648, 1.3618, 1.1806, 1.2303, 1.0623, 1.3583],
+       device='cuda:2'), covar=tensor([0.1247, 0.1255, 0.1861, 0.1167, 0.1381, 0.0865, 0.2030, 0.1027],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0354, 0.0312, 0.0252, 0.0302, 0.0254, 0.0314, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:33:03,264 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2060, 2.0932, 1.8701, 2.1590, 2.0384, 1.8861, 1.6995, 2.0893],
+       device='cuda:2'), covar=tensor([0.1017, 0.1465, 0.1387, 0.1047, 0.1361, 0.0532, 0.1544, 0.0700],
+       device='cuda:2'), in_proj_covar=tensor([0.0274, 0.0355, 0.0313, 0.0252, 0.0302, 0.0254, 0.0314, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:33:20,610 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=169917.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:33:26,967 INFO [train.py:903] (2/4) Epoch 25, batch 6050, loss[loss=0.17, simple_loss=0.2476, pruned_loss=0.04623, over 19732.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2844, pruned_loss=0.06149, over 3830176.52 frames. ], batch size: 46, lr: 3.26e-03, grad_scale: 4.0
+2023-04-03 05:34:12,785 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.356e+02 4.971e+02 6.200e+02 7.955e+02 1.563e+03, threshold=1.240e+03, percent-clipped=4.0
+2023-04-03 05:34:30,151 INFO [train.py:903] (2/4) Epoch 25, batch 6100, loss[loss=0.1872, simple_loss=0.2748, pruned_loss=0.04983, over 19604.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2845, pruned_loss=0.06168, over 3816805.12 frames. ], batch size: 57, lr: 3.26e-03, grad_scale: 4.0
+2023-04-03 05:34:44,071 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=169983.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:35:19,630 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 05:35:35,274 INFO [train.py:903] (2/4) Epoch 25, batch 6150, loss[loss=0.2191, simple_loss=0.3006, pruned_loss=0.06875, over 17467.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.285, pruned_loss=0.06173, over 3817610.11 frames. ], batch size: 101, lr: 3.26e-03, grad_scale: 4.0
+2023-04-03 05:35:40,541 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4863, 1.5820, 1.7517, 1.7165, 2.2565, 2.2072, 2.3425, 0.9501],
+       device='cuda:2'), covar=tensor([0.2470, 0.4435, 0.2860, 0.1958, 0.1650, 0.2162, 0.1428, 0.4763],
+       device='cuda:2'), in_proj_covar=tensor([0.0546, 0.0663, 0.0737, 0.0500, 0.0630, 0.0541, 0.0666, 0.0564],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 05:36:07,472 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-03 05:36:22,372 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.332e+02 4.967e+02 5.743e+02 7.363e+02 2.013e+03, threshold=1.149e+03, percent-clipped=2.0
+2023-04-03 05:36:28,742 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=170063.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:36:40,354 INFO [train.py:903] (2/4) Epoch 25, batch 6200, loss[loss=0.2255, simple_loss=0.3047, pruned_loss=0.07312, over 17410.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2842, pruned_loss=0.0613, over 3813094.46 frames. ], batch size: 101, lr: 3.26e-03, grad_scale: 4.0
+2023-04-03 05:37:04,430 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=170091.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:37:13,770 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=170098.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:37:26,526 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=170109.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:37:39,252 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5331, 1.2150, 1.2709, 2.0797, 1.5272, 1.6393, 1.8177, 1.3490],
+       device='cuda:2'), covar=tensor([0.0929, 0.1203, 0.1247, 0.0781, 0.0920, 0.0963, 0.0925, 0.0929],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0225, 0.0238, 0.0225, 0.0214, 0.0189, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 05:37:43,646 INFO [train.py:903] (2/4) Epoch 25, batch 6250, loss[loss=0.2539, simple_loss=0.3171, pruned_loss=0.09535, over 12993.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2849, pruned_loss=0.06154, over 3811276.95 frames. ], batch size: 135, lr: 3.26e-03, grad_scale: 4.0
+2023-04-03 05:38:16,038 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-03 05:38:16,216 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=170148.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:38:29,526 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.163e+02 5.199e+02 6.170e+02 7.836e+02 1.706e+03, threshold=1.234e+03, percent-clipped=7.0
+2023-04-03 05:38:47,600 INFO [train.py:903] (2/4) Epoch 25, batch 6300, loss[loss=0.2155, simple_loss=0.2955, pruned_loss=0.06778, over 19671.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2846, pruned_loss=0.06148, over 3812137.11 frames. ], batch size: 58, lr: 3.26e-03, grad_scale: 4.0
+2023-04-03 05:39:08,037 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0486, 1.9499, 1.8576, 1.6979, 1.5522, 1.7132, 0.6897, 1.1357],
+       device='cuda:2'), covar=tensor([0.0631, 0.0616, 0.0444, 0.0737, 0.1053, 0.0861, 0.1274, 0.0975],
+       device='cuda:2'), in_proj_covar=tensor([0.0362, 0.0359, 0.0362, 0.0387, 0.0463, 0.0396, 0.0341, 0.0344],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 05:39:32,219 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=170206.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:39:51,010 INFO [train.py:903] (2/4) Epoch 25, batch 6350, loss[loss=0.2265, simple_loss=0.3098, pruned_loss=0.07158, over 19789.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2839, pruned_loss=0.06089, over 3812749.09 frames. ], batch size: 56, lr: 3.25e-03, grad_scale: 4.0
+2023-04-03 05:39:53,870 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=170224.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:40:36,697 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.666e+02 4.417e+02 5.475e+02 7.140e+02 1.571e+03, threshold=1.095e+03, percent-clipped=3.0
+2023-04-03 05:40:42,957 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=170263.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:40:54,609 INFO [train.py:903] (2/4) Epoch 25, batch 6400, loss[loss=0.1797, simple_loss=0.2533, pruned_loss=0.05308, over 19780.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2827, pruned_loss=0.06019, over 3828291.01 frames. ], batch size: 47, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:41:04,241 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7445, 2.5304, 2.2940, 2.7027, 2.3566, 2.4219, 2.2783, 2.7088],
+       device='cuda:2'), covar=tensor([0.0920, 0.1688, 0.1391, 0.1004, 0.1371, 0.0497, 0.1390, 0.0638],
+       device='cuda:2'), in_proj_covar=tensor([0.0273, 0.0354, 0.0312, 0.0252, 0.0301, 0.0253, 0.0313, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:41:59,017 INFO [train.py:903] (2/4) Epoch 25, batch 6450, loss[loss=0.2233, simple_loss=0.3033, pruned_loss=0.07166, over 18743.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2826, pruned_loss=0.05979, over 3827949.49 frames. ], batch size: 74, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:42:32,624 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0966, 1.2426, 1.6487, 0.8968, 2.4006, 3.0799, 2.7917, 3.2892],
+       device='cuda:2'), covar=tensor([0.1661, 0.4068, 0.3617, 0.2831, 0.0628, 0.0242, 0.0266, 0.0329],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0330, 0.0361, 0.0269, 0.0251, 0.0193, 0.0219, 0.0271],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 05:42:40,340 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=170354.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:42:44,565 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.061e+02 4.688e+02 6.468e+02 8.318e+02 2.178e+03, threshold=1.294e+03, percent-clipped=13.0
+2023-04-03 05:42:45,698 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-03 05:43:03,215 INFO [train.py:903] (2/4) Epoch 25, batch 6500, loss[loss=0.2128, simple_loss=0.2821, pruned_loss=0.07176, over 19595.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2841, pruned_loss=0.06063, over 3832487.71 frames. ], batch size: 50, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:43:08,909 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-03 05:43:12,753 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=170379.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:43:48,148 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=170407.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:44:06,260 INFO [train.py:903] (2/4) Epoch 25, batch 6550, loss[loss=0.1941, simple_loss=0.2728, pruned_loss=0.05775, over 19769.00 frames. ], tot_loss[loss=0.203, simple_loss=0.2841, pruned_loss=0.06102, over 3837863.64 frames. ], batch size: 54, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:44:52,747 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.983e+02 4.881e+02 6.158e+02 7.799e+02 1.457e+03, threshold=1.232e+03, percent-clipped=1.0
+2023-04-03 05:44:57,804 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=170462.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:45:09,734 INFO [train.py:903] (2/4) Epoch 25, batch 6600, loss[loss=0.2012, simple_loss=0.2878, pruned_loss=0.05729, over 19778.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.2838, pruned_loss=0.06072, over 3826587.78 frames. ], batch size: 54, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:45:19,091 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=170479.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:45:20,444 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=170480.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:45:27,545 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4811, 1.4636, 1.5412, 1.6161, 1.8680, 1.9487, 1.8353, 0.6699],
+       device='cuda:2'), covar=tensor([0.2404, 0.4461, 0.2844, 0.1935, 0.1627, 0.2344, 0.1500, 0.4762],
+       device='cuda:2'), in_proj_covar=tensor([0.0547, 0.0664, 0.0738, 0.0498, 0.0628, 0.0542, 0.0667, 0.0564],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 05:45:28,742 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=170487.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:45:51,466 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=170505.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:46:09,051 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=170519.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:46:13,013 INFO [train.py:903] (2/4) Epoch 25, batch 6650, loss[loss=0.1799, simple_loss=0.2656, pruned_loss=0.04706, over 19765.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.284, pruned_loss=0.06088, over 3834554.76 frames. ], batch size: 54, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:46:13,331 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=170522.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:46:41,278 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=170544.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:46:58,415 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.718e+02 4.827e+02 5.978e+02 7.974e+02 2.215e+03, threshold=1.196e+03, percent-clipped=6.0
+2023-04-03 05:47:16,981 INFO [train.py:903] (2/4) Epoch 25, batch 6700, loss[loss=0.1693, simple_loss=0.2474, pruned_loss=0.04555, over 19726.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.2837, pruned_loss=0.06072, over 3820604.08 frames. ], batch size: 51, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:47:36,693 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=170587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:48:17,852 INFO [train.py:903] (2/4) Epoch 25, batch 6750, loss[loss=0.2192, simple_loss=0.3043, pruned_loss=0.06708, over 19549.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2845, pruned_loss=0.06099, over 3831532.30 frames. ], batch size: 64, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:48:59,810 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.047e+02 4.526e+02 5.801e+02 6.899e+02 1.670e+03, threshold=1.160e+03, percent-clipped=2.0
+2023-04-03 05:49:15,797 INFO [train.py:903] (2/4) Epoch 25, batch 6800, loss[loss=0.1792, simple_loss=0.2633, pruned_loss=0.04753, over 19748.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2835, pruned_loss=0.0604, over 3822413.95 frames. ], batch size: 51, lr: 3.25e-03, grad_scale: 8.0
+2023-04-03 05:50:02,673 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-03 05:50:03,828 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-03 05:50:07,359 INFO [train.py:903] (2/4) Epoch 26, batch 0, loss[loss=0.1719, simple_loss=0.2472, pruned_loss=0.04831, over 18140.00 frames. ], tot_loss[loss=0.1719, simple_loss=0.2472, pruned_loss=0.04831, over 18140.00 frames. ], batch size: 40, lr: 3.19e-03, grad_scale: 8.0
+2023-04-03 05:50:07,359 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 05:50:19,307 INFO [train.py:937] (2/4) Epoch 26, validation: loss=0.1673, simple_loss=0.2675, pruned_loss=0.03355, over 944034.00 frames. 
+2023-04-03 05:50:19,308 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 05:50:32,188 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-03 05:50:44,717 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9378, 4.5170, 2.7662, 3.9113, 0.8895, 4.4846, 4.3538, 4.4471],
+       device='cuda:2'), covar=tensor([0.0578, 0.0907, 0.2012, 0.0845, 0.4189, 0.0652, 0.0916, 0.1171],
+       device='cuda:2'), in_proj_covar=tensor([0.0520, 0.0424, 0.0510, 0.0357, 0.0409, 0.0450, 0.0445, 0.0475],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:51:06,032 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.69 vs. limit=5.0
+2023-04-03 05:51:20,627 INFO [train.py:903] (2/4) Epoch 26, batch 50, loss[loss=0.2017, simple_loss=0.2779, pruned_loss=0.06276, over 19793.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2806, pruned_loss=0.06154, over 876116.30 frames. ], batch size: 49, lr: 3.19e-03, grad_scale: 8.0
+2023-04-03 05:51:28,231 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1117, 1.3177, 1.6580, 1.1622, 2.4832, 3.3274, 3.0493, 3.5158],
+       device='cuda:2'), covar=tensor([0.1828, 0.4167, 0.3619, 0.2794, 0.0708, 0.0222, 0.0261, 0.0353],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0328, 0.0358, 0.0268, 0.0250, 0.0191, 0.0218, 0.0269],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 05:51:30,191 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.374e+02 5.268e+02 6.216e+02 7.845e+02 1.668e+03, threshold=1.243e+03, percent-clipped=9.0
+2023-04-03 05:51:54,950 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=170778.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:51:55,740 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-03 05:52:04,576 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.34 vs. limit=2.0
+2023-04-03 05:52:21,931 INFO [train.py:903] (2/4) Epoch 26, batch 100, loss[loss=0.2222, simple_loss=0.307, pruned_loss=0.06869, over 18236.00 frames. ], tot_loss[loss=0.2064, simple_loss=0.286, pruned_loss=0.06344, over 1522946.00 frames. ], batch size: 83, lr: 3.18e-03, grad_scale: 4.0
+2023-04-03 05:52:25,970 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=170803.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:52:32,347 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-03 05:52:50,717 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=170823.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:53:24,748 INFO [train.py:903] (2/4) Epoch 26, batch 150, loss[loss=0.2162, simple_loss=0.2957, pruned_loss=0.0684, over 13519.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2861, pruned_loss=0.0627, over 2029064.76 frames. ], batch size: 136, lr: 3.18e-03, grad_scale: 4.0
+2023-04-03 05:53:36,327 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.111e+02 4.908e+02 6.470e+02 7.917e+02 1.560e+03, threshold=1.294e+03, percent-clipped=6.0
+2023-04-03 05:54:25,496 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-03 05:54:26,701 INFO [train.py:903] (2/4) Epoch 26, batch 200, loss[loss=0.1725, simple_loss=0.2486, pruned_loss=0.0482, over 19354.00 frames. ], tot_loss[loss=0.2056, simple_loss=0.2856, pruned_loss=0.06285, over 2427300.66 frames. ], batch size: 47, lr: 3.18e-03, grad_scale: 4.0
+2023-04-03 05:55:05,060 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=170931.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:55:14,518 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=170938.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:55:24,848 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=170946.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:55:30,408 INFO [train.py:903] (2/4) Epoch 26, batch 250, loss[loss=0.1604, simple_loss=0.2416, pruned_loss=0.03961, over 19784.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2837, pruned_loss=0.06172, over 2743591.54 frames. ], batch size: 47, lr: 3.18e-03, grad_scale: 4.0
+2023-04-03 05:55:31,162 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.70 vs. limit=2.0
+2023-04-03 05:55:39,633 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4161, 2.0624, 1.6114, 1.4630, 1.8928, 1.3635, 1.4222, 1.8920],
+       device='cuda:2'), covar=tensor([0.0948, 0.0908, 0.1177, 0.0876, 0.0673, 0.1348, 0.0693, 0.0458],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0318, 0.0336, 0.0270, 0.0249, 0.0342, 0.0294, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 05:55:42,602 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.950e+02 4.848e+02 5.950e+02 8.014e+02 1.769e+03, threshold=1.190e+03, percent-clipped=1.0
+2023-04-03 05:56:34,950 INFO [train.py:903] (2/4) Epoch 26, batch 300, loss[loss=0.1792, simple_loss=0.2603, pruned_loss=0.04901, over 19681.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2835, pruned_loss=0.06138, over 2992603.74 frames. ], batch size: 53, lr: 3.18e-03, grad_scale: 4.0
+2023-04-03 05:57:34,248 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=171046.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:57:34,580 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.52 vs. limit=5.0
+2023-04-03 05:57:38,583 INFO [train.py:903] (2/4) Epoch 26, batch 350, loss[loss=0.1704, simple_loss=0.2513, pruned_loss=0.04478, over 19770.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2839, pruned_loss=0.06174, over 3179301.05 frames. ], batch size: 47, lr: 3.18e-03, grad_scale: 4.0
+2023-04-03 05:57:45,671 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 05:57:49,061 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.001e+02 4.764e+02 6.020e+02 7.720e+02 1.602e+03, threshold=1.204e+03, percent-clipped=4.0
+2023-04-03 05:58:42,167 INFO [train.py:903] (2/4) Epoch 26, batch 400, loss[loss=0.2196, simple_loss=0.3009, pruned_loss=0.0692, over 19615.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2845, pruned_loss=0.06173, over 3318388.19 frames. ], batch size: 61, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 05:58:55,406 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=171110.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 05:59:43,979 INFO [train.py:903] (2/4) Epoch 26, batch 450, loss[loss=0.2105, simple_loss=0.2982, pruned_loss=0.06146, over 19780.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2843, pruned_loss=0.06157, over 3435955.97 frames. ], batch size: 56, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 05:59:56,342 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.853e+02 5.217e+02 6.577e+02 9.059e+02 2.566e+03, threshold=1.315e+03, percent-clipped=7.0
+2023-04-03 06:00:19,593 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-03 06:00:20,829 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-03 06:00:30,532 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1353, 1.8531, 1.7599, 1.9958, 1.7700, 1.7959, 1.6327, 2.0213],
+       device='cuda:2'), covar=tensor([0.0974, 0.1366, 0.1387, 0.1056, 0.1392, 0.0559, 0.1520, 0.0703],
+       device='cuda:2'), in_proj_covar=tensor([0.0275, 0.0354, 0.0314, 0.0254, 0.0304, 0.0255, 0.0315, 0.0262],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:00:38,904 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=171194.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:00:47,728 INFO [train.py:903] (2/4) Epoch 26, batch 500, loss[loss=0.2164, simple_loss=0.2956, pruned_loss=0.06861, over 19656.00 frames. ], tot_loss[loss=0.2055, simple_loss=0.2859, pruned_loss=0.06252, over 3528312.55 frames. ], batch size: 60, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:01:05,598 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=171214.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:01:11,764 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=171219.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:01:52,225 INFO [train.py:903] (2/4) Epoch 26, batch 550, loss[loss=0.2513, simple_loss=0.3358, pruned_loss=0.08345, over 19747.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2853, pruned_loss=0.06209, over 3585110.52 frames. ], batch size: 63, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:02:03,094 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.195e+02 4.798e+02 6.471e+02 7.842e+02 1.459e+03, threshold=1.294e+03, percent-clipped=3.0
+2023-04-03 06:02:12,067 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 06:02:44,061 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=171290.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:02:55,675 INFO [train.py:903] (2/4) Epoch 26, batch 600, loss[loss=0.1976, simple_loss=0.2733, pruned_loss=0.06096, over 19613.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2847, pruned_loss=0.06208, over 3643749.98 frames. ], batch size: 50, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:02:58,486 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=171302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:03:31,082 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=171327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:03:36,404 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-03 06:03:57,550 INFO [train.py:903] (2/4) Epoch 26, batch 650, loss[loss=0.2017, simple_loss=0.289, pruned_loss=0.05718, over 19673.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2856, pruned_loss=0.06247, over 3678955.65 frames. ], batch size: 58, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:04:09,344 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.689e+02 4.759e+02 5.860e+02 7.918e+02 1.260e+03, threshold=1.172e+03, percent-clipped=0.0
+2023-04-03 06:04:16,475 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=171363.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:05:01,709 INFO [train.py:903] (2/4) Epoch 26, batch 700, loss[loss=0.2279, simple_loss=0.3027, pruned_loss=0.07652, over 17562.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.2832, pruned_loss=0.06098, over 3715337.74 frames. ], batch size: 101, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:05:10,661 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=171405.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:06:08,106 INFO [train.py:903] (2/4) Epoch 26, batch 750, loss[loss=0.1645, simple_loss=0.2503, pruned_loss=0.03933, over 19522.00 frames. ], tot_loss[loss=0.203, simple_loss=0.2837, pruned_loss=0.06117, over 3728587.02 frames. ], batch size: 54, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:06:11,909 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1511, 1.2803, 1.5003, 1.4068, 2.7747, 1.1289, 2.2599, 3.0799],
+       device='cuda:2'), covar=tensor([0.0609, 0.2984, 0.3012, 0.1942, 0.0766, 0.2397, 0.1182, 0.0342],
+       device='cuda:2'), in_proj_covar=tensor([0.0420, 0.0374, 0.0394, 0.0354, 0.0379, 0.0354, 0.0392, 0.0413],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:06:12,984 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=171454.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:06:18,667 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.178e+02 5.123e+02 6.550e+02 8.686e+02 2.549e+03, threshold=1.310e+03, percent-clipped=11.0
+2023-04-03 06:07:12,529 INFO [train.py:903] (2/4) Epoch 26, batch 800, loss[loss=0.2472, simple_loss=0.3102, pruned_loss=0.09215, over 13599.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2832, pruned_loss=0.06115, over 3748638.26 frames. ], batch size: 136, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:07:25,345 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-03 06:07:32,328 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=171516.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:08:14,612 INFO [train.py:903] (2/4) Epoch 26, batch 850, loss[loss=0.1861, simple_loss=0.2826, pruned_loss=0.04477, over 19533.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2839, pruned_loss=0.06148, over 3766838.08 frames. ], batch size: 56, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:08:24,829 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=171558.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:08:25,743 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.196e+02 4.689e+02 5.699e+02 7.261e+02 1.636e+03, threshold=1.140e+03, percent-clipped=2.0
+2023-04-03 06:08:40,932 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=171569.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:09:05,332 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-03 06:09:18,250 INFO [train.py:903] (2/4) Epoch 26, batch 900, loss[loss=0.2038, simple_loss=0.288, pruned_loss=0.05979, over 19512.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2847, pruned_loss=0.06202, over 3766005.22 frames. ], batch size: 56, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:10:17,079 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.79 vs. limit=5.0
+2023-04-03 06:10:22,183 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-03 06:10:23,376 INFO [train.py:903] (2/4) Epoch 26, batch 950, loss[loss=0.2056, simple_loss=0.2855, pruned_loss=0.06283, over 19679.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.284, pruned_loss=0.06176, over 3768440.98 frames. ], batch size: 60, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:10:34,905 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.376e+02 5.213e+02 6.211e+02 8.451e+02 1.981e+03, threshold=1.242e+03, percent-clipped=10.0
+2023-04-03 06:10:37,597 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=171661.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:10:45,921 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4944, 2.1403, 1.7278, 1.3448, 2.0690, 1.2792, 1.3134, 1.9789],
+       device='cuda:2'), covar=tensor([0.0893, 0.0711, 0.0878, 0.0994, 0.0472, 0.1273, 0.0699, 0.0400],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0318, 0.0337, 0.0270, 0.0250, 0.0343, 0.0295, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:10:51,832 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=171673.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:11:00,282 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9064, 2.0369, 1.4523, 1.8777, 1.9028, 1.5260, 1.5119, 1.7816],
+       device='cuda:2'), covar=tensor([0.1295, 0.1520, 0.2030, 0.1358, 0.1496, 0.1004, 0.2042, 0.1071],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0354, 0.0314, 0.0254, 0.0305, 0.0254, 0.0315, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:11:09,439 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=171686.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:11:27,624 INFO [train.py:903] (2/4) Epoch 26, batch 1000, loss[loss=0.2181, simple_loss=0.2968, pruned_loss=0.06971, over 19651.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2847, pruned_loss=0.0622, over 3773231.68 frames. ], batch size: 55, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:11:36,116 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=171707.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:12:19,816 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-03 06:12:31,849 INFO [train.py:903] (2/4) Epoch 26, batch 1050, loss[loss=0.1707, simple_loss=0.2508, pruned_loss=0.04532, over 19427.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2857, pruned_loss=0.06222, over 3775183.37 frames. ], batch size: 48, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:12:42,471 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.548e+02 5.465e+02 6.383e+02 7.807e+02 1.569e+03, threshold=1.277e+03, percent-clipped=7.0
+2023-04-03 06:12:49,996 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.58 vs. limit=2.0
+2023-04-03 06:13:01,877 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-03 06:13:34,467 INFO [train.py:903] (2/4) Epoch 26, batch 1100, loss[loss=0.1831, simple_loss=0.2521, pruned_loss=0.05707, over 19766.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2848, pruned_loss=0.06204, over 3790110.23 frames. ], batch size: 46, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:14:05,464 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=171822.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:14:09,085 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=171825.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:14:40,977 INFO [train.py:903] (2/4) Epoch 26, batch 1150, loss[loss=0.1714, simple_loss=0.2522, pruned_loss=0.04526, over 19752.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2846, pruned_loss=0.06198, over 3783425.20 frames. ], batch size: 51, lr: 3.18e-03, grad_scale: 8.0
+2023-04-03 06:14:41,488 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=171850.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:14:54,273 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.309e+02 5.298e+02 6.784e+02 8.276e+02 1.649e+03, threshold=1.357e+03, percent-clipped=5.0
+2023-04-03 06:14:55,524 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=171860.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:15:46,145 INFO [train.py:903] (2/4) Epoch 26, batch 1200, loss[loss=0.1711, simple_loss=0.2447, pruned_loss=0.0488, over 19719.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2851, pruned_loss=0.06204, over 3796777.38 frames. ], batch size: 46, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:16:12,779 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-03 06:16:22,261 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=171929.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:16:29,762 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
+2023-04-03 06:16:48,466 INFO [train.py:903] (2/4) Epoch 26, batch 1250, loss[loss=0.2471, simple_loss=0.3294, pruned_loss=0.08242, over 19799.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2847, pruned_loss=0.06194, over 3813962.94 frames. ], batch size: 56, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:16:53,712 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=171954.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:16:54,767 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=171955.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:16:58,916 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.249e+02 5.182e+02 6.196e+02 7.754e+02 1.405e+03, threshold=1.239e+03, percent-clipped=1.0
+2023-04-03 06:17:21,603 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=171975.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:17:51,745 INFO [train.py:903] (2/4) Epoch 26, batch 1300, loss[loss=0.1691, simple_loss=0.2435, pruned_loss=0.04734, over 18581.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2838, pruned_loss=0.06129, over 3818231.03 frames. ], batch size: 41, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:18:56,742 INFO [train.py:903] (2/4) Epoch 26, batch 1350, loss[loss=0.2169, simple_loss=0.2943, pruned_loss=0.06977, over 19005.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.284, pruned_loss=0.06149, over 3824145.59 frames. ], batch size: 75, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:18:59,455 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8448, 3.5115, 2.5128, 3.1115, 1.0891, 3.4611, 3.3375, 3.3938],
+       device='cuda:2'), covar=tensor([0.0891, 0.1021, 0.1970, 0.0936, 0.3502, 0.0852, 0.1031, 0.1404],
+       device='cuda:2'), in_proj_covar=tensor([0.0521, 0.0423, 0.0510, 0.0357, 0.0409, 0.0449, 0.0444, 0.0475],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:19:09,254 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.73 vs. limit=2.0
+2023-04-03 06:19:09,467 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.423e+02 5.487e+02 6.725e+02 8.152e+02 1.378e+03, threshold=1.345e+03, percent-clipped=4.0
+2023-04-03 06:19:16,128 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.72 vs. limit=2.0
+2023-04-03 06:19:25,571 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4764, 2.3190, 2.0994, 2.5122, 2.3141, 2.1548, 1.9773, 2.4508],
+       device='cuda:2'), covar=tensor([0.1095, 0.1754, 0.1523, 0.1324, 0.1481, 0.0565, 0.1525, 0.0765],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0357, 0.0318, 0.0256, 0.0308, 0.0256, 0.0318, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:19:34,006 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=172078.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:20:01,381 INFO [train.py:903] (2/4) Epoch 26, batch 1400, loss[loss=0.2225, simple_loss=0.3027, pruned_loss=0.07113, over 19670.00 frames. ], tot_loss[loss=0.2041, simple_loss=0.2848, pruned_loss=0.06173, over 3828802.94 frames. ], batch size: 60, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:20:07,088 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=172103.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:20:47,866 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=172136.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:21:05,097 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-03 06:21:06,113 INFO [train.py:903] (2/4) Epoch 26, batch 1450, loss[loss=0.2101, simple_loss=0.2801, pruned_loss=0.07007, over 19430.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.2834, pruned_loss=0.06094, over 3836123.94 frames. ], batch size: 48, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:21:16,558 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.245e+02 4.778e+02 6.066e+02 7.310e+02 2.231e+03, threshold=1.213e+03, percent-clipped=2.0
+2023-04-03 06:21:22,856 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4508, 1.4458, 1.6723, 1.6555, 2.2256, 2.1001, 2.3360, 0.9169],
+       device='cuda:2'), covar=tensor([0.2624, 0.4587, 0.2832, 0.2066, 0.1669, 0.2271, 0.1543, 0.5054],
+       device='cuda:2'), in_proj_covar=tensor([0.0548, 0.0662, 0.0740, 0.0500, 0.0630, 0.0541, 0.0667, 0.0565],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 06:22:09,963 INFO [train.py:903] (2/4) Epoch 26, batch 1500, loss[loss=0.1951, simple_loss=0.2619, pruned_loss=0.06419, over 19752.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2836, pruned_loss=0.06089, over 3835225.74 frames. ], batch size: 46, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:22:33,622 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9022, 4.4498, 2.6372, 3.8314, 0.9322, 4.4727, 4.3428, 4.4407],
+       device='cuda:2'), covar=tensor([0.0546, 0.0955, 0.2113, 0.0891, 0.4058, 0.0602, 0.0924, 0.1102],
+       device='cuda:2'), in_proj_covar=tensor([0.0522, 0.0425, 0.0513, 0.0358, 0.0410, 0.0452, 0.0446, 0.0476],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:22:51,477 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=172231.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:23:14,780 INFO [train.py:903] (2/4) Epoch 26, batch 1550, loss[loss=0.2153, simple_loss=0.2912, pruned_loss=0.06969, over 19844.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2839, pruned_loss=0.06083, over 3835029.79 frames. ], batch size: 52, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:23:23,367 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=172256.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:23:26,540 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.787e+02 4.585e+02 5.725e+02 7.044e+02 1.122e+03, threshold=1.145e+03, percent-clipped=0.0
+2023-04-03 06:23:59,162 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8018, 1.1451, 1.4450, 1.4855, 3.1370, 1.2149, 2.6257, 3.7001],
+       device='cuda:2'), covar=tensor([0.0628, 0.3872, 0.3423, 0.2470, 0.1105, 0.3065, 0.1358, 0.0376],
+       device='cuda:2'), in_proj_covar=tensor([0.0420, 0.0374, 0.0395, 0.0354, 0.0380, 0.0354, 0.0393, 0.0414],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:24:17,371 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=172299.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:24:18,409 INFO [train.py:903] (2/4) Epoch 26, batch 1600, loss[loss=0.1904, simple_loss=0.2717, pruned_loss=0.0546, over 19465.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2846, pruned_loss=0.06118, over 3827727.97 frames. ], batch size: 49, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:24:30,665 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-03 06:24:45,059 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-03 06:24:49,268 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0918, 3.3084, 1.8764, 2.0722, 2.9610, 1.6813, 1.4335, 2.3980],
+       device='cuda:2'), covar=tensor([0.1534, 0.0815, 0.1173, 0.0940, 0.0577, 0.1359, 0.1150, 0.0656],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0320, 0.0340, 0.0272, 0.0251, 0.0345, 0.0294, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:25:22,900 INFO [train.py:903] (2/4) Epoch 26, batch 1650, loss[loss=0.253, simple_loss=0.328, pruned_loss=0.08902, over 19603.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2857, pruned_loss=0.06173, over 3802414.00 frames. ], batch size: 57, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:25:32,979 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.237e+02 4.806e+02 6.116e+02 7.815e+02 1.931e+03, threshold=1.223e+03, percent-clipped=6.0
+2023-04-03 06:26:24,993 INFO [train.py:903] (2/4) Epoch 26, batch 1700, loss[loss=0.1637, simple_loss=0.2531, pruned_loss=0.03719, over 19714.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2856, pruned_loss=0.0619, over 3810309.69 frames. ], batch size: 51, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:26:27,918 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-03 06:26:43,105 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=172414.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:27:07,067 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-03 06:27:27,216 INFO [train.py:903] (2/4) Epoch 26, batch 1750, loss[loss=0.1911, simple_loss=0.2863, pruned_loss=0.04789, over 19765.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2851, pruned_loss=0.06169, over 3821959.18 frames. ], batch size: 56, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:27:39,752 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.268e+02 4.883e+02 5.717e+02 7.034e+02 1.807e+03, threshold=1.143e+03, percent-clipped=3.0
+2023-04-03 06:27:52,738 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7056, 1.6369, 1.5937, 2.1962, 1.6682, 1.9012, 1.9750, 1.8051],
+       device='cuda:2'), covar=tensor([0.0859, 0.0934, 0.1044, 0.0798, 0.0904, 0.0803, 0.0882, 0.0681],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0227, 0.0240, 0.0226, 0.0214, 0.0190, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 06:28:06,464 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=172480.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:28:09,159 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3254, 1.3103, 1.8061, 1.3482, 2.7976, 3.7318, 3.4652, 3.9619],
+       device='cuda:2'), covar=tensor([0.1543, 0.3866, 0.3291, 0.2480, 0.0588, 0.0187, 0.0210, 0.0267],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0330, 0.0361, 0.0270, 0.0252, 0.0193, 0.0219, 0.0270],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 06:28:26,586 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4183, 4.0356, 2.6081, 3.5477, 0.7668, 3.9708, 3.8949, 3.9128],
+       device='cuda:2'), covar=tensor([0.0601, 0.0927, 0.2041, 0.0896, 0.4016, 0.0720, 0.0873, 0.1183],
+       device='cuda:2'), in_proj_covar=tensor([0.0518, 0.0420, 0.0507, 0.0355, 0.0406, 0.0447, 0.0441, 0.0472],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:28:32,019 INFO [train.py:903] (2/4) Epoch 26, batch 1800, loss[loss=0.2108, simple_loss=0.28, pruned_loss=0.0708, over 19729.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.286, pruned_loss=0.06186, over 3825401.73 frames. ], batch size: 51, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:29:31,743 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-03 06:29:36,215 INFO [train.py:903] (2/4) Epoch 26, batch 1850, loss[loss=0.2231, simple_loss=0.3067, pruned_loss=0.06972, over 19485.00 frames. ], tot_loss[loss=0.2056, simple_loss=0.2866, pruned_loss=0.06224, over 3825971.20 frames. ], batch size: 64, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:29:46,981 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.860e+02 4.880e+02 5.794e+02 7.257e+02 1.575e+03, threshold=1.159e+03, percent-clipped=2.0
+2023-04-03 06:30:11,358 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-03 06:30:20,692 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.7443, 5.2829, 3.0661, 4.6433, 1.4565, 5.2853, 5.1872, 5.2766],
+       device='cuda:2'), covar=tensor([0.0380, 0.0697, 0.1813, 0.0705, 0.3460, 0.0530, 0.0736, 0.1124],
+       device='cuda:2'), in_proj_covar=tensor([0.0521, 0.0423, 0.0511, 0.0357, 0.0407, 0.0450, 0.0443, 0.0475],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:30:34,188 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=172595.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:30:39,847 INFO [train.py:903] (2/4) Epoch 26, batch 1900, loss[loss=0.2446, simple_loss=0.3268, pruned_loss=0.08118, over 19599.00 frames. ], tot_loss[loss=0.2057, simple_loss=0.2873, pruned_loss=0.06208, over 3828737.32 frames. ], batch size: 61, lr: 3.17e-03, grad_scale: 4.0
+2023-04-03 06:30:59,244 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-03 06:31:01,796 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=172616.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:31:05,070 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-03 06:31:23,028 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9105, 5.0046, 5.7100, 5.7524, 1.8101, 5.3727, 4.5532, 5.3486],
+       device='cuda:2'), covar=tensor([0.1959, 0.0997, 0.0626, 0.0698, 0.7046, 0.1006, 0.0697, 0.1456],
+       device='cuda:2'), in_proj_covar=tensor([0.0806, 0.0774, 0.0978, 0.0859, 0.0852, 0.0745, 0.0584, 0.0906],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 06:31:30,015 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-03 06:31:36,117 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=172643.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:31:44,206 INFO [train.py:903] (2/4) Epoch 26, batch 1950, loss[loss=0.1674, simple_loss=0.2566, pruned_loss=0.03906, over 19851.00 frames. ], tot_loss[loss=0.2063, simple_loss=0.2877, pruned_loss=0.06247, over 3807880.47 frames. ], batch size: 52, lr: 3.17e-03, grad_scale: 4.0
+2023-04-03 06:31:57,689 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.017e+02 5.105e+02 6.247e+02 7.487e+02 1.872e+03, threshold=1.249e+03, percent-clipped=7.0
+2023-04-03 06:32:12,282 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=172670.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:32:43,437 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=172695.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:32:48,412 INFO [train.py:903] (2/4) Epoch 26, batch 2000, loss[loss=0.2473, simple_loss=0.3208, pruned_loss=0.08688, over 19663.00 frames. ], tot_loss[loss=0.2062, simple_loss=0.2874, pruned_loss=0.0625, over 3806621.08 frames. ], batch size: 58, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:33:14,448 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 06:33:39,975 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.2246, 5.2907, 6.0691, 6.0792, 2.1441, 5.6706, 4.7883, 5.7424],
+       device='cuda:2'), covar=tensor([0.1787, 0.0748, 0.0601, 0.0617, 0.6286, 0.0829, 0.0634, 0.1187],
+       device='cuda:2'), in_proj_covar=tensor([0.0803, 0.0774, 0.0978, 0.0859, 0.0852, 0.0744, 0.0584, 0.0905],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 06:33:46,785 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-03 06:33:51,652 INFO [train.py:903] (2/4) Epoch 26, batch 2050, loss[loss=0.1956, simple_loss=0.2843, pruned_loss=0.05346, over 19694.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.2867, pruned_loss=0.06261, over 3798710.85 frames. ], batch size: 59, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:33:55,260 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=172752.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:34:03,946 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.396e+02 5.217e+02 6.186e+02 8.512e+02 2.102e+03, threshold=1.237e+03, percent-clipped=6.0
+2023-04-03 06:34:06,463 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-03 06:34:07,806 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-03 06:34:27,707 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-03 06:34:54,268 INFO [train.py:903] (2/4) Epoch 26, batch 2100, loss[loss=0.2123, simple_loss=0.2859, pruned_loss=0.06928, over 19628.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2866, pruned_loss=0.06274, over 3807454.32 frames. ], batch size: 50, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:35:25,172 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-03 06:35:47,316 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-03 06:35:56,681 INFO [train.py:903] (2/4) Epoch 26, batch 2150, loss[loss=0.2128, simple_loss=0.2931, pruned_loss=0.06625, over 19571.00 frames. ], tot_loss[loss=0.2059, simple_loss=0.2863, pruned_loss=0.06278, over 3803036.49 frames. ], batch size: 61, lr: 3.17e-03, grad_scale: 8.0
+2023-04-03 06:35:58,259 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=172851.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:36:02,870 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9312, 1.5470, 1.8352, 1.6841, 4.4484, 1.1918, 2.7490, 4.8325],
+       device='cuda:2'), covar=tensor([0.0541, 0.2909, 0.2856, 0.2138, 0.0786, 0.2665, 0.1388, 0.0195],
+       device='cuda:2'), in_proj_covar=tensor([0.0417, 0.0371, 0.0392, 0.0351, 0.0378, 0.0352, 0.0389, 0.0410],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:36:10,067 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.604e+02 4.749e+02 6.121e+02 8.086e+02 1.727e+03, threshold=1.224e+03, percent-clipped=6.0
+2023-04-03 06:36:14,795 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=172863.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:36:21,394 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
+2023-04-03 06:36:31,107 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=172876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:36:59,981 INFO [train.py:903] (2/4) Epoch 26, batch 2200, loss[loss=0.191, simple_loss=0.2807, pruned_loss=0.05067, over 19673.00 frames. ], tot_loss[loss=0.2061, simple_loss=0.2868, pruned_loss=0.06276, over 3797694.00 frames. ], batch size: 53, lr: 3.17e-03, grad_scale: 4.0
+2023-04-03 06:38:04,012 INFO [train.py:903] (2/4) Epoch 26, batch 2250, loss[loss=0.1615, simple_loss=0.2447, pruned_loss=0.03915, over 19782.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.286, pruned_loss=0.06227, over 3793417.51 frames. ], batch size: 47, lr: 3.16e-03, grad_scale: 4.0
+2023-04-03 06:38:16,963 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=172960.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:38:17,987 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.182e+02 4.806e+02 5.924e+02 7.729e+02 1.368e+03, threshold=1.185e+03, percent-clipped=2.0
+2023-04-03 06:38:51,880 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=172987.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:39:07,874 INFO [train.py:903] (2/4) Epoch 26, batch 2300, loss[loss=0.2086, simple_loss=0.2954, pruned_loss=0.06094, over 19778.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2855, pruned_loss=0.06198, over 3798695.41 frames. ], batch size: 56, lr: 3.16e-03, grad_scale: 4.0
+2023-04-03 06:39:13,394 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-03 06:39:19,764 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-03 06:40:11,061 INFO [train.py:903] (2/4) Epoch 26, batch 2350, loss[loss=0.1792, simple_loss=0.2531, pruned_loss=0.05264, over 19728.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2842, pruned_loss=0.06153, over 3798890.78 frames. ], batch size: 45, lr: 3.16e-03, grad_scale: 4.0
+2023-04-03 06:40:25,950 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.095e+02 5.175e+02 6.518e+02 7.971e+02 2.695e+03, threshold=1.304e+03, percent-clipped=8.0
+2023-04-03 06:40:43,736 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=173075.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:40:54,419 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-03 06:41:08,284 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=173096.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:41:10,600 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-03 06:41:14,041 INFO [train.py:903] (2/4) Epoch 26, batch 2400, loss[loss=0.237, simple_loss=0.3137, pruned_loss=0.08011, over 17425.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.284, pruned_loss=0.06129, over 3804495.64 frames. ], batch size: 101, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:41:18,192 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=173102.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:41:48,403 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0402, 1.3218, 1.6864, 1.1315, 2.4597, 3.5372, 3.2269, 3.7720],
+       device='cuda:2'), covar=tensor([0.1807, 0.3991, 0.3602, 0.2786, 0.0725, 0.0191, 0.0240, 0.0282],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0330, 0.0362, 0.0271, 0.0252, 0.0193, 0.0220, 0.0270],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 06:42:19,069 INFO [train.py:903] (2/4) Epoch 26, batch 2450, loss[loss=0.2333, simple_loss=0.319, pruned_loss=0.07384, over 18181.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2846, pruned_loss=0.06128, over 3814347.96 frames. ], batch size: 83, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:42:32,912 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.093e+02 4.972e+02 5.973e+02 7.732e+02 1.743e+03, threshold=1.195e+03, percent-clipped=3.0
+2023-04-03 06:42:41,738 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=173168.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:43:22,670 INFO [train.py:903] (2/4) Epoch 26, batch 2500, loss[loss=0.1622, simple_loss=0.2387, pruned_loss=0.04283, over 19777.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2844, pruned_loss=0.0611, over 3827763.84 frames. ], batch size: 47, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:43:24,434 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2899, 2.3587, 2.5837, 2.9253, 2.3250, 2.7959, 2.5973, 2.3647],
+       device='cuda:2'), covar=tensor([0.4147, 0.4080, 0.1820, 0.2660, 0.4405, 0.2286, 0.4629, 0.3252],
+       device='cuda:2'), in_proj_covar=tensor([0.0927, 0.1004, 0.0736, 0.0948, 0.0906, 0.0842, 0.0859, 0.0804],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 06:43:31,272 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=173207.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:43:36,119 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=173211.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:44:25,915 INFO [train.py:903] (2/4) Epoch 26, batch 2550, loss[loss=0.2095, simple_loss=0.2964, pruned_loss=0.06129, over 18230.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2847, pruned_loss=0.06119, over 3817422.94 frames. ], batch size: 83, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:44:40,258 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6130, 2.3232, 1.7055, 1.6072, 2.1586, 1.4326, 1.5932, 1.9530],
+       device='cuda:2'), covar=tensor([0.1064, 0.0776, 0.1094, 0.0831, 0.0589, 0.1235, 0.0730, 0.0595],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0317, 0.0337, 0.0269, 0.0248, 0.0341, 0.0291, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:44:40,981 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.733e+02 4.982e+02 5.984e+02 8.594e+02 2.255e+03, threshold=1.197e+03, percent-clipped=6.0
+2023-04-03 06:45:23,074 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-03 06:45:30,051 INFO [train.py:903] (2/4) Epoch 26, batch 2600, loss[loss=0.2141, simple_loss=0.2784, pruned_loss=0.07485, over 19400.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2844, pruned_loss=0.06135, over 3818877.65 frames. ], batch size: 48, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:45:59,689 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=173322.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:46:05,382 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=173327.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:46:05,478 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2766, 1.2205, 1.2611, 1.3201, 1.0415, 1.3231, 1.3595, 1.2747],
+       device='cuda:2'), covar=tensor([0.0952, 0.1057, 0.1086, 0.0708, 0.0872, 0.0894, 0.0855, 0.0848],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0226, 0.0228, 0.0242, 0.0228, 0.0214, 0.0190, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 06:46:10,010 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=173331.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:46:35,576 INFO [train.py:903] (2/4) Epoch 26, batch 2650, loss[loss=0.1949, simple_loss=0.2836, pruned_loss=0.05308, over 19746.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.285, pruned_loss=0.06178, over 3823065.11 frames. ], batch size: 63, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:46:41,873 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5740, 2.2514, 1.7393, 1.4971, 2.0819, 1.3762, 1.5431, 1.9844],
+       device='cuda:2'), covar=tensor([0.1077, 0.0901, 0.1115, 0.0851, 0.0617, 0.1332, 0.0714, 0.0536],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0316, 0.0336, 0.0269, 0.0248, 0.0340, 0.0290, 0.0272],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:46:43,090 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=173356.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:46:45,497 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=173358.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:46:49,596 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.269e+02 5.033e+02 5.962e+02 7.363e+02 1.395e+03, threshold=1.192e+03, percent-clipped=2.0
+2023-04-03 06:46:55,556 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-03 06:47:17,768 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=173383.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:47:39,162 INFO [train.py:903] (2/4) Epoch 26, batch 2700, loss[loss=0.2343, simple_loss=0.3121, pruned_loss=0.07819, over 19128.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2853, pruned_loss=0.06189, over 3817570.53 frames. ], batch size: 69, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:48:00,257 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8382, 3.3067, 3.3409, 3.3569, 1.3825, 3.2151, 2.8186, 3.1200],
+       device='cuda:2'), covar=tensor([0.1811, 0.1064, 0.0879, 0.0995, 0.5709, 0.1064, 0.0845, 0.1376],
+       device='cuda:2'), in_proj_covar=tensor([0.0806, 0.0773, 0.0978, 0.0861, 0.0856, 0.0742, 0.0584, 0.0909],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 06:48:32,602 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3342, 2.3283, 2.5815, 2.9073, 2.2986, 2.7904, 2.5151, 2.3859],
+       device='cuda:2'), covar=tensor([0.4404, 0.4287, 0.1964, 0.2825, 0.4316, 0.2301, 0.5013, 0.3295],
+       device='cuda:2'), in_proj_covar=tensor([0.0928, 0.1004, 0.0736, 0.0949, 0.0908, 0.0841, 0.0859, 0.0805],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 06:48:39,710 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.49 vs. limit=2.0
+2023-04-03 06:48:41,211 INFO [train.py:903] (2/4) Epoch 26, batch 2750, loss[loss=0.2182, simple_loss=0.2998, pruned_loss=0.06828, over 18814.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2841, pruned_loss=0.06151, over 3825660.53 frames. ], batch size: 74, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:48:54,808 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.847e+02 4.981e+02 6.163e+02 7.639e+02 1.916e+03, threshold=1.233e+03, percent-clipped=5.0
+2023-04-03 06:49:03,488 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=173467.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:49:34,144 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=173492.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:49:44,198 INFO [train.py:903] (2/4) Epoch 26, batch 2800, loss[loss=0.1699, simple_loss=0.2551, pruned_loss=0.04237, over 19851.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2836, pruned_loss=0.06134, over 3828876.36 frames. ], batch size: 52, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:49:52,993 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4871, 1.6031, 2.0144, 1.8375, 3.2424, 2.6602, 3.4194, 1.6481],
+       device='cuda:2'), covar=tensor([0.2679, 0.4664, 0.2902, 0.2020, 0.1562, 0.2134, 0.1580, 0.4456],
+       device='cuda:2'), in_proj_covar=tensor([0.0545, 0.0661, 0.0739, 0.0500, 0.0629, 0.0539, 0.0666, 0.0566],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 06:49:56,461 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=173509.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 06:49:56,869 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.75 vs. limit=5.0
+2023-04-03 06:50:00,284 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=173512.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:50:48,001 INFO [train.py:903] (2/4) Epoch 26, batch 2850, loss[loss=0.1913, simple_loss=0.2683, pruned_loss=0.05708, over 19749.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2838, pruned_loss=0.06138, over 3823766.63 frames. ], batch size: 47, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:51:01,764 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.227e+02 4.954e+02 6.202e+02 8.183e+02 1.932e+03, threshold=1.240e+03, percent-clipped=7.0
+2023-04-03 06:51:23,163 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=173578.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:51:51,093 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-03 06:51:52,160 INFO [train.py:903] (2/4) Epoch 26, batch 2900, loss[loss=0.1957, simple_loss=0.2839, pruned_loss=0.05373, over 19546.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2846, pruned_loss=0.06145, over 3822723.87 frames. ], batch size: 54, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:51:57,220 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=173603.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:52:08,006 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2433, 2.2495, 2.5588, 2.8891, 2.2601, 2.7841, 2.5830, 2.3614],
+       device='cuda:2'), covar=tensor([0.4315, 0.4074, 0.1892, 0.2701, 0.4472, 0.2248, 0.4610, 0.3224],
+       device='cuda:2'), in_proj_covar=tensor([0.0928, 0.1003, 0.0736, 0.0946, 0.0907, 0.0840, 0.0859, 0.0805],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 06:52:27,677 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=173627.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:52:34,774 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=173632.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:52:56,771 INFO [train.py:903] (2/4) Epoch 26, batch 2950, loss[loss=0.1943, simple_loss=0.2633, pruned_loss=0.06269, over 19738.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2847, pruned_loss=0.06138, over 3827355.77 frames. ], batch size: 47, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:53:10,746 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.057e+02 5.287e+02 6.719e+02 8.706e+02 2.181e+03, threshold=1.344e+03, percent-clipped=5.0
+2023-04-03 06:53:23,946 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=173671.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:53:59,609 INFO [train.py:903] (2/4) Epoch 26, batch 3000, loss[loss=0.2692, simple_loss=0.3338, pruned_loss=0.1023, over 13086.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2844, pruned_loss=0.06166, over 3813445.78 frames. ], batch size: 135, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:53:59,610 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 06:54:12,275 INFO [train.py:937] (2/4) Epoch 26, validation: loss=0.1681, simple_loss=0.2675, pruned_loss=0.03435, over 944034.00 frames. 
+2023-04-03 06:54:12,276 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 06:54:17,254 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-03 06:55:16,507 INFO [train.py:903] (2/4) Epoch 26, batch 3050, loss[loss=0.1873, simple_loss=0.2806, pruned_loss=0.04705, over 19529.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2849, pruned_loss=0.06189, over 3817324.25 frames. ], batch size: 54, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:55:30,856 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.198e+02 4.825e+02 5.950e+02 7.456e+02 1.374e+03, threshold=1.190e+03, percent-clipped=1.0
+2023-04-03 06:56:02,600 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=173786.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:56:20,053 INFO [train.py:903] (2/4) Epoch 26, batch 3100, loss[loss=0.1978, simple_loss=0.2778, pruned_loss=0.05888, over 19665.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2842, pruned_loss=0.0612, over 3831862.39 frames. ], batch size: 53, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:56:32,206 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
+2023-04-03 06:56:49,579 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.7951, 1.2077, 1.5711, 0.5770, 1.9691, 2.4052, 2.1662, 2.6141],
+       device='cuda:2'), covar=tensor([0.1772, 0.4059, 0.3474, 0.2916, 0.0689, 0.0285, 0.0341, 0.0423],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0328, 0.0361, 0.0269, 0.0252, 0.0193, 0.0218, 0.0271],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 06:57:23,190 INFO [train.py:903] (2/4) Epoch 26, batch 3150, loss[loss=0.1723, simple_loss=0.2651, pruned_loss=0.03976, over 19467.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2852, pruned_loss=0.06184, over 3819388.77 frames. ], batch size: 64, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:57:23,600 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0503, 1.2959, 1.7177, 1.0482, 2.4322, 3.3469, 3.0557, 3.5744],
+       device='cuda:2'), covar=tensor([0.1717, 0.3935, 0.3381, 0.2683, 0.0656, 0.0203, 0.0221, 0.0294],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0328, 0.0361, 0.0269, 0.0252, 0.0193, 0.0218, 0.0271],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 06:57:26,865 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=173853.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 06:57:37,140 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.975e+02 5.081e+02 6.233e+02 7.406e+02 2.417e+03, threshold=1.247e+03, percent-clipped=3.0
+2023-04-03 06:57:49,115 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-03 06:58:00,855 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-03 06:58:02,693 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8593, 4.4718, 2.8147, 3.8814, 0.9674, 4.4001, 4.2697, 4.3689],
+       device='cuda:2'), covar=tensor([0.0572, 0.0834, 0.1908, 0.0797, 0.4028, 0.0656, 0.0919, 0.1105],
+       device='cuda:2'), in_proj_covar=tensor([0.0525, 0.0426, 0.0513, 0.0359, 0.0411, 0.0451, 0.0448, 0.0476],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:58:05,096 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=173883.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:58:25,322 INFO [train.py:903] (2/4) Epoch 26, batch 3200, loss[loss=0.222, simple_loss=0.2974, pruned_loss=0.07327, over 19133.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2859, pruned_loss=0.06173, over 3831463.53 frames. ], batch size: 69, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:58:34,842 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1732, 2.0169, 1.7834, 2.0903, 1.8878, 1.7951, 1.6581, 2.0468],
+       device='cuda:2'), covar=tensor([0.0981, 0.1444, 0.1581, 0.1028, 0.1497, 0.0643, 0.1567, 0.0805],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0359, 0.0316, 0.0256, 0.0307, 0.0256, 0.0319, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:58:35,903 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=173908.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 06:59:25,966 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6543, 1.2517, 1.5205, 1.6864, 3.1987, 1.2558, 2.3322, 3.6805],
+       device='cuda:2'), covar=tensor([0.0507, 0.3081, 0.2976, 0.1824, 0.0698, 0.2458, 0.1360, 0.0235],
+       device='cuda:2'), in_proj_covar=tensor([0.0418, 0.0373, 0.0392, 0.0351, 0.0377, 0.0354, 0.0391, 0.0410],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 06:59:27,978 INFO [train.py:903] (2/4) Epoch 26, batch 3250, loss[loss=0.1888, simple_loss=0.2673, pruned_loss=0.05516, over 19841.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2854, pruned_loss=0.06152, over 3839634.97 frames. ], batch size: 52, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 06:59:42,863 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.716e+02 4.798e+02 6.185e+02 8.155e+02 2.789e+03, threshold=1.237e+03, percent-clipped=7.0
+2023-04-03 06:59:52,430 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=173968.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 07:00:01,800 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=173976.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:00:31,306 INFO [train.py:903] (2/4) Epoch 26, batch 3300, loss[loss=0.2445, simple_loss=0.3162, pruned_loss=0.08643, over 17648.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2845, pruned_loss=0.06089, over 3832668.68 frames. ], batch size: 101, lr: 3.16e-03, grad_scale: 8.0
+2023-04-03 07:00:35,707 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-03 07:00:38,079 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9850, 1.5310, 1.5705, 1.8245, 1.4671, 1.6523, 1.4728, 1.8186],
+       device='cuda:2'), covar=tensor([0.1032, 0.1434, 0.1567, 0.1059, 0.1438, 0.0609, 0.1607, 0.0777],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0358, 0.0316, 0.0256, 0.0306, 0.0256, 0.0319, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:01:14,208 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=174033.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:01:17,527 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=174035.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:01:26,005 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=174042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:01:35,842 INFO [train.py:903] (2/4) Epoch 26, batch 3350, loss[loss=0.185, simple_loss=0.2663, pruned_loss=0.05185, over 19678.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.284, pruned_loss=0.06046, over 3826349.01 frames. ], batch size: 53, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:01:49,561 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.212e+02 4.999e+02 5.843e+02 7.881e+02 1.777e+03, threshold=1.169e+03, percent-clipped=4.0
+2023-04-03 07:01:56,819 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=174067.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:02:28,210 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=174091.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:02:39,919 INFO [train.py:903] (2/4) Epoch 26, batch 3400, loss[loss=0.2403, simple_loss=0.3103, pruned_loss=0.08514, over 19612.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2856, pruned_loss=0.06146, over 3810774.60 frames. ], batch size: 61, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:03:15,050 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 07:03:41,130 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-03 07:03:42,278 INFO [train.py:903] (2/4) Epoch 26, batch 3450, loss[loss=0.191, simple_loss=0.2802, pruned_loss=0.05093, over 19700.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2857, pruned_loss=0.06164, over 3810258.10 frames. ], batch size: 59, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:03:53,276 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=174157.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:03:57,804 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.388e+02 4.666e+02 5.900e+02 7.449e+02 1.550e+03, threshold=1.180e+03, percent-clipped=6.0
+2023-04-03 07:04:02,648 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9920, 1.5389, 1.9446, 1.6044, 4.5051, 1.0928, 2.5930, 4.9756],
+       device='cuda:2'), covar=tensor([0.0488, 0.3073, 0.2819, 0.2180, 0.0820, 0.2887, 0.1522, 0.0161],
+       device='cuda:2'), in_proj_covar=tensor([0.0422, 0.0376, 0.0395, 0.0353, 0.0382, 0.0357, 0.0394, 0.0414],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:04:47,408 INFO [train.py:903] (2/4) Epoch 26, batch 3500, loss[loss=0.192, simple_loss=0.2778, pruned_loss=0.05305, over 17597.00 frames. ], tot_loss[loss=0.2041, simple_loss=0.2853, pruned_loss=0.06146, over 3813345.50 frames. ], batch size: 101, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:05:18,075 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=174224.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 07:05:49,655 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=174249.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 07:05:50,402 INFO [train.py:903] (2/4) Epoch 26, batch 3550, loss[loss=0.2133, simple_loss=0.2961, pruned_loss=0.06525, over 18714.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2856, pruned_loss=0.06176, over 3819967.68 frames. ], batch size: 74, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:06:03,183 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.093e+02 4.676e+02 6.063e+02 7.972e+02 1.969e+03, threshold=1.213e+03, percent-clipped=7.0
+2023-04-03 07:06:12,990 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5315, 1.7269, 1.9875, 1.8302, 3.0837, 2.6574, 3.3614, 1.6420],
+       device='cuda:2'), covar=tensor([0.2557, 0.4163, 0.2728, 0.1878, 0.1551, 0.2042, 0.1636, 0.4311],
+       device='cuda:2'), in_proj_covar=tensor([0.0545, 0.0664, 0.0740, 0.0499, 0.0628, 0.0539, 0.0664, 0.0567],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 07:06:17,604 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0015, 1.2365, 1.7423, 0.9393, 2.2661, 3.0526, 2.7051, 3.2368],
+       device='cuda:2'), covar=tensor([0.1766, 0.4044, 0.3321, 0.2958, 0.0701, 0.0233, 0.0264, 0.0341],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0327, 0.0361, 0.0269, 0.0250, 0.0193, 0.0218, 0.0270],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 07:06:53,360 INFO [train.py:903] (2/4) Epoch 26, batch 3600, loss[loss=0.1754, simple_loss=0.2504, pruned_loss=0.05018, over 19796.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2857, pruned_loss=0.06181, over 3834751.30 frames. ], batch size: 49, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:06:54,913 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=174301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:07:05,328 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=174309.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:07:54,119 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=174347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:07:57,124 INFO [train.py:903] (2/4) Epoch 26, batch 3650, loss[loss=0.2688, simple_loss=0.3336, pruned_loss=0.102, over 13398.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2864, pruned_loss=0.06207, over 3833132.67 frames. ], batch size: 136, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:08:12,058 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.231e+02 5.064e+02 6.896e+02 8.623e+02 2.807e+03, threshold=1.379e+03, percent-clipped=9.0
+2023-04-03 07:08:26,929 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=174372.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:08:28,386 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-03 07:08:32,713 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=174377.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:08:35,178 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=174379.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:09:02,324 INFO [train.py:903] (2/4) Epoch 26, batch 3700, loss[loss=0.211, simple_loss=0.2959, pruned_loss=0.06302, over 19755.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2859, pruned_loss=0.06171, over 3822980.41 frames. ], batch size: 63, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:09:10,647 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=174406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:09:31,639 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1965, 2.9459, 2.1605, 2.6575, 1.0031, 2.9200, 2.8183, 2.8488],
+       device='cuda:2'), covar=tensor([0.1240, 0.1328, 0.2011, 0.1063, 0.3282, 0.0986, 0.1205, 0.1432],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0427, 0.0513, 0.0358, 0.0413, 0.0451, 0.0450, 0.0477],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:09:44,325 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8421, 4.3885, 2.8717, 3.8734, 1.0359, 4.3866, 4.2513, 4.3644],
+       device='cuda:2'), covar=tensor([0.0568, 0.1019, 0.1874, 0.0908, 0.4039, 0.0667, 0.0946, 0.1002],
+       device='cuda:2'), in_proj_covar=tensor([0.0526, 0.0427, 0.0513, 0.0358, 0.0412, 0.0450, 0.0449, 0.0477],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:10:06,913 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6860, 1.6470, 1.5642, 2.1567, 1.6023, 1.9987, 2.0130, 1.7823],
+       device='cuda:2'), covar=tensor([0.0793, 0.0840, 0.0954, 0.0739, 0.0852, 0.0719, 0.0805, 0.0648],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0226, 0.0240, 0.0224, 0.0212, 0.0187, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 07:10:07,622 INFO [train.py:903] (2/4) Epoch 26, batch 3750, loss[loss=0.213, simple_loss=0.2988, pruned_loss=0.06357, over 19618.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2861, pruned_loss=0.06166, over 3814182.33 frames. ], batch size: 57, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:10:20,549 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.722e+02 4.995e+02 5.757e+02 7.069e+02 1.518e+03, threshold=1.151e+03, percent-clipped=1.0
+2023-04-03 07:11:01,670 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=174492.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:11:04,055 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=174494.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:11:10,961 INFO [train.py:903] (2/4) Epoch 26, batch 3800, loss[loss=0.184, simple_loss=0.2564, pruned_loss=0.05581, over 19718.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2849, pruned_loss=0.06151, over 3825001.57 frames. ], batch size: 45, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:11:12,304 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=174501.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:11:42,962 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-03 07:11:55,976 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 07:12:14,059 INFO [train.py:903] (2/4) Epoch 26, batch 3850, loss[loss=0.2748, simple_loss=0.3466, pruned_loss=0.1015, over 19306.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2855, pruned_loss=0.0622, over 3799336.26 frames. ], batch size: 66, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:12:27,531 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.991e+02 5.118e+02 6.382e+02 8.415e+02 1.605e+03, threshold=1.276e+03, percent-clipped=5.0
+2023-04-03 07:13:15,057 INFO [train.py:903] (2/4) Epoch 26, batch 3900, loss[loss=0.204, simple_loss=0.2846, pruned_loss=0.06176, over 18827.00 frames. ], tot_loss[loss=0.2054, simple_loss=0.2858, pruned_loss=0.06243, over 3804972.96 frames. ], batch size: 74, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:13:36,337 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=174616.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:14:13,853 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=174645.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:14:20,750 INFO [train.py:903] (2/4) Epoch 26, batch 3950, loss[loss=0.1584, simple_loss=0.2464, pruned_loss=0.03518, over 19604.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2858, pruned_loss=0.06227, over 3808529.77 frames. ], batch size: 50, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:14:24,392 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-03 07:14:24,515 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=174653.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:14:34,039 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.720e+02 4.927e+02 6.085e+02 7.650e+02 1.385e+03, threshold=1.217e+03, percent-clipped=3.0
+2023-04-03 07:14:54,719 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.48 vs. limit=2.0
+2023-04-03 07:15:24,369 INFO [train.py:903] (2/4) Epoch 26, batch 4000, loss[loss=0.1817, simple_loss=0.2726, pruned_loss=0.0454, over 19675.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2853, pruned_loss=0.062, over 3815547.96 frames. ], batch size: 58, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:15:54,773 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=174723.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:16:13,006 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-03 07:16:15,460 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9103, 1.3802, 1.5298, 1.5916, 3.5252, 1.3463, 2.5341, 3.8936],
+       device='cuda:2'), covar=tensor([0.0434, 0.2923, 0.2977, 0.1994, 0.0592, 0.2426, 0.1323, 0.0219],
+       device='cuda:2'), in_proj_covar=tensor([0.0418, 0.0372, 0.0390, 0.0349, 0.0377, 0.0353, 0.0389, 0.0409],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:16:23,716 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6873, 1.4645, 1.5135, 2.4128, 1.8016, 1.9757, 2.2550, 1.6443],
+       device='cuda:2'), covar=tensor([0.0877, 0.1044, 0.1084, 0.0655, 0.0843, 0.0767, 0.0744, 0.0765],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0223, 0.0227, 0.0240, 0.0224, 0.0212, 0.0187, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 07:16:24,909 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=174748.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:16:26,988 INFO [train.py:903] (2/4) Epoch 26, batch 4050, loss[loss=0.183, simple_loss=0.2737, pruned_loss=0.04616, over 19072.00 frames. ], tot_loss[loss=0.2052, simple_loss=0.2861, pruned_loss=0.06218, over 3817473.00 frames. ], batch size: 69, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:16:27,161 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=174750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:16:27,470 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=174750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:16:40,265 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=174760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:16:41,100 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.277e+02 4.947e+02 6.251e+02 7.600e+02 1.203e+03, threshold=1.250e+03, percent-clipped=0.0
+2023-04-03 07:16:52,120 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=174768.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:16:59,314 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=174773.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:17:01,691 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=174775.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:17:32,066 INFO [train.py:903] (2/4) Epoch 26, batch 4100, loss[loss=0.2406, simple_loss=0.3177, pruned_loss=0.08174, over 13837.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2843, pruned_loss=0.06141, over 3797101.91 frames. ], batch size: 136, lr: 3.15e-03, grad_scale: 4.0
+2023-04-03 07:17:50,342 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.40 vs. limit=5.0
+2023-04-03 07:18:07,598 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-03 07:18:38,181 INFO [train.py:903] (2/4) Epoch 26, batch 4150, loss[loss=0.213, simple_loss=0.3006, pruned_loss=0.06272, over 19687.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2843, pruned_loss=0.06114, over 3805424.41 frames. ], batch size: 60, lr: 3.15e-03, grad_scale: 4.0
+2023-04-03 07:18:53,316 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.134e+02 5.046e+02 6.484e+02 8.542e+02 2.236e+03, threshold=1.297e+03, percent-clipped=8.0
+2023-04-03 07:18:57,239 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=174865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:19:05,602 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=174872.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:19:26,294 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-03 07:19:38,554 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=174897.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:19:41,596 INFO [train.py:903] (2/4) Epoch 26, batch 4200, loss[loss=0.2172, simple_loss=0.2983, pruned_loss=0.06807, over 19267.00 frames. ], tot_loss[loss=0.2042, simple_loss=0.2851, pruned_loss=0.06159, over 3800289.09 frames. ], batch size: 66, lr: 3.15e-03, grad_scale: 4.0
+2023-04-03 07:19:42,874 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-03 07:19:46,914 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0745, 1.2888, 1.6121, 1.1828, 2.3058, 3.0030, 2.7619, 3.2363],
+       device='cuda:2'), covar=tensor([0.1512, 0.3350, 0.3015, 0.2285, 0.0611, 0.0227, 0.0247, 0.0281],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0329, 0.0362, 0.0271, 0.0252, 0.0194, 0.0219, 0.0271],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 07:20:44,730 INFO [train.py:903] (2/4) Epoch 26, batch 4250, loss[loss=0.2165, simple_loss=0.3075, pruned_loss=0.06275, over 17684.00 frames. ], tot_loss[loss=0.2043, simple_loss=0.2853, pruned_loss=0.06165, over 3800875.58 frames. ], batch size: 101, lr: 3.15e-03, grad_scale: 4.0
+2023-04-03 07:20:55,193 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-03 07:21:01,860 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.522e+02 4.804e+02 5.687e+02 7.207e+02 1.586e+03, threshold=1.137e+03, percent-clipped=5.0
+2023-04-03 07:21:07,842 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-03 07:21:10,202 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6117, 1.4545, 1.5121, 2.2013, 1.5593, 1.9200, 2.0329, 1.6108],
+       device='cuda:2'), covar=tensor([0.0849, 0.0988, 0.1061, 0.0715, 0.0895, 0.0749, 0.0813, 0.0753],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0227, 0.0240, 0.0225, 0.0212, 0.0188, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 07:21:49,468 INFO [train.py:903] (2/4) Epoch 26, batch 4300, loss[loss=0.185, simple_loss=0.2707, pruned_loss=0.04962, over 19581.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2848, pruned_loss=0.06153, over 3794574.37 frames. ], batch size: 52, lr: 3.15e-03, grad_scale: 4.0
+2023-04-03 07:22:11,533 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=175016.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:22:19,623 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0710, 5.5312, 3.1137, 4.8036, 1.0046, 5.7096, 5.4851, 5.6445],
+       device='cuda:2'), covar=tensor([0.0378, 0.0831, 0.1790, 0.0691, 0.4165, 0.0499, 0.0737, 0.0898],
+       device='cuda:2'), in_proj_covar=tensor([0.0523, 0.0423, 0.0508, 0.0355, 0.0409, 0.0448, 0.0445, 0.0472],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:22:20,979 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=175024.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:22:38,851 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-03 07:22:41,538 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=175041.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:22:52,828 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=175049.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:22:53,610 INFO [train.py:903] (2/4) Epoch 26, batch 4350, loss[loss=0.1689, simple_loss=0.2601, pruned_loss=0.03886, over 19687.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2839, pruned_loss=0.06116, over 3800042.84 frames. ], batch size: 59, lr: 3.15e-03, grad_scale: 4.0
+2023-04-03 07:23:08,535 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.209e+02 4.980e+02 6.586e+02 7.974e+02 2.340e+03, threshold=1.317e+03, percent-clipped=8.0
+2023-04-03 07:23:14,388 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=175067.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:23:56,998 INFO [train.py:903] (2/4) Epoch 26, batch 4400, loss[loss=0.1751, simple_loss=0.2618, pruned_loss=0.04422, over 19682.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2838, pruned_loss=0.06132, over 3816276.17 frames. ], batch size: 53, lr: 3.15e-03, grad_scale: 8.0
+2023-04-03 07:24:17,226 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-03 07:24:23,158 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=175121.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:24:26,299 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-03 07:24:55,261 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=175146.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:24:59,527 INFO [train.py:903] (2/4) Epoch 26, batch 4450, loss[loss=0.1891, simple_loss=0.2743, pruned_loss=0.0519, over 19681.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2842, pruned_loss=0.06125, over 3831460.07 frames. ], batch size: 55, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:25:08,163 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=175157.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:25:14,971 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.113e+02 4.830e+02 6.413e+02 8.619e+02 2.132e+03, threshold=1.283e+03, percent-clipped=8.0
+2023-04-03 07:25:41,753 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=175182.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:26:02,757 INFO [train.py:903] (2/4) Epoch 26, batch 4500, loss[loss=0.1658, simple_loss=0.2512, pruned_loss=0.04015, over 19616.00 frames. ], tot_loss[loss=0.203, simple_loss=0.284, pruned_loss=0.06102, over 3821279.94 frames. ], batch size: 50, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:26:35,234 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.23 vs. limit=2.0
+2023-04-03 07:26:35,992 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=175225.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:27:08,200 INFO [train.py:903] (2/4) Epoch 26, batch 4550, loss[loss=0.2214, simple_loss=0.3095, pruned_loss=0.06669, over 19677.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2836, pruned_loss=0.06099, over 3823446.03 frames. ], batch size: 53, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:27:15,040 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-03 07:27:23,518 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.068e+02 4.834e+02 6.204e+02 7.660e+02 2.009e+03, threshold=1.241e+03, percent-clipped=3.0
+2023-04-03 07:27:40,225 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-03 07:28:13,303 INFO [train.py:903] (2/4) Epoch 26, batch 4600, loss[loss=0.1619, simple_loss=0.241, pruned_loss=0.0414, over 19754.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.283, pruned_loss=0.06075, over 3822962.08 frames. ], batch size: 51, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:29:16,040 INFO [train.py:903] (2/4) Epoch 26, batch 4650, loss[loss=0.1845, simple_loss=0.2686, pruned_loss=0.05022, over 19386.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.2833, pruned_loss=0.06075, over 3816577.40 frames. ], batch size: 48, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:29:29,898 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.676e+02 4.879e+02 5.869e+02 7.462e+02 1.692e+03, threshold=1.174e+03, percent-clipped=3.0
+2023-04-03 07:29:31,126 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-03 07:29:44,521 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-03 07:30:03,973 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=175388.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:30:17,580 INFO [train.py:903] (2/4) Epoch 26, batch 4700, loss[loss=0.2417, simple_loss=0.3281, pruned_loss=0.07759, over 19544.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2844, pruned_loss=0.06141, over 3827063.31 frames. ], batch size: 56, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:30:19,629 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9187, 2.0171, 2.3009, 2.5368, 1.9075, 2.4555, 2.3148, 2.1116],
+       device='cuda:2'), covar=tensor([0.4302, 0.4092, 0.2042, 0.2598, 0.4345, 0.2339, 0.4866, 0.3512],
+       device='cuda:2'), in_proj_covar=tensor([0.0928, 0.1004, 0.0737, 0.0951, 0.0908, 0.0843, 0.0858, 0.0803],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 07:30:33,531 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5691, 4.0894, 4.2853, 4.2692, 1.7708, 4.0403, 3.5065, 4.0372],
+       device='cuda:2'), covar=tensor([0.1763, 0.0902, 0.0660, 0.0783, 0.5853, 0.0910, 0.0752, 0.1196],
+       device='cuda:2'), in_proj_covar=tensor([0.0812, 0.0775, 0.0977, 0.0862, 0.0852, 0.0744, 0.0582, 0.0907],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 07:30:35,712 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=175412.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:30:41,020 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-03 07:31:06,983 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=175438.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:31:21,512 INFO [train.py:903] (2/4) Epoch 26, batch 4750, loss[loss=0.212, simple_loss=0.2991, pruned_loss=0.06239, over 19476.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2843, pruned_loss=0.06165, over 3818907.48 frames. ], batch size: 64, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:31:37,182 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.357e+02 4.945e+02 6.030e+02 7.655e+02 2.128e+03, threshold=1.206e+03, percent-clipped=6.0
+2023-04-03 07:31:38,742 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=175463.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:32:22,915 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=175499.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:32:23,806 INFO [train.py:903] (2/4) Epoch 26, batch 4800, loss[loss=0.17, simple_loss=0.2588, pruned_loss=0.0406, over 19463.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2829, pruned_loss=0.06064, over 3824964.68 frames. ], batch size: 49, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:32:25,160 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=175501.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:33:28,520 INFO [train.py:903] (2/4) Epoch 26, batch 4850, loss[loss=0.2695, simple_loss=0.3382, pruned_loss=0.1004, over 13202.00 frames. ], tot_loss[loss=0.203, simple_loss=0.2838, pruned_loss=0.06113, over 3807181.78 frames. ], batch size: 135, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:33:42,549 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.071e+02 4.553e+02 5.462e+02 6.461e+02 1.537e+03, threshold=1.092e+03, percent-clipped=2.0
+2023-04-03 07:33:49,724 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-03 07:33:51,023 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=175569.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:34:12,013 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-03 07:34:17,972 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-03 07:34:17,993 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-03 07:34:27,155 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-03 07:34:30,608 INFO [train.py:903] (2/4) Epoch 26, batch 4900, loss[loss=0.2426, simple_loss=0.3236, pruned_loss=0.08077, over 19675.00 frames. ], tot_loss[loss=0.2041, simple_loss=0.2847, pruned_loss=0.0618, over 3795822.72 frames. ], batch size: 58, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:34:46,816 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-03 07:34:50,753 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=175616.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:35:31,950 INFO [train.py:903] (2/4) Epoch 26, batch 4950, loss[loss=0.2113, simple_loss=0.2904, pruned_loss=0.06606, over 19765.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2854, pruned_loss=0.06232, over 3806871.79 frames. ], batch size: 56, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:35:49,939 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.056e+02 4.878e+02 6.108e+02 7.489e+02 1.803e+03, threshold=1.222e+03, percent-clipped=10.0
+2023-04-03 07:35:49,970 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-03 07:36:13,138 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-03 07:36:15,578 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=175684.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:36:36,326 INFO [train.py:903] (2/4) Epoch 26, batch 5000, loss[loss=0.2111, simple_loss=0.2925, pruned_loss=0.06483, over 19324.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.285, pruned_loss=0.06196, over 3808560.79 frames. ], batch size: 66, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:36:46,077 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-03 07:36:56,364 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-03 07:37:10,902 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=175728.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:37:16,381 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=175732.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:37:39,577 INFO [train.py:903] (2/4) Epoch 26, batch 5050, loss[loss=0.191, simple_loss=0.2721, pruned_loss=0.05494, over 19590.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2847, pruned_loss=0.06134, over 3818487.29 frames. ], batch size: 52, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:37:41,475 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.62 vs. limit=5.0
+2023-04-03 07:37:46,847 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=175756.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:37:49,654 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.71 vs. limit=5.0
+2023-04-03 07:37:53,679 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.913e+02 4.916e+02 5.717e+02 6.994e+02 1.273e+03, threshold=1.143e+03, percent-clipped=1.0
+2023-04-03 07:38:14,292 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-03 07:38:39,105 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3916, 3.1315, 2.2668, 2.8304, 0.8541, 3.0947, 2.9817, 3.0207],
+       device='cuda:2'), covar=tensor([0.0947, 0.1246, 0.1947, 0.0991, 0.3602, 0.0926, 0.1139, 0.1376],
+       device='cuda:2'), in_proj_covar=tensor([0.0523, 0.0423, 0.0507, 0.0358, 0.0409, 0.0449, 0.0445, 0.0473],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:38:42,427 INFO [train.py:903] (2/4) Epoch 26, batch 5100, loss[loss=0.2039, simple_loss=0.2877, pruned_loss=0.06008, over 19694.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2839, pruned_loss=0.06099, over 3820972.83 frames. ], batch size: 53, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:38:49,483 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-03 07:38:49,808 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6435, 2.3666, 1.7609, 1.6072, 2.1873, 1.4130, 1.4754, 2.0441],
+       device='cuda:2'), covar=tensor([0.1050, 0.0816, 0.1072, 0.0842, 0.0538, 0.1300, 0.0767, 0.0484],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0319, 0.0337, 0.0271, 0.0250, 0.0344, 0.0291, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:38:52,888 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-03 07:38:57,443 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-03 07:39:30,283 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9984, 1.9195, 1.8752, 1.7021, 1.5010, 1.6336, 0.4502, 0.8951],
+       device='cuda:2'), covar=tensor([0.0639, 0.0651, 0.0432, 0.0696, 0.1288, 0.0831, 0.1334, 0.1126],
+       device='cuda:2'), in_proj_covar=tensor([0.0363, 0.0361, 0.0366, 0.0389, 0.0469, 0.0396, 0.0344, 0.0346],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 07:39:37,133 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=175843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:39:42,002 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=175847.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:39:45,150 INFO [train.py:903] (2/4) Epoch 26, batch 5150, loss[loss=0.2258, simple_loss=0.3044, pruned_loss=0.07358, over 19782.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2832, pruned_loss=0.06045, over 3825618.69 frames. ], batch size: 56, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:39:55,538 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-03 07:40:01,374 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.182e+02 5.003e+02 6.332e+02 8.398e+02 1.509e+03, threshold=1.266e+03, percent-clipped=8.0
+2023-04-03 07:40:14,035 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=175871.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:40:15,284 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=175872.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:40:30,113 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 07:40:47,095 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=175897.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:40:49,328 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=175899.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:40:50,212 INFO [train.py:903] (2/4) Epoch 26, batch 5200, loss[loss=0.2057, simple_loss=0.2992, pruned_loss=0.05609, over 19583.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2832, pruned_loss=0.06054, over 3827661.41 frames. ], batch size: 61, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:40:54,075 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1213, 1.2854, 1.4856, 1.5598, 2.7662, 1.2328, 2.1468, 3.1203],
+       device='cuda:2'), covar=tensor([0.0527, 0.2692, 0.2824, 0.1643, 0.0689, 0.2195, 0.1229, 0.0300],
+       device='cuda:2'), in_proj_covar=tensor([0.0417, 0.0371, 0.0389, 0.0349, 0.0376, 0.0353, 0.0388, 0.0410],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:41:02,243 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-03 07:41:41,486 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=175940.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:41:45,594 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-03 07:41:53,689 INFO [train.py:903] (2/4) Epoch 26, batch 5250, loss[loss=0.19, simple_loss=0.2781, pruned_loss=0.05092, over 19667.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.284, pruned_loss=0.06128, over 3817511.19 frames. ], batch size: 55, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:42:03,330 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=175958.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:42:07,498 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.944e+02 4.675e+02 5.849e+02 7.641e+02 1.436e+03, threshold=1.170e+03, percent-clipped=2.0
+2023-04-03 07:42:08,966 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=175963.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:42:11,360 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=175965.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:42:25,588 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.74 vs. limit=5.0
+2023-04-03 07:42:54,939 INFO [train.py:903] (2/4) Epoch 26, batch 5300, loss[loss=0.1831, simple_loss=0.2625, pruned_loss=0.05186, over 19462.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2856, pruned_loss=0.06206, over 3827591.77 frames. ], batch size: 49, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:43:08,850 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-03 07:43:09,635 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-03 07:43:57,546 INFO [train.py:903] (2/4) Epoch 26, batch 5350, loss[loss=0.21, simple_loss=0.2907, pruned_loss=0.06467, over 19786.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2855, pruned_loss=0.06201, over 3835933.34 frames. ], batch size: 56, lr: 3.14e-03, grad_scale: 8.0
+2023-04-03 07:44:14,891 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.150e+02 4.809e+02 5.990e+02 7.353e+02 1.688e+03, threshold=1.198e+03, percent-clipped=9.0
+2023-04-03 07:44:27,822 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=176072.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:44:30,129 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-03 07:45:03,487 INFO [train.py:903] (2/4) Epoch 26, batch 5400, loss[loss=0.2002, simple_loss=0.292, pruned_loss=0.05415, over 19542.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2849, pruned_loss=0.0615, over 3823095.39 frames. ], batch size: 56, lr: 3.14e-03, grad_scale: 4.0
+2023-04-03 07:45:07,685 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=176103.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:45:36,764 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=176127.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:45:37,876 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=176128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:46:08,008 INFO [train.py:903] (2/4) Epoch 26, batch 5450, loss[loss=0.1806, simple_loss=0.2661, pruned_loss=0.04751, over 19772.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2845, pruned_loss=0.06129, over 3831343.36 frames. ], batch size: 54, lr: 3.14e-03, grad_scale: 4.0
+2023-04-03 07:46:10,706 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=176152.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:46:23,257 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.815e+02 4.882e+02 5.855e+02 6.912e+02 1.680e+03, threshold=1.171e+03, percent-clipped=1.0
+2023-04-03 07:46:55,121 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=176187.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:47:11,319 INFO [train.py:903] (2/4) Epoch 26, batch 5500, loss[loss=0.1781, simple_loss=0.2633, pruned_loss=0.04647, over 19610.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2842, pruned_loss=0.06073, over 3833149.02 frames. ], batch size: 50, lr: 3.14e-03, grad_scale: 4.0
+2023-04-03 07:47:28,814 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=176214.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:47:30,665 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-03 07:47:37,934 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1148, 1.9733, 1.8031, 2.1324, 1.8949, 1.7496, 1.7157, 2.0045],
+       device='cuda:2'), covar=tensor([0.1039, 0.1412, 0.1448, 0.0999, 0.1327, 0.0592, 0.1498, 0.0746],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0356, 0.0315, 0.0255, 0.0304, 0.0256, 0.0318, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 07:48:02,311 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=176239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:48:06,825 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=176243.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:48:14,667 INFO [train.py:903] (2/4) Epoch 26, batch 5550, loss[loss=0.1924, simple_loss=0.2642, pruned_loss=0.06029, over 17821.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.284, pruned_loss=0.06064, over 3819982.13 frames. ], batch size: 39, lr: 3.14e-03, grad_scale: 4.0
+2023-04-03 07:48:17,145 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-03 07:48:29,037 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=176260.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:48:32,237 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.168e+02 4.802e+02 5.930e+02 7.241e+02 1.738e+03, threshold=1.186e+03, percent-clipped=4.0
+2023-04-03 07:48:47,665 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=176275.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:49:07,994 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-03 07:49:18,906 INFO [train.py:903] (2/4) Epoch 26, batch 5600, loss[loss=0.2181, simple_loss=0.2895, pruned_loss=0.07334, over 19862.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2824, pruned_loss=0.05986, over 3826717.73 frames. ], batch size: 52, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 07:49:28,224 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=176307.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:49:45,691 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8536, 4.3239, 4.6044, 4.6210, 1.6934, 4.3436, 3.7653, 4.3067],
+       device='cuda:2'), covar=tensor([0.1762, 0.1051, 0.0670, 0.0703, 0.6377, 0.0947, 0.0758, 0.1195],
+       device='cuda:2'), in_proj_covar=tensor([0.0815, 0.0774, 0.0980, 0.0863, 0.0859, 0.0748, 0.0582, 0.0910],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 07:50:23,046 INFO [train.py:903] (2/4) Epoch 26, batch 5650, loss[loss=0.2091, simple_loss=0.2974, pruned_loss=0.06037, over 19780.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2841, pruned_loss=0.06108, over 3797371.10 frames. ], batch size: 56, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 07:50:26,193 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 07:50:32,646 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=176358.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:50:39,210 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.976e+02 4.381e+02 5.619e+02 7.137e+02 2.187e+03, threshold=1.124e+03, percent-clipped=4.0
+2023-04-03 07:51:02,584 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-03 07:51:24,805 INFO [train.py:903] (2/4) Epoch 26, batch 5700, loss[loss=0.1682, simple_loss=0.2452, pruned_loss=0.04557, over 18173.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2846, pruned_loss=0.0614, over 3790379.74 frames. ], batch size: 40, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 07:51:52,425 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=176422.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:52:19,197 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=176443.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:52:22,364 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-03 07:52:26,807 INFO [train.py:903] (2/4) Epoch 26, batch 5750, loss[loss=0.2045, simple_loss=0.2946, pruned_loss=0.05719, over 19666.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2848, pruned_loss=0.06122, over 3800093.91 frames. ], batch size: 58, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 07:52:30,384 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-03 07:52:33,956 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-03 07:52:44,007 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.352e+02 5.112e+02 6.171e+02 7.862e+02 1.795e+03, threshold=1.234e+03, percent-clipped=7.0
+2023-04-03 07:52:50,871 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=176468.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:53:09,523 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=176484.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:53:28,523 INFO [train.py:903] (2/4) Epoch 26, batch 5800, loss[loss=0.2396, simple_loss=0.3124, pruned_loss=0.08337, over 19760.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2847, pruned_loss=0.06112, over 3802478.77 frames. ], batch size: 54, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 07:54:32,080 INFO [train.py:903] (2/4) Epoch 26, batch 5850, loss[loss=0.1904, simple_loss=0.2753, pruned_loss=0.05281, over 19672.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2847, pruned_loss=0.06116, over 3794990.32 frames. ], batch size: 60, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 07:54:48,252 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.299e+02 4.827e+02 6.114e+02 8.553e+02 2.097e+03, threshold=1.223e+03, percent-clipped=6.0
+2023-04-03 07:55:30,001 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-03 07:55:33,102 INFO [train.py:903] (2/4) Epoch 26, batch 5900, loss[loss=0.1966, simple_loss=0.2841, pruned_loss=0.05455, over 19665.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2845, pruned_loss=0.06108, over 3806303.38 frames. ], batch size: 55, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 07:55:37,900 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=176604.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:55:50,033 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=176614.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:55:51,767 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-03 07:55:55,485 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=176619.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:56:22,740 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=176639.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:56:27,340 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=176643.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:56:35,023 INFO [train.py:903] (2/4) Epoch 26, batch 5950, loss[loss=0.2279, simple_loss=0.308, pruned_loss=0.07388, over 19248.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2844, pruned_loss=0.06127, over 3823788.41 frames. ], batch size: 66, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 07:56:51,411 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.421e+02 5.079e+02 6.315e+02 7.489e+02 1.732e+03, threshold=1.263e+03, percent-clipped=4.0
+2023-04-03 07:57:12,939 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=176678.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:57:18,397 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=176683.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:57:38,452 INFO [train.py:903] (2/4) Epoch 26, batch 6000, loss[loss=0.1716, simple_loss=0.257, pruned_loss=0.04311, over 19727.00 frames. ], tot_loss[loss=0.202, simple_loss=0.283, pruned_loss=0.06049, over 3829573.76 frames. ], batch size: 47, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 07:57:38,452 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 07:57:51,368 INFO [train.py:937] (2/4) Epoch 26, validation: loss=0.1675, simple_loss=0.2672, pruned_loss=0.03393, over 944034.00 frames. 
+2023-04-03 07:57:51,369 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 07:57:55,554 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=176703.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:58:16,486 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=176719.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:58:36,014 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=176734.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 07:58:44,243 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.47 vs. limit=5.0
+2023-04-03 07:58:54,249 INFO [train.py:903] (2/4) Epoch 26, batch 6050, loss[loss=0.252, simple_loss=0.3308, pruned_loss=0.08664, over 19785.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2832, pruned_loss=0.0606, over 3828766.01 frames. ], batch size: 63, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 07:59:04,000 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3708, 2.2683, 2.0983, 2.0077, 1.7338, 1.9410, 0.6004, 1.3295],
+       device='cuda:2'), covar=tensor([0.0664, 0.0631, 0.0524, 0.0851, 0.1313, 0.0998, 0.1591, 0.1161],
+       device='cuda:2'), in_proj_covar=tensor([0.0359, 0.0358, 0.0363, 0.0386, 0.0463, 0.0391, 0.0341, 0.0341],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 07:59:11,770 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.381e+02 5.094e+02 6.239e+02 7.368e+02 1.384e+03, threshold=1.248e+03, percent-clipped=1.0
+2023-04-03 07:59:57,912 INFO [train.py:903] (2/4) Epoch 26, batch 6100, loss[loss=0.2105, simple_loss=0.2882, pruned_loss=0.06642, over 17646.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2825, pruned_loss=0.06017, over 3833159.77 frames. ], batch size: 101, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 08:00:33,092 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=176828.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:01:00,302 INFO [train.py:903] (2/4) Epoch 26, batch 6150, loss[loss=0.1995, simple_loss=0.2966, pruned_loss=0.05125, over 19286.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2851, pruned_loss=0.06185, over 3810609.20 frames. ], batch size: 66, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 08:01:18,088 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.177e+02 4.899e+02 5.851e+02 7.446e+02 2.190e+03, threshold=1.170e+03, percent-clipped=4.0
+2023-04-03 08:01:21,484 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-03 08:01:25,369 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=176871.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:02:01,466 INFO [train.py:903] (2/4) Epoch 26, batch 6200, loss[loss=0.1971, simple_loss=0.2847, pruned_loss=0.05482, over 19802.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2854, pruned_loss=0.06234, over 3816069.70 frames. ], batch size: 56, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 08:02:54,384 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=176943.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:03:02,386 INFO [train.py:903] (2/4) Epoch 26, batch 6250, loss[loss=0.1807, simple_loss=0.263, pruned_loss=0.04919, over 19477.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2855, pruned_loss=0.06202, over 3818321.71 frames. ], batch size: 49, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 08:03:20,780 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.905e+02 4.899e+02 6.025e+02 7.517e+02 2.005e+03, threshold=1.205e+03, percent-clipped=5.0
+2023-04-03 08:03:24,745 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4748, 2.1189, 1.6377, 1.5361, 1.9531, 1.4338, 1.4147, 1.8819],
+       device='cuda:2'), covar=tensor([0.1073, 0.0871, 0.1073, 0.0828, 0.0581, 0.1230, 0.0737, 0.0466],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0319, 0.0337, 0.0272, 0.0249, 0.0346, 0.0291, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 08:03:29,810 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-03 08:03:33,670 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=176975.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:03:37,023 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8061, 1.2897, 1.6104, 1.7550, 3.3876, 1.2944, 2.3568, 3.8802],
+       device='cuda:2'), covar=tensor([0.0513, 0.3076, 0.2885, 0.1733, 0.0675, 0.2472, 0.1424, 0.0214],
+       device='cuda:2'), in_proj_covar=tensor([0.0419, 0.0374, 0.0391, 0.0351, 0.0378, 0.0356, 0.0391, 0.0411],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 08:03:47,550 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=176987.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:03:51,227 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=176990.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:04:03,342 INFO [train.py:903] (2/4) Epoch 26, batch 6300, loss[loss=0.1973, simple_loss=0.2718, pruned_loss=0.06147, over 19468.00 frames. ], tot_loss[loss=0.2053, simple_loss=0.2859, pruned_loss=0.06239, over 3829644.63 frames. ], batch size: 49, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 08:04:03,957 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=177000.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:04:23,758 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=177015.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:04:37,549 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=177027.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:04:56,744 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.42 vs. limit=2.0
+2023-04-03 08:05:06,344 INFO [train.py:903] (2/4) Epoch 26, batch 6350, loss[loss=0.2102, simple_loss=0.2965, pruned_loss=0.06197, over 19246.00 frames. ], tot_loss[loss=0.2045, simple_loss=0.2851, pruned_loss=0.06197, over 3832407.68 frames. ], batch size: 66, lr: 3.13e-03, grad_scale: 4.0
+2023-04-03 08:05:26,141 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.448e+02 5.061e+02 6.104e+02 7.524e+02 1.291e+03, threshold=1.221e+03, percent-clipped=2.0
+2023-04-03 08:05:27,859 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5304, 2.0527, 1.5963, 1.5181, 1.9297, 1.3991, 1.4576, 1.8603],
+       device='cuda:2'), covar=tensor([0.1020, 0.0823, 0.0940, 0.0867, 0.0558, 0.1254, 0.0747, 0.0454],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0317, 0.0334, 0.0270, 0.0248, 0.0343, 0.0290, 0.0272],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 08:06:11,975 INFO [train.py:903] (2/4) Epoch 26, batch 6400, loss[loss=0.1892, simple_loss=0.2778, pruned_loss=0.05031, over 19534.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2843, pruned_loss=0.06107, over 3832724.35 frames. ], batch size: 56, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 08:06:14,742 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=177102.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:06:38,229 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.75 vs. limit=2.0
+2023-04-03 08:06:45,669 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=177127.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:06:48,166 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=177129.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:07:05,510 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=177142.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:07:14,951 INFO [train.py:903] (2/4) Epoch 26, batch 6450, loss[loss=0.1497, simple_loss=0.2343, pruned_loss=0.03256, over 19299.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2831, pruned_loss=0.06044, over 3808619.78 frames. ], batch size: 44, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 08:07:33,744 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.467e+02 4.651e+02 5.846e+02 7.696e+02 2.286e+03, threshold=1.169e+03, percent-clipped=3.0
+2023-04-03 08:07:56,659 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-03 08:08:15,607 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=177199.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:08:16,326 INFO [train.py:903] (2/4) Epoch 26, batch 6500, loss[loss=0.2174, simple_loss=0.301, pruned_loss=0.06694, over 19527.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2842, pruned_loss=0.06123, over 3823517.51 frames. ], batch size: 64, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 08:08:17,673 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-03 08:08:27,470 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3479, 2.4358, 2.6194, 3.2024, 2.4537, 3.0693, 2.7233, 2.4792],
+       device='cuda:2'), covar=tensor([0.4170, 0.3977, 0.1927, 0.2477, 0.4434, 0.2147, 0.4605, 0.3235],
+       device='cuda:2'), in_proj_covar=tensor([0.0926, 0.1002, 0.0735, 0.0948, 0.0904, 0.0841, 0.0855, 0.0801],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 08:08:38,042 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=177215.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:08:49,188 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=177224.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:09:20,907 INFO [train.py:903] (2/4) Epoch 26, batch 6550, loss[loss=0.2082, simple_loss=0.295, pruned_loss=0.06066, over 17704.00 frames. ], tot_loss[loss=0.2047, simple_loss=0.2854, pruned_loss=0.062, over 3806296.40 frames. ], batch size: 101, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 08:09:39,909 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.007e+02 4.796e+02 6.270e+02 7.966e+02 1.683e+03, threshold=1.254e+03, percent-clipped=5.0
+2023-04-03 08:10:25,199 INFO [train.py:903] (2/4) Epoch 26, batch 6600, loss[loss=0.2216, simple_loss=0.307, pruned_loss=0.06815, over 19711.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2858, pruned_loss=0.0619, over 3825742.52 frames. ], batch size: 63, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 08:10:34,182 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.87 vs. limit=5.0
+2023-04-03 08:11:02,493 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=177330.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:11:27,589 INFO [train.py:903] (2/4) Epoch 26, batch 6650, loss[loss=0.1996, simple_loss=0.2709, pruned_loss=0.06415, over 19088.00 frames. ], tot_loss[loss=0.2049, simple_loss=0.2858, pruned_loss=0.06206, over 3801495.04 frames. ], batch size: 42, lr: 3.13e-03, grad_scale: 8.0
+2023-04-03 08:11:37,316 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=177358.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:11:47,329 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.622e+02 4.339e+02 5.694e+02 7.782e+02 1.307e+03, threshold=1.139e+03, percent-clipped=1.0
+2023-04-03 08:12:11,017 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=177383.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:12:28,602 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=177398.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:12:30,471 INFO [train.py:903] (2/4) Epoch 26, batch 6700, loss[loss=0.2075, simple_loss=0.2891, pruned_loss=0.0629, over 18133.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2845, pruned_loss=0.06135, over 3807614.37 frames. ], batch size: 83, lr: 3.12e-03, grad_scale: 8.0
+2023-04-03 08:13:01,386 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=177423.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:13:31,556 INFO [train.py:903] (2/4) Epoch 26, batch 6750, loss[loss=0.2136, simple_loss=0.2968, pruned_loss=0.06523, over 19455.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2848, pruned_loss=0.06161, over 3806595.54 frames. ], batch size: 64, lr: 3.12e-03, grad_scale: 8.0
+2023-04-03 08:13:48,506 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.769e+02 4.721e+02 5.880e+02 7.244e+02 1.873e+03, threshold=1.176e+03, percent-clipped=5.0
+2023-04-03 08:13:55,573 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=177471.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:13:57,775 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=177473.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:14:00,217 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1335, 1.0342, 1.0885, 1.1966, 0.8904, 1.2039, 1.2330, 1.1243],
+       device='cuda:2'), covar=tensor([0.0908, 0.0970, 0.1028, 0.0663, 0.1003, 0.0844, 0.0831, 0.0769],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0224, 0.0228, 0.0240, 0.0226, 0.0213, 0.0188, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 08:14:28,156 INFO [train.py:903] (2/4) Epoch 26, batch 6800, loss[loss=0.2054, simple_loss=0.2888, pruned_loss=0.06094, over 18713.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2848, pruned_loss=0.06158, over 3806886.36 frames. ], batch size: 74, lr: 3.12e-03, grad_scale: 8.0
+2023-04-03 08:14:46,366 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5915, 1.6878, 1.9471, 1.9512, 1.4889, 1.8733, 1.9530, 1.7843],
+       device='cuda:2'), covar=tensor([0.4225, 0.3887, 0.2039, 0.2343, 0.3854, 0.2242, 0.5196, 0.3498],
+       device='cuda:2'), in_proj_covar=tensor([0.0923, 0.1002, 0.0734, 0.0946, 0.0902, 0.0841, 0.0854, 0.0801],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 08:15:14,225 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-03 08:15:14,690 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-03 08:15:18,391 INFO [train.py:903] (2/4) Epoch 27, batch 0, loss[loss=0.2313, simple_loss=0.3171, pruned_loss=0.07268, over 19514.00 frames. ], tot_loss[loss=0.2313, simple_loss=0.3171, pruned_loss=0.07268, over 19514.00 frames. ], batch size: 64, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:15:18,392 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 08:15:30,269 INFO [train.py:937] (2/4) Epoch 27, validation: loss=0.1666, simple_loss=0.2668, pruned_loss=0.03317, over 944034.00 frames. 
+2023-04-03 08:15:30,270 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 08:15:42,950 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-03 08:16:15,177 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.146e+02 4.975e+02 6.244e+02 7.696e+02 2.158e+03, threshold=1.249e+03, percent-clipped=8.0
+2023-04-03 08:16:24,554 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=177571.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:16:33,692 INFO [train.py:903] (2/4) Epoch 27, batch 50, loss[loss=0.2101, simple_loss=0.2937, pruned_loss=0.06329, over 18135.00 frames. ], tot_loss[loss=0.2058, simple_loss=0.2862, pruned_loss=0.06275, over 862191.57 frames. ], batch size: 84, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:16:44,185 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=177586.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:16:44,239 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=177586.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:16:46,390 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=177588.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:17:06,234 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-03 08:17:15,801 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=177611.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:17:35,980 INFO [train.py:903] (2/4) Epoch 27, batch 100, loss[loss=0.2668, simple_loss=0.3367, pruned_loss=0.09846, over 19727.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2846, pruned_loss=0.06162, over 1521769.01 frames. ], batch size: 63, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:17:47,466 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-03 08:17:53,823 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2478, 1.3036, 1.2561, 1.0730, 1.1232, 1.1196, 0.0905, 0.4185],
+       device='cuda:2'), covar=tensor([0.0774, 0.0727, 0.0509, 0.0672, 0.1458, 0.0774, 0.1446, 0.1229],
+       device='cuda:2'), in_proj_covar=tensor([0.0360, 0.0360, 0.0363, 0.0387, 0.0467, 0.0392, 0.0342, 0.0344],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 08:18:23,249 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.041e+02 5.210e+02 6.703e+02 8.227e+02 2.617e+03, threshold=1.341e+03, percent-clipped=11.0
+2023-04-03 08:18:39,597 INFO [train.py:903] (2/4) Epoch 27, batch 150, loss[loss=0.1875, simple_loss=0.2794, pruned_loss=0.04773, over 19761.00 frames. ], tot_loss[loss=0.2044, simple_loss=0.2853, pruned_loss=0.06175, over 2042947.61 frames. ], batch size: 54, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:18:44,581 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=177682.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:18:57,585 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-03 08:19:40,074 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-03 08:19:42,214 INFO [train.py:903] (2/4) Epoch 27, batch 200, loss[loss=0.1618, simple_loss=0.2385, pruned_loss=0.04252, over 19377.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2851, pruned_loss=0.06123, over 2443717.39 frames. ], batch size: 48, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:20:29,447 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.575e+02 4.383e+02 5.368e+02 7.234e+02 1.640e+03, threshold=1.074e+03, percent-clipped=1.0
+2023-04-03 08:20:41,540 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.93 vs. limit=5.0
+2023-04-03 08:20:46,585 INFO [train.py:903] (2/4) Epoch 27, batch 250, loss[loss=0.2078, simple_loss=0.28, pruned_loss=0.06782, over 18619.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2844, pruned_loss=0.06048, over 2735558.17 frames. ], batch size: 41, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:21:09,833 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9277, 4.4003, 4.6732, 4.6841, 1.7461, 4.3663, 3.8143, 4.3954],
+       device='cuda:2'), covar=tensor([0.1755, 0.0789, 0.0636, 0.0661, 0.6302, 0.0972, 0.0681, 0.1170],
+       device='cuda:2'), in_proj_covar=tensor([0.0812, 0.0777, 0.0981, 0.0862, 0.0860, 0.0746, 0.0580, 0.0908],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 08:21:12,200 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=177798.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:21:32,143 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=177815.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:21:50,875 INFO [train.py:903] (2/4) Epoch 27, batch 300, loss[loss=0.2204, simple_loss=0.2984, pruned_loss=0.0712, over 13090.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2826, pruned_loss=0.06009, over 2971481.12 frames. ], batch size: 136, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:22:08,573 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=177842.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:22:10,843 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=177844.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:22:36,374 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.100e+02 5.015e+02 6.251e+02 7.839e+02 1.329e+03, threshold=1.250e+03, percent-clipped=8.0
+2023-04-03 08:22:40,038 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=177867.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:22:42,396 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=177869.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:22:52,705 INFO [train.py:903] (2/4) Epoch 27, batch 350, loss[loss=0.2023, simple_loss=0.2865, pruned_loss=0.05903, over 19289.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2831, pruned_loss=0.06063, over 3167676.74 frames. ], batch size: 66, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:23:00,609 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 08:23:00,920 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3106, 3.8603, 3.9707, 3.9454, 1.5605, 3.7571, 3.2184, 3.7386],
+       device='cuda:2'), covar=tensor([0.1702, 0.0911, 0.0683, 0.0809, 0.5985, 0.1073, 0.0784, 0.1169],
+       device='cuda:2'), in_proj_covar=tensor([0.0810, 0.0777, 0.0979, 0.0861, 0.0858, 0.0745, 0.0579, 0.0909],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 08:23:40,518 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=177915.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:23:56,878 INFO [train.py:903] (2/4) Epoch 27, batch 400, loss[loss=0.1999, simple_loss=0.2905, pruned_loss=0.05469, over 19601.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2823, pruned_loss=0.06027, over 3324655.55 frames. ], batch size: 61, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:24:43,708 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.926e+02 4.795e+02 5.555e+02 6.674e+02 1.146e+03, threshold=1.111e+03, percent-clipped=0.0
+2023-04-03 08:24:57,946 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.53 vs. limit=2.0
+2023-04-03 08:24:58,343 INFO [train.py:903] (2/4) Epoch 27, batch 450, loss[loss=0.2049, simple_loss=0.2829, pruned_loss=0.06346, over 19732.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.283, pruned_loss=0.0608, over 3450806.71 frames. ], batch size: 51, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:25:39,723 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-03 08:25:40,990 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-03 08:25:59,705 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=178026.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:26:02,521 INFO [train.py:903] (2/4) Epoch 27, batch 500, loss[loss=0.1639, simple_loss=0.248, pruned_loss=0.03986, over 19493.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2829, pruned_loss=0.0604, over 3536179.87 frames. ], batch size: 49, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:26:06,472 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=178030.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:26:06,573 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4190, 1.5124, 1.7442, 1.6765, 2.7181, 2.1992, 2.8986, 1.3545],
+       device='cuda:2'), covar=tensor([0.2692, 0.4617, 0.2984, 0.2099, 0.1472, 0.2375, 0.1341, 0.4645],
+       device='cuda:2'), in_proj_covar=tensor([0.0549, 0.0665, 0.0744, 0.0503, 0.0630, 0.0544, 0.0665, 0.0568],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 08:26:48,569 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.047e+02 5.151e+02 6.325e+02 8.134e+02 1.856e+03, threshold=1.265e+03, percent-clipped=5.0
+2023-04-03 08:26:51,479 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1012, 2.0023, 1.8164, 1.6279, 1.5865, 1.6624, 0.5546, 1.0423],
+       device='cuda:2'), covar=tensor([0.0641, 0.0657, 0.0520, 0.0900, 0.1203, 0.0942, 0.1406, 0.1154],
+       device='cuda:2'), in_proj_covar=tensor([0.0364, 0.0363, 0.0367, 0.0390, 0.0472, 0.0395, 0.0346, 0.0347],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 08:27:07,125 INFO [train.py:903] (2/4) Epoch 27, batch 550, loss[loss=0.181, simple_loss=0.2715, pruned_loss=0.04521, over 19620.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2832, pruned_loss=0.06004, over 3606447.05 frames. ], batch size: 57, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:27:15,672 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1552, 5.1979, 6.0111, 6.0378, 2.1157, 5.6512, 4.7957, 5.6738],
+       device='cuda:2'), covar=tensor([0.1782, 0.0813, 0.0569, 0.0657, 0.6398, 0.0820, 0.0629, 0.1197],
+       device='cuda:2'), in_proj_covar=tensor([0.0815, 0.0781, 0.0984, 0.0865, 0.0861, 0.0749, 0.0580, 0.0913],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 08:28:09,844 INFO [train.py:903] (2/4) Epoch 27, batch 600, loss[loss=0.2509, simple_loss=0.3182, pruned_loss=0.09182, over 13357.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2838, pruned_loss=0.06015, over 3660871.40 frames. ], batch size: 136, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:28:15,850 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3195, 3.8394, 3.9250, 3.9400, 1.5377, 3.7284, 3.2132, 3.6892],
+       device='cuda:2'), covar=tensor([0.1852, 0.0949, 0.0709, 0.0802, 0.6190, 0.0994, 0.0816, 0.1213],
+       device='cuda:2'), in_proj_covar=tensor([0.0818, 0.0781, 0.0987, 0.0868, 0.0864, 0.0751, 0.0583, 0.0916],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 08:28:25,314 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=178141.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:28:26,321 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=178142.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:28:48,730 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=178159.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:28:54,533 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-03 08:28:55,501 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.215e+02 5.259e+02 6.338e+02 7.640e+02 1.730e+03, threshold=1.268e+03, percent-clipped=4.0
+2023-04-03 08:29:11,517 INFO [train.py:903] (2/4) Epoch 27, batch 650, loss[loss=0.176, simple_loss=0.262, pruned_loss=0.04501, over 19404.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2834, pruned_loss=0.06003, over 3690947.28 frames. ], batch size: 48, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:29:18,991 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1812, 1.9661, 1.8120, 2.0813, 1.7717, 1.8264, 1.7347, 2.0597],
+       device='cuda:2'), covar=tensor([0.1064, 0.1397, 0.1590, 0.1080, 0.1482, 0.0578, 0.1570, 0.0740],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0360, 0.0320, 0.0258, 0.0309, 0.0259, 0.0323, 0.0266],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 08:30:11,954 INFO [train.py:903] (2/4) Epoch 27, batch 700, loss[loss=0.2142, simple_loss=0.3007, pruned_loss=0.06392, over 19609.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.284, pruned_loss=0.06023, over 3724787.40 frames. ], batch size: 57, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:30:49,379 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=178257.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:30:58,536 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.944e+02 4.694e+02 6.359e+02 8.615e+02 1.569e+03, threshold=1.272e+03, percent-clipped=7.0
+2023-04-03 08:31:11,166 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=178274.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:31:16,241 INFO [train.py:903] (2/4) Epoch 27, batch 750, loss[loss=0.2645, simple_loss=0.3235, pruned_loss=0.1027, over 13928.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2846, pruned_loss=0.06079, over 3728833.86 frames. ], batch size: 136, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:31:26,143 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=178286.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:31:56,960 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=178311.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:32:17,795 INFO [train.py:903] (2/4) Epoch 27, batch 800, loss[loss=0.2054, simple_loss=0.2839, pruned_loss=0.06352, over 19693.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2852, pruned_loss=0.06141, over 3739188.90 frames. ], batch size: 53, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:32:31,960 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-03 08:33:04,024 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.236e+02 4.845e+02 6.131e+02 7.065e+02 2.334e+03, threshold=1.226e+03, percent-clipped=1.0
+2023-04-03 08:33:20,264 INFO [train.py:903] (2/4) Epoch 27, batch 850, loss[loss=0.2132, simple_loss=0.3013, pruned_loss=0.06256, over 19359.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2848, pruned_loss=0.06082, over 3762817.03 frames. ], batch size: 66, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:33:45,286 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=178397.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:34:12,702 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-03 08:34:16,580 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=178422.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:34:22,830 INFO [train.py:903] (2/4) Epoch 27, batch 900, loss[loss=0.2741, simple_loss=0.3353, pruned_loss=0.1065, over 19657.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.2842, pruned_loss=0.06034, over 3784466.37 frames. ], batch size: 53, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:34:30,685 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.70 vs. limit=5.0
+2023-04-03 08:35:10,866 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.108e+02 4.416e+02 5.422e+02 6.593e+02 1.258e+03, threshold=1.084e+03, percent-clipped=1.0
+2023-04-03 08:35:17,014 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=178470.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:35:28,147 INFO [train.py:903] (2/4) Epoch 27, batch 950, loss[loss=0.2396, simple_loss=0.3151, pruned_loss=0.08204, over 17370.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2858, pruned_loss=0.06092, over 3791630.36 frames. ], batch size: 101, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:35:30,677 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-03 08:36:11,811 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=178513.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:36:32,208 INFO [train.py:903] (2/4) Epoch 27, batch 1000, loss[loss=0.2269, simple_loss=0.2895, pruned_loss=0.08216, over 19783.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.285, pruned_loss=0.06064, over 3804745.08 frames. ], batch size: 49, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:36:34,986 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=178530.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:36:45,510 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=178538.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:37:06,218 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=178555.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:37:19,298 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.158e+02 4.971e+02 6.338e+02 8.822e+02 2.004e+03, threshold=1.268e+03, percent-clipped=12.0
+2023-04-03 08:37:25,257 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-03 08:37:35,825 INFO [train.py:903] (2/4) Epoch 27, batch 1050, loss[loss=0.1935, simple_loss=0.2822, pruned_loss=0.05238, over 19694.00 frames. ], tot_loss[loss=0.203, simple_loss=0.285, pruned_loss=0.06049, over 3814134.82 frames. ], batch size: 53, lr: 3.06e-03, grad_scale: 8.0
+2023-04-03 08:37:48,901 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5829, 1.7679, 2.0526, 1.7873, 2.5504, 2.9820, 2.8967, 3.1424],
+       device='cuda:2'), covar=tensor([0.1380, 0.3018, 0.2735, 0.2345, 0.1137, 0.0302, 0.0232, 0.0365],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0329, 0.0362, 0.0271, 0.0253, 0.0195, 0.0218, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 08:38:09,356 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-03 08:38:38,432 INFO [train.py:903] (2/4) Epoch 27, batch 1100, loss[loss=0.2326, simple_loss=0.3071, pruned_loss=0.07907, over 19576.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.284, pruned_loss=0.06019, over 3816800.22 frames. ], batch size: 61, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:38:50,330 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=178637.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:39:24,226 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4710, 1.5584, 1.8425, 1.7018, 2.6443, 2.2718, 2.8448, 1.3042],
+       device='cuda:2'), covar=tensor([0.2691, 0.4655, 0.2825, 0.2093, 0.1680, 0.2382, 0.1527, 0.4824],
+       device='cuda:2'), in_proj_covar=tensor([0.0552, 0.0667, 0.0745, 0.0504, 0.0633, 0.0544, 0.0665, 0.0568],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 08:39:27,051 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.060e+02 4.758e+02 5.833e+02 7.524e+02 1.653e+03, threshold=1.167e+03, percent-clipped=2.0
+2023-04-03 08:39:42,277 INFO [train.py:903] (2/4) Epoch 27, batch 1150, loss[loss=0.2059, simple_loss=0.2948, pruned_loss=0.05854, over 19667.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2847, pruned_loss=0.06089, over 3827820.80 frames. ], batch size: 58, lr: 3.05e-03, grad_scale: 4.0
+2023-04-03 08:40:25,314 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=178712.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:40:30,182 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=178715.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 08:40:47,630 INFO [train.py:903] (2/4) Epoch 27, batch 1200, loss[loss=0.2131, simple_loss=0.2987, pruned_loss=0.0637, over 19364.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2844, pruned_loss=0.06102, over 3834554.48 frames. ], batch size: 70, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:41:04,878 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3100, 2.1973, 2.0488, 1.9134, 1.6956, 1.8541, 0.6643, 1.3115],
+       device='cuda:2'), covar=tensor([0.0667, 0.0691, 0.0553, 0.0994, 0.1310, 0.1142, 0.1537, 0.1176],
+       device='cuda:2'), in_proj_covar=tensor([0.0367, 0.0367, 0.0370, 0.0394, 0.0474, 0.0398, 0.0348, 0.0351],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 08:41:18,721 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-03 08:41:38,088 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.626e+02 4.854e+02 6.177e+02 8.249e+02 1.593e+03, threshold=1.235e+03, percent-clipped=5.0
+2023-04-03 08:41:53,224 INFO [train.py:903] (2/4) Epoch 27, batch 1250, loss[loss=0.182, simple_loss=0.269, pruned_loss=0.04752, over 19662.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2843, pruned_loss=0.06079, over 3817251.88 frames. ], batch size: 55, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:42:03,115 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5035, 1.3315, 1.2987, 1.4624, 1.2979, 1.3145, 1.2635, 1.4303],
+       device='cuda:2'), covar=tensor([0.0887, 0.1298, 0.1247, 0.0801, 0.1128, 0.0531, 0.1294, 0.0674],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0361, 0.0319, 0.0258, 0.0309, 0.0258, 0.0323, 0.0265],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 08:42:05,346 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=178788.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:42:40,228 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=178814.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:42:47,799 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1267, 3.3398, 1.9763, 2.1712, 2.9517, 1.8508, 1.6160, 2.2067],
+       device='cuda:2'), covar=tensor([0.1433, 0.0719, 0.1148, 0.0896, 0.0609, 0.1273, 0.1017, 0.0794],
+       device='cuda:2'), in_proj_covar=tensor([0.0305, 0.0321, 0.0337, 0.0273, 0.0250, 0.0346, 0.0294, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 08:42:56,587 INFO [train.py:903] (2/4) Epoch 27, batch 1300, loss[loss=0.2122, simple_loss=0.2915, pruned_loss=0.06646, over 17479.00 frames. ], tot_loss[loss=0.203, simple_loss=0.2845, pruned_loss=0.06081, over 3817806.45 frames. ], batch size: 101, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:43:01,013 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 08:43:34,984 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.47 vs. limit=5.0
+2023-04-03 08:43:44,692 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.050e+02 5.004e+02 6.015e+02 7.494e+02 1.649e+03, threshold=1.203e+03, percent-clipped=2.0
+2023-04-03 08:43:58,889 INFO [train.py:903] (2/4) Epoch 27, batch 1350, loss[loss=0.2242, simple_loss=0.3021, pruned_loss=0.07314, over 19352.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2845, pruned_loss=0.06113, over 3822963.32 frames. ], batch size: 66, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:44:11,461 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4674, 2.1495, 1.6958, 1.3631, 1.9558, 1.3249, 1.3441, 1.9603],
+       device='cuda:2'), covar=tensor([0.1117, 0.0889, 0.1133, 0.1037, 0.0704, 0.1340, 0.0800, 0.0475],
+       device='cuda:2'), in_proj_covar=tensor([0.0305, 0.0322, 0.0338, 0.0274, 0.0251, 0.0347, 0.0295, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 08:44:41,886 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=178912.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 08:45:03,470 INFO [train.py:903] (2/4) Epoch 27, batch 1400, loss[loss=0.22, simple_loss=0.2991, pruned_loss=0.07043, over 17416.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2843, pruned_loss=0.06114, over 3815645.83 frames. ], batch size: 101, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:45:05,047 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=178929.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:45:50,938 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.415e+02 4.777e+02 6.195e+02 8.137e+02 1.607e+03, threshold=1.239e+03, percent-clipped=6.0
+2023-04-03 08:46:03,721 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-03 08:46:04,756 INFO [train.py:903] (2/4) Epoch 27, batch 1450, loss[loss=0.1874, simple_loss=0.2651, pruned_loss=0.0548, over 19390.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2829, pruned_loss=0.06039, over 3828240.86 frames. ], batch size: 48, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:46:09,313 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=178981.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:46:20,297 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.75 vs. limit=2.0
+2023-04-03 08:47:07,116 INFO [train.py:903] (2/4) Epoch 27, batch 1500, loss[loss=0.2447, simple_loss=0.3113, pruned_loss=0.08908, over 13070.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2833, pruned_loss=0.06063, over 3831664.65 frames. ], batch size: 135, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:47:42,372 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=179056.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:47:45,652 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=179059.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 08:47:54,377 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.273e+02 4.749e+02 5.669e+02 7.445e+02 1.551e+03, threshold=1.134e+03, percent-clipped=3.0
+2023-04-03 08:48:08,111 INFO [train.py:903] (2/4) Epoch 27, batch 1550, loss[loss=0.2186, simple_loss=0.2981, pruned_loss=0.0696, over 18206.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.2834, pruned_loss=0.06069, over 3832511.09 frames. ], batch size: 83, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:48:32,713 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=179096.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:49:12,295 INFO [train.py:903] (2/4) Epoch 27, batch 1600, loss[loss=0.1868, simple_loss=0.2662, pruned_loss=0.05366, over 19732.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2829, pruned_loss=0.06022, over 3831118.35 frames. ], batch size: 51, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:49:18,231 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=179132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:49:37,313 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-03 08:49:59,058 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.135e+02 4.994e+02 6.186e+02 7.700e+02 1.707e+03, threshold=1.237e+03, percent-clipped=5.0
+2023-04-03 08:50:06,443 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=179171.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:50:09,942 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=179174.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 08:50:14,087 INFO [train.py:903] (2/4) Epoch 27, batch 1650, loss[loss=0.1823, simple_loss=0.2807, pruned_loss=0.04193, over 19560.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2834, pruned_loss=0.05983, over 3837893.86 frames. ], batch size: 61, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:50:23,755 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=179185.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:50:55,295 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=179210.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:51:17,035 INFO [train.py:903] (2/4) Epoch 27, batch 1700, loss[loss=0.183, simple_loss=0.2732, pruned_loss=0.04642, over 19481.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2836, pruned_loss=0.05991, over 3824790.68 frames. ], batch size: 49, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:51:41,279 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=179247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:51:52,279 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=179256.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 08:51:58,273 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-03 08:52:04,051 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.943e+02 5.162e+02 6.407e+02 7.875e+02 2.392e+03, threshold=1.281e+03, percent-clipped=6.0
+2023-04-03 08:52:18,191 INFO [train.py:903] (2/4) Epoch 27, batch 1750, loss[loss=0.1545, simple_loss=0.2397, pruned_loss=0.03467, over 19731.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.2831, pruned_loss=0.05971, over 3819826.70 frames. ], batch size: 45, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:53:13,854 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2888, 2.9557, 2.4368, 2.4748, 2.0807, 2.6814, 1.1178, 2.2017],
+       device='cuda:2'), covar=tensor([0.0727, 0.0651, 0.0756, 0.1231, 0.1267, 0.1129, 0.1610, 0.1158],
+       device='cuda:2'), in_proj_covar=tensor([0.0364, 0.0364, 0.0367, 0.0391, 0.0472, 0.0397, 0.0345, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 08:53:21,041 INFO [train.py:903] (2/4) Epoch 27, batch 1800, loss[loss=0.1677, simple_loss=0.2556, pruned_loss=0.03992, over 19859.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2835, pruned_loss=0.05995, over 3832353.27 frames. ], batch size: 52, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:53:21,458 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1195, 2.0106, 1.7811, 2.0979, 1.8649, 1.8092, 1.7297, 2.0230],
+       device='cuda:2'), covar=tensor([0.1087, 0.1426, 0.1522, 0.1125, 0.1381, 0.0579, 0.1509, 0.0777],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0359, 0.0318, 0.0256, 0.0307, 0.0257, 0.0320, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 08:53:51,622 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=179352.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:54:08,230 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.712e+02 4.924e+02 6.082e+02 7.444e+02 1.664e+03, threshold=1.216e+03, percent-clipped=4.0
+2023-04-03 08:54:15,374 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=179371.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 08:54:21,557 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-03 08:54:23,182 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=179377.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:54:23,936 INFO [train.py:903] (2/4) Epoch 27, batch 1850, loss[loss=0.1863, simple_loss=0.2736, pruned_loss=0.04948, over 19660.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2827, pruned_loss=0.05968, over 3823024.89 frames. ], batch size: 53, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:54:25,270 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=179379.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:55:00,562 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-03 08:55:21,089 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4902, 1.6225, 1.7475, 2.0306, 1.6495, 1.9198, 1.8199, 1.5984],
+       device='cuda:2'), covar=tensor([0.4829, 0.4197, 0.2796, 0.2702, 0.4034, 0.2494, 0.6407, 0.4977],
+       device='cuda:2'), in_proj_covar=tensor([0.0927, 0.1004, 0.0737, 0.0948, 0.0905, 0.0844, 0.0855, 0.0802],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 08:55:25,837 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=179427.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:55:26,554 INFO [train.py:903] (2/4) Epoch 27, batch 1900, loss[loss=0.1729, simple_loss=0.2551, pruned_loss=0.0453, over 19619.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.284, pruned_loss=0.06057, over 3822781.40 frames. ], batch size: 50, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:55:26,927 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3766, 1.4545, 1.7876, 1.5655, 2.8642, 3.8524, 3.5264, 4.0361],
+       device='cuda:2'), covar=tensor([0.1489, 0.3624, 0.3249, 0.2373, 0.0601, 0.0174, 0.0209, 0.0263],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0330, 0.0363, 0.0270, 0.0253, 0.0195, 0.0218, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 08:55:29,283 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=179430.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 08:55:45,932 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-03 08:55:49,564 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-03 08:55:56,562 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=179452.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:56:00,911 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=179455.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 08:56:10,096 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=179462.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 08:56:14,505 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.488e+02 5.214e+02 6.120e+02 7.486e+02 1.853e+03, threshold=1.224e+03, percent-clipped=1.0
+2023-04-03 08:56:15,776 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-03 08:56:28,547 INFO [train.py:903] (2/4) Epoch 27, batch 1950, loss[loss=0.1596, simple_loss=0.2382, pruned_loss=0.04047, over 19724.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.284, pruned_loss=0.06045, over 3817566.99 frames. ], batch size: 46, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:57:02,015 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=179503.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:57:13,667 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.58 vs. limit=2.0
+2023-04-03 08:57:31,829 INFO [train.py:903] (2/4) Epoch 27, batch 2000, loss[loss=0.221, simple_loss=0.2995, pruned_loss=0.07129, over 19317.00 frames. ], tot_loss[loss=0.203, simple_loss=0.284, pruned_loss=0.061, over 3804303.95 frames. ], batch size: 70, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:57:32,251 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=179528.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 08:58:19,145 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.349e+02 5.376e+02 6.611e+02 8.547e+02 2.231e+03, threshold=1.322e+03, percent-clipped=11.0
+2023-04-03 08:58:33,850 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-03 08:58:34,808 INFO [train.py:903] (2/4) Epoch 27, batch 2050, loss[loss=0.221, simple_loss=0.3, pruned_loss=0.07099, over 19491.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2849, pruned_loss=0.06147, over 3799528.53 frames. ], batch size: 64, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 08:58:53,485 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-03 08:58:54,675 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-03 08:59:14,227 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-03 08:59:37,292 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=179627.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 08:59:37,904 INFO [train.py:903] (2/4) Epoch 27, batch 2100, loss[loss=0.2247, simple_loss=0.3124, pruned_loss=0.0685, over 19746.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2849, pruned_loss=0.06112, over 3804055.67 frames. ], batch size: 63, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 09:00:03,379 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8613, 1.7132, 1.7622, 2.2171, 1.8435, 1.9966, 1.9735, 1.8246],
+       device='cuda:2'), covar=tensor([0.0628, 0.0768, 0.0821, 0.0595, 0.0872, 0.0675, 0.0851, 0.0623],
+       device='cuda:2'), in_proj_covar=tensor([0.0211, 0.0224, 0.0227, 0.0239, 0.0226, 0.0213, 0.0188, 0.0205],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 09:00:07,543 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-03 09:00:07,912 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=179652.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 09:00:10,164 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=179654.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:00:25,310 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.840e+02 4.609e+02 5.792e+02 6.874e+02 1.495e+03, threshold=1.158e+03, percent-clipped=2.0
+2023-04-03 09:00:28,904 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-03 09:00:39,310 INFO [train.py:903] (2/4) Epoch 27, batch 2150, loss[loss=0.1916, simple_loss=0.2815, pruned_loss=0.05087, over 19430.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2846, pruned_loss=0.0611, over 3784687.78 frames. ], batch size: 70, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 09:00:42,472 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 09:01:37,664 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=179723.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:01:43,433 INFO [train.py:903] (2/4) Epoch 27, batch 2200, loss[loss=0.209, simple_loss=0.2929, pruned_loss=0.06258, over 19683.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2835, pruned_loss=0.0605, over 3789348.77 frames. ], batch size: 59, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 09:02:30,598 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.069e+02 5.235e+02 6.025e+02 7.394e+02 1.358e+03, threshold=1.205e+03, percent-clipped=1.0
+2023-04-03 09:02:46,337 INFO [train.py:903] (2/4) Epoch 27, batch 2250, loss[loss=0.1721, simple_loss=0.251, pruned_loss=0.04665, over 19393.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2844, pruned_loss=0.06126, over 3785985.34 frames. ], batch size: 47, lr: 3.05e-03, grad_scale: 8.0
+2023-04-03 09:03:21,840 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=179806.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 09:03:33,138 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=179814.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:03:50,160 INFO [train.py:903] (2/4) Epoch 27, batch 2300, loss[loss=0.1779, simple_loss=0.2679, pruned_loss=0.04393, over 19675.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.284, pruned_loss=0.06093, over 3791406.22 frames. ], batch size: 60, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:04:02,209 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=179838.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:04:03,049 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-03 09:04:38,194 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.712e+02 5.173e+02 6.408e+02 8.011e+02 2.024e+03, threshold=1.282e+03, percent-clipped=7.0
+2023-04-03 09:04:51,778 INFO [train.py:903] (2/4) Epoch 27, batch 2350, loss[loss=0.1842, simple_loss=0.2721, pruned_loss=0.04812, over 19644.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2843, pruned_loss=0.06117, over 3797781.68 frames. ], batch size: 55, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:05:34,695 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-03 09:05:45,224 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=179921.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 09:05:48,557 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=179924.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 09:05:50,584 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-03 09:05:53,787 INFO [train.py:903] (2/4) Epoch 27, batch 2400, loss[loss=0.1891, simple_loss=0.2737, pruned_loss=0.05232, over 19758.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2848, pruned_loss=0.06154, over 3803687.72 frames. ], batch size: 48, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:06:11,773 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=179942.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:06:41,353 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.340e+02 4.979e+02 6.417e+02 8.310e+02 2.182e+03, threshold=1.283e+03, percent-clipped=4.0
+2023-04-03 09:06:57,093 INFO [train.py:903] (2/4) Epoch 27, batch 2450, loss[loss=0.2103, simple_loss=0.2928, pruned_loss=0.0639, over 19758.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.284, pruned_loss=0.06073, over 3814762.04 frames. ], batch size: 63, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:07:21,331 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=179998.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:07:46,427 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
+2023-04-03 09:08:00,994 INFO [train.py:903] (2/4) Epoch 27, batch 2500, loss[loss=0.192, simple_loss=0.2803, pruned_loss=0.05181, over 19680.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2831, pruned_loss=0.06007, over 3810649.66 frames. ], batch size: 58, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:08:19,333 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=180044.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:08:47,574 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3468, 1.6318, 2.1617, 1.6065, 3.1931, 4.7688, 4.6401, 5.2633],
+       device='cuda:2'), covar=tensor([0.1672, 0.3716, 0.3188, 0.2365, 0.0591, 0.0190, 0.0166, 0.0174],
+       device='cuda:2'), in_proj_covar=tensor([0.0280, 0.0331, 0.0364, 0.0270, 0.0254, 0.0196, 0.0220, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 09:08:48,294 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.631e+02 4.714e+02 5.802e+02 6.784e+02 1.958e+03, threshold=1.160e+03, percent-clipped=2.0
+2023-04-03 09:09:02,327 INFO [train.py:903] (2/4) Epoch 27, batch 2550, loss[loss=0.1728, simple_loss=0.2484, pruned_loss=0.04858, over 19345.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2837, pruned_loss=0.06042, over 3818143.70 frames. ], batch size: 47, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:09:03,703 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1293, 5.1954, 6.0166, 6.0268, 2.0905, 5.6943, 4.7616, 5.6753],
+       device='cuda:2'), covar=tensor([0.1776, 0.0798, 0.0517, 0.0593, 0.6193, 0.0844, 0.0650, 0.1025],
+       device='cuda:2'), in_proj_covar=tensor([0.0817, 0.0781, 0.0989, 0.0867, 0.0865, 0.0750, 0.0582, 0.0915],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 09:09:22,041 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=180094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:09:47,135 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=180113.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:09:53,165 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7256, 2.4269, 1.8015, 1.6282, 2.1604, 1.4213, 1.7055, 2.0636],
+       device='cuda:2'), covar=tensor([0.1173, 0.0884, 0.1164, 0.0894, 0.0647, 0.1353, 0.0677, 0.0513],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0321, 0.0338, 0.0273, 0.0250, 0.0344, 0.0292, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:09:54,399 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=180119.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:09:58,727 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-03 09:10:04,536 INFO [train.py:903] (2/4) Epoch 27, batch 2600, loss[loss=0.2333, simple_loss=0.3113, pruned_loss=0.07769, over 19654.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2849, pruned_loss=0.06066, over 3819074.37 frames. ], batch size: 55, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:10:15,105 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5190, 2.5738, 2.1172, 2.6619, 2.2882, 2.1619, 2.0731, 2.4097],
+       device='cuda:2'), covar=tensor([0.1044, 0.1481, 0.1460, 0.1033, 0.1421, 0.0533, 0.1444, 0.0706],
+       device='cuda:2'), in_proj_covar=tensor([0.0278, 0.0359, 0.0317, 0.0258, 0.0307, 0.0256, 0.0321, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:10:42,780 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=180158.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:10:52,196 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.132e+02 5.258e+02 6.240e+02 7.647e+02 1.495e+03, threshold=1.248e+03, percent-clipped=4.0
+2023-04-03 09:11:07,709 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=180177.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 09:11:08,382 INFO [train.py:903] (2/4) Epoch 27, batch 2650, loss[loss=0.2383, simple_loss=0.3194, pruned_loss=0.0786, over 17933.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2851, pruned_loss=0.06085, over 3817182.39 frames. ], batch size: 83, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:11:18,559 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.2203, 5.6476, 3.1427, 4.8657, 1.1120, 5.8932, 5.6497, 5.8583],
+       device='cuda:2'), covar=tensor([0.0389, 0.0813, 0.1869, 0.0730, 0.3962, 0.0489, 0.0752, 0.1071],
+       device='cuda:2'), in_proj_covar=tensor([0.0528, 0.0427, 0.0511, 0.0358, 0.0407, 0.0455, 0.0447, 0.0475],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:11:29,731 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-03 09:11:38,075 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=180202.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 09:11:59,692 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.72 vs. limit=2.0
+2023-04-03 09:12:04,763 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=180223.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:12:11,780 INFO [train.py:903] (2/4) Epoch 27, batch 2700, loss[loss=0.2656, simple_loss=0.339, pruned_loss=0.09611, over 19682.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2852, pruned_loss=0.06114, over 3814698.00 frames. ], batch size: 60, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:12:33,813 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-03 09:12:39,142 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2349, 2.2960, 2.5342, 3.0087, 2.3632, 2.8495, 2.5462, 2.2276],
+       device='cuda:2'), covar=tensor([0.4333, 0.4034, 0.1970, 0.2768, 0.4408, 0.2430, 0.4810, 0.3590],
+       device='cuda:2'), in_proj_covar=tensor([0.0934, 0.1012, 0.0742, 0.0954, 0.0912, 0.0852, 0.0859, 0.0809],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 09:13:00,980 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.426e+02 5.233e+02 6.139e+02 8.955e+02 2.009e+03, threshold=1.228e+03, percent-clipped=9.0
+2023-04-03 09:13:02,195 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=180268.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 09:13:08,010 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=180273.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:13:11,337 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6194, 2.3275, 1.6339, 1.5966, 2.1029, 1.3138, 1.4919, 1.9084],
+       device='cuda:2'), covar=tensor([0.1117, 0.0796, 0.1195, 0.0846, 0.0643, 0.1361, 0.0761, 0.0556],
+       device='cuda:2'), in_proj_covar=tensor([0.0305, 0.0323, 0.0341, 0.0275, 0.0253, 0.0347, 0.0295, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:13:13,275 INFO [train.py:903] (2/4) Epoch 27, batch 2750, loss[loss=0.154, simple_loss=0.2417, pruned_loss=0.03316, over 19416.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2853, pruned_loss=0.06104, over 3816628.32 frames. ], batch size: 47, lr: 3.04e-03, grad_scale: 4.0
+2023-04-03 09:13:20,961 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.29 vs. limit=2.0
+2023-04-03 09:13:22,797 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=180286.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:14:15,234 INFO [train.py:903] (2/4) Epoch 27, batch 2800, loss[loss=0.1749, simple_loss=0.2518, pruned_loss=0.04903, over 19788.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2849, pruned_loss=0.06083, over 3805598.49 frames. ], batch size: 48, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:14:49,794 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=180354.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:15:04,812 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.309e+02 4.838e+02 6.554e+02 8.151e+02 1.805e+03, threshold=1.311e+03, percent-clipped=3.0
+2023-04-03 09:15:08,524 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=180369.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:15:18,461 INFO [train.py:903] (2/4) Epoch 27, batch 2850, loss[loss=0.2198, simple_loss=0.3125, pruned_loss=0.06358, over 19510.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2847, pruned_loss=0.06092, over 3809139.54 frames. ], batch size: 56, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:15:24,596 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-03 09:15:26,271 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=180383.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 09:15:33,053 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=180388.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:15:40,147 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=180394.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:15:48,629 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=180401.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:16:20,685 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-03 09:16:22,938 INFO [train.py:903] (2/4) Epoch 27, batch 2900, loss[loss=0.2067, simple_loss=0.2877, pruned_loss=0.06285, over 18767.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2837, pruned_loss=0.0605, over 3808332.93 frames. ], batch size: 74, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:17:13,080 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.869e+02 4.922e+02 6.355e+02 8.136e+02 1.738e+03, threshold=1.271e+03, percent-clipped=4.0
+2023-04-03 09:17:15,665 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.1026, 4.4794, 4.8173, 4.8135, 1.9202, 4.5187, 3.9379, 4.5416],
+       device='cuda:2'), covar=tensor([0.1633, 0.0799, 0.0539, 0.0609, 0.5999, 0.0905, 0.0667, 0.1033],
+       device='cuda:2'), in_proj_covar=tensor([0.0813, 0.0777, 0.0987, 0.0865, 0.0860, 0.0749, 0.0580, 0.0915],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 09:17:26,071 INFO [train.py:903] (2/4) Epoch 27, batch 2950, loss[loss=0.1847, simple_loss=0.2658, pruned_loss=0.05179, over 19737.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.283, pruned_loss=0.06033, over 3818576.08 frames. ], batch size: 51, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:17:45,971 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2500, 1.4476, 1.9118, 1.5484, 3.0570, 4.4393, 4.2894, 4.8612],
+       device='cuda:2'), covar=tensor([0.1726, 0.3899, 0.3460, 0.2443, 0.0724, 0.0293, 0.0194, 0.0245],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0332, 0.0365, 0.0271, 0.0255, 0.0197, 0.0220, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 09:17:56,642 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=180503.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:18:27,180 INFO [train.py:903] (2/4) Epoch 27, batch 3000, loss[loss=0.1835, simple_loss=0.2619, pruned_loss=0.05259, over 19581.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2833, pruned_loss=0.06055, over 3823474.68 frames. ], batch size: 52, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:18:27,181 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 09:18:39,763 INFO [train.py:937] (2/4) Epoch 27, validation: loss=0.1667, simple_loss=0.2664, pruned_loss=0.03355, over 944034.00 frames. 
+2023-04-03 09:18:39,764 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 09:18:41,337 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=180529.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:18:43,413 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-03 09:19:11,493 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=180554.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:19:29,347 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=180567.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:19:30,280 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.939e+02 4.587e+02 5.827e+02 7.595e+02 1.750e+03, threshold=1.165e+03, percent-clipped=2.0
+2023-04-03 09:19:41,906 INFO [train.py:903] (2/4) Epoch 27, batch 3050, loss[loss=0.2281, simple_loss=0.3081, pruned_loss=0.07408, over 19681.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2831, pruned_loss=0.06033, over 3814690.26 frames. ], batch size: 60, lr: 3.04e-03, grad_scale: 4.0
+2023-04-03 09:19:54,660 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=180588.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:20:44,777 INFO [train.py:903] (2/4) Epoch 27, batch 3100, loss[loss=0.1933, simple_loss=0.2771, pruned_loss=0.05477, over 19782.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2824, pruned_loss=0.05981, over 3817750.20 frames. ], batch size: 56, lr: 3.04e-03, grad_scale: 4.0
+2023-04-03 09:20:56,855 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4606, 1.5155, 1.7082, 1.7261, 2.6710, 2.3082, 2.8448, 1.1783],
+       device='cuda:2'), covar=tensor([0.2617, 0.4555, 0.3002, 0.2015, 0.1624, 0.2228, 0.1491, 0.4979],
+       device='cuda:2'), in_proj_covar=tensor([0.0551, 0.0668, 0.0749, 0.0505, 0.0633, 0.0545, 0.0668, 0.0569],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 09:20:59,827 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=180639.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 09:21:20,347 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=180657.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:21:29,246 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=180664.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 09:21:33,516 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.182e+02 4.719e+02 5.890e+02 7.652e+02 1.677e+03, threshold=1.178e+03, percent-clipped=3.0
+2023-04-03 09:21:46,250 INFO [train.py:903] (2/4) Epoch 27, batch 3150, loss[loss=0.1703, simple_loss=0.247, pruned_loss=0.04684, over 19324.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2819, pruned_loss=0.05965, over 3822179.34 frames. ], batch size: 44, lr: 3.04e-03, grad_scale: 4.0
+2023-04-03 09:21:52,946 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=180682.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:21:52,987 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=180682.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:22:11,338 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=180698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:22:15,864 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-03 09:22:49,877 INFO [train.py:903] (2/4) Epoch 27, batch 3200, loss[loss=0.1797, simple_loss=0.2552, pruned_loss=0.05211, over 19373.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2821, pruned_loss=0.06007, over 3815460.50 frames. ], batch size: 47, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:23:16,607 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=180750.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:23:28,917 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=180759.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:23:39,761 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.293e+02 5.255e+02 6.624e+02 9.042e+02 3.460e+03, threshold=1.325e+03, percent-clipped=12.0
+2023-04-03 09:23:51,467 INFO [train.py:903] (2/4) Epoch 27, batch 3250, loss[loss=0.2036, simple_loss=0.2935, pruned_loss=0.05689, over 19653.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.2824, pruned_loss=0.06016, over 3817010.00 frames. ], batch size: 60, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:23:59,389 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=180784.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:24:36,472 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=180813.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:24:45,518 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4954, 4.1626, 3.2015, 3.4519, 1.8497, 4.0397, 3.9687, 4.0405],
+       device='cuda:2'), covar=tensor([0.0598, 0.0918, 0.1771, 0.1153, 0.3044, 0.0752, 0.0937, 0.1224],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0425, 0.0511, 0.0357, 0.0405, 0.0452, 0.0447, 0.0475],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:24:54,217 INFO [train.py:903] (2/4) Epoch 27, batch 3300, loss[loss=0.2756, simple_loss=0.3384, pruned_loss=0.1064, over 19680.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2839, pruned_loss=0.06122, over 3805768.63 frames. ], batch size: 58, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:25:00,024 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-03 09:25:07,331 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-03 09:25:13,341 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=180843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:25:43,904 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.436e+02 5.181e+02 6.566e+02 8.708e+02 1.878e+03, threshold=1.313e+03, percent-clipped=7.0
+2023-04-03 09:25:56,122 INFO [train.py:903] (2/4) Epoch 27, batch 3350, loss[loss=0.2265, simple_loss=0.3088, pruned_loss=0.07213, over 19454.00 frames. ], tot_loss[loss=0.2048, simple_loss=0.2854, pruned_loss=0.06214, over 3804565.21 frames. ], batch size: 64, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:26:51,575 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7888, 3.2840, 3.3246, 3.3500, 1.3357, 3.1960, 2.7775, 3.1076],
+       device='cuda:2'), covar=tensor([0.1943, 0.1154, 0.0900, 0.0977, 0.6049, 0.1219, 0.0934, 0.1421],
+       device='cuda:2'), in_proj_covar=tensor([0.0822, 0.0783, 0.0997, 0.0875, 0.0865, 0.0756, 0.0585, 0.0923],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 09:27:00,218 INFO [train.py:903] (2/4) Epoch 27, batch 3400, loss[loss=0.1732, simple_loss=0.257, pruned_loss=0.04469, over 19611.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2845, pruned_loss=0.06165, over 3818775.01 frames. ], batch size: 50, lr: 3.04e-03, grad_scale: 8.0
+2023-04-03 09:27:05,055 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=180932.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:27:12,003 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=180938.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:27:44,015 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=180963.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:27:50,459 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.175e+02 4.823e+02 5.841e+02 8.287e+02 1.627e+03, threshold=1.168e+03, percent-clipped=5.0
+2023-04-03 09:27:59,604 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.72 vs. limit=2.0
+2023-04-03 09:28:02,298 INFO [train.py:903] (2/4) Epoch 27, batch 3450, loss[loss=0.2106, simple_loss=0.2996, pruned_loss=0.06081, over 19480.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2844, pruned_loss=0.06154, over 3825186.57 frames. ], batch size: 64, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:28:06,944 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-03 09:28:18,956 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.59 vs. limit=5.0
+2023-04-03 09:29:04,451 INFO [train.py:903] (2/4) Epoch 27, batch 3500, loss[loss=0.1759, simple_loss=0.2582, pruned_loss=0.04682, over 19401.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2846, pruned_loss=0.06124, over 3809314.07 frames. ], batch size: 48, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:29:28,500 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=181047.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:29:53,844 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.012e+02 5.177e+02 6.114e+02 8.226e+02 1.424e+03, threshold=1.223e+03, percent-clipped=6.0
+2023-04-03 09:29:55,515 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=181069.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:30:06,537 INFO [train.py:903] (2/4) Epoch 27, batch 3550, loss[loss=0.1874, simple_loss=0.2648, pruned_loss=0.05499, over 19771.00 frames. ], tot_loss[loss=0.2033, simple_loss=0.2843, pruned_loss=0.06113, over 3817741.80 frames. ], batch size: 48, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:30:27,222 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=181094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:30:27,464 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=181094.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:31:09,199 INFO [train.py:903] (2/4) Epoch 27, batch 3600, loss[loss=0.21, simple_loss=0.2928, pruned_loss=0.0636, over 19681.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2829, pruned_loss=0.06032, over 3832571.68 frames. ], batch size: 53, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:32:00,764 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.317e+02 4.881e+02 5.766e+02 7.270e+02 1.755e+03, threshold=1.153e+03, percent-clipped=5.0
+2023-04-03 09:32:12,505 INFO [train.py:903] (2/4) Epoch 27, batch 3650, loss[loss=0.1523, simple_loss=0.2292, pruned_loss=0.03776, over 19322.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2827, pruned_loss=0.06074, over 3818580.78 frames. ], batch size: 44, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:32:24,261 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=181187.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:32:33,453 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0058, 3.7069, 2.5614, 3.2974, 0.9517, 3.6807, 3.4971, 3.6139],
+       device='cuda:2'), covar=tensor([0.0830, 0.1150, 0.1953, 0.0952, 0.3854, 0.0827, 0.1023, 0.1251],
+       device='cuda:2'), in_proj_covar=tensor([0.0529, 0.0428, 0.0514, 0.0358, 0.0408, 0.0453, 0.0448, 0.0476],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:32:52,766 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=181209.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:33:15,875 INFO [train.py:903] (2/4) Epoch 27, batch 3700, loss[loss=0.2009, simple_loss=0.2856, pruned_loss=0.05812, over 19491.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2842, pruned_loss=0.06114, over 3816549.19 frames. ], batch size: 64, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:34:06,271 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.101e+02 5.357e+02 6.375e+02 8.389e+02 2.807e+03, threshold=1.275e+03, percent-clipped=10.0
+2023-04-03 09:34:17,477 INFO [train.py:903] (2/4) Epoch 27, batch 3750, loss[loss=0.229, simple_loss=0.3114, pruned_loss=0.07335, over 18842.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2857, pruned_loss=0.06218, over 3797982.81 frames. ], batch size: 74, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:34:40,898 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6475, 1.4803, 1.5104, 2.2139, 1.6423, 1.8552, 2.0214, 1.6629],
+       device='cuda:2'), covar=tensor([0.0865, 0.0927, 0.1033, 0.0715, 0.0806, 0.0749, 0.0798, 0.0752],
+       device='cuda:2'), in_proj_covar=tensor([0.0210, 0.0222, 0.0225, 0.0239, 0.0224, 0.0211, 0.0186, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 09:34:48,341 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=181302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:34:49,700 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=181303.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:35:04,222 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=181315.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:35:20,122 INFO [train.py:903] (2/4) Epoch 27, batch 3800, loss[loss=0.1766, simple_loss=0.2598, pruned_loss=0.04672, over 19618.00 frames. ], tot_loss[loss=0.2051, simple_loss=0.2857, pruned_loss=0.06226, over 3794955.69 frames. ], batch size: 50, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:35:20,553 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=181328.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:35:48,537 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-03 09:36:10,636 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.827e+02 5.403e+02 6.773e+02 8.761e+02 1.536e+03, threshold=1.355e+03, percent-clipped=8.0
+2023-04-03 09:36:22,055 INFO [train.py:903] (2/4) Epoch 27, batch 3850, loss[loss=0.2177, simple_loss=0.306, pruned_loss=0.0647, over 19727.00 frames. ], tot_loss[loss=0.205, simple_loss=0.2858, pruned_loss=0.06209, over 3813952.62 frames. ], batch size: 63, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:36:36,837 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2366, 2.3350, 2.4895, 3.0770, 2.3083, 2.8545, 2.4823, 2.2995],
+       device='cuda:2'), covar=tensor([0.4571, 0.4258, 0.2154, 0.2720, 0.4704, 0.2468, 0.5416, 0.3596],
+       device='cuda:2'), in_proj_covar=tensor([0.0929, 0.1007, 0.0738, 0.0948, 0.0906, 0.0847, 0.0856, 0.0804],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 09:37:25,669 INFO [train.py:903] (2/4) Epoch 27, batch 3900, loss[loss=0.2216, simple_loss=0.2999, pruned_loss=0.07161, over 19558.00 frames. ], tot_loss[loss=0.203, simple_loss=0.284, pruned_loss=0.06097, over 3817859.75 frames. ], batch size: 61, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:38:13,015 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=181465.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:38:17,127 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.394e+02 5.123e+02 6.226e+02 8.139e+02 1.802e+03, threshold=1.245e+03, percent-clipped=4.0
+2023-04-03 09:38:28,445 INFO [train.py:903] (2/4) Epoch 27, batch 3950, loss[loss=0.2098, simple_loss=0.2846, pruned_loss=0.06754, over 19372.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2836, pruned_loss=0.06042, over 3809486.09 frames. ], batch size: 47, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:38:30,589 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-03 09:38:43,854 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=181490.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:39:30,597 INFO [train.py:903] (2/4) Epoch 27, batch 4000, loss[loss=0.1815, simple_loss=0.2658, pruned_loss=0.04858, over 19665.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.2841, pruned_loss=0.061, over 3804914.24 frames. ], batch size: 53, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:39:55,717 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=181548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:40:08,384 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=181558.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:40:14,679 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-03 09:40:21,509 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.200e+02 5.331e+02 6.990e+02 9.796e+02 2.756e+03, threshold=1.398e+03, percent-clipped=11.0
+2023-04-03 09:40:32,613 INFO [train.py:903] (2/4) Epoch 27, batch 4050, loss[loss=0.1775, simple_loss=0.2614, pruned_loss=0.04675, over 19626.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2842, pruned_loss=0.06109, over 3811574.16 frames. ], batch size: 50, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:40:38,825 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=181583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:41:35,051 INFO [train.py:903] (2/4) Epoch 27, batch 4100, loss[loss=0.2103, simple_loss=0.2978, pruned_loss=0.06137, over 19069.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.2838, pruned_loss=0.06073, over 3822798.28 frames. ], batch size: 69, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:42:07,735 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-03 09:42:13,761 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=181659.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:42:26,971 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.417e+02 5.142e+02 6.045e+02 7.647e+02 1.406e+03, threshold=1.209e+03, percent-clipped=1.0
+2023-04-03 09:42:35,660 INFO [train.py:903] (2/4) Epoch 27, batch 4150, loss[loss=0.2042, simple_loss=0.2893, pruned_loss=0.05956, over 19538.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2846, pruned_loss=0.06124, over 3838427.03 frames. ], batch size: 54, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:43:07,920 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4540, 1.2952, 1.4745, 1.4989, 3.0466, 1.1264, 2.3538, 3.4462],
+       device='cuda:2'), covar=tensor([0.0545, 0.2924, 0.2977, 0.1862, 0.0678, 0.2510, 0.1309, 0.0274],
+       device='cuda:2'), in_proj_covar=tensor([0.0420, 0.0375, 0.0392, 0.0350, 0.0381, 0.0354, 0.0390, 0.0413],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:43:21,562 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3616, 1.3767, 1.5344, 1.5148, 1.8817, 1.8519, 1.8434, 0.6155],
+       device='cuda:2'), covar=tensor([0.2517, 0.4590, 0.2829, 0.2013, 0.1606, 0.2439, 0.1396, 0.5242],
+       device='cuda:2'), in_proj_covar=tensor([0.0553, 0.0669, 0.0751, 0.0506, 0.0635, 0.0547, 0.0670, 0.0571],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 09:43:38,695 INFO [train.py:903] (2/4) Epoch 27, batch 4200, loss[loss=0.2027, simple_loss=0.2895, pruned_loss=0.05798, over 19777.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2843, pruned_loss=0.06066, over 3834167.54 frames. ], batch size: 56, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:43:42,087 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-03 09:43:55,232 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6545, 1.4195, 1.6645, 1.5949, 3.2394, 1.2042, 2.4792, 3.7041],
+       device='cuda:2'), covar=tensor([0.0480, 0.2991, 0.2763, 0.1878, 0.0682, 0.2477, 0.1204, 0.0226],
+       device='cuda:2'), in_proj_covar=tensor([0.0422, 0.0377, 0.0394, 0.0352, 0.0382, 0.0356, 0.0392, 0.0415],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:44:30,940 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.172e+02 5.083e+02 6.482e+02 7.948e+02 1.533e+03, threshold=1.296e+03, percent-clipped=4.0
+2023-04-03 09:44:36,236 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=181774.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:44:40,472 INFO [train.py:903] (2/4) Epoch 27, batch 4250, loss[loss=0.2334, simple_loss=0.3217, pruned_loss=0.07254, over 19494.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2823, pruned_loss=0.05994, over 3829338.44 frames. ], batch size: 64, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:44:55,284 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-03 09:45:08,386 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-03 09:45:43,727 INFO [train.py:903] (2/4) Epoch 27, batch 4300, loss[loss=0.2104, simple_loss=0.2921, pruned_loss=0.06435, over 19676.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2831, pruned_loss=0.06028, over 3827397.72 frames. ], batch size: 58, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:45:46,625 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7837, 4.3312, 2.7518, 3.8556, 1.0150, 4.3494, 4.1754, 4.2748],
+       device='cuda:2'), covar=tensor([0.0569, 0.0960, 0.1882, 0.0846, 0.3924, 0.0639, 0.0923, 0.1064],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0427, 0.0512, 0.0357, 0.0406, 0.0452, 0.0448, 0.0477],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:46:16,696 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6123, 4.1429, 4.3165, 4.2883, 1.8595, 4.0535, 3.5648, 4.0916],
+       device='cuda:2'), covar=tensor([0.1676, 0.0821, 0.0604, 0.0721, 0.5551, 0.0902, 0.0691, 0.1038],
+       device='cuda:2'), in_proj_covar=tensor([0.0823, 0.0784, 0.0994, 0.0870, 0.0864, 0.0755, 0.0588, 0.0922],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 09:46:36,878 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.524e+02 4.917e+02 6.450e+02 8.224e+02 1.543e+03, threshold=1.290e+03, percent-clipped=3.0
+2023-04-03 09:46:40,242 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-03 09:46:47,387 INFO [train.py:903] (2/4) Epoch 27, batch 4350, loss[loss=0.1847, simple_loss=0.2715, pruned_loss=0.04899, over 19665.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2821, pruned_loss=0.06001, over 3836200.38 frames. ], batch size: 53, lr: 3.03e-03, grad_scale: 4.0
+2023-04-03 09:46:59,931 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9659, 4.5637, 2.8383, 3.9412, 1.1782, 4.4980, 4.3604, 4.4517],
+       device='cuda:2'), covar=tensor([0.0556, 0.0892, 0.1896, 0.0814, 0.3768, 0.0664, 0.0925, 0.1324],
+       device='cuda:2'), in_proj_covar=tensor([0.0528, 0.0428, 0.0513, 0.0358, 0.0408, 0.0454, 0.0450, 0.0479],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:47:05,490 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=181892.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:47:25,499 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.69 vs. limit=2.0
+2023-04-03 09:47:49,878 INFO [train.py:903] (2/4) Epoch 27, batch 4400, loss[loss=0.2263, simple_loss=0.3108, pruned_loss=0.07093, over 19191.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.282, pruned_loss=0.06006, over 3832145.89 frames. ], batch size: 69, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:48:15,001 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-03 09:48:24,221 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-03 09:48:42,706 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.593e+02 4.919e+02 6.507e+02 9.105e+02 1.976e+03, threshold=1.301e+03, percent-clipped=10.0
+2023-04-03 09:48:52,995 INFO [train.py:903] (2/4) Epoch 27, batch 4450, loss[loss=0.2073, simple_loss=0.2875, pruned_loss=0.0636, over 19566.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2819, pruned_loss=0.06017, over 3845429.48 frames. ], batch size: 61, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:48:53,752 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.15 vs. limit=2.0
+2023-04-03 09:48:59,279 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2948, 2.4289, 2.5990, 3.1199, 2.3623, 2.9199, 2.5868, 2.4384],
+       device='cuda:2'), covar=tensor([0.4134, 0.4014, 0.1891, 0.2625, 0.4602, 0.2287, 0.4811, 0.3309],
+       device='cuda:2'), in_proj_covar=tensor([0.0930, 0.1006, 0.0739, 0.0948, 0.0907, 0.0848, 0.0855, 0.0805],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 09:49:16,016 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=181996.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:49:30,772 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=182007.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:49:37,359 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9994, 3.6395, 2.5802, 3.2529, 1.2194, 3.6544, 3.4815, 3.5590],
+       device='cuda:2'), covar=tensor([0.0863, 0.1268, 0.2078, 0.0975, 0.3750, 0.0812, 0.1116, 0.1347],
+       device='cuda:2'), in_proj_covar=tensor([0.0528, 0.0427, 0.0513, 0.0357, 0.0407, 0.0453, 0.0449, 0.0477],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:49:56,883 INFO [train.py:903] (2/4) Epoch 27, batch 4500, loss[loss=0.184, simple_loss=0.2622, pruned_loss=0.05288, over 19843.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2825, pruned_loss=0.06054, over 3840827.46 frames. ], batch size: 52, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:49:59,823 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=182030.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:50:31,949 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=182055.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:50:49,963 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.312e+02 5.059e+02 6.218e+02 7.785e+02 2.105e+03, threshold=1.244e+03, percent-clipped=5.0
+2023-04-03 09:51:00,201 INFO [train.py:903] (2/4) Epoch 27, batch 4550, loss[loss=0.1972, simple_loss=0.28, pruned_loss=0.05724, over 19851.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2828, pruned_loss=0.06029, over 3837021.62 frames. ], batch size: 52, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:51:09,779 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-03 09:51:32,197 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-03 09:51:35,765 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5027, 2.1042, 1.5854, 1.4232, 1.9298, 1.3030, 1.3427, 1.9107],
+       device='cuda:2'), covar=tensor([0.1031, 0.0836, 0.1138, 0.0935, 0.0604, 0.1356, 0.0799, 0.0490],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0321, 0.0337, 0.0273, 0.0251, 0.0345, 0.0292, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:52:02,916 INFO [train.py:903] (2/4) Epoch 27, batch 4600, loss[loss=0.2143, simple_loss=0.2958, pruned_loss=0.06636, over 19771.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2834, pruned_loss=0.06057, over 3813065.92 frames. ], batch size: 54, lr: 3.03e-03, grad_scale: 8.0
+2023-04-03 09:52:54,752 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.336e+02 4.830e+02 5.724e+02 7.323e+02 1.391e+03, threshold=1.145e+03, percent-clipped=2.0
+2023-04-03 09:53:05,193 INFO [train.py:903] (2/4) Epoch 27, batch 4650, loss[loss=0.1826, simple_loss=0.2679, pruned_loss=0.0486, over 19763.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.2839, pruned_loss=0.06048, over 3800563.46 frames. ], batch size: 51, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 09:53:22,613 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-03 09:53:34,166 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-03 09:53:57,775 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6082, 1.6775, 1.7902, 1.8484, 2.7299, 2.3883, 2.8931, 1.4456],
+       device='cuda:2'), covar=tensor([0.2453, 0.4316, 0.2890, 0.1943, 0.1439, 0.2121, 0.1364, 0.4367],
+       device='cuda:2'), in_proj_covar=tensor([0.0552, 0.0667, 0.0751, 0.0505, 0.0636, 0.0544, 0.0668, 0.0570],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 09:54:07,706 INFO [train.py:903] (2/4) Epoch 27, batch 4700, loss[loss=0.2096, simple_loss=0.2886, pruned_loss=0.06532, over 19586.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2839, pruned_loss=0.06058, over 3817264.66 frames. ], batch size: 52, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 09:54:30,891 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-03 09:54:51,535 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=182263.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:54:59,127 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.994e+02 4.730e+02 5.895e+02 7.660e+02 1.174e+03, threshold=1.179e+03, percent-clipped=2.0
+2023-04-03 09:55:10,413 INFO [train.py:903] (2/4) Epoch 27, batch 4750, loss[loss=0.236, simple_loss=0.2937, pruned_loss=0.08917, over 19428.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2837, pruned_loss=0.0608, over 3817971.47 frames. ], batch size: 48, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 09:55:22,527 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=182288.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:55:36,003 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=182299.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:56:12,231 INFO [train.py:903] (2/4) Epoch 27, batch 4800, loss[loss=0.195, simple_loss=0.2847, pruned_loss=0.05268, over 19667.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2837, pruned_loss=0.06039, over 3822223.10 frames. ], batch size: 58, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 09:56:26,912 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=182340.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:56:27,636 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.27 vs. limit=2.0
+2023-04-03 09:56:42,895 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2672, 2.1813, 1.9450, 2.1895, 2.0052, 1.8860, 1.7979, 2.2113],
+       device='cuda:2'), covar=tensor([0.1050, 0.1365, 0.1486, 0.1122, 0.1387, 0.0561, 0.1562, 0.0716],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0358, 0.0317, 0.0257, 0.0307, 0.0256, 0.0321, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 09:57:03,562 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.957e+02 4.862e+02 5.780e+02 7.243e+02 1.108e+03, threshold=1.156e+03, percent-clipped=0.0
+2023-04-03 09:57:13,597 INFO [train.py:903] (2/4) Epoch 27, batch 4850, loss[loss=0.2083, simple_loss=0.2903, pruned_loss=0.06311, over 19615.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2834, pruned_loss=0.0601, over 3830760.71 frames. ], batch size: 57, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 09:57:36,905 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-03 09:57:58,332 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-03 09:57:58,644 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8111, 3.2986, 3.3551, 3.3555, 1.4152, 3.2211, 2.8040, 3.1390],
+       device='cuda:2'), covar=tensor([0.1891, 0.1056, 0.0875, 0.1000, 0.5696, 0.1060, 0.0873, 0.1395],
+       device='cuda:2'), in_proj_covar=tensor([0.0819, 0.0782, 0.0990, 0.0869, 0.0860, 0.0753, 0.0587, 0.0919],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 09:58:03,902 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-03 09:58:03,926 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-03 09:58:13,216 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-03 09:58:14,421 INFO [train.py:903] (2/4) Epoch 27, batch 4900, loss[loss=0.1915, simple_loss=0.2593, pruned_loss=0.06181, over 19745.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.283, pruned_loss=0.06013, over 3820277.43 frames. ], batch size: 45, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 09:58:34,882 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-03 09:58:50,332 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=182455.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 09:59:07,219 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.920e+02 4.786e+02 5.871e+02 7.388e+02 1.622e+03, threshold=1.174e+03, percent-clipped=2.0
+2023-04-03 09:59:18,873 INFO [train.py:903] (2/4) Epoch 27, batch 4950, loss[loss=0.2281, simple_loss=0.2998, pruned_loss=0.07825, over 19690.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2819, pruned_loss=0.05969, over 3826295.01 frames. ], batch size: 53, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 09:59:36,558 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-03 10:00:00,876 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-03 10:00:21,850 INFO [train.py:903] (2/4) Epoch 27, batch 5000, loss[loss=0.1997, simple_loss=0.2846, pruned_loss=0.05744, over 19668.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2814, pruned_loss=0.05952, over 3826138.38 frames. ], batch size: 58, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:00:27,427 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=182532.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:00:32,549 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-03 10:00:44,437 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-03 10:01:15,165 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.165e+02 4.878e+02 5.976e+02 7.448e+02 1.686e+03, threshold=1.195e+03, percent-clipped=3.0
+2023-04-03 10:01:25,327 INFO [train.py:903] (2/4) Epoch 27, batch 5050, loss[loss=0.1711, simple_loss=0.2589, pruned_loss=0.04161, over 19589.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2815, pruned_loss=0.05921, over 3816087.12 frames. ], batch size: 52, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:02:02,790 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-03 10:02:27,487 INFO [train.py:903] (2/4) Epoch 27, batch 5100, loss[loss=0.1963, simple_loss=0.2839, pruned_loss=0.05431, over 19302.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2827, pruned_loss=0.0597, over 3796611.10 frames. ], batch size: 66, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:02:31,269 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8386, 3.3168, 3.4049, 3.3849, 1.3632, 3.2533, 2.8211, 3.2085],
+       device='cuda:2'), covar=tensor([0.1577, 0.0812, 0.0635, 0.0749, 0.5248, 0.0926, 0.0674, 0.1019],
+       device='cuda:2'), in_proj_covar=tensor([0.0811, 0.0777, 0.0982, 0.0864, 0.0854, 0.0746, 0.0582, 0.0912],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 10:02:37,768 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-03 10:02:41,996 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-03 10:02:46,620 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-03 10:02:46,775 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=182643.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:03:19,757 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.602e+02 5.110e+02 6.408e+02 8.268e+02 2.195e+03, threshold=1.282e+03, percent-clipped=9.0
+2023-04-03 10:03:30,281 INFO [train.py:903] (2/4) Epoch 27, batch 5150, loss[loss=0.1939, simple_loss=0.2702, pruned_loss=0.0588, over 19604.00 frames. ], tot_loss[loss=0.1996, simple_loss=0.2811, pruned_loss=0.05908, over 3807214.78 frames. ], batch size: 50, lr: 3.02e-03, grad_scale: 4.0
+2023-04-03 10:03:44,254 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-03 10:04:12,469 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=182711.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:04:21,110 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 10:04:24,663 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6847, 4.1406, 4.3088, 4.3095, 1.8111, 4.0857, 3.5874, 4.0512],
+       device='cuda:2'), covar=tensor([0.1608, 0.0890, 0.0704, 0.0743, 0.5787, 0.0975, 0.0717, 0.1206],
+       device='cuda:2'), in_proj_covar=tensor([0.0812, 0.0779, 0.0984, 0.0867, 0.0856, 0.0748, 0.0583, 0.0913],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 10:04:26,034 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3446, 2.0436, 1.6722, 1.4317, 1.8426, 1.3367, 1.3407, 1.8250],
+       device='cuda:2'), covar=tensor([0.1000, 0.0843, 0.1083, 0.0909, 0.0592, 0.1315, 0.0703, 0.0470],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0319, 0.0335, 0.0271, 0.0250, 0.0343, 0.0291, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:04:34,485 INFO [train.py:903] (2/4) Epoch 27, batch 5200, loss[loss=0.1907, simple_loss=0.2835, pruned_loss=0.04891, over 19694.00 frames. ], tot_loss[loss=0.1994, simple_loss=0.2806, pruned_loss=0.0591, over 3820838.24 frames. ], batch size: 53, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:04:45,084 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=182736.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:04:50,575 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-03 10:05:11,627 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=182758.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:05:19,107 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.86 vs. limit=2.0
+2023-04-03 10:05:28,497 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.060e+02 4.726e+02 5.796e+02 7.282e+02 1.371e+03, threshold=1.159e+03, percent-clipped=1.0
+2023-04-03 10:05:35,289 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-03 10:05:37,678 INFO [train.py:903] (2/4) Epoch 27, batch 5250, loss[loss=0.2057, simple_loss=0.2875, pruned_loss=0.06192, over 19759.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2807, pruned_loss=0.05883, over 3826413.51 frames. ], batch size: 63, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:05:47,605 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.44 vs. limit=2.0
+2023-04-03 10:05:51,902 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0850, 1.9747, 1.9218, 1.7449, 1.6024, 1.6776, 0.6132, 1.1444],
+       device='cuda:2'), covar=tensor([0.0711, 0.0739, 0.0500, 0.0892, 0.1265, 0.1010, 0.1454, 0.1103],
+       device='cuda:2'), in_proj_covar=tensor([0.0365, 0.0363, 0.0370, 0.0393, 0.0472, 0.0397, 0.0347, 0.0349],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 10:06:39,520 INFO [train.py:903] (2/4) Epoch 27, batch 5300, loss[loss=0.1879, simple_loss=0.2742, pruned_loss=0.05081, over 19760.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2815, pruned_loss=0.05915, over 3833208.24 frames. ], batch size: 54, lr: 3.02e-03, grad_scale: 4.0
+2023-04-03 10:06:57,240 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.58 vs. limit=5.0
+2023-04-03 10:06:57,461 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-03 10:06:59,522 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.04 vs. limit=5.0
+2023-04-03 10:07:34,150 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.440e+02 4.985e+02 5.848e+02 7.587e+02 2.195e+03, threshold=1.170e+03, percent-clipped=4.0
+2023-04-03 10:07:37,812 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=182874.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:07:39,980 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=182876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:07:42,166 INFO [train.py:903] (2/4) Epoch 27, batch 5350, loss[loss=0.1739, simple_loss=0.2538, pruned_loss=0.04694, over 19740.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.282, pruned_loss=0.05931, over 3828230.17 frames. ], batch size: 51, lr: 3.02e-03, grad_scale: 4.0
+2023-04-03 10:07:44,852 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=182880.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:08:16,952 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-03 10:08:46,432 INFO [train.py:903] (2/4) Epoch 27, batch 5400, loss[loss=0.1979, simple_loss=0.2857, pruned_loss=0.0551, over 19598.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2829, pruned_loss=0.05962, over 3832707.92 frames. ], batch size: 57, lr: 3.02e-03, grad_scale: 4.0
+2023-04-03 10:09:41,329 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.624e+02 4.932e+02 6.009e+02 7.341e+02 1.388e+03, threshold=1.202e+03, percent-clipped=2.0
+2023-04-03 10:09:49,115 INFO [train.py:903] (2/4) Epoch 27, batch 5450, loss[loss=0.1744, simple_loss=0.2612, pruned_loss=0.04376, over 19384.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2833, pruned_loss=0.05988, over 3804728.69 frames. ], batch size: 48, lr: 3.02e-03, grad_scale: 4.0
+2023-04-03 10:10:04,451 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=182991.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:10:35,606 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=183014.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:10:40,367 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.57 vs. limit=2.0
+2023-04-03 10:10:50,991 INFO [train.py:903] (2/4) Epoch 27, batch 5500, loss[loss=0.1939, simple_loss=0.2851, pruned_loss=0.05134, over 19682.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2838, pruned_loss=0.06011, over 3801875.65 frames. ], batch size: 53, lr: 3.02e-03, grad_scale: 4.0
+2023-04-03 10:11:05,254 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=183039.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:11:13,898 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-03 10:11:33,638 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.78 vs. limit=5.0
+2023-04-03 10:11:45,358 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.090e+02 5.032e+02 6.184e+02 7.491e+02 1.557e+03, threshold=1.237e+03, percent-clipped=5.0
+2023-04-03 10:11:52,114 INFO [train.py:903] (2/4) Epoch 27, batch 5550, loss[loss=0.2313, simple_loss=0.3082, pruned_loss=0.0772, over 18671.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.284, pruned_loss=0.0604, over 3813602.21 frames. ], batch size: 74, lr: 3.02e-03, grad_scale: 4.0
+2023-04-03 10:11:52,640 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6353, 1.7408, 2.1872, 1.9190, 3.2016, 2.7127, 3.5898, 1.6434],
+       device='cuda:2'), covar=tensor([0.2596, 0.4454, 0.2826, 0.2006, 0.1574, 0.2186, 0.1513, 0.4631],
+       device='cuda:2'), in_proj_covar=tensor([0.0556, 0.0672, 0.0758, 0.0509, 0.0638, 0.0548, 0.0673, 0.0575],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 10:11:57,902 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-03 10:12:46,713 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-03 10:12:56,193 INFO [train.py:903] (2/4) Epoch 27, batch 5600, loss[loss=0.2452, simple_loss=0.3197, pruned_loss=0.08541, over 19831.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2834, pruned_loss=0.06013, over 3820389.34 frames. ], batch size: 52, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:13:48,492 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9895, 3.0239, 3.3121, 3.8846, 3.1099, 3.6565, 3.2864, 3.1186],
+       device='cuda:2'), covar=tensor([0.3416, 0.3204, 0.1493, 0.1888, 0.3237, 0.1691, 0.3872, 0.2647],
+       device='cuda:2'), in_proj_covar=tensor([0.0933, 0.1012, 0.0742, 0.0950, 0.0910, 0.0849, 0.0859, 0.0807],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 10:13:51,543 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.195e+02 4.790e+02 6.069e+02 7.863e+02 1.689e+03, threshold=1.214e+03, percent-clipped=3.0
+2023-04-03 10:13:56,131 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6530, 2.7635, 2.3873, 2.7529, 2.6856, 2.3235, 2.2583, 2.6387],
+       device='cuda:2'), covar=tensor([0.0924, 0.1409, 0.1381, 0.0970, 0.1214, 0.0530, 0.1333, 0.0688],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0357, 0.0317, 0.0257, 0.0306, 0.0256, 0.0318, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:13:59,318 INFO [train.py:903] (2/4) Epoch 27, batch 5650, loss[loss=0.236, simple_loss=0.3158, pruned_loss=0.07816, over 18266.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.283, pruned_loss=0.06007, over 3808809.15 frames. ], batch size: 83, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:14:34,160 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9298, 2.7852, 2.0244, 2.0742, 1.9517, 2.3714, 1.0030, 2.0105],
+       device='cuda:2'), covar=tensor([0.0842, 0.0696, 0.0930, 0.1344, 0.1286, 0.1310, 0.1695, 0.1220],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0364, 0.0372, 0.0394, 0.0472, 0.0398, 0.0347, 0.0349],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 10:14:36,241 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4103, 1.4721, 1.7652, 1.6937, 2.3278, 2.0646, 2.4569, 1.0766],
+       device='cuda:2'), covar=tensor([0.2944, 0.5046, 0.3197, 0.2377, 0.1894, 0.2785, 0.1875, 0.5560],
+       device='cuda:2'), in_proj_covar=tensor([0.0555, 0.0672, 0.0758, 0.0510, 0.0639, 0.0548, 0.0673, 0.0577],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 10:14:44,841 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-03 10:14:49,511 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=183218.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:14:56,372 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=183224.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:15:01,003 INFO [train.py:903] (2/4) Epoch 27, batch 5700, loss[loss=0.1821, simple_loss=0.2556, pruned_loss=0.05428, over 19292.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.2822, pruned_loss=0.0594, over 3820025.90 frames. ], batch size: 44, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:15:25,128 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=183247.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:15:54,498 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.213e+02 5.103e+02 5.954e+02 7.593e+02 1.308e+03, threshold=1.191e+03, percent-clipped=1.0
+2023-04-03 10:15:54,946 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=183272.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:15:59,204 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-03 10:16:01,591 INFO [train.py:903] (2/4) Epoch 27, batch 5750, loss[loss=0.1879, simple_loss=0.2555, pruned_loss=0.06013, over 19117.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2832, pruned_loss=0.06025, over 3815188.13 frames. ], batch size: 42, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:16:08,286 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-03 10:16:12,848 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-03 10:17:05,411 INFO [train.py:903] (2/4) Epoch 27, batch 5800, loss[loss=0.1889, simple_loss=0.2729, pruned_loss=0.05247, over 19768.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2828, pruned_loss=0.05999, over 3802550.81 frames. ], batch size: 54, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:17:12,679 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=183333.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:17:19,552 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=183339.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:17:59,582 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.172e+02 5.364e+02 7.027e+02 9.052e+02 1.891e+03, threshold=1.405e+03, percent-clipped=4.0
+2023-04-03 10:18:07,742 INFO [train.py:903] (2/4) Epoch 27, batch 5850, loss[loss=0.2089, simple_loss=0.296, pruned_loss=0.06092, over 19674.00 frames. ], tot_loss[loss=0.2031, simple_loss=0.284, pruned_loss=0.06106, over 3813630.54 frames. ], batch size: 58, lr: 3.02e-03, grad_scale: 8.0
+2023-04-03 10:18:12,173 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 10:18:12,959 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9823, 2.0050, 1.6873, 2.0439, 1.7752, 1.7439, 1.7279, 1.9461],
+       device='cuda:2'), covar=tensor([0.1111, 0.1277, 0.1466, 0.0992, 0.1359, 0.0570, 0.1383, 0.0738],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0355, 0.0316, 0.0256, 0.0305, 0.0255, 0.0317, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:18:31,484 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.50 vs. limit=2.0
+2023-04-03 10:18:46,150 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9625, 2.1031, 2.2859, 2.6280, 2.0491, 2.5372, 2.2577, 2.0466],
+       device='cuda:2'), covar=tensor([0.4175, 0.3782, 0.1950, 0.2548, 0.4091, 0.2158, 0.4941, 0.3556],
+       device='cuda:2'), in_proj_covar=tensor([0.0930, 0.1008, 0.0740, 0.0946, 0.0907, 0.0847, 0.0858, 0.0803],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 10:19:07,143 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=183426.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:19:08,993 INFO [train.py:903] (2/4) Epoch 27, batch 5900, loss[loss=0.191, simple_loss=0.2867, pruned_loss=0.04763, over 17421.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.284, pruned_loss=0.06139, over 3799825.68 frames. ], batch size: 101, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:19:09,040 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-03 10:19:32,075 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-03 10:20:03,305 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.958e+02 4.868e+02 5.663e+02 7.388e+02 1.454e+03, threshold=1.133e+03, percent-clipped=1.0
+2023-04-03 10:20:10,242 INFO [train.py:903] (2/4) Epoch 27, batch 5950, loss[loss=0.1902, simple_loss=0.2809, pruned_loss=0.04971, over 19783.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2829, pruned_loss=0.06057, over 3816165.55 frames. ], batch size: 56, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:21:12,623 INFO [train.py:903] (2/4) Epoch 27, batch 6000, loss[loss=0.1913, simple_loss=0.2805, pruned_loss=0.05105, over 19542.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2836, pruned_loss=0.06106, over 3825643.09 frames. ], batch size: 56, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:21:12,623 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 10:21:25,595 INFO [train.py:937] (2/4) Epoch 27, validation: loss=0.1675, simple_loss=0.2669, pruned_loss=0.03401, over 944034.00 frames. 
+2023-04-03 10:21:25,596 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 10:21:39,352 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.87 vs. limit=2.0
+2023-04-03 10:22:22,440 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.170e+02 5.376e+02 6.105e+02 7.773e+02 1.848e+03, threshold=1.221e+03, percent-clipped=6.0
+2023-04-03 10:22:28,412 INFO [train.py:903] (2/4) Epoch 27, batch 6050, loss[loss=0.1816, simple_loss=0.2615, pruned_loss=0.05082, over 19664.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2848, pruned_loss=0.06159, over 3822570.12 frames. ], batch size: 53, lr: 3.01e-03, grad_scale: 4.0
+2023-04-03 10:22:43,127 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=183589.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:22:50,960 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=183595.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:22:55,500 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5202, 2.1241, 1.6548, 1.5532, 2.0127, 1.3760, 1.3357, 1.8294],
+       device='cuda:2'), covar=tensor([0.1149, 0.0888, 0.1135, 0.0889, 0.0598, 0.1390, 0.0871, 0.0622],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0319, 0.0336, 0.0273, 0.0250, 0.0344, 0.0292, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:23:08,791 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.62 vs. limit=2.0
+2023-04-03 10:23:14,134 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=183614.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:23:20,844 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=183620.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:23:29,937 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.76 vs. limit=5.0
+2023-04-03 10:23:31,597 INFO [train.py:903] (2/4) Epoch 27, batch 6100, loss[loss=0.1976, simple_loss=0.2829, pruned_loss=0.05613, over 19471.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.2845, pruned_loss=0.06154, over 3818966.63 frames. ], batch size: 49, lr: 3.01e-03, grad_scale: 4.0
+2023-04-03 10:23:37,187 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=183632.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:24:00,179 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9846, 2.0677, 2.3295, 2.5140, 1.9088, 2.3959, 2.2944, 2.1678],
+       device='cuda:2'), covar=tensor([0.4449, 0.3857, 0.1946, 0.2454, 0.4187, 0.2312, 0.5242, 0.3422],
+       device='cuda:2'), in_proj_covar=tensor([0.0935, 0.1011, 0.0743, 0.0950, 0.0912, 0.0850, 0.0862, 0.0805],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 10:24:27,766 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.311e+02 5.176e+02 6.035e+02 7.763e+02 1.396e+03, threshold=1.207e+03, percent-clipped=4.0
+2023-04-03 10:24:28,042 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.2406, 5.6825, 3.3905, 5.0370, 0.9414, 5.9120, 5.6309, 5.8784],
+       device='cuda:2'), covar=tensor([0.0406, 0.0926, 0.1630, 0.0759, 0.4313, 0.0498, 0.0742, 0.0890],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0428, 0.0516, 0.0357, 0.0410, 0.0454, 0.0451, 0.0479],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:24:33,563 INFO [train.py:903] (2/4) Epoch 27, batch 6150, loss[loss=0.2218, simple_loss=0.3023, pruned_loss=0.07064, over 19706.00 frames. ], tot_loss[loss=0.2035, simple_loss=0.2843, pruned_loss=0.06139, over 3816911.56 frames. ], batch size: 63, lr: 3.01e-03, grad_scale: 4.0
+2023-04-03 10:24:39,635 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.1079, 3.7851, 2.9655, 3.3209, 1.6183, 3.7094, 3.5904, 3.7040],
+       device='cuda:2'), covar=tensor([0.0869, 0.1110, 0.1831, 0.0914, 0.3242, 0.0819, 0.1081, 0.1459],
+       device='cuda:2'), in_proj_covar=tensor([0.0529, 0.0429, 0.0517, 0.0357, 0.0411, 0.0455, 0.0452, 0.0480],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:24:53,533 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6212, 1.4350, 1.5911, 1.7411, 3.2052, 1.3174, 2.4754, 3.7168],
+       device='cuda:2'), covar=tensor([0.0496, 0.2855, 0.3027, 0.1755, 0.0652, 0.2425, 0.1269, 0.0215],
+       device='cuda:2'), in_proj_covar=tensor([0.0425, 0.0379, 0.0397, 0.0353, 0.0385, 0.0358, 0.0396, 0.0416],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:25:01,300 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-03 10:25:35,000 INFO [train.py:903] (2/4) Epoch 27, batch 6200, loss[loss=0.2209, simple_loss=0.3003, pruned_loss=0.07073, over 19575.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2841, pruned_loss=0.06077, over 3821813.11 frames. ], batch size: 52, lr: 3.01e-03, grad_scale: 4.0
+2023-04-03 10:26:08,947 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.1255, 5.5680, 3.3289, 4.9157, 1.2006, 5.7428, 5.4827, 5.7124],
+       device='cuda:2'), covar=tensor([0.0377, 0.0824, 0.1740, 0.0702, 0.4059, 0.0482, 0.0795, 0.1063],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0427, 0.0517, 0.0357, 0.0409, 0.0453, 0.0451, 0.0479],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:26:28,525 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=183770.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:26:31,934 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.388e+02 4.839e+02 5.826e+02 7.637e+02 1.855e+03, threshold=1.165e+03, percent-clipped=4.0
+2023-04-03 10:26:37,745 INFO [train.py:903] (2/4) Epoch 27, batch 6250, loss[loss=0.1751, simple_loss=0.253, pruned_loss=0.04853, over 19402.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.2841, pruned_loss=0.06054, over 3808285.00 frames. ], batch size: 48, lr: 3.01e-03, grad_scale: 4.0
+2023-04-03 10:27:08,109 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-03 10:27:40,819 INFO [train.py:903] (2/4) Epoch 27, batch 6300, loss[loss=0.2376, simple_loss=0.3185, pruned_loss=0.07837, over 19723.00 frames. ], tot_loss[loss=0.204, simple_loss=0.285, pruned_loss=0.06146, over 3810166.99 frames. ], batch size: 63, lr: 3.01e-03, grad_scale: 4.0
+2023-04-03 10:28:20,311 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=183860.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:28:36,678 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.559e+02 4.928e+02 5.882e+02 7.199e+02 1.705e+03, threshold=1.176e+03, percent-clipped=2.0
+2023-04-03 10:28:43,616 INFO [train.py:903] (2/4) Epoch 27, batch 6350, loss[loss=0.2019, simple_loss=0.2917, pruned_loss=0.05608, over 19678.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2845, pruned_loss=0.06117, over 3811475.07 frames. ], batch size: 59, lr: 3.01e-03, grad_scale: 4.0
+2023-04-03 10:28:51,892 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=183885.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:29:18,583 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0888, 2.0384, 1.8078, 2.1268, 1.8930, 1.7824, 1.7383, 2.0359],
+       device='cuda:2'), covar=tensor([0.1125, 0.1479, 0.1542, 0.1157, 0.1477, 0.0617, 0.1523, 0.0758],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0358, 0.0317, 0.0256, 0.0305, 0.0256, 0.0320, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:29:43,984 INFO [train.py:903] (2/4) Epoch 27, batch 6400, loss[loss=0.1992, simple_loss=0.2865, pruned_loss=0.0559, over 19618.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2847, pruned_loss=0.06106, over 3814096.55 frames. ], batch size: 57, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:30:39,969 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.119e+02 4.757e+02 6.035e+02 7.575e+02 1.901e+03, threshold=1.207e+03, percent-clipped=7.0
+2023-04-03 10:30:43,701 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=183976.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:30:45,873 INFO [train.py:903] (2/4) Epoch 27, batch 6450, loss[loss=0.2271, simple_loss=0.2979, pruned_loss=0.07818, over 19839.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2844, pruned_loss=0.06097, over 3825865.44 frames. ], batch size: 52, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:31:28,486 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-03 10:31:31,138 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-03 10:31:50,533 INFO [train.py:903] (2/4) Epoch 27, batch 6500, loss[loss=0.2103, simple_loss=0.2924, pruned_loss=0.06412, over 18599.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2854, pruned_loss=0.061, over 3832749.27 frames. ], batch size: 74, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:31:52,979 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-03 10:32:16,626 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
+2023-04-03 10:32:40,179 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=184068.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:32:46,406 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.099e+02 4.542e+02 5.565e+02 7.286e+02 1.442e+03, threshold=1.113e+03, percent-clipped=3.0
+2023-04-03 10:32:53,090 INFO [train.py:903] (2/4) Epoch 27, batch 6550, loss[loss=0.2141, simple_loss=0.2959, pruned_loss=0.06611, over 19667.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2852, pruned_loss=0.0611, over 3833882.17 frames. ], batch size: 58, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:33:08,652 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=184091.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:33:55,011 INFO [train.py:903] (2/4) Epoch 27, batch 6600, loss[loss=0.2032, simple_loss=0.2894, pruned_loss=0.05851, over 19587.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2843, pruned_loss=0.06073, over 3843334.52 frames. ], batch size: 57, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:34:11,894 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=184141.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:34:43,151 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=184166.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:34:50,798 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.027e+02 4.833e+02 5.798e+02 7.178e+02 1.551e+03, threshold=1.160e+03, percent-clipped=2.0
+2023-04-03 10:34:58,097 INFO [train.py:903] (2/4) Epoch 27, batch 6650, loss[loss=0.1733, simple_loss=0.252, pruned_loss=0.04725, over 19730.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2834, pruned_loss=0.06018, over 3838941.27 frames. ], batch size: 45, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:35:30,809 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=184204.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:35:59,892 INFO [train.py:903] (2/4) Epoch 27, batch 6700, loss[loss=0.1565, simple_loss=0.2384, pruned_loss=0.0373, over 19615.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2834, pruned_loss=0.06045, over 3826448.88 frames. ], batch size: 50, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:36:52,214 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.305e+02 5.122e+02 6.084e+02 8.596e+02 2.606e+03, threshold=1.217e+03, percent-clipped=9.0
+2023-04-03 10:36:57,985 INFO [train.py:903] (2/4) Epoch 27, batch 6750, loss[loss=0.1829, simple_loss=0.263, pruned_loss=0.05144, over 19681.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2841, pruned_loss=0.06067, over 3829160.76 frames. ], batch size: 53, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:37:00,437 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.22 vs. limit=2.0
+2023-04-03 10:37:31,973 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5124, 2.5415, 2.2229, 2.6492, 2.3563, 2.2671, 2.0303, 2.5320],
+       device='cuda:2'), covar=tensor([0.1066, 0.1590, 0.1610, 0.1216, 0.1545, 0.0605, 0.1605, 0.0778],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0358, 0.0317, 0.0257, 0.0306, 0.0257, 0.0320, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:37:44,344 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=184319.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:37:54,075 INFO [train.py:903] (2/4) Epoch 27, batch 6800, loss[loss=0.2424, simple_loss=0.3198, pruned_loss=0.08251, over 19280.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2837, pruned_loss=0.06042, over 3838155.57 frames. ], batch size: 70, lr: 3.01e-03, grad_scale: 8.0
+2023-04-03 10:38:15,917 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=184347.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:38:20,855 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-03 10:38:39,723 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-03 10:38:40,180 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-03 10:38:43,611 INFO [train.py:903] (2/4) Epoch 28, batch 0, loss[loss=0.2165, simple_loss=0.2848, pruned_loss=0.07407, over 19617.00 frames. ], tot_loss[loss=0.2165, simple_loss=0.2848, pruned_loss=0.07407, over 19617.00 frames. ], batch size: 50, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:38:43,611 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 10:38:54,486 INFO [train.py:937] (2/4) Epoch 28, validation: loss=0.1665, simple_loss=0.2666, pruned_loss=0.03316, over 944034.00 frames. 
+2023-04-03 10:38:54,488 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 10:39:08,336 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-03 10:39:14,446 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=184372.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:39:15,178 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.715e+02 5.190e+02 6.304e+02 8.212e+02 1.288e+03, threshold=1.261e+03, percent-clipped=2.0
+2023-04-03 10:39:21,688 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=184377.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:39:42,075 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4272, 1.4866, 1.7414, 1.6540, 2.4317, 2.0742, 2.5110, 1.1410],
+       device='cuda:2'), covar=tensor([0.2921, 0.4880, 0.3105, 0.2268, 0.1712, 0.2572, 0.1610, 0.5270],
+       device='cuda:2'), in_proj_covar=tensor([0.0555, 0.0670, 0.0753, 0.0507, 0.0639, 0.0546, 0.0670, 0.0573],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 10:39:57,744 INFO [train.py:903] (2/4) Epoch 28, batch 50, loss[loss=0.1891, simple_loss=0.2793, pruned_loss=0.04946, over 19565.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2824, pruned_loss=0.05956, over 857329.35 frames. ], batch size: 61, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:40:04,875 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=184412.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:40:32,266 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-03 10:40:58,085 INFO [train.py:903] (2/4) Epoch 28, batch 100, loss[loss=0.1496, simple_loss=0.2288, pruned_loss=0.03518, over 19731.00 frames. ], tot_loss[loss=0.1991, simple_loss=0.2816, pruned_loss=0.05832, over 1522985.95 frames. ], batch size: 46, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:41:08,329 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-03 10:41:18,602 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.133e+02 4.572e+02 5.776e+02 7.316e+02 1.195e+03, threshold=1.155e+03, percent-clipped=0.0
+2023-04-03 10:41:56,054 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=184504.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:41:58,109 INFO [train.py:903] (2/4) Epoch 28, batch 150, loss[loss=0.2233, simple_loss=0.3024, pruned_loss=0.07215, over 19594.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2828, pruned_loss=0.05972, over 2026771.43 frames. ], batch size: 61, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:42:21,074 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2685, 3.4458, 2.0259, 2.2411, 3.1568, 1.8273, 1.7388, 2.4156],
+       device='cuda:2'), covar=tensor([0.1398, 0.0644, 0.1124, 0.0901, 0.0562, 0.1298, 0.1013, 0.0664],
+       device='cuda:2'), in_proj_covar=tensor([0.0299, 0.0317, 0.0334, 0.0270, 0.0248, 0.0341, 0.0290, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:42:24,592 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=184527.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:42:57,425 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-03 10:42:58,595 INFO [train.py:903] (2/4) Epoch 28, batch 200, loss[loss=0.1617, simple_loss=0.2431, pruned_loss=0.04009, over 19375.00 frames. ], tot_loss[loss=0.1988, simple_loss=0.2806, pruned_loss=0.05847, over 2432890.35 frames. ], batch size: 47, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:43:19,482 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.222e+02 4.969e+02 6.258e+02 7.516e+02 2.266e+03, threshold=1.252e+03, percent-clipped=4.0
+2023-04-03 10:43:22,302 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=184575.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:43:51,823 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5711, 1.2698, 1.4610, 1.2679, 2.2407, 1.1565, 2.2314, 2.5682],
+       device='cuda:2'), covar=tensor([0.0743, 0.2814, 0.2894, 0.1719, 0.0911, 0.2024, 0.0980, 0.0451],
+       device='cuda:2'), in_proj_covar=tensor([0.0427, 0.0380, 0.0398, 0.0354, 0.0385, 0.0359, 0.0397, 0.0417],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:43:51,908 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=184600.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:43:59,859 INFO [train.py:903] (2/4) Epoch 28, batch 250, loss[loss=0.2264, simple_loss=0.3018, pruned_loss=0.07554, over 19585.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2826, pruned_loss=0.05978, over 2739608.66 frames. ], batch size: 52, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:45:01,664 INFO [train.py:903] (2/4) Epoch 28, batch 300, loss[loss=0.2305, simple_loss=0.3052, pruned_loss=0.07784, over 19304.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2824, pruned_loss=0.05964, over 2982323.31 frames. ], batch size: 66, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:45:22,243 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.089e+02 4.936e+02 6.396e+02 8.049e+02 1.564e+03, threshold=1.279e+03, percent-clipped=7.0
+2023-04-03 10:46:02,789 INFO [train.py:903] (2/4) Epoch 28, batch 350, loss[loss=0.2021, simple_loss=0.2892, pruned_loss=0.05755, over 19583.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.283, pruned_loss=0.06023, over 3156172.89 frames. ], batch size: 57, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:46:06,328 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 10:46:20,191 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=184721.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:46:39,085 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1758, 2.8477, 2.3326, 2.2595, 2.0486, 2.5415, 1.0496, 2.1033],
+       device='cuda:2'), covar=tensor([0.0691, 0.0689, 0.0701, 0.1197, 0.1241, 0.1138, 0.1523, 0.1110],
+       device='cuda:2'), in_proj_covar=tensor([0.0367, 0.0364, 0.0370, 0.0393, 0.0471, 0.0395, 0.0346, 0.0349],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 10:47:04,881 INFO [train.py:903] (2/4) Epoch 28, batch 400, loss[loss=0.2163, simple_loss=0.3009, pruned_loss=0.06589, over 18761.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.283, pruned_loss=0.06021, over 3308597.40 frames. ], batch size: 74, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:47:24,995 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.223e+02 4.910e+02 5.909e+02 7.518e+02 1.907e+03, threshold=1.182e+03, percent-clipped=3.0
+2023-04-03 10:47:38,218 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=184783.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:48:05,133 INFO [train.py:903] (2/4) Epoch 28, batch 450, loss[loss=0.2455, simple_loss=0.3159, pruned_loss=0.08753, over 19682.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2826, pruned_loss=0.05989, over 3433654.62 frames. ], batch size: 60, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:48:07,881 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=184808.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:48:38,479 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-03 10:48:39,506 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-03 10:48:43,515 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=184836.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:48:56,829 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=184848.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:49:03,928 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9549, 1.9406, 1.9069, 1.8266, 1.6422, 1.8055, 1.0157, 1.4162],
+       device='cuda:2'), covar=tensor([0.0588, 0.0631, 0.0443, 0.0665, 0.0943, 0.0838, 0.1347, 0.0890],
+       device='cuda:2'), in_proj_covar=tensor([0.0369, 0.0365, 0.0371, 0.0395, 0.0474, 0.0397, 0.0348, 0.0352],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 10:49:06,883 INFO [train.py:903] (2/4) Epoch 28, batch 500, loss[loss=0.2111, simple_loss=0.2948, pruned_loss=0.06368, over 19677.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2823, pruned_loss=0.05982, over 3507210.37 frames. ], batch size: 53, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:49:28,422 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.110e+02 5.109e+02 6.404e+02 8.256e+02 1.456e+03, threshold=1.281e+03, percent-clipped=5.0
+2023-04-03 10:49:41,505 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=184884.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:50:09,142 INFO [train.py:903] (2/4) Epoch 28, batch 550, loss[loss=0.2185, simple_loss=0.3013, pruned_loss=0.06788, over 19480.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2825, pruned_loss=0.0598, over 3569542.62 frames. ], batch size: 64, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:51:11,444 INFO [train.py:903] (2/4) Epoch 28, batch 600, loss[loss=0.2222, simple_loss=0.2794, pruned_loss=0.08253, over 19261.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.2815, pruned_loss=0.05971, over 3620378.40 frames. ], batch size: 44, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:51:12,935 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=184957.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:51:19,913 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=184963.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:51:31,269 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.601e+02 5.007e+02 6.276e+02 8.222e+02 1.849e+03, threshold=1.255e+03, percent-clipped=3.0
+2023-04-03 10:51:50,599 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-03 10:52:14,353 INFO [train.py:903] (2/4) Epoch 28, batch 650, loss[loss=0.1977, simple_loss=0.2896, pruned_loss=0.05287, over 19496.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2812, pruned_loss=0.05938, over 3670306.50 frames. ], batch size: 64, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:53:16,112 INFO [train.py:903] (2/4) Epoch 28, batch 700, loss[loss=0.2037, simple_loss=0.2878, pruned_loss=0.05979, over 18428.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.2809, pruned_loss=0.05889, over 3702077.04 frames. ], batch size: 84, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:53:31,659 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2307, 1.8474, 1.9730, 3.0973, 2.1559, 2.4223, 2.4999, 2.1402],
+       device='cuda:2'), covar=tensor([0.0861, 0.0985, 0.0998, 0.0663, 0.0816, 0.0780, 0.0861, 0.0752],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0226, 0.0228, 0.0240, 0.0227, 0.0215, 0.0189, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 10:53:38,021 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.143e+02 4.589e+02 5.550e+02 7.126e+02 1.317e+03, threshold=1.110e+03, percent-clipped=1.0
+2023-04-03 10:53:45,193 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=185078.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:54:01,398 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=185092.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:54:19,791 INFO [train.py:903] (2/4) Epoch 28, batch 750, loss[loss=0.3058, simple_loss=0.3509, pruned_loss=0.1304, over 13504.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2825, pruned_loss=0.0599, over 3726576.62 frames. ], batch size: 136, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:54:34,020 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=185117.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:55:10,728 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=185147.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:55:20,946 INFO [train.py:903] (2/4) Epoch 28, batch 800, loss[loss=0.1664, simple_loss=0.2488, pruned_loss=0.04201, over 19755.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2821, pruned_loss=0.05964, over 3758818.14 frames. ], batch size: 46, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:55:34,896 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-03 10:55:41,840 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.136e+02 5.493e+02 6.558e+02 7.858e+02 2.224e+03, threshold=1.312e+03, percent-clipped=8.0
+2023-04-03 10:55:53,708 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0766, 1.3469, 1.6676, 0.9808, 2.3937, 3.0551, 2.7758, 3.2541],
+       device='cuda:2'), covar=tensor([0.1694, 0.3882, 0.3515, 0.2850, 0.0629, 0.0241, 0.0274, 0.0331],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0331, 0.0363, 0.0271, 0.0253, 0.0195, 0.0219, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 10:56:24,254 INFO [train.py:903] (2/4) Epoch 28, batch 850, loss[loss=0.1769, simple_loss=0.2555, pruned_loss=0.04916, over 19394.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2814, pruned_loss=0.05939, over 3783210.02 frames. ], batch size: 48, lr: 2.95e-03, grad_scale: 8.0
+2023-04-03 10:56:39,427 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=185219.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:56:51,611 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=185228.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:57:11,574 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=185244.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:57:15,610 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-03 10:57:24,923 INFO [train.py:903] (2/4) Epoch 28, batch 900, loss[loss=0.1985, simple_loss=0.2869, pruned_loss=0.05508, over 19601.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2819, pruned_loss=0.05998, over 3797666.25 frames. ], batch size: 57, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 10:57:47,703 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.300e+02 4.798e+02 5.781e+02 7.336e+02 1.381e+03, threshold=1.156e+03, percent-clipped=1.0
+2023-04-03 10:58:05,475 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9802, 1.5936, 1.8722, 2.8007, 1.8691, 2.1462, 2.2041, 2.0528],
+       device='cuda:2'), covar=tensor([0.0958, 0.1155, 0.1115, 0.0857, 0.1039, 0.0898, 0.0978, 0.0807],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0225, 0.0227, 0.0240, 0.0228, 0.0215, 0.0189, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 10:58:21,551 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=185301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:58:28,121 INFO [train.py:903] (2/4) Epoch 28, batch 950, loss[loss=0.1901, simple_loss=0.2705, pruned_loss=0.05489, over 19679.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.2825, pruned_loss=0.06003, over 3793632.59 frames. ], batch size: 53, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 10:58:29,315 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-03 10:58:57,753 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8682, 4.4514, 2.9419, 3.9504, 1.0162, 4.4256, 4.2927, 4.3515],
+       device='cuda:2'), covar=tensor([0.0578, 0.0993, 0.1892, 0.0850, 0.4030, 0.0613, 0.0907, 0.1108],
+       device='cuda:2'), in_proj_covar=tensor([0.0526, 0.0425, 0.0516, 0.0358, 0.0408, 0.0455, 0.0450, 0.0479],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 10:59:15,262 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=185343.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 10:59:32,238 INFO [train.py:903] (2/4) Epoch 28, batch 1000, loss[loss=0.2049, simple_loss=0.2938, pruned_loss=0.05799, over 19505.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2827, pruned_loss=0.0601, over 3793213.64 frames. ], batch size: 64, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 10:59:53,732 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.982e+02 4.891e+02 5.853e+02 7.878e+02 2.572e+03, threshold=1.171e+03, percent-clipped=6.0
+2023-04-03 11:00:23,362 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-03 11:00:34,759 INFO [train.py:903] (2/4) Epoch 28, batch 1050, loss[loss=0.2238, simple_loss=0.3039, pruned_loss=0.07192, over 19725.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2826, pruned_loss=0.0602, over 3805447.92 frames. ], batch size: 63, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:00:47,030 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=185416.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:00:53,764 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=185422.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:01:02,625 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-03 11:01:35,153 INFO [train.py:903] (2/4) Epoch 28, batch 1100, loss[loss=0.243, simple_loss=0.3166, pruned_loss=0.08464, over 19615.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2836, pruned_loss=0.06095, over 3808122.48 frames. ], batch size: 61, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:01:57,232 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.219e+02 4.947e+02 6.329e+02 8.288e+02 1.903e+03, threshold=1.266e+03, percent-clipped=3.0
+2023-04-03 11:02:08,281 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.43 vs. limit=2.0
+2023-04-03 11:02:12,994 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=185486.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:02:18,720 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=185491.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:02:35,132 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2936, 2.2068, 1.8546, 1.7693, 1.6753, 1.7437, 0.6452, 1.1840],
+       device='cuda:2'), covar=tensor([0.0697, 0.0681, 0.0664, 0.0994, 0.1301, 0.1046, 0.1488, 0.1260],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0364, 0.0371, 0.0393, 0.0471, 0.0395, 0.0346, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 11:02:35,894 INFO [train.py:903] (2/4) Epoch 28, batch 1150, loss[loss=0.1685, simple_loss=0.2434, pruned_loss=0.04679, over 19375.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2837, pruned_loss=0.06132, over 3813227.97 frames. ], batch size: 47, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:03:01,904 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.52 vs. limit=2.0
+2023-04-03 11:03:15,733 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=185537.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:03:40,783 INFO [train.py:903] (2/4) Epoch 28, batch 1200, loss[loss=0.1951, simple_loss=0.2848, pruned_loss=0.05269, over 19613.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2827, pruned_loss=0.06034, over 3830389.30 frames. ], batch size: 57, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:04:01,640 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.374e+02 5.383e+02 6.799e+02 8.653e+02 1.626e+03, threshold=1.360e+03, percent-clipped=3.0
+2023-04-03 11:04:11,799 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-03 11:04:34,008 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=185599.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:04:41,622 INFO [train.py:903] (2/4) Epoch 28, batch 1250, loss[loss=0.2369, simple_loss=0.3107, pruned_loss=0.08153, over 17414.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2825, pruned_loss=0.06033, over 3835165.10 frames. ], batch size: 101, lr: 2.94e-03, grad_scale: 16.0
+2023-04-03 11:04:42,017 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=185606.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:05:03,708 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=185624.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:05:44,897 INFO [train.py:903] (2/4) Epoch 28, batch 1300, loss[loss=0.2438, simple_loss=0.3082, pruned_loss=0.08977, over 13446.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2831, pruned_loss=0.06031, over 3835184.98 frames. ], batch size: 136, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:06:04,652 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=185672.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:06:06,498 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.213e+02 4.542e+02 5.530e+02 7.592e+02 1.164e+03, threshold=1.106e+03, percent-clipped=0.0
+2023-04-03 11:06:27,830 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5609, 1.6919, 2.1767, 1.9391, 3.0204, 2.4150, 3.2503, 1.6806],
+       device='cuda:2'), covar=tensor([0.2835, 0.4840, 0.3006, 0.2171, 0.1802, 0.2598, 0.1847, 0.4791],
+       device='cuda:2'), in_proj_covar=tensor([0.0552, 0.0668, 0.0752, 0.0506, 0.0633, 0.0544, 0.0667, 0.0572],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 11:06:35,915 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=185697.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:06:46,280 INFO [train.py:903] (2/4) Epoch 28, batch 1350, loss[loss=0.1743, simple_loss=0.2517, pruned_loss=0.04843, over 19710.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2824, pruned_loss=0.06005, over 3810224.55 frames. ], batch size: 45, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:07:00,503 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.81 vs. limit=2.0
+2023-04-03 11:07:48,963 INFO [train.py:903] (2/4) Epoch 28, batch 1400, loss[loss=0.1845, simple_loss=0.2557, pruned_loss=0.05671, over 19037.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2822, pruned_loss=0.05975, over 3824160.76 frames. ], batch size: 42, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:08:02,957 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4664, 1.5357, 1.8468, 1.7143, 2.6619, 2.3222, 2.7251, 1.4118],
+       device='cuda:2'), covar=tensor([0.2553, 0.4448, 0.2792, 0.2037, 0.1645, 0.2241, 0.1659, 0.4515],
+       device='cuda:2'), in_proj_covar=tensor([0.0553, 0.0669, 0.0754, 0.0507, 0.0634, 0.0546, 0.0669, 0.0572],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 11:08:11,886 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.444e+02 4.899e+02 6.106e+02 7.699e+02 1.518e+03, threshold=1.221e+03, percent-clipped=6.0
+2023-04-03 11:08:15,756 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=185777.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:08:19,612 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
+2023-04-03 11:08:35,157 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=185793.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:08:49,357 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-03 11:08:51,539 INFO [train.py:903] (2/4) Epoch 28, batch 1450, loss[loss=0.2743, simple_loss=0.3477, pruned_loss=0.1004, over 19673.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2829, pruned_loss=0.06048, over 3832552.30 frames. ], batch size: 60, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:09:05,599 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=185817.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 11:09:06,970 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=185818.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:09:20,231 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=185830.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:09:27,188 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4394, 1.4363, 1.3606, 1.8215, 1.3518, 1.7285, 1.7016, 1.5300],
+       device='cuda:2'), covar=tensor([0.0888, 0.0886, 0.1054, 0.0637, 0.0887, 0.0752, 0.0785, 0.0727],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0225, 0.0228, 0.0240, 0.0228, 0.0215, 0.0189, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 11:09:54,223 INFO [train.py:903] (2/4) Epoch 28, batch 1500, loss[loss=0.2082, simple_loss=0.298, pruned_loss=0.05922, over 19776.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2833, pruned_loss=0.06087, over 3828239.85 frames. ], batch size: 56, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:10:02,015 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=185862.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:10:15,972 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.811e+02 5.017e+02 6.227e+02 8.666e+02 1.816e+03, threshold=1.245e+03, percent-clipped=11.0
+2023-04-03 11:10:33,546 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=185887.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:10:56,454 INFO [train.py:903] (2/4) Epoch 28, batch 1550, loss[loss=0.2009, simple_loss=0.2863, pruned_loss=0.05778, over 18836.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2828, pruned_loss=0.06036, over 3829827.04 frames. ], batch size: 74, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:11:34,122 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8550, 1.3467, 1.0807, 1.0045, 1.1784, 1.0306, 0.9158, 1.2785],
+       device='cuda:2'), covar=tensor([0.0724, 0.0957, 0.1139, 0.0801, 0.0570, 0.1420, 0.0713, 0.0562],
+       device='cuda:2'), in_proj_covar=tensor([0.0302, 0.0319, 0.0339, 0.0272, 0.0251, 0.0345, 0.0293, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:11:34,208 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6155, 1.7298, 1.9960, 1.9632, 1.4724, 1.9348, 1.9711, 1.8321],
+       device='cuda:2'), covar=tensor([0.4221, 0.3859, 0.2156, 0.2528, 0.3998, 0.2323, 0.5284, 0.3630],
+       device='cuda:2'), in_proj_covar=tensor([0.0937, 0.1012, 0.0742, 0.0950, 0.0913, 0.0851, 0.0858, 0.0809],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 11:11:45,491 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=185945.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:11:58,299 INFO [train.py:903] (2/4) Epoch 28, batch 1600, loss[loss=0.257, simple_loss=0.3305, pruned_loss=0.09178, over 19267.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2838, pruned_loss=0.06132, over 3817689.77 frames. ], batch size: 66, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:12:20,822 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-03 11:12:23,179 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.991e+02 4.773e+02 5.899e+02 6.974e+02 1.687e+03, threshold=1.180e+03, percent-clipped=2.0
+2023-04-03 11:12:31,006 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
+2023-04-03 11:13:03,469 INFO [train.py:903] (2/4) Epoch 28, batch 1650, loss[loss=0.1947, simple_loss=0.2671, pruned_loss=0.0611, over 19780.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2833, pruned_loss=0.0611, over 3792876.45 frames. ], batch size: 48, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:13:44,518 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.5790, 4.1824, 2.7518, 3.7133, 1.3515, 4.1719, 4.0237, 4.1635],
+       device='cuda:2'), covar=tensor([0.0626, 0.0996, 0.1965, 0.0829, 0.3587, 0.0692, 0.1039, 0.1155],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0427, 0.0516, 0.0360, 0.0411, 0.0458, 0.0452, 0.0480],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:14:07,008 INFO [train.py:903] (2/4) Epoch 28, batch 1700, loss[loss=0.2281, simple_loss=0.2999, pruned_loss=0.07812, over 13063.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.2831, pruned_loss=0.06088, over 3786270.61 frames. ], batch size: 136, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:14:08,637 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6276, 2.4067, 1.7737, 1.6475, 2.1892, 1.4694, 1.4510, 2.0921],
+       device='cuda:2'), covar=tensor([0.1124, 0.0785, 0.1222, 0.0928, 0.0599, 0.1444, 0.0873, 0.0537],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0320, 0.0340, 0.0273, 0.0251, 0.0347, 0.0293, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:14:29,615 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.897e+02 4.751e+02 5.670e+02 7.170e+02 1.723e+03, threshold=1.134e+03, percent-clipped=7.0
+2023-04-03 11:14:36,562 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9463, 1.1980, 1.5505, 0.6183, 1.9853, 2.4402, 2.1658, 2.6052],
+       device='cuda:2'), covar=tensor([0.1632, 0.3959, 0.3510, 0.2929, 0.0668, 0.0298, 0.0341, 0.0397],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0331, 0.0365, 0.0271, 0.0255, 0.0196, 0.0219, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 11:14:44,423 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-03 11:14:58,930 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6040, 1.7802, 2.0991, 1.8605, 3.1749, 2.5768, 3.5381, 1.8427],
+       device='cuda:2'), covar=tensor([0.2625, 0.4490, 0.2827, 0.1951, 0.1594, 0.2237, 0.1537, 0.4215],
+       device='cuda:2'), in_proj_covar=tensor([0.0552, 0.0668, 0.0752, 0.0506, 0.0635, 0.0545, 0.0667, 0.0571],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 11:15:08,875 INFO [train.py:903] (2/4) Epoch 28, batch 1750, loss[loss=0.2381, simple_loss=0.3173, pruned_loss=0.07945, over 18254.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2828, pruned_loss=0.06073, over 3804018.01 frames. ], batch size: 83, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:15:24,181 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186118.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:15:28,461 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186121.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:16:11,532 INFO [train.py:903] (2/4) Epoch 28, batch 1800, loss[loss=0.2167, simple_loss=0.3029, pruned_loss=0.06527, over 19307.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.2823, pruned_loss=0.06013, over 3812209.93 frames. ], batch size: 66, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:16:13,040 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0650, 5.1576, 5.9134, 5.9244, 2.0033, 5.6102, 4.7582, 5.6039],
+       device='cuda:2'), covar=tensor([0.1767, 0.0813, 0.0617, 0.0667, 0.6581, 0.0792, 0.0660, 0.1223],
+       device='cuda:2'), in_proj_covar=tensor([0.0821, 0.0784, 0.0996, 0.0872, 0.0863, 0.0763, 0.0589, 0.0921],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 11:16:18,387 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186161.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 11:16:36,644 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.127e+02 5.184e+02 6.048e+02 8.514e+02 1.613e+03, threshold=1.210e+03, percent-clipped=4.0
+2023-04-03 11:16:38,092 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186176.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:17:08,568 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-03 11:17:09,058 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=186201.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:17:15,224 INFO [train.py:903] (2/4) Epoch 28, batch 1850, loss[loss=0.1601, simple_loss=0.2506, pruned_loss=0.0348, over 19342.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2829, pruned_loss=0.06019, over 3825706.12 frames. ], batch size: 47, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:17:38,789 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5319, 2.5119, 2.1719, 2.6225, 2.4137, 2.1277, 2.0461, 2.5016],
+       device='cuda:2'), covar=tensor([0.1066, 0.1628, 0.1578, 0.1188, 0.1543, 0.0585, 0.1524, 0.0716],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0363, 0.0322, 0.0259, 0.0310, 0.0259, 0.0324, 0.0267],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 11:17:39,963 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=186226.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:17:46,434 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-03 11:17:52,424 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=186236.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:18:17,545 INFO [train.py:903] (2/4) Epoch 28, batch 1900, loss[loss=0.2227, simple_loss=0.3024, pruned_loss=0.07153, over 19317.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2835, pruned_loss=0.06043, over 3813950.88 frames. ], batch size: 66, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:18:33,620 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-03 11:18:36,317 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5537, 4.1236, 4.3156, 4.3162, 1.6667, 4.0895, 3.5806, 4.0913],
+       device='cuda:2'), covar=tensor([0.1851, 0.0874, 0.0644, 0.0754, 0.5949, 0.0944, 0.0712, 0.1041],
+       device='cuda:2'), in_proj_covar=tensor([0.0822, 0.0785, 0.0997, 0.0872, 0.0863, 0.0762, 0.0589, 0.0923],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 11:18:38,418 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-03 11:18:39,532 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.824e+02 4.995e+02 5.845e+02 7.128e+02 1.193e+03, threshold=1.169e+03, percent-clipped=0.0
+2023-04-03 11:18:41,953 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=186276.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 11:18:42,936 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186277.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:19:02,982 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-03 11:19:05,652 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.8079, 1.3353, 1.5569, 1.7240, 3.3893, 1.2666, 2.4133, 3.8624],
+       device='cuda:2'), covar=tensor([0.0542, 0.3003, 0.3060, 0.1795, 0.0700, 0.2575, 0.1391, 0.0219],
+       device='cuda:2'), in_proj_covar=tensor([0.0421, 0.0377, 0.0397, 0.0352, 0.0382, 0.0357, 0.0393, 0.0417],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:19:19,223 INFO [train.py:903] (2/4) Epoch 28, batch 1950, loss[loss=0.2049, simple_loss=0.2892, pruned_loss=0.06031, over 19280.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2833, pruned_loss=0.06032, over 3818156.86 frames. ], batch size: 66, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:20:20,370 INFO [train.py:903] (2/4) Epoch 28, batch 2000, loss[loss=0.1984, simple_loss=0.276, pruned_loss=0.06045, over 19473.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2832, pruned_loss=0.06009, over 3815929.40 frames. ], batch size: 49, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:20:31,030 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6577, 1.7576, 2.0292, 1.9711, 1.5236, 1.9544, 2.0066, 1.8754],
+       device='cuda:2'), covar=tensor([0.4039, 0.3578, 0.1938, 0.2273, 0.3806, 0.2167, 0.5083, 0.3330],
+       device='cuda:2'), in_proj_covar=tensor([0.0937, 0.1013, 0.0742, 0.0951, 0.0913, 0.0853, 0.0860, 0.0808],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 11:20:45,117 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.192e+02 5.060e+02 6.550e+02 8.587e+02 3.446e+03, threshold=1.310e+03, percent-clipped=8.0
+2023-04-03 11:21:19,994 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-03 11:21:24,405 INFO [train.py:903] (2/4) Epoch 28, batch 2050, loss[loss=0.1958, simple_loss=0.2861, pruned_loss=0.05275, over 19678.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2826, pruned_loss=0.0597, over 3819351.27 frames. ], batch size: 58, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:21:41,345 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-03 11:21:42,550 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-03 11:21:52,127 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0921, 2.0338, 1.9430, 1.7491, 1.5661, 1.6730, 0.6473, 1.0876],
+       device='cuda:2'), covar=tensor([0.0734, 0.0689, 0.0510, 0.0862, 0.1327, 0.1014, 0.1386, 0.1146],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0365, 0.0371, 0.0393, 0.0471, 0.0397, 0.0347, 0.0349],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 11:22:02,208 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-03 11:22:04,652 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:22:25,886 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7437, 1.7622, 1.6362, 1.4243, 1.4461, 1.4367, 0.3152, 0.6857],
+       device='cuda:2'), covar=tensor([0.0734, 0.0683, 0.0508, 0.0756, 0.1255, 0.0869, 0.1376, 0.1247],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0364, 0.0370, 0.0393, 0.0470, 0.0397, 0.0346, 0.0349],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 11:22:26,609 INFO [train.py:903] (2/4) Epoch 28, batch 2100, loss[loss=0.1934, simple_loss=0.2687, pruned_loss=0.05907, over 19609.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2822, pruned_loss=0.05923, over 3834717.39 frames. ], batch size: 50, lr: 2.94e-03, grad_scale: 8.0
+2023-04-03 11:22:35,104 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186462.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:22:49,640 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.238e+02 5.089e+02 6.089e+02 7.390e+02 1.324e+03, threshold=1.218e+03, percent-clipped=1.0
+2023-04-03 11:22:58,697 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-03 11:23:11,846 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=186492.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:23:13,782 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186493.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:23:21,595 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-03 11:23:25,164 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3305, 3.0378, 2.1940, 2.7311, 0.8622, 3.0659, 2.8814, 3.0013],
+       device='cuda:2'), covar=tensor([0.1161, 0.1442, 0.2139, 0.1092, 0.3754, 0.0983, 0.1258, 0.1481],
+       device='cuda:2'), in_proj_covar=tensor([0.0528, 0.0430, 0.0516, 0.0360, 0.0410, 0.0457, 0.0452, 0.0481],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:23:29,671 INFO [train.py:903] (2/4) Epoch 28, batch 2150, loss[loss=0.179, simple_loss=0.2638, pruned_loss=0.0471, over 19472.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2824, pruned_loss=0.05939, over 3829277.02 frames. ], batch size: 49, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:23:33,605 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9680, 2.0736, 2.3263, 2.5776, 1.9773, 2.4390, 2.2555, 2.1128],
+       device='cuda:2'), covar=tensor([0.4285, 0.4083, 0.2004, 0.2553, 0.4325, 0.2405, 0.5129, 0.3528],
+       device='cuda:2'), in_proj_covar=tensor([0.0939, 0.1016, 0.0745, 0.0952, 0.0915, 0.0854, 0.0862, 0.0810],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 11:23:42,620 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=186517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:23:46,784 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186520.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:24:00,655 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0339, 2.0929, 2.3196, 2.6634, 2.0436, 2.5073, 2.2930, 2.0839],
+       device='cuda:2'), covar=tensor([0.4349, 0.4205, 0.1985, 0.2495, 0.4411, 0.2334, 0.5101, 0.3603],
+       device='cuda:2'), in_proj_covar=tensor([0.0941, 0.1018, 0.0746, 0.0954, 0.0917, 0.0856, 0.0865, 0.0812],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 11:24:02,609 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=186532.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 11:24:06,080 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186535.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:24:30,573 INFO [train.py:903] (2/4) Epoch 28, batch 2200, loss[loss=0.1792, simple_loss=0.2745, pruned_loss=0.04195, over 19787.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2828, pruned_loss=0.06013, over 3831319.05 frames. ], batch size: 56, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:24:32,118 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186557.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:24:32,222 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=186557.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 11:24:55,768 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.530e+02 4.864e+02 5.746e+02 7.619e+02 1.717e+03, threshold=1.149e+03, percent-clipped=3.0
+2023-04-03 11:24:58,680 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=186577.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:25:09,453 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186585.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:25:13,495 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.29 vs. limit=5.0
+2023-04-03 11:25:32,849 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186604.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:25:34,935 INFO [train.py:903] (2/4) Epoch 28, batch 2250, loss[loss=0.1676, simple_loss=0.25, pruned_loss=0.04258, over 19757.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2822, pruned_loss=0.05964, over 3838087.27 frames. ], batch size: 46, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:25:54,491 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186621.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:26:12,640 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=186635.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:26:39,392 INFO [train.py:903] (2/4) Epoch 28, batch 2300, loss[loss=0.1755, simple_loss=0.2597, pruned_loss=0.04566, over 19611.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2831, pruned_loss=0.05999, over 3831119.48 frames. ], batch size: 50, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:26:43,097 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7302, 1.2915, 1.5103, 1.5476, 3.3187, 1.1070, 2.5296, 3.8025],
+       device='cuda:2'), covar=tensor([0.0527, 0.3019, 0.3109, 0.1934, 0.0727, 0.2740, 0.1359, 0.0227],
+       device='cuda:2'), in_proj_covar=tensor([0.0422, 0.0376, 0.0395, 0.0352, 0.0382, 0.0356, 0.0393, 0.0416],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:26:55,470 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-03 11:27:02,266 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.323e+02 4.896e+02 5.750e+02 7.152e+02 2.246e+03, threshold=1.150e+03, percent-clipped=6.0
+2023-04-03 11:27:42,249 INFO [train.py:903] (2/4) Epoch 28, batch 2350, loss[loss=0.2021, simple_loss=0.2863, pruned_loss=0.05897, over 19546.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2832, pruned_loss=0.05986, over 3829779.61 frames. ], batch size: 56, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:28:07,869 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186727.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:28:20,552 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=186736.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:28:22,866 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0641, 1.2107, 1.6479, 0.9949, 2.3234, 3.0920, 2.8046, 3.2878],
+       device='cuda:2'), covar=tensor([0.1728, 0.4129, 0.3599, 0.2819, 0.0652, 0.0229, 0.0252, 0.0329],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0333, 0.0366, 0.0272, 0.0257, 0.0197, 0.0220, 0.0280],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 11:28:26,054 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-03 11:28:42,208 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-03 11:28:44,645 INFO [train.py:903] (2/4) Epoch 28, batch 2400, loss[loss=0.1524, simple_loss=0.2396, pruned_loss=0.03262, over 19304.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2839, pruned_loss=0.06029, over 3820706.07 frames. ], batch size: 44, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:28:50,166 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.83 vs. limit=2.0
+2023-04-03 11:29:05,680 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.0808, 5.5259, 3.1436, 4.8958, 0.9679, 5.7018, 5.4658, 5.6936],
+       device='cuda:2'), covar=tensor([0.0350, 0.0834, 0.1769, 0.0735, 0.4108, 0.0504, 0.0805, 0.0963],
+       device='cuda:2'), in_proj_covar=tensor([0.0530, 0.0432, 0.0519, 0.0362, 0.0412, 0.0461, 0.0455, 0.0484],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:29:08,814 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.283e+02 4.439e+02 5.729e+02 7.466e+02 1.887e+03, threshold=1.146e+03, percent-clipped=9.0
+2023-04-03 11:29:20,262 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186783.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:29:29,326 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3045, 3.0247, 2.1535, 2.7170, 0.8939, 2.9952, 2.8944, 2.9689],
+       device='cuda:2'), covar=tensor([0.1216, 0.1352, 0.2186, 0.1150, 0.3766, 0.1069, 0.1236, 0.1612],
+       device='cuda:2'), in_proj_covar=tensor([0.0530, 0.0432, 0.0518, 0.0362, 0.0413, 0.0461, 0.0454, 0.0484],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:29:47,721 INFO [train.py:903] (2/4) Epoch 28, batch 2450, loss[loss=0.221, simple_loss=0.2938, pruned_loss=0.07407, over 13461.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.284, pruned_loss=0.0603, over 3813724.05 frames. ], batch size: 136, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:30:22,262 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=186833.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:30:26,698 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186837.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:30:50,784 INFO [train.py:903] (2/4) Epoch 28, batch 2500, loss[loss=0.213, simple_loss=0.2882, pruned_loss=0.0689, over 19747.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2837, pruned_loss=0.05997, over 3816449.92 frames. ], batch size: 51, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:30:54,446 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186858.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:30:54,554 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=186858.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:31:15,065 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.341e+02 4.860e+02 5.866e+02 7.110e+02 2.029e+03, threshold=1.173e+03, percent-clipped=7.0
+2023-04-03 11:31:19,827 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186879.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:31:35,092 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=186891.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:31:45,086 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=186898.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:31:49,221 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186901.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:31:54,935 INFO [train.py:903] (2/4) Epoch 28, batch 2550, loss[loss=0.191, simple_loss=0.275, pruned_loss=0.05344, over 19732.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2823, pruned_loss=0.05926, over 3824454.16 frames. ], batch size: 51, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:32:06,731 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=186916.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:32:22,509 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186929.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:32:22,649 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=186929.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:32:44,467 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7509, 1.1343, 1.4187, 1.3948, 3.1305, 1.1675, 2.6077, 3.6652],
+       device='cuda:2'), covar=tensor([0.0666, 0.3721, 0.3581, 0.2531, 0.1148, 0.3133, 0.1437, 0.0379],
+       device='cuda:2'), in_proj_covar=tensor([0.0421, 0.0377, 0.0396, 0.0352, 0.0382, 0.0357, 0.0394, 0.0415],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:32:47,702 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=186948.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:32:50,879 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-03 11:32:52,316 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=186952.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:32:56,643 INFO [train.py:903] (2/4) Epoch 28, batch 2600, loss[loss=0.1846, simple_loss=0.272, pruned_loss=0.04858, over 19659.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2833, pruned_loss=0.05988, over 3828754.45 frames. ], batch size: 55, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:33:08,791 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6201, 1.7566, 2.0964, 1.9301, 3.1656, 2.7079, 3.4943, 1.5877],
+       device='cuda:2'), covar=tensor([0.2564, 0.4370, 0.2900, 0.1853, 0.1456, 0.2077, 0.1499, 0.4544],
+       device='cuda:2'), in_proj_covar=tensor([0.0553, 0.0669, 0.0755, 0.0507, 0.0633, 0.0545, 0.0667, 0.0571],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 11:33:20,689 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.371e+02 5.127e+02 5.898e+02 7.788e+02 1.720e+03, threshold=1.180e+03, percent-clipped=7.0
+2023-04-03 11:33:43,112 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=186992.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:33:45,250 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=186994.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:33:59,861 INFO [train.py:903] (2/4) Epoch 28, batch 2650, loss[loss=0.2048, simple_loss=0.2778, pruned_loss=0.0659, over 19769.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.283, pruned_loss=0.05941, over 3828525.12 frames. ], batch size: 45, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:34:12,833 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187016.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:34:13,992 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187017.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:34:22,406 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-03 11:34:46,310 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=187043.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:34:47,554 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187044.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:35:02,646 INFO [train.py:903] (2/4) Epoch 28, batch 2700, loss[loss=0.1723, simple_loss=0.2529, pruned_loss=0.04583, over 19759.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2837, pruned_loss=0.05998, over 3835758.16 frames. ], batch size: 45, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:35:02,918 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=187056.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:35:13,306 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187063.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:35:22,297 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187071.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:35:26,784 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.432e+02 4.685e+02 5.845e+02 7.450e+02 1.306e+03, threshold=1.169e+03, percent-clipped=4.0
+2023-04-03 11:36:06,490 INFO [train.py:903] (2/4) Epoch 28, batch 2750, loss[loss=0.2344, simple_loss=0.3147, pruned_loss=0.077, over 19128.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2834, pruned_loss=0.05986, over 3825818.03 frames. ], batch size: 69, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:37:06,454 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187154.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:37:08,435 INFO [train.py:903] (2/4) Epoch 28, batch 2800, loss[loss=0.2642, simple_loss=0.3222, pruned_loss=0.1031, over 12710.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2826, pruned_loss=0.05958, over 3819409.41 frames. ], batch size: 135, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:37:31,619 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.065e+02 4.906e+02 5.640e+02 7.444e+02 1.445e+03, threshold=1.128e+03, percent-clipped=1.0
+2023-04-03 11:37:36,931 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187179.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:37:46,976 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187186.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:37:58,605 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0598, 3.7168, 2.5134, 3.2527, 0.8009, 3.6640, 3.5485, 3.5803],
+       device='cuda:2'), covar=tensor([0.0759, 0.1025, 0.1890, 0.0942, 0.3878, 0.0776, 0.1001, 0.1159],
+       device='cuda:2'), in_proj_covar=tensor([0.0528, 0.0430, 0.0515, 0.0360, 0.0410, 0.0457, 0.0452, 0.0482],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:38:05,775 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187202.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:38:10,174 INFO [train.py:903] (2/4) Epoch 28, batch 2850, loss[loss=0.2361, simple_loss=0.3042, pruned_loss=0.08399, over 19581.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2825, pruned_loss=0.05959, over 3817137.08 frames. ], batch size: 52, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:38:13,771 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187208.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:38:44,957 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187233.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:39:05,591 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187250.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:39:11,674 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-03 11:39:12,689 INFO [train.py:903] (2/4) Epoch 28, batch 2900, loss[loss=0.2168, simple_loss=0.3013, pruned_loss=0.06613, over 13176.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2828, pruned_loss=0.06015, over 3804131.42 frames. ], batch size: 136, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:39:32,609 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187272.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:39:33,465 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187273.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:39:35,532 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.364e+02 5.012e+02 6.172e+02 7.442e+02 2.226e+03, threshold=1.234e+03, percent-clipped=8.0
+2023-04-03 11:39:35,995 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187275.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:40:02,566 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187297.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:40:06,108 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187300.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:40:13,523 INFO [train.py:903] (2/4) Epoch 28, batch 2950, loss[loss=0.271, simple_loss=0.3332, pruned_loss=0.1044, over 13365.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2829, pruned_loss=0.06035, over 3817823.33 frames. ], batch size: 136, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:40:26,537 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187317.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:40:28,968 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187319.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:40:35,749 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187325.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:41:00,020 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187344.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:41:11,801 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1312, 1.3186, 1.7031, 1.3585, 2.7775, 3.7988, 3.4605, 4.0316],
+       device='cuda:2'), covar=tensor([0.1715, 0.3921, 0.3531, 0.2590, 0.0655, 0.0203, 0.0220, 0.0261],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0331, 0.0363, 0.0270, 0.0255, 0.0196, 0.0219, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 11:41:12,963 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8860, 1.5226, 2.0271, 1.7310, 4.4295, 1.1944, 2.6931, 4.8991],
+       device='cuda:2'), covar=tensor([0.0462, 0.2938, 0.2705, 0.2020, 0.0764, 0.2772, 0.1458, 0.0165],
+       device='cuda:2'), in_proj_covar=tensor([0.0426, 0.0381, 0.0400, 0.0355, 0.0385, 0.0360, 0.0399, 0.0419],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:41:13,834 INFO [train.py:903] (2/4) Epoch 28, batch 3000, loss[loss=0.1886, simple_loss=0.278, pruned_loss=0.0496, over 19791.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2837, pruned_loss=0.06109, over 3812714.74 frames. ], batch size: 56, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:41:13,834 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 11:41:26,720 INFO [train.py:937] (2/4) Epoch 28, validation: loss=0.1673, simple_loss=0.2667, pruned_loss=0.03394, over 944034.00 frames. 
+2023-04-03 11:41:26,721 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 11:41:29,156 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-03 11:41:49,228 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.693e+02 4.898e+02 6.411e+02 7.995e+02 1.373e+03, threshold=1.282e+03, percent-clipped=5.0
+2023-04-03 11:41:55,457 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6253, 1.7305, 1.9791, 1.9229, 1.4942, 1.8683, 1.9609, 1.8491],
+       device='cuda:2'), covar=tensor([0.4303, 0.3767, 0.2108, 0.2541, 0.4000, 0.2415, 0.5443, 0.3637],
+       device='cuda:2'), in_proj_covar=tensor([0.0935, 0.1012, 0.0741, 0.0948, 0.0910, 0.0853, 0.0860, 0.0808],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 11:42:05,136 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187387.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:42:06,450 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187388.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:42:08,766 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=187390.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:42:21,159 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187400.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:42:27,776 INFO [train.py:903] (2/4) Epoch 28, batch 3050, loss[loss=0.2261, simple_loss=0.3045, pruned_loss=0.07387, over 19609.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2846, pruned_loss=0.06112, over 3801985.22 frames. ], batch size: 61, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:42:33,236 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.44 vs. limit=2.0
+2023-04-03 11:43:13,205 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187442.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:43:29,481 INFO [train.py:903] (2/4) Epoch 28, batch 3100, loss[loss=0.1953, simple_loss=0.2843, pruned_loss=0.05311, over 19688.00 frames. ], tot_loss[loss=0.203, simple_loss=0.2844, pruned_loss=0.06077, over 3809587.70 frames. ], batch size: 53, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:43:43,943 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187467.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:43:48,542 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3686, 3.5548, 2.1144, 2.1665, 3.1731, 1.7787, 1.7358, 2.5394],
+       device='cuda:2'), covar=tensor([0.1242, 0.0601, 0.1137, 0.0912, 0.0571, 0.1303, 0.0978, 0.0618],
+       device='cuda:2'), in_proj_covar=tensor([0.0301, 0.0318, 0.0340, 0.0272, 0.0252, 0.0345, 0.0293, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:43:54,461 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.395e+02 4.792e+02 5.797e+02 7.675e+02 1.223e+03, threshold=1.159e+03, percent-clipped=0.0
+2023-04-03 11:44:27,036 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187502.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:44:32,168 INFO [train.py:903] (2/4) Epoch 28, batch 3150, loss[loss=0.2455, simple_loss=0.3225, pruned_loss=0.0842, over 19714.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.284, pruned_loss=0.06043, over 3819625.46 frames. ], batch size: 63, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:44:44,967 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187515.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:44:54,653 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-03 11:45:01,727 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=187530.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:45:10,627 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=187537.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:45:15,248 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=187541.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:45:35,287 INFO [train.py:903] (2/4) Epoch 28, batch 3200, loss[loss=0.2025, simple_loss=0.2832, pruned_loss=0.06092, over 19345.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2838, pruned_loss=0.06063, over 3801748.02 frames. ], batch size: 66, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:45:55,534 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187573.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:45:57,397 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.995e+02 4.914e+02 6.228e+02 8.001e+02 2.182e+03, threshold=1.246e+03, percent-clipped=10.0
+2023-04-03 11:46:15,075 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-03 11:46:27,899 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187598.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:46:36,795 INFO [train.py:903] (2/4) Epoch 28, batch 3250, loss[loss=0.187, simple_loss=0.2741, pruned_loss=0.04991, over 19375.00 frames. ], tot_loss[loss=0.2028, simple_loss=0.2839, pruned_loss=0.06086, over 3809119.00 frames. ], batch size: 70, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:46:54,668 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-03 11:47:23,896 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187644.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:47:37,437 INFO [train.py:903] (2/4) Epoch 28, batch 3300, loss[loss=0.2029, simple_loss=0.2893, pruned_loss=0.05823, over 19666.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2843, pruned_loss=0.06132, over 3805280.52 frames. ], batch size: 58, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:47:37,467 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-03 11:47:54,254 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187669.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:48:01,983 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.234e+02 4.770e+02 6.093e+02 7.830e+02 1.620e+03, threshold=1.219e+03, percent-clipped=4.0
+2023-04-03 11:48:08,549 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.41 vs. limit=2.0
+2023-04-03 11:48:40,832 INFO [train.py:903] (2/4) Epoch 28, batch 3350, loss[loss=0.1859, simple_loss=0.2763, pruned_loss=0.04775, over 17411.00 frames. ], tot_loss[loss=0.203, simple_loss=0.284, pruned_loss=0.06098, over 3806343.79 frames. ], batch size: 101, lr: 2.93e-03, grad_scale: 8.0
+2023-04-03 11:48:54,793 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1274, 1.6468, 1.8158, 2.7508, 2.0054, 2.2226, 2.2819, 1.8965],
+       device='cuda:2'), covar=tensor([0.0858, 0.1014, 0.1054, 0.0738, 0.0926, 0.0827, 0.0905, 0.0772],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0224, 0.0228, 0.0241, 0.0227, 0.0215, 0.0188, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 11:49:14,742 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187734.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:49:42,968 INFO [train.py:903] (2/4) Epoch 28, batch 3400, loss[loss=0.1979, simple_loss=0.2807, pruned_loss=0.05752, over 19738.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2843, pruned_loss=0.06144, over 3801201.39 frames. ], batch size: 63, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 11:49:45,590 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187758.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:50:02,044 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=187771.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:50:07,737 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.151e+02 4.801e+02 5.865e+02 7.575e+02 1.695e+03, threshold=1.173e+03, percent-clipped=1.0
+2023-04-03 11:50:16,892 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187783.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:50:34,176 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=187796.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:50:46,603 INFO [train.py:903] (2/4) Epoch 28, batch 3450, loss[loss=0.2228, simple_loss=0.3076, pruned_loss=0.069, over 19689.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2823, pruned_loss=0.06028, over 3809950.20 frames. ], batch size: 59, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 11:50:47,823 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-03 11:50:52,913 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4041, 4.0508, 2.6033, 3.5679, 0.9306, 3.9538, 3.8230, 3.9288],
+       device='cuda:2'), covar=tensor([0.0617, 0.0942, 0.1950, 0.0863, 0.3815, 0.0722, 0.0973, 0.1232],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0429, 0.0514, 0.0359, 0.0409, 0.0455, 0.0451, 0.0483],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:51:41,400 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187849.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:51:49,300 INFO [train.py:903] (2/4) Epoch 28, batch 3500, loss[loss=0.2017, simple_loss=0.2891, pruned_loss=0.05713, over 19751.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2817, pruned_loss=0.05975, over 3822838.39 frames. ], batch size: 54, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 11:52:12,006 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187874.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:52:13,419 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2346, 1.1861, 1.2279, 1.3563, 0.9188, 1.3140, 1.2804, 1.2892],
+       device='cuda:2'), covar=tensor([0.0978, 0.1058, 0.1108, 0.0670, 0.0986, 0.0936, 0.0862, 0.0825],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0222, 0.0227, 0.0239, 0.0224, 0.0213, 0.0187, 0.0204],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 11:52:14,012 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.602e+02 4.936e+02 6.004e+02 7.154e+02 1.224e+03, threshold=1.201e+03, percent-clipped=1.0
+2023-04-03 11:52:20,881 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187881.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:52:26,771 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=187885.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:52:50,780 INFO [train.py:903] (2/4) Epoch 28, batch 3550, loss[loss=0.1706, simple_loss=0.2567, pruned_loss=0.04223, over 19738.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2821, pruned_loss=0.05973, over 3835071.96 frames. ], batch size: 51, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 11:53:52,897 INFO [train.py:903] (2/4) Epoch 28, batch 3600, loss[loss=0.2231, simple_loss=0.3047, pruned_loss=0.07075, over 19794.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.2816, pruned_loss=0.05972, over 3830950.49 frames. ], batch size: 56, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 11:53:57,153 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.67 vs. limit=2.0
+2023-04-03 11:54:17,586 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.816e+02 4.904e+02 5.870e+02 7.567e+02 1.667e+03, threshold=1.174e+03, percent-clipped=3.0
+2023-04-03 11:54:34,395 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187989.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:54:42,625 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=187996.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:54:48,332 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=188000.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:54:56,065 INFO [train.py:903] (2/4) Epoch 28, batch 3650, loss[loss=0.2075, simple_loss=0.2824, pruned_loss=0.06628, over 19542.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2818, pruned_loss=0.05929, over 3839533.93 frames. ], batch size: 54, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 11:55:49,207 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 11:55:53,660 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1451, 1.8102, 1.4526, 1.2294, 1.6102, 1.2100, 1.2090, 1.6675],
+       device='cuda:2'), covar=tensor([0.0897, 0.0868, 0.1229, 0.0938, 0.0687, 0.1393, 0.0678, 0.0464],
+       device='cuda:2'), in_proj_covar=tensor([0.0306, 0.0322, 0.0345, 0.0274, 0.0254, 0.0350, 0.0296, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 11:55:57,944 INFO [train.py:903] (2/4) Epoch 28, batch 3700, loss[loss=0.1992, simple_loss=0.2881, pruned_loss=0.05519, over 19529.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2843, pruned_loss=0.06075, over 3816530.49 frames. ], batch size: 54, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 11:56:23,997 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.791e+02 5.013e+02 6.013e+02 7.793e+02 2.143e+03, threshold=1.203e+03, percent-clipped=3.0
+2023-04-03 11:56:59,856 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=188105.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:57:00,596 INFO [train.py:903] (2/4) Epoch 28, batch 3750, loss[loss=0.2034, simple_loss=0.2925, pruned_loss=0.05716, over 19622.00 frames. ], tot_loss[loss=0.2026, simple_loss=0.284, pruned_loss=0.06058, over 3827979.58 frames. ], batch size: 57, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 11:57:19,352 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3180, 3.0339, 2.4770, 2.4446, 2.1235, 2.6405, 0.9961, 2.2396],
+       device='cuda:2'), covar=tensor([0.0655, 0.0591, 0.0689, 0.1088, 0.1095, 0.1050, 0.1470, 0.1107],
+       device='cuda:2'), in_proj_covar=tensor([0.0369, 0.0367, 0.0374, 0.0396, 0.0475, 0.0401, 0.0348, 0.0353],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 11:57:32,277 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=188130.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 11:57:55,861 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3555, 3.8650, 3.9463, 3.9841, 1.6078, 3.7776, 3.3241, 3.7193],
+       device='cuda:2'), covar=tensor([0.1632, 0.0974, 0.0707, 0.0753, 0.5984, 0.1118, 0.0737, 0.1145],
+       device='cuda:2'), in_proj_covar=tensor([0.0829, 0.0791, 0.1006, 0.0880, 0.0870, 0.0771, 0.0595, 0.0933],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 11:58:03,799 INFO [train.py:903] (2/4) Epoch 28, batch 3800, loss[loss=0.1596, simple_loss=0.2337, pruned_loss=0.04274, over 19741.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2827, pruned_loss=0.0602, over 3823923.04 frames. ], batch size: 45, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 11:58:30,500 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.894e+02 5.177e+02 6.017e+02 8.386e+02 1.721e+03, threshold=1.203e+03, percent-clipped=7.0
+2023-04-03 11:58:33,995 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-03 11:59:06,274 INFO [train.py:903] (2/4) Epoch 28, batch 3850, loss[loss=0.2014, simple_loss=0.287, pruned_loss=0.05786, over 19765.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2835, pruned_loss=0.06033, over 3827798.55 frames. ], batch size: 54, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 11:59:56,100 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=188245.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:00:05,171 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=188252.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:00:09,182 INFO [train.py:903] (2/4) Epoch 28, batch 3900, loss[loss=0.2323, simple_loss=0.3092, pruned_loss=0.07768, over 19513.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.2821, pruned_loss=0.05948, over 3837527.17 frames. ], batch size: 64, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 12:00:09,614 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=188256.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:00:26,401 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=188270.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:00:29,479 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.3372, 5.6865, 3.1671, 4.9910, 1.1746, 5.8733, 5.7639, 5.8746],
+       device='cuda:2'), covar=tensor([0.0355, 0.0738, 0.1876, 0.0757, 0.3940, 0.0533, 0.0712, 0.0903],
+       device='cuda:2'), in_proj_covar=tensor([0.0531, 0.0431, 0.0518, 0.0363, 0.0412, 0.0458, 0.0454, 0.0486],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:00:34,020 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.127e+02 5.053e+02 6.264e+02 8.116e+02 1.975e+03, threshold=1.253e+03, percent-clipped=4.0
+2023-04-03 12:00:34,500 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=188277.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:00:39,135 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=188281.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:01:04,080 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=188301.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:01:09,692 INFO [train.py:903] (2/4) Epoch 28, batch 3950, loss[loss=0.1891, simple_loss=0.268, pruned_loss=0.05509, over 19729.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2824, pruned_loss=0.05968, over 3840631.74 frames. ], batch size: 51, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 12:01:15,484 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-03 12:01:37,966 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0046, 2.1003, 2.3754, 2.6717, 1.9882, 2.5116, 2.3124, 2.1126],
+       device='cuda:2'), covar=tensor([0.4351, 0.4382, 0.2098, 0.2608, 0.4438, 0.2479, 0.5126, 0.3657],
+       device='cuda:2'), in_proj_covar=tensor([0.0940, 0.1016, 0.0744, 0.0953, 0.0914, 0.0857, 0.0862, 0.0810],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:02:03,054 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7026, 2.4337, 1.8332, 1.6722, 2.1981, 1.6146, 1.6037, 2.1086],
+       device='cuda:2'), covar=tensor([0.1105, 0.0854, 0.1128, 0.0885, 0.0571, 0.1210, 0.0806, 0.0501],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0319, 0.0342, 0.0272, 0.0252, 0.0345, 0.0293, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:02:07,464 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.78 vs. limit=2.0
+2023-04-03 12:02:08,272 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1027, 2.0317, 1.9341, 1.7569, 1.6326, 1.7017, 0.5683, 1.0665],
+       device='cuda:2'), covar=tensor([0.0713, 0.0684, 0.0519, 0.0938, 0.1255, 0.1014, 0.1503, 0.1239],
+       device='cuda:2'), in_proj_covar=tensor([0.0367, 0.0365, 0.0372, 0.0392, 0.0473, 0.0397, 0.0346, 0.0350],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 12:02:12,181 INFO [train.py:903] (2/4) Epoch 28, batch 4000, loss[loss=0.2002, simple_loss=0.2782, pruned_loss=0.06113, over 19788.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2823, pruned_loss=0.05972, over 3824656.07 frames. ], batch size: 56, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:02:38,283 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.378e+02 4.980e+02 6.272e+02 8.090e+02 1.579e+03, threshold=1.254e+03, percent-clipped=5.0
+2023-04-03 12:02:59,884 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-03 12:03:14,921 INFO [train.py:903] (2/4) Epoch 28, batch 4050, loss[loss=0.2292, simple_loss=0.3207, pruned_loss=0.06886, over 19542.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2817, pruned_loss=0.05929, over 3822343.02 frames. ], batch size: 56, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:03:41,456 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5647, 4.1398, 4.2774, 4.2880, 1.7933, 4.0815, 3.5258, 4.0327],
+       device='cuda:2'), covar=tensor([0.1796, 0.0862, 0.0673, 0.0733, 0.5748, 0.0963, 0.0742, 0.1079],
+       device='cuda:2'), in_proj_covar=tensor([0.0832, 0.0795, 0.1009, 0.0883, 0.0873, 0.0771, 0.0596, 0.0934],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 12:03:58,487 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.6498, 2.7896, 2.3327, 2.8052, 2.6062, 2.2313, 2.2091, 2.6303],
+       device='cuda:2'), covar=tensor([0.0950, 0.1387, 0.1422, 0.1032, 0.1292, 0.0557, 0.1525, 0.0661],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0359, 0.0319, 0.0257, 0.0306, 0.0257, 0.0321, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:04:17,054 INFO [train.py:903] (2/4) Epoch 28, batch 4100, loss[loss=0.258, simple_loss=0.3291, pruned_loss=0.09346, over 19532.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2826, pruned_loss=0.05954, over 3830037.39 frames. ], batch size: 54, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:04:25,838 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9210, 2.0149, 2.2840, 2.5461, 1.9507, 2.4366, 2.2550, 2.0403],
+       device='cuda:2'), covar=tensor([0.4446, 0.4190, 0.2073, 0.2605, 0.4459, 0.2373, 0.5191, 0.3617],
+       device='cuda:2'), in_proj_covar=tensor([0.0940, 0.1018, 0.0745, 0.0953, 0.0916, 0.0858, 0.0864, 0.0811],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:04:43,427 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.476e+02 5.116e+02 6.170e+02 8.694e+02 1.686e+03, threshold=1.234e+03, percent-clipped=5.0
+2023-04-03 12:04:54,660 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-03 12:05:11,284 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=188499.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:05:19,168 INFO [train.py:903] (2/4) Epoch 28, batch 4150, loss[loss=0.1898, simple_loss=0.279, pruned_loss=0.05034, over 18888.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2815, pruned_loss=0.05931, over 3810380.21 frames. ], batch size: 74, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:06:21,501 INFO [train.py:903] (2/4) Epoch 28, batch 4200, loss[loss=0.2164, simple_loss=0.3097, pruned_loss=0.06156, over 19606.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2825, pruned_loss=0.05967, over 3815333.53 frames. ], batch size: 57, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:06:24,953 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-03 12:06:46,554 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.847e+02 4.775e+02 5.885e+02 7.540e+02 1.202e+03, threshold=1.177e+03, percent-clipped=0.0
+2023-04-03 12:07:22,476 INFO [train.py:903] (2/4) Epoch 28, batch 4250, loss[loss=0.1887, simple_loss=0.2759, pruned_loss=0.05071, over 19669.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2822, pruned_loss=0.05982, over 3816009.83 frames. ], batch size: 59, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 12:07:33,772 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-03 12:07:42,258 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6957, 1.4656, 1.5536, 2.3428, 1.6866, 2.0166, 2.0071, 1.6904],
+       device='cuda:2'), covar=tensor([0.0863, 0.0969, 0.1017, 0.0638, 0.0859, 0.0763, 0.0832, 0.0746],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0227, 0.0240, 0.0225, 0.0214, 0.0188, 0.0206],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 12:07:44,074 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-03 12:08:10,324 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=188645.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:08:24,251 INFO [train.py:903] (2/4) Epoch 28, batch 4300, loss[loss=0.1996, simple_loss=0.2887, pruned_loss=0.05522, over 19495.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2832, pruned_loss=0.06027, over 3804836.43 frames. ], batch size: 64, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 12:08:51,759 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.988e+02 4.883e+02 5.889e+02 8.258e+02 1.553e+03, threshold=1.178e+03, percent-clipped=6.0
+2023-04-03 12:09:15,649 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-03 12:09:26,306 INFO [train.py:903] (2/4) Epoch 28, batch 4350, loss[loss=0.211, simple_loss=0.3002, pruned_loss=0.06086, over 18095.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2821, pruned_loss=0.05991, over 3814617.68 frames. ], batch size: 83, lr: 2.92e-03, grad_scale: 4.0
+2023-04-03 12:10:17,293 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7956, 2.0635, 2.2772, 2.0894, 3.4801, 2.9962, 3.6811, 1.8352],
+       device='cuda:2'), covar=tensor([0.2396, 0.3968, 0.2715, 0.1807, 0.1332, 0.1930, 0.1438, 0.4062],
+       device='cuda:2'), in_proj_covar=tensor([0.0556, 0.0670, 0.0757, 0.0510, 0.0636, 0.0548, 0.0671, 0.0574],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:10:30,431 INFO [train.py:903] (2/4) Epoch 28, batch 4400, loss[loss=0.1567, simple_loss=0.2385, pruned_loss=0.0375, over 19733.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2815, pruned_loss=0.05925, over 3820563.97 frames. ], batch size: 47, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:10:35,416 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=188760.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:10:52,231 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-03 12:10:57,774 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.415e+02 4.797e+02 5.749e+02 7.341e+02 1.454e+03, threshold=1.150e+03, percent-clipped=2.0
+2023-04-03 12:11:02,397 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-03 12:11:26,489 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3270, 1.3993, 1.6782, 1.5465, 2.0978, 1.8299, 2.1127, 0.8970],
+       device='cuda:2'), covar=tensor([0.3169, 0.5164, 0.3129, 0.2659, 0.1965, 0.3015, 0.1831, 0.5863],
+       device='cuda:2'), in_proj_covar=tensor([0.0557, 0.0672, 0.0758, 0.0510, 0.0637, 0.0548, 0.0671, 0.0575],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:11:31,837 INFO [train.py:903] (2/4) Epoch 28, batch 4450, loss[loss=0.1847, simple_loss=0.2704, pruned_loss=0.04955, over 19751.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2829, pruned_loss=0.06033, over 3822615.89 frames. ], batch size: 54, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:12:19,635 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=188843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:12:36,102 INFO [train.py:903] (2/4) Epoch 28, batch 4500, loss[loss=0.1673, simple_loss=0.253, pruned_loss=0.04078, over 16060.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.2826, pruned_loss=0.06, over 3820976.38 frames. ], batch size: 35, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:12:39,334 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-03 12:13:04,414 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.382e+02 4.536e+02 5.549e+02 7.562e+02 1.666e+03, threshold=1.110e+03, percent-clipped=5.0
+2023-04-03 12:13:38,242 INFO [train.py:903] (2/4) Epoch 28, batch 4550, loss[loss=0.1894, simple_loss=0.2795, pruned_loss=0.04964, over 18052.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2824, pruned_loss=0.05988, over 3821159.57 frames. ], batch size: 83, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:13:46,962 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-03 12:14:12,241 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-03 12:14:27,688 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.80 vs. limit=2.0
+2023-04-03 12:14:29,498 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=188947.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:14:31,884 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=188949.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:14:39,529 INFO [train.py:903] (2/4) Epoch 28, batch 4600, loss[loss=0.1849, simple_loss=0.2731, pruned_loss=0.04838, over 19712.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2823, pruned_loss=0.05985, over 3813103.94 frames. ], batch size: 59, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:14:43,221 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=188958.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:15:07,936 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.099e+02 4.624e+02 5.779e+02 7.629e+02 1.899e+03, threshold=1.156e+03, percent-clipped=6.0
+2023-04-03 12:15:43,036 INFO [train.py:903] (2/4) Epoch 28, batch 4650, loss[loss=0.1713, simple_loss=0.2546, pruned_loss=0.04396, over 19742.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2837, pruned_loss=0.06047, over 3807554.46 frames. ], batch size: 51, lr: 2.92e-03, grad_scale: 8.0
+2023-04-03 12:15:56,021 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=189016.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:16:01,315 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-03 12:16:12,616 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-03 12:16:26,525 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=189041.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:16:34,714 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189048.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:16:44,455 INFO [train.py:903] (2/4) Epoch 28, batch 4700, loss[loss=0.2457, simple_loss=0.3175, pruned_loss=0.08695, over 19671.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2837, pruned_loss=0.06045, over 3802859.89 frames. ], batch size: 58, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:17:07,728 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-03 12:17:10,869 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.010e+02 4.848e+02 5.842e+02 7.352e+02 2.015e+03, threshold=1.168e+03, percent-clipped=3.0
+2023-04-03 12:17:17,598 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189082.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:17:36,207 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189097.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:17:37,515 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.7209, 1.7580, 1.7165, 1.4426, 1.4565, 1.4754, 0.2813, 0.7349],
+       device='cuda:2'), covar=tensor([0.0777, 0.0746, 0.0498, 0.0844, 0.1450, 0.0929, 0.1553, 0.1342],
+       device='cuda:2'), in_proj_covar=tensor([0.0369, 0.0367, 0.0372, 0.0396, 0.0475, 0.0399, 0.0348, 0.0351],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 12:17:46,794 INFO [train.py:903] (2/4) Epoch 28, batch 4750, loss[loss=0.2098, simple_loss=0.2982, pruned_loss=0.06065, over 18083.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2834, pruned_loss=0.06034, over 3788585.34 frames. ], batch size: 83, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:18:47,828 INFO [train.py:903] (2/4) Epoch 28, batch 4800, loss[loss=0.2285, simple_loss=0.3174, pruned_loss=0.06979, over 19572.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2834, pruned_loss=0.06046, over 3789132.10 frames. ], batch size: 61, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:19:16,003 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.214e+02 5.029e+02 6.156e+02 7.557e+02 1.439e+03, threshold=1.231e+03, percent-clipped=4.0
+2023-04-03 12:19:44,212 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7851, 3.2691, 3.3210, 3.3528, 1.4205, 3.2170, 2.7702, 3.0974],
+       device='cuda:2'), covar=tensor([0.1905, 0.1238, 0.0875, 0.1003, 0.5577, 0.1144, 0.0933, 0.1384],
+       device='cuda:2'), in_proj_covar=tensor([0.0821, 0.0787, 0.0997, 0.0875, 0.0864, 0.0761, 0.0588, 0.0924],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 12:19:50,825 INFO [train.py:903] (2/4) Epoch 28, batch 4850, loss[loss=0.1837, simple_loss=0.2731, pruned_loss=0.04712, over 19537.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2833, pruned_loss=0.05989, over 3807958.92 frames. ], batch size: 56, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:20:01,588 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=189214.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:20:12,582 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-03 12:20:32,967 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=189239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:20:33,812 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-03 12:20:39,534 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-03 12:20:40,701 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-03 12:20:51,047 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-03 12:20:53,318 INFO [train.py:903] (2/4) Epoch 28, batch 4900, loss[loss=0.1845, simple_loss=0.2735, pruned_loss=0.04774, over 19771.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.283, pruned_loss=0.05973, over 3812358.06 frames. ], batch size: 63, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:21:05,671 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189266.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:21:10,803 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-03 12:21:19,667 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.182e+02 4.742e+02 6.083e+02 7.635e+02 1.565e+03, threshold=1.217e+03, percent-clipped=2.0
+2023-04-03 12:21:20,148 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3713, 1.4496, 1.6778, 1.6083, 2.2396, 2.0229, 2.3707, 0.8712],
+       device='cuda:2'), covar=tensor([0.2620, 0.4497, 0.2821, 0.2071, 0.1630, 0.2406, 0.1459, 0.5198],
+       device='cuda:2'), in_proj_covar=tensor([0.0557, 0.0674, 0.0759, 0.0510, 0.0638, 0.0550, 0.0674, 0.0576],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:21:36,046 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=189291.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:21:38,180 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=189293.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:21:53,518 INFO [train.py:903] (2/4) Epoch 28, batch 4950, loss[loss=0.2127, simple_loss=0.2982, pruned_loss=0.06365, over 19685.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2834, pruned_loss=0.06008, over 3810407.41 frames. ], batch size: 55, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:22:10,594 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-03 12:22:34,612 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-03 12:22:56,070 INFO [train.py:903] (2/4) Epoch 28, batch 5000, loss[loss=0.2251, simple_loss=0.3082, pruned_loss=0.07093, over 18998.00 frames. ], tot_loss[loss=0.203, simple_loss=0.2844, pruned_loss=0.06084, over 3828334.16 frames. ], batch size: 69, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:22:57,318 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6040, 2.2245, 1.5357, 1.5113, 2.1097, 1.2600, 1.5541, 1.9480],
+       device='cuda:2'), covar=tensor([0.1098, 0.0950, 0.1156, 0.0830, 0.0576, 0.1403, 0.0735, 0.0553],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0319, 0.0342, 0.0273, 0.0253, 0.0344, 0.0294, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:23:04,854 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-03 12:23:08,803 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189365.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:23:15,684 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-03 12:23:24,841 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.397e+02 5.003e+02 6.019e+02 8.012e+02 1.544e+03, threshold=1.204e+03, percent-clipped=7.0
+2023-04-03 12:23:42,170 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=189392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:23:59,706 INFO [train.py:903] (2/4) Epoch 28, batch 5050, loss[loss=0.2075, simple_loss=0.2962, pruned_loss=0.05943, over 19689.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.2841, pruned_loss=0.06067, over 3841944.63 frames. ], batch size: 60, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:24:00,207 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=189406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:24:02,597 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=189408.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:24:24,215 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=189426.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:24:33,179 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-03 12:24:44,051 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=189441.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:24:52,468 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.95 vs. limit=2.0
+2023-04-03 12:25:01,203 INFO [train.py:903] (2/4) Epoch 28, batch 5100, loss[loss=0.1914, simple_loss=0.2783, pruned_loss=0.05221, over 19666.00 frames. ], tot_loss[loss=0.2034, simple_loss=0.2848, pruned_loss=0.06103, over 3822398.85 frames. ], batch size: 60, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:25:10,105 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-03 12:25:12,427 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-03 12:25:19,117 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-03 12:25:27,912 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.508e+02 5.191e+02 6.540e+02 8.236e+02 1.634e+03, threshold=1.308e+03, percent-clipped=9.0
+2023-04-03 12:26:01,393 INFO [train.py:903] (2/4) Epoch 28, batch 5150, loss[loss=0.2523, simple_loss=0.3243, pruned_loss=0.09014, over 18741.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.285, pruned_loss=0.06132, over 3818980.52 frames. ], batch size: 74, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:26:02,894 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=189507.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:26:11,418 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-03 12:26:18,119 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189519.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:26:44,858 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=189541.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:26:46,844 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 12:27:00,763 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3226, 1.3636, 1.5869, 1.4934, 1.8095, 1.8378, 1.8110, 0.5456],
+       device='cuda:2'), covar=tensor([0.2876, 0.4929, 0.3043, 0.2342, 0.1849, 0.2808, 0.1642, 0.5888],
+       device='cuda:2'), in_proj_covar=tensor([0.0556, 0.0674, 0.0758, 0.0509, 0.0637, 0.0548, 0.0672, 0.0575],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:27:02,655 INFO [train.py:903] (2/4) Epoch 28, batch 5200, loss[loss=0.1907, simple_loss=0.26, pruned_loss=0.06071, over 19749.00 frames. ], tot_loss[loss=0.2046, simple_loss=0.2857, pruned_loss=0.06179, over 3815077.17 frames. ], batch size: 46, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:27:03,038 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=189556.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:27:17,229 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-03 12:27:30,437 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.217e+02 4.850e+02 5.941e+02 7.550e+02 1.552e+03, threshold=1.188e+03, percent-clipped=2.0
+2023-04-03 12:28:01,610 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-03 12:28:04,868 INFO [train.py:903] (2/4) Epoch 28, batch 5250, loss[loss=0.2084, simple_loss=0.2901, pruned_loss=0.06333, over 19268.00 frames. ], tot_loss[loss=0.2038, simple_loss=0.285, pruned_loss=0.06128, over 3827516.24 frames. ], batch size: 66, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:28:09,619 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=189610.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:28:41,502 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0475, 5.1708, 5.8673, 5.8722, 2.0257, 5.6114, 4.6747, 5.5580],
+       device='cuda:2'), covar=tensor([0.1724, 0.0835, 0.0579, 0.0631, 0.6140, 0.0956, 0.0662, 0.1101],
+       device='cuda:2'), in_proj_covar=tensor([0.0816, 0.0783, 0.0993, 0.0872, 0.0862, 0.0758, 0.0584, 0.0924],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 12:29:04,828 INFO [train.py:903] (2/4) Epoch 28, batch 5300, loss[loss=0.1979, simple_loss=0.287, pruned_loss=0.05438, over 19549.00 frames. ], tot_loss[loss=0.2039, simple_loss=0.2849, pruned_loss=0.06141, over 3830698.33 frames. ], batch size: 54, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:29:08,424 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189658.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:29:12,996 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=189662.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:29:14,964 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=189664.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:29:16,078 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.0638, 1.5990, 1.3193, 0.9715, 1.5041, 0.9905, 1.0155, 1.6021],
+       device='cuda:2'), covar=tensor([0.0813, 0.0856, 0.0966, 0.1020, 0.0547, 0.1353, 0.0730, 0.0429],
+       device='cuda:2'), in_proj_covar=tensor([0.0305, 0.0319, 0.0342, 0.0273, 0.0253, 0.0345, 0.0295, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:29:21,484 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-03 12:29:31,784 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.136e+02 4.811e+02 6.188e+02 7.440e+02 1.460e+03, threshold=1.238e+03, percent-clipped=2.0
+2023-04-03 12:29:44,209 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=189687.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:29:46,231 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=189689.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:30:05,520 INFO [train.py:903] (2/4) Epoch 28, batch 5350, loss[loss=0.166, simple_loss=0.241, pruned_loss=0.04555, over 19780.00 frames. ], tot_loss[loss=0.2037, simple_loss=0.2849, pruned_loss=0.06123, over 3841749.72 frames. ], batch size: 47, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:30:09,136 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=189709.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:30:20,560 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.44 vs. limit=2.0
+2023-04-03 12:30:25,520 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189722.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:30:29,875 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=189725.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:30:38,356 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-03 12:30:48,723 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3156, 1.3769, 1.7592, 1.3526, 2.7010, 3.7695, 3.4465, 3.9941],
+       device='cuda:2'), covar=tensor([0.1531, 0.3885, 0.3421, 0.2684, 0.0684, 0.0186, 0.0219, 0.0274],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0334, 0.0366, 0.0274, 0.0257, 0.0199, 0.0221, 0.0280],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 12:30:54,241 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=189746.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:31:04,990 INFO [train.py:903] (2/4) Epoch 28, batch 5400, loss[loss=0.1812, simple_loss=0.2612, pruned_loss=0.05058, over 19827.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2839, pruned_loss=0.06056, over 3838918.23 frames. ], batch size: 49, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:31:08,700 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1746, 1.7112, 1.4079, 1.0132, 1.5918, 1.0414, 1.1913, 1.6905],
+       device='cuda:2'), covar=tensor([0.0873, 0.0834, 0.1076, 0.1087, 0.0618, 0.1481, 0.0672, 0.0417],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0321, 0.0345, 0.0275, 0.0256, 0.0348, 0.0297, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:31:15,145 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=189763.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:31:33,363 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.324e+02 4.839e+02 5.999e+02 7.745e+02 2.007e+03, threshold=1.200e+03, percent-clipped=4.0
+2023-04-03 12:31:44,914 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=189788.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:31:56,155 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=189797.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:32:07,665 INFO [train.py:903] (2/4) Epoch 28, batch 5450, loss[loss=0.1934, simple_loss=0.276, pruned_loss=0.0554, over 19277.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2834, pruned_loss=0.0605, over 3838491.21 frames. ], batch size: 66, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:32:15,129 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=189812.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:32:19,037 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.07 vs. limit=5.0
+2023-04-03 12:32:25,875 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.11 vs. limit=5.0
+2023-04-03 12:32:27,702 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=189822.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:32:28,069 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.03 vs. limit=5.0
+2023-04-03 12:32:30,051 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=189824.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:32:45,824 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=189837.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:33:08,051 INFO [train.py:903] (2/4) Epoch 28, batch 5500, loss[loss=0.2075, simple_loss=0.2947, pruned_loss=0.06019, over 18320.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2835, pruned_loss=0.0604, over 3832574.78 frames. ], batch size: 83, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:33:17,142 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=189863.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:33:23,050 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-03 12:33:24,296 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.82 vs. limit=5.0
+2023-04-03 12:33:30,512 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-03 12:33:35,034 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.121e+02 4.755e+02 5.876e+02 8.325e+02 1.733e+03, threshold=1.175e+03, percent-clipped=4.0
+2023-04-03 12:34:10,042 INFO [train.py:903] (2/4) Epoch 28, batch 5550, loss[loss=0.2366, simple_loss=0.3152, pruned_loss=0.07901, over 18673.00 frames. ], tot_loss[loss=0.2024, simple_loss=0.2836, pruned_loss=0.0606, over 3827330.63 frames. ], batch size: 74, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:34:17,013 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-03 12:34:49,642 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5516, 1.3824, 1.4505, 1.8986, 1.4188, 1.7687, 1.8305, 1.4919],
+       device='cuda:2'), covar=tensor([0.0896, 0.0994, 0.1052, 0.0777, 0.0930, 0.0793, 0.0861, 0.0804],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0224, 0.0229, 0.0241, 0.0226, 0.0215, 0.0189, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 12:35:04,795 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6205, 1.4303, 1.4921, 1.8802, 1.3688, 1.9006, 1.8366, 1.6151],
+       device='cuda:2'), covar=tensor([0.0859, 0.0944, 0.1004, 0.0756, 0.0928, 0.0728, 0.0873, 0.0737],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0224, 0.0229, 0.0241, 0.0226, 0.0215, 0.0189, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 12:35:06,754 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-03 12:35:11,470 INFO [train.py:903] (2/4) Epoch 28, batch 5600, loss[loss=0.1621, simple_loss=0.2392, pruned_loss=0.04246, over 19730.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2824, pruned_loss=0.05996, over 3822646.18 frames. ], batch size: 45, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:35:40,028 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.214e+02 4.597e+02 5.831e+02 7.652e+02 2.230e+03, threshold=1.166e+03, percent-clipped=4.0
+2023-04-03 12:35:40,335 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=189978.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:35:44,637 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=189981.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:36:11,943 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190002.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:36:17,383 INFO [train.py:903] (2/4) Epoch 28, batch 5650, loss[loss=0.216, simple_loss=0.2952, pruned_loss=0.06838, over 19621.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2818, pruned_loss=0.05937, over 3831057.47 frames. ], batch size: 57, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:36:17,838 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=190006.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:37:04,788 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-03 12:37:18,834 INFO [train.py:903] (2/4) Epoch 28, batch 5700, loss[loss=0.193, simple_loss=0.2848, pruned_loss=0.05061, over 19654.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.2817, pruned_loss=0.05962, over 3814270.57 frames. ], batch size: 58, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:37:31,559 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190066.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:37:45,568 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.971e+02 5.283e+02 6.430e+02 7.892e+02 1.365e+03, threshold=1.286e+03, percent-clipped=3.0
+2023-04-03 12:37:49,394 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=190080.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:38:02,443 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190090.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:38:21,057 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=190105.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:38:21,822 INFO [train.py:903] (2/4) Epoch 28, batch 5750, loss[loss=0.1735, simple_loss=0.2514, pruned_loss=0.04777, over 19773.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.2813, pruned_loss=0.05919, over 3828334.64 frames. ], batch size: 48, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:38:24,219 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-03 12:38:32,498 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-03 12:38:32,781 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5823, 1.2123, 1.3664, 1.2554, 2.2626, 1.0864, 2.2010, 2.5347],
+       device='cuda:2'), covar=tensor([0.0684, 0.2784, 0.2967, 0.1727, 0.0802, 0.2116, 0.1064, 0.0458],
+       device='cuda:2'), in_proj_covar=tensor([0.0424, 0.0379, 0.0398, 0.0354, 0.0382, 0.0358, 0.0398, 0.0419],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:38:35,190 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=190117.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:38:37,062 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-03 12:39:03,305 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4215, 1.4767, 1.7158, 1.6229, 2.1962, 2.0507, 2.3521, 0.9986],
+       device='cuda:2'), covar=tensor([0.2601, 0.4460, 0.2666, 0.2122, 0.1707, 0.2393, 0.1477, 0.4864],
+       device='cuda:2'), in_proj_covar=tensor([0.0558, 0.0676, 0.0761, 0.0512, 0.0640, 0.0551, 0.0674, 0.0579],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:39:23,778 INFO [train.py:903] (2/4) Epoch 28, batch 5800, loss[loss=0.2237, simple_loss=0.3067, pruned_loss=0.0703, over 19654.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2822, pruned_loss=0.05954, over 3831111.48 frames. ], batch size: 58, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:39:25,251 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=190157.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 12:39:41,866 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=190169.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:39:52,006 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.261e+02 4.681e+02 5.738e+02 7.022e+02 1.341e+03, threshold=1.148e+03, percent-clipped=1.0
+2023-04-03 12:39:56,696 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=190181.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:40:26,139 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=190205.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:40:27,625 INFO [train.py:903] (2/4) Epoch 28, batch 5850, loss[loss=0.1829, simple_loss=0.2593, pruned_loss=0.0532, over 19395.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.282, pruned_loss=0.0597, over 3820347.68 frames. ], batch size: 47, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:41:02,570 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=190234.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:41:29,991 INFO [train.py:903] (2/4) Epoch 28, batch 5900, loss[loss=0.189, simple_loss=0.2739, pruned_loss=0.05202, over 19746.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2817, pruned_loss=0.05928, over 3821286.14 frames. ], batch size: 63, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:41:32,315 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-03 12:41:33,973 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=190259.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:41:45,071 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9206, 4.6072, 3.2881, 3.9905, 1.9288, 4.4793, 4.3716, 4.4996],
+       device='cuda:2'), covar=tensor([0.0466, 0.0927, 0.1816, 0.0834, 0.2950, 0.0663, 0.0915, 0.1155],
+       device='cuda:2'), in_proj_covar=tensor([0.0531, 0.0432, 0.0520, 0.0362, 0.0411, 0.0459, 0.0452, 0.0484],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:41:54,170 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-03 12:41:56,485 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.705e+02 4.583e+02 5.674e+02 7.520e+02 1.844e+03, threshold=1.135e+03, percent-clipped=9.0
+2023-04-03 12:42:24,949 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5965, 4.1603, 4.2847, 4.2902, 1.7447, 4.0675, 3.5619, 4.0492],
+       device='cuda:2'), covar=tensor([0.1745, 0.0865, 0.0666, 0.0760, 0.6025, 0.1067, 0.0706, 0.1152],
+       device='cuda:2'), in_proj_covar=tensor([0.0822, 0.0786, 0.0998, 0.0878, 0.0865, 0.0763, 0.0588, 0.0928],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 12:42:32,647 INFO [train.py:903] (2/4) Epoch 28, batch 5950, loss[loss=0.1979, simple_loss=0.2834, pruned_loss=0.05623, over 19758.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.282, pruned_loss=0.05891, over 3823069.06 frames. ], batch size: 54, lr: 2.91e-03, grad_scale: 8.0
+2023-04-03 12:43:08,018 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=190334.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:43:34,395 INFO [train.py:903] (2/4) Epoch 28, batch 6000, loss[loss=0.1672, simple_loss=0.2516, pruned_loss=0.04145, over 19793.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2823, pruned_loss=0.05901, over 3822397.25 frames. ], batch size: 49, lr: 2.90e-03, grad_scale: 8.0
+2023-04-03 12:43:34,396 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 12:43:47,439 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.9974, 1.3498, 1.5294, 1.5751, 2.6163, 1.1571, 2.2348, 3.0213],
+       device='cuda:2'), covar=tensor([0.0592, 0.3183, 0.3261, 0.1917, 0.0789, 0.2577, 0.1166, 0.0290],
+       device='cuda:2'), in_proj_covar=tensor([0.0424, 0.0378, 0.0398, 0.0354, 0.0383, 0.0358, 0.0398, 0.0419],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:43:48,499 INFO [train.py:937] (2/4) Epoch 28, validation: loss=0.1668, simple_loss=0.2663, pruned_loss=0.03368, over 944034.00 frames. 
+2023-04-03 12:43:48,500 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 12:44:08,738 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=190373.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:44:15,158 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.216e+02 4.800e+02 5.909e+02 8.119e+02 1.607e+03, threshold=1.182e+03, percent-clipped=4.0
+2023-04-03 12:44:41,357 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=190398.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:44:50,436 INFO [train.py:903] (2/4) Epoch 28, batch 6050, loss[loss=0.2178, simple_loss=0.298, pruned_loss=0.06878, over 19538.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.281, pruned_loss=0.05863, over 3825038.75 frames. ], batch size: 61, lr: 2.90e-03, grad_scale: 8.0
+2023-04-03 12:45:04,559 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=190417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:45:28,503 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=190437.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:45:50,722 INFO [train.py:903] (2/4) Epoch 28, batch 6100, loss[loss=0.2431, simple_loss=0.3193, pruned_loss=0.08344, over 19332.00 frames. ], tot_loss[loss=0.1988, simple_loss=0.2806, pruned_loss=0.05844, over 3826566.96 frames. ], batch size: 66, lr: 2.90e-03, grad_scale: 8.0
+2023-04-03 12:45:57,883 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=190461.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:45:59,861 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=190462.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:46:17,943 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.255e+02 4.836e+02 5.950e+02 7.277e+02 1.439e+03, threshold=1.190e+03, percent-clipped=1.0
+2023-04-03 12:46:28,825 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=190486.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:46:46,948 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190501.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 12:46:53,520 INFO [train.py:903] (2/4) Epoch 28, batch 6150, loss[loss=0.2514, simple_loss=0.3243, pruned_loss=0.0892, over 13480.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2822, pruned_loss=0.05933, over 3818983.71 frames. ], batch size: 136, lr: 2.90e-03, grad_scale: 8.0
+2023-04-03 12:47:02,055 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190513.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:47:23,090 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-03 12:47:56,356 INFO [train.py:903] (2/4) Epoch 28, batch 6200, loss[loss=0.1719, simple_loss=0.2532, pruned_loss=0.04525, over 19357.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2828, pruned_loss=0.05956, over 3815516.17 frames. ], batch size: 47, lr: 2.90e-03, grad_scale: 8.0
+2023-04-03 12:48:23,170 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.156e+02 4.897e+02 5.800e+02 7.277e+02 1.783e+03, threshold=1.160e+03, percent-clipped=5.0
+2023-04-03 12:48:59,515 INFO [train.py:903] (2/4) Epoch 28, batch 6250, loss[loss=0.2078, simple_loss=0.2935, pruned_loss=0.06107, over 19593.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2828, pruned_loss=0.05937, over 3810604.89 frames. ], batch size: 61, lr: 2.90e-03, grad_scale: 16.0
+2023-04-03 12:49:03,311 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=190609.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 12:49:11,015 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=190616.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 12:49:26,303 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=190627.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:49:27,623 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=190628.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:49:31,962 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-03 12:50:00,482 INFO [train.py:903] (2/4) Epoch 28, batch 6300, loss[loss=0.1598, simple_loss=0.2376, pruned_loss=0.041, over 19316.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2835, pruned_loss=0.06, over 3811926.21 frames. ], batch size: 44, lr: 2.90e-03, grad_scale: 8.0
+2023-04-03 12:50:28,874 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190678.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:50:29,804 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.019e+02 4.803e+02 6.276e+02 7.910e+02 2.564e+03, threshold=1.255e+03, percent-clipped=8.0
+2023-04-03 12:50:37,142 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3335, 1.8371, 2.1349, 3.0939, 2.0331, 2.4708, 2.5205, 2.2237],
+       device='cuda:2'), covar=tensor([0.0784, 0.0958, 0.0921, 0.0680, 0.0881, 0.0787, 0.0898, 0.0669],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0224, 0.0231, 0.0242, 0.0228, 0.0216, 0.0190, 0.0209],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 12:50:45,492 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6461, 1.7414, 1.9639, 1.8883, 1.5075, 1.8637, 1.9211, 1.8239],
+       device='cuda:2'), covar=tensor([0.4241, 0.3805, 0.2166, 0.2531, 0.3885, 0.2346, 0.5453, 0.3641],
+       device='cuda:2'), in_proj_covar=tensor([0.0938, 0.1016, 0.0745, 0.0953, 0.0913, 0.0855, 0.0859, 0.0809],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:50:47,587 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=190693.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:51:04,099 INFO [train.py:903] (2/4) Epoch 28, batch 6350, loss[loss=0.1793, simple_loss=0.2724, pruned_loss=0.0431, over 19618.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2828, pruned_loss=0.05937, over 3823454.64 frames. ], batch size: 57, lr: 2.90e-03, grad_scale: 8.0
+2023-04-03 12:52:06,525 INFO [train.py:903] (2/4) Epoch 28, batch 6400, loss[loss=0.1895, simple_loss=0.2675, pruned_loss=0.05572, over 19843.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.282, pruned_loss=0.05909, over 3822117.93 frames. ], batch size: 52, lr: 2.90e-03, grad_scale: 8.0
+2023-04-03 12:52:13,583 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190761.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:52:36,095 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.096e+02 4.755e+02 6.032e+02 8.092e+02 1.400e+03, threshold=1.206e+03, percent-clipped=2.0
+2023-04-03 12:52:52,725 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=190793.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:53:05,589 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9783, 1.6740, 1.5756, 1.8416, 1.4642, 1.6344, 1.5050, 1.7506],
+       device='cuda:2'), covar=tensor([0.1043, 0.1345, 0.1517, 0.1118, 0.1449, 0.0576, 0.1630, 0.0763],
+       device='cuda:2'), in_proj_covar=tensor([0.0277, 0.0359, 0.0317, 0.0257, 0.0305, 0.0254, 0.0321, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:53:08,674 INFO [train.py:903] (2/4) Epoch 28, batch 6450, loss[loss=0.1959, simple_loss=0.2836, pruned_loss=0.05414, over 19689.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.281, pruned_loss=0.05882, over 3815823.68 frames. ], batch size: 59, lr: 2.90e-03, grad_scale: 4.0
+2023-04-03 12:53:55,134 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-03 12:53:55,697 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4612, 1.4937, 1.7182, 1.6919, 2.5493, 2.1527, 2.8441, 1.0910],
+       device='cuda:2'), covar=tensor([0.2652, 0.4621, 0.2959, 0.2100, 0.1585, 0.2407, 0.1403, 0.5053],
+       device='cuda:2'), in_proj_covar=tensor([0.0555, 0.0672, 0.0758, 0.0511, 0.0638, 0.0548, 0.0672, 0.0576],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:54:10,281 INFO [train.py:903] (2/4) Epoch 28, batch 6500, loss[loss=0.1832, simple_loss=0.276, pruned_loss=0.04518, over 19732.00 frames. ], tot_loss[loss=0.1994, simple_loss=0.2814, pruned_loss=0.0587, over 3820209.84 frames. ], batch size: 63, lr: 2.90e-03, grad_scale: 4.0
+2023-04-03 12:54:14,078 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3619, 1.3660, 1.5519, 1.5574, 2.1649, 2.0332, 2.3432, 0.9571],
+       device='cuda:2'), covar=tensor([0.2561, 0.4499, 0.2867, 0.2072, 0.1608, 0.2245, 0.1403, 0.4915],
+       device='cuda:2'), in_proj_covar=tensor([0.0556, 0.0673, 0.0759, 0.0511, 0.0639, 0.0549, 0.0673, 0.0577],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 12:54:17,918 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-03 12:54:29,617 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1792, 5.1802, 5.9482, 5.9884, 2.1305, 5.6310, 4.7936, 5.6313],
+       device='cuda:2'), covar=tensor([0.1678, 0.0841, 0.0584, 0.0586, 0.6115, 0.0867, 0.0607, 0.1079],
+       device='cuda:2'), in_proj_covar=tensor([0.0827, 0.0792, 0.1002, 0.0880, 0.0867, 0.0767, 0.0591, 0.0932],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 12:54:32,033 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=190872.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 12:54:36,588 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=190876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:54:40,957 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.047e+02 4.758e+02 5.991e+02 7.680e+02 1.999e+03, threshold=1.198e+03, percent-clipped=5.0
+2023-04-03 12:54:47,169 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=190884.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:55:01,677 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=190897.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 12:55:11,661 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9709, 1.7290, 1.5475, 1.8277, 1.4969, 1.6281, 1.4673, 1.8304],
+       device='cuda:2'), covar=tensor([0.1059, 0.1259, 0.1724, 0.1195, 0.1468, 0.0620, 0.1675, 0.0802],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0358, 0.0316, 0.0256, 0.0303, 0.0253, 0.0319, 0.0260],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 12:55:13,651 INFO [train.py:903] (2/4) Epoch 28, batch 6550, loss[loss=0.2186, simple_loss=0.2884, pruned_loss=0.0744, over 19740.00 frames. ], tot_loss[loss=0.1989, simple_loss=0.2808, pruned_loss=0.05852, over 3829719.60 frames. ], batch size: 46, lr: 2.90e-03, grad_scale: 4.0
+2023-04-03 12:55:18,347 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=190909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:56:14,197 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190953.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 12:56:17,092 INFO [train.py:903] (2/4) Epoch 28, batch 6600, loss[loss=0.1853, simple_loss=0.2649, pruned_loss=0.0528, over 19381.00 frames. ], tot_loss[loss=0.199, simple_loss=0.2805, pruned_loss=0.05876, over 3814043.12 frames. ], batch size: 47, lr: 2.90e-03, grad_scale: 4.0
+2023-04-03 12:56:35,873 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=190971.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:56:48,225 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.060e+02 4.870e+02 6.050e+02 8.150e+02 2.542e+03, threshold=1.210e+03, percent-clipped=13.0
+2023-04-03 12:57:19,915 INFO [train.py:903] (2/4) Epoch 28, batch 6650, loss[loss=0.2293, simple_loss=0.2918, pruned_loss=0.08343, over 19786.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2812, pruned_loss=0.05934, over 3816486.28 frames. ], batch size: 49, lr: 2.90e-03, grad_scale: 2.0
+2023-04-03 12:57:27,632 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.55 vs. limit=2.0
+2023-04-03 12:57:59,356 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=191037.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:58:14,528 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=191049.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:58:22,334 INFO [train.py:903] (2/4) Epoch 28, batch 6700, loss[loss=0.1715, simple_loss=0.2526, pruned_loss=0.04521, over 19492.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2813, pruned_loss=0.05944, over 3804845.90 frames. ], batch size: 49, lr: 2.90e-03, grad_scale: 2.0
+2023-04-03 12:58:38,458 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=191068.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 12:58:45,555 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=191074.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:58:52,983 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.114e+02 5.245e+02 6.198e+02 8.145e+02 2.088e+03, threshold=1.240e+03, percent-clipped=7.0
+2023-04-03 12:58:58,995 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=191086.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:58:59,064 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=191086.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 12:59:05,705 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1698, 2.0756, 1.8703, 1.7746, 1.5567, 1.7176, 0.5986, 1.1875],
+       device='cuda:2'), covar=tensor([0.0683, 0.0741, 0.0613, 0.0977, 0.1377, 0.1209, 0.1495, 0.1251],
+       device='cuda:2'), in_proj_covar=tensor([0.0370, 0.0367, 0.0368, 0.0394, 0.0471, 0.0401, 0.0347, 0.0350],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 12:59:21,831 INFO [train.py:903] (2/4) Epoch 28, batch 6750, loss[loss=0.2183, simple_loss=0.2943, pruned_loss=0.07115, over 19854.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2821, pruned_loss=0.06002, over 3806777.34 frames. ], batch size: 52, lr: 2.90e-03, grad_scale: 2.0
+2023-04-03 12:59:51,584 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=191132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:00:08,108 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3422, 1.9890, 1.9374, 2.1419, 1.8264, 1.8331, 1.7658, 2.1448],
+       device='cuda:2'), covar=tensor([0.0918, 0.1422, 0.1417, 0.1083, 0.1491, 0.0561, 0.1583, 0.0686],
+       device='cuda:2'), in_proj_covar=tensor([0.0276, 0.0359, 0.0317, 0.0257, 0.0305, 0.0255, 0.0320, 0.0261],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:00:11,317 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=191150.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:00:13,748 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=191152.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:00:17,983 INFO [train.py:903] (2/4) Epoch 28, batch 6800, loss[loss=0.213, simple_loss=0.2933, pruned_loss=0.06634, over 19289.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2811, pruned_loss=0.05957, over 3797737.17 frames. ], batch size: 66, lr: 2.90e-03, grad_scale: 4.0
+2023-04-03 13:00:19,470 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=191157.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:00:45,261 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.070e+02 5.099e+02 6.292e+02 8.518e+02 1.501e+03, threshold=1.258e+03, percent-clipped=3.0
+2023-04-03 13:01:04,593 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-03 13:01:05,699 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-03 13:01:08,835 INFO [train.py:903] (2/4) Epoch 29, batch 0, loss[loss=0.1942, simple_loss=0.2834, pruned_loss=0.05252, over 19057.00 frames. ], tot_loss[loss=0.1942, simple_loss=0.2834, pruned_loss=0.05252, over 19057.00 frames. ], batch size: 69, lr: 2.85e-03, grad_scale: 8.0
+2023-04-03 13:01:08,835 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 13:01:20,504 INFO [train.py:937] (2/4) Epoch 29, validation: loss=0.1669, simple_loss=0.2669, pruned_loss=0.03339, over 944034.00 frames. 
+2023-04-03 13:01:20,505 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 13:01:31,748 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-03 13:01:43,671 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=191203.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:02:01,249 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.28 vs. limit=2.0
+2023-04-03 13:02:19,663 INFO [train.py:903] (2/4) Epoch 29, batch 50, loss[loss=0.1684, simple_loss=0.2565, pruned_loss=0.04012, over 19661.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2807, pruned_loss=0.05882, over 874939.37 frames. ], batch size: 53, lr: 2.85e-03, grad_scale: 8.0
+2023-04-03 13:02:55,000 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-03 13:03:00,997 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2311, 1.3105, 1.2767, 1.0975, 1.1499, 1.1314, 0.0721, 0.3925],
+       device='cuda:2'), covar=tensor([0.0805, 0.0739, 0.0488, 0.0672, 0.1412, 0.0742, 0.1449, 0.1311],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0364, 0.0365, 0.0391, 0.0469, 0.0397, 0.0345, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 13:03:15,129 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.166e+02 5.210e+02 6.215e+02 8.429e+02 1.754e+03, threshold=1.243e+03, percent-clipped=6.0
+2023-04-03 13:03:18,589 INFO [train.py:903] (2/4) Epoch 29, batch 100, loss[loss=0.1715, simple_loss=0.2519, pruned_loss=0.04558, over 19786.00 frames. ], tot_loss[loss=0.1984, simple_loss=0.2799, pruned_loss=0.05848, over 1538129.41 frames. ], batch size: 48, lr: 2.85e-03, grad_scale: 8.0
+2023-04-03 13:03:33,067 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-03 13:04:07,339 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=191324.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 13:04:19,665 INFO [train.py:903] (2/4) Epoch 29, batch 150, loss[loss=0.1796, simple_loss=0.2585, pruned_loss=0.05037, over 19405.00 frames. ], tot_loss[loss=0.1995, simple_loss=0.281, pruned_loss=0.05898, over 2051385.29 frames. ], batch size: 48, lr: 2.85e-03, grad_scale: 8.0
+2023-04-03 13:04:29,084 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=191342.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:04:36,960 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=191349.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 13:04:59,858 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=191367.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:05:05,661 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4645, 1.5002, 1.3910, 1.2515, 1.2221, 1.2683, 0.2423, 0.6106],
+       device='cuda:2'), covar=tensor([0.0675, 0.0599, 0.0438, 0.0617, 0.1191, 0.0674, 0.1246, 0.1098],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0365, 0.0366, 0.0392, 0.0470, 0.0398, 0.0345, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 13:05:07,810 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7407, 4.1139, 4.5842, 4.6077, 2.0039, 4.2807, 3.7212, 4.0249],
+       device='cuda:2'), covar=tensor([0.2584, 0.1426, 0.0898, 0.1141, 0.7198, 0.2109, 0.1160, 0.1918],
+       device='cuda:2'), in_proj_covar=tensor([0.0825, 0.0786, 0.0997, 0.0880, 0.0865, 0.0765, 0.0590, 0.0933],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 13:05:15,367 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.397e+02 5.272e+02 6.303e+02 7.742e+02 1.475e+03, threshold=1.261e+03, percent-clipped=3.0
+2023-04-03 13:05:15,428 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-03 13:05:18,076 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=191383.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:05:18,901 INFO [train.py:903] (2/4) Epoch 29, batch 200, loss[loss=0.2243, simple_loss=0.3095, pruned_loss=0.06956, over 19671.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2817, pruned_loss=0.05981, over 2430277.77 frames. ], batch size: 58, lr: 2.85e-03, grad_scale: 8.0
+2023-04-03 13:05:48,182 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=191408.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:06:13,740 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=191430.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:06:18,509 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=191433.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:06:20,059 INFO [train.py:903] (2/4) Epoch 29, batch 250, loss[loss=0.1946, simple_loss=0.2778, pruned_loss=0.05573, over 19529.00 frames. ], tot_loss[loss=0.1983, simple_loss=0.279, pruned_loss=0.05876, over 2758071.46 frames. ], batch size: 56, lr: 2.85e-03, grad_scale: 8.0
+2023-04-03 13:07:11,547 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4795, 1.4102, 1.4321, 1.8913, 1.4206, 1.7012, 1.6433, 1.5614],
+       device='cuda:2'), covar=tensor([0.0881, 0.0931, 0.1037, 0.0622, 0.0835, 0.0766, 0.0855, 0.0732],
+       device='cuda:2'), in_proj_covar=tensor([0.0214, 0.0225, 0.0230, 0.0241, 0.0228, 0.0217, 0.0190, 0.0210],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 13:07:16,619 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.382e+02 5.311e+02 6.503e+02 8.385e+02 2.446e+03, threshold=1.301e+03, percent-clipped=7.0
+2023-04-03 13:07:20,117 INFO [train.py:903] (2/4) Epoch 29, batch 300, loss[loss=0.2008, simple_loss=0.2785, pruned_loss=0.06157, over 19859.00 frames. ], tot_loss[loss=0.1987, simple_loss=0.2796, pruned_loss=0.05893, over 2992409.11 frames. ], batch size: 52, lr: 2.85e-03, grad_scale: 8.0
+2023-04-03 13:07:33,134 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=191494.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:07:57,198 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.43 vs. limit=5.0
+2023-04-03 13:08:19,683 INFO [train.py:903] (2/4) Epoch 29, batch 350, loss[loss=0.1993, simple_loss=0.2857, pruned_loss=0.05645, over 19678.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2811, pruned_loss=0.05954, over 3182078.53 frames. ], batch size: 58, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:08:27,196 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 13:08:33,083 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=191545.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:08:35,155 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=191547.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:09:02,262 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.48 vs. limit=5.0
+2023-04-03 13:09:16,624 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.400e+02 4.772e+02 5.697e+02 6.938e+02 1.378e+03, threshold=1.139e+03, percent-clipped=1.0
+2023-04-03 13:09:19,970 INFO [train.py:903] (2/4) Epoch 29, batch 400, loss[loss=0.2227, simple_loss=0.2982, pruned_loss=0.07362, over 18260.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2799, pruned_loss=0.05926, over 3318389.25 frames. ], batch size: 83, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:09:26,912 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1594, 2.2550, 2.5495, 2.9767, 2.1741, 2.7272, 2.5629, 2.3113],
+       device='cuda:2'), covar=tensor([0.4494, 0.4222, 0.1911, 0.2670, 0.4732, 0.2479, 0.4841, 0.3424],
+       device='cuda:2'), in_proj_covar=tensor([0.0941, 0.1020, 0.0746, 0.0955, 0.0918, 0.0859, 0.0863, 0.0810],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 13:09:50,399 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=191609.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:10:19,940 INFO [train.py:903] (2/4) Epoch 29, batch 450, loss[loss=0.2539, simple_loss=0.3224, pruned_loss=0.09266, over 18170.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2809, pruned_loss=0.05952, over 3425385.82 frames. ], batch size: 83, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:10:55,267 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=191662.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:10:57,255 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-03 13:10:58,393 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-03 13:11:17,385 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.061e+02 4.702e+02 5.973e+02 7.083e+02 1.398e+03, threshold=1.195e+03, percent-clipped=2.0
+2023-04-03 13:11:20,347 INFO [train.py:903] (2/4) Epoch 29, batch 500, loss[loss=0.2218, simple_loss=0.3026, pruned_loss=0.0705, over 19774.00 frames. ], tot_loss[loss=0.1997, simple_loss=0.2808, pruned_loss=0.05929, over 3524063.72 frames. ], batch size: 54, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:11:27,828 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.08 vs. limit=2.0
+2023-04-03 13:12:13,382 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=191727.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:12:21,067 INFO [train.py:903] (2/4) Epoch 29, batch 550, loss[loss=0.2246, simple_loss=0.3093, pruned_loss=0.07, over 17344.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2821, pruned_loss=0.0599, over 3580082.74 frames. ], batch size: 101, lr: 2.84e-03, grad_scale: 4.0
+2023-04-03 13:13:19,218 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.607e+02 5.419e+02 6.471e+02 8.968e+02 1.855e+03, threshold=1.294e+03, percent-clipped=10.0
+2023-04-03 13:13:22,374 INFO [train.py:903] (2/4) Epoch 29, batch 600, loss[loss=0.1911, simple_loss=0.2681, pruned_loss=0.05707, over 19623.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2824, pruned_loss=0.05984, over 3638894.44 frames. ], batch size: 50, lr: 2.84e-03, grad_scale: 4.0
+2023-04-03 13:13:42,666 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=191801.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:14:02,323 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-03 13:14:13,332 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=191826.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:14:22,139 INFO [train.py:903] (2/4) Epoch 29, batch 650, loss[loss=0.1815, simple_loss=0.2577, pruned_loss=0.05262, over 19745.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2812, pruned_loss=0.05955, over 3692884.42 frames. ], batch size: 45, lr: 2.84e-03, grad_scale: 4.0
+2023-04-03 13:14:31,507 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=191842.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:15:01,021 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=191865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:15:18,381 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.813e+02 4.883e+02 6.286e+02 7.850e+02 2.365e+03, threshold=1.257e+03, percent-clipped=4.0
+2023-04-03 13:15:21,594 INFO [train.py:903] (2/4) Epoch 29, batch 700, loss[loss=0.184, simple_loss=0.2784, pruned_loss=0.04479, over 19776.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2827, pruned_loss=0.06017, over 3710843.23 frames. ], batch size: 54, lr: 2.84e-03, grad_scale: 4.0
+2023-04-03 13:15:29,669 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=191890.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:15:36,422 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2302, 1.2818, 1.2160, 1.0332, 1.0100, 1.0274, 0.1566, 0.3584],
+       device='cuda:2'), covar=tensor([0.0965, 0.0901, 0.0609, 0.0773, 0.1813, 0.0985, 0.1696, 0.1599],
+       device='cuda:2'), in_proj_covar=tensor([0.0369, 0.0367, 0.0369, 0.0393, 0.0472, 0.0399, 0.0346, 0.0349],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 13:16:03,790 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=191918.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:16:23,390 INFO [train.py:903] (2/4) Epoch 29, batch 750, loss[loss=0.1971, simple_loss=0.2669, pruned_loss=0.06363, over 19756.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2824, pruned_loss=0.05988, over 3740934.18 frames. ], batch size: 45, lr: 2.84e-03, grad_scale: 4.0
+2023-04-03 13:16:29,930 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8757, 1.9809, 2.2565, 2.4182, 1.8207, 2.3400, 2.2766, 2.1154],
+       device='cuda:2'), covar=tensor([0.4285, 0.3962, 0.2076, 0.2386, 0.4144, 0.2188, 0.5206, 0.3472],
+       device='cuda:2'), in_proj_covar=tensor([0.0944, 0.1021, 0.0748, 0.0956, 0.0920, 0.0860, 0.0867, 0.0811],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 13:16:34,327 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=191943.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:17:21,354 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.970e+02 4.754e+02 5.591e+02 7.301e+02 1.189e+03, threshold=1.118e+03, percent-clipped=0.0
+2023-04-03 13:17:23,700 INFO [train.py:903] (2/4) Epoch 29, batch 800, loss[loss=0.1864, simple_loss=0.269, pruned_loss=0.05188, over 19683.00 frames. ], tot_loss[loss=0.2027, simple_loss=0.284, pruned_loss=0.06075, over 3750563.26 frames. ], batch size: 53, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:17:36,668 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-03 13:17:38,134 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.3907, 3.9934, 2.5946, 3.5113, 0.8930, 3.9559, 3.8394, 3.9344],
+       device='cuda:2'), covar=tensor([0.0662, 0.1024, 0.2027, 0.0936, 0.4059, 0.0823, 0.1001, 0.1202],
+       device='cuda:2'), in_proj_covar=tensor([0.0530, 0.0431, 0.0518, 0.0360, 0.0410, 0.0457, 0.0454, 0.0483],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:17:51,890 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.7595, 1.3391, 1.5325, 1.8362, 3.3205, 1.4623, 2.5516, 3.8055],
+       device='cuda:2'), covar=tensor([0.0501, 0.2984, 0.3084, 0.1763, 0.0662, 0.2350, 0.1249, 0.0230],
+       device='cuda:2'), in_proj_covar=tensor([0.0425, 0.0380, 0.0400, 0.0357, 0.0385, 0.0360, 0.0400, 0.0420],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:18:26,428 INFO [train.py:903] (2/4) Epoch 29, batch 850, loss[loss=0.1604, simple_loss=0.2452, pruned_loss=0.03775, over 19692.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2829, pruned_loss=0.05989, over 3769389.35 frames. ], batch size: 53, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:19:17,575 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-03 13:19:23,125 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.899e+02 4.771e+02 5.573e+02 7.809e+02 2.111e+03, threshold=1.115e+03, percent-clipped=7.0
+2023-04-03 13:19:25,394 INFO [train.py:903] (2/4) Epoch 29, batch 900, loss[loss=0.227, simple_loss=0.3024, pruned_loss=0.07575, over 18037.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2836, pruned_loss=0.06032, over 3788328.41 frames. ], batch size: 83, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:19:43,208 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=192098.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:19:53,201 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-03 13:20:09,370 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192120.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:20:10,724 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9679, 2.0760, 2.3079, 2.6206, 2.0586, 2.4850, 2.2629, 2.1257],
+       device='cuda:2'), covar=tensor([0.4185, 0.3894, 0.1976, 0.2453, 0.4134, 0.2223, 0.5054, 0.3302],
+       device='cuda:2'), in_proj_covar=tensor([0.0949, 0.1027, 0.0753, 0.0962, 0.0923, 0.0864, 0.0870, 0.0815],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 13:20:12,939 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=192123.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:20:26,582 INFO [train.py:903] (2/4) Epoch 29, batch 950, loss[loss=0.2164, simple_loss=0.3036, pruned_loss=0.06457, over 19648.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2823, pruned_loss=0.0595, over 3804682.05 frames. ], batch size: 60, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:20:30,182 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-03 13:21:13,696 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192173.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:21:24,650 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.322e+02 5.272e+02 6.130e+02 7.632e+02 1.213e+03, threshold=1.226e+03, percent-clipped=2.0
+2023-04-03 13:21:27,730 INFO [train.py:903] (2/4) Epoch 29, batch 1000, loss[loss=0.1986, simple_loss=0.2932, pruned_loss=0.05203, over 19703.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2821, pruned_loss=0.05908, over 3806039.93 frames. ], batch size: 59, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:22:21,213 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4119, 2.0152, 1.5785, 1.4184, 1.8064, 1.3622, 1.3207, 1.7866],
+       device='cuda:2'), covar=tensor([0.0940, 0.0846, 0.1048, 0.0929, 0.0645, 0.1286, 0.0679, 0.0482],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0318, 0.0342, 0.0273, 0.0252, 0.0345, 0.0293, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:22:23,177 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-03 13:22:27,655 INFO [train.py:903] (2/4) Epoch 29, batch 1050, loss[loss=0.1948, simple_loss=0.2817, pruned_loss=0.05391, over 19684.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.2828, pruned_loss=0.05907, over 3815399.04 frames. ], batch size: 59, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:22:31,131 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192237.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:22:34,320 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192239.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:22:55,084 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
+2023-04-03 13:23:02,362 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-03 13:23:25,657 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.003e+02 4.755e+02 5.709e+02 7.263e+02 1.610e+03, threshold=1.142e+03, percent-clipped=3.0
+2023-04-03 13:23:28,076 INFO [train.py:903] (2/4) Epoch 29, batch 1100, loss[loss=0.2058, simple_loss=0.2914, pruned_loss=0.06008, over 19791.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.2823, pruned_loss=0.05865, over 3818860.44 frames. ], batch size: 56, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:24:29,304 INFO [train.py:903] (2/4) Epoch 29, batch 1150, loss[loss=0.1662, simple_loss=0.2424, pruned_loss=0.04501, over 19744.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2829, pruned_loss=0.05893, over 3822901.34 frames. ], batch size: 46, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:24:36,037 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0787, 1.7712, 1.9892, 2.8879, 2.0814, 2.3771, 2.4940, 2.1687],
+       device='cuda:2'), covar=tensor([0.0810, 0.0918, 0.0958, 0.0661, 0.0827, 0.0755, 0.0843, 0.0668],
+       device='cuda:2'), in_proj_covar=tensor([0.0215, 0.0224, 0.0230, 0.0241, 0.0228, 0.0216, 0.0189, 0.0209],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 13:25:27,744 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.011e+02 4.839e+02 5.803e+02 7.271e+02 1.538e+03, threshold=1.161e+03, percent-clipped=1.0
+2023-04-03 13:25:30,848 INFO [train.py:903] (2/4) Epoch 29, batch 1200, loss[loss=0.2159, simple_loss=0.2984, pruned_loss=0.06667, over 18706.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2826, pruned_loss=0.05861, over 3836099.71 frames. ], batch size: 74, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:26:01,116 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192410.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:26:01,924 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-03 13:26:10,313 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192417.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:26:30,221 INFO [train.py:903] (2/4) Epoch 29, batch 1250, loss[loss=0.1786, simple_loss=0.2687, pruned_loss=0.04423, over 19543.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.2818, pruned_loss=0.05888, over 3835555.37 frames. ], batch size: 56, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:26:50,100 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192451.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:27:07,165 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=192464.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:27:28,114 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.043e+02 5.075e+02 6.202e+02 7.494e+02 1.680e+03, threshold=1.240e+03, percent-clipped=4.0
+2023-04-03 13:27:30,148 INFO [train.py:903] (2/4) Epoch 29, batch 1300, loss[loss=0.1769, simple_loss=0.2609, pruned_loss=0.04651, over 19600.00 frames. ], tot_loss[loss=0.1996, simple_loss=0.2815, pruned_loss=0.05887, over 3832030.94 frames. ], batch size: 57, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:28:07,554 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.26 vs. limit=2.0
+2023-04-03 13:28:10,144 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=192517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:28:30,906 INFO [train.py:903] (2/4) Epoch 29, batch 1350, loss[loss=0.1808, simple_loss=0.2637, pruned_loss=0.04894, over 19780.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2815, pruned_loss=0.05933, over 3828410.49 frames. ], batch size: 54, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:29:25,901 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=192579.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:29:27,890 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=192581.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:29:28,924 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.238e+02 5.533e+02 7.774e+02 1.028e+03 2.542e+03, threshold=1.555e+03, percent-clipped=13.0
+2023-04-03 13:29:31,166 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=192583.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:29:32,191 INFO [train.py:903] (2/4) Epoch 29, batch 1400, loss[loss=0.1924, simple_loss=0.2628, pruned_loss=0.06102, over 18634.00 frames. ], tot_loss[loss=0.1995, simple_loss=0.2809, pruned_loss=0.05907, over 3825295.29 frames. ], batch size: 41, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:29:40,670 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1746, 1.9774, 1.7958, 2.0866, 1.8266, 1.7691, 1.6766, 2.0131],
+       device='cuda:2'), covar=tensor([0.1048, 0.1378, 0.1526, 0.1060, 0.1400, 0.0593, 0.1569, 0.0745],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0361, 0.0320, 0.0259, 0.0307, 0.0257, 0.0323, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 13:30:30,464 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=192632.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:30:32,441 INFO [train.py:903] (2/4) Epoch 29, batch 1450, loss[loss=0.1889, simple_loss=0.2652, pruned_loss=0.05633, over 19464.00 frames. ], tot_loss[loss=0.1995, simple_loss=0.2812, pruned_loss=0.05892, over 3811291.67 frames. ], batch size: 49, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:30:32,475 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-03 13:30:32,756 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192634.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:30:48,514 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.15 vs. limit=5.0
+2023-04-03 13:31:03,981 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.43 vs. limit=2.0
+2023-04-03 13:31:10,952 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5982, 4.0977, 4.2932, 4.2865, 1.6566, 4.0565, 3.4942, 4.0501],
+       device='cuda:2'), covar=tensor([0.1747, 0.0862, 0.0653, 0.0718, 0.6179, 0.0915, 0.0729, 0.1128],
+       device='cuda:2'), in_proj_covar=tensor([0.0824, 0.0785, 0.0995, 0.0875, 0.0866, 0.0765, 0.0588, 0.0929],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 13:31:29,874 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.888e+02 4.834e+02 5.734e+02 7.377e+02 1.406e+03, threshold=1.147e+03, percent-clipped=0.0
+2023-04-03 13:31:32,942 INFO [train.py:903] (2/4) Epoch 29, batch 1500, loss[loss=0.1841, simple_loss=0.2722, pruned_loss=0.048, over 19755.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2817, pruned_loss=0.05948, over 3810511.41 frames. ], batch size: 63, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:31:41,359 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192691.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:31:47,441 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=192696.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:31:50,546 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=192698.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:32:32,341 INFO [train.py:903] (2/4) Epoch 29, batch 1550, loss[loss=0.2098, simple_loss=0.2818, pruned_loss=0.06892, over 19355.00 frames. ], tot_loss[loss=0.1984, simple_loss=0.28, pruned_loss=0.0584, over 3828729.06 frames. ], batch size: 47, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:32:32,692 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3378, 1.2236, 1.7224, 1.3932, 2.6632, 3.6460, 3.3929, 3.8875],
+       device='cuda:2'), covar=tensor([0.1664, 0.4170, 0.3619, 0.2607, 0.0643, 0.0207, 0.0207, 0.0289],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0334, 0.0367, 0.0273, 0.0256, 0.0198, 0.0221, 0.0279],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 13:32:56,558 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192753.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:32:57,533 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=192754.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:33:05,624 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=192761.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:33:07,251 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.38 vs. limit=5.0
+2023-04-03 13:33:13,966 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-03 13:33:31,827 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.013e+02 5.130e+02 6.287e+02 7.695e+02 1.691e+03, threshold=1.257e+03, percent-clipped=3.0
+2023-04-03 13:33:34,856 INFO [train.py:903] (2/4) Epoch 29, batch 1600, loss[loss=0.1904, simple_loss=0.2799, pruned_loss=0.05048, over 19610.00 frames. ], tot_loss[loss=0.1974, simple_loss=0.2793, pruned_loss=0.05772, over 3831447.36 frames. ], batch size: 57, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:33:47,560 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=192795.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:33:57,595 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-03 13:34:33,311 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4380, 1.6317, 2.0960, 1.8503, 3.2239, 4.1266, 4.0035, 4.4945],
+       device='cuda:2'), covar=tensor([0.1677, 0.3751, 0.3304, 0.2363, 0.0697, 0.0310, 0.0188, 0.0261],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0334, 0.0366, 0.0273, 0.0256, 0.0198, 0.0220, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 13:34:34,142 INFO [train.py:903] (2/4) Epoch 29, batch 1650, loss[loss=0.1973, simple_loss=0.2886, pruned_loss=0.05297, over 17328.00 frames. ], tot_loss[loss=0.1985, simple_loss=0.2802, pruned_loss=0.05844, over 3829131.81 frames. ], batch size: 101, lr: 2.84e-03, grad_scale: 8.0
+2023-04-03 13:34:35,764 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=192835.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:34:51,828 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=192849.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 13:35:04,840 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=192860.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:35:15,840 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=192869.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:35:23,825 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=192876.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:35:30,386 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.635e+02 4.944e+02 5.872e+02 7.824e+02 1.796e+03, threshold=1.174e+03, percent-clipped=2.0
+2023-04-03 13:35:32,717 INFO [train.py:903] (2/4) Epoch 29, batch 1700, loss[loss=0.2242, simple_loss=0.3028, pruned_loss=0.07282, over 19596.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2814, pruned_loss=0.05963, over 3833922.33 frames. ], batch size: 57, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:35:38,381 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=192888.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:36:01,160 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6583, 3.3703, 2.5700, 2.9605, 1.4047, 3.2889, 3.1750, 3.2820],
+       device='cuda:2'), covar=tensor([0.0910, 0.1107, 0.1877, 0.0936, 0.2984, 0.0891, 0.1100, 0.1357],
+       device='cuda:2'), in_proj_covar=tensor([0.0527, 0.0427, 0.0515, 0.0357, 0.0407, 0.0454, 0.0449, 0.0478],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:36:04,831 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=192910.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:36:08,239 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=192913.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:36:13,383 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-03 13:36:32,303 INFO [train.py:903] (2/4) Epoch 29, batch 1750, loss[loss=0.1699, simple_loss=0.2559, pruned_loss=0.04199, over 19660.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2817, pruned_loss=0.05991, over 3821981.55 frames. ], batch size: 53, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:36:55,813 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=192952.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:36:58,007 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=192954.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:37:24,852 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=192977.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:37:25,783 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=192978.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:37:27,176 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=192979.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:37:31,715 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.864e+02 4.741e+02 6.117e+02 7.797e+02 1.758e+03, threshold=1.223e+03, percent-clipped=7.0
+2023-04-03 13:37:34,998 INFO [train.py:903] (2/4) Epoch 29, batch 1800, loss[loss=0.1971, simple_loss=0.2854, pruned_loss=0.05435, over 19662.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2817, pruned_loss=0.05982, over 3824456.25 frames. ], batch size: 55, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:38:29,366 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-03 13:38:33,981 INFO [train.py:903] (2/4) Epoch 29, batch 1850, loss[loss=0.1841, simple_loss=0.2644, pruned_loss=0.05187, over 19401.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2814, pruned_loss=0.0595, over 3820162.72 frames. ], batch size: 48, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:38:35,292 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193035.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:39:04,666 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=193059.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:39:05,539 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-03 13:39:32,459 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.498e+02 4.794e+02 5.817e+02 7.567e+02 2.266e+03, threshold=1.163e+03, percent-clipped=4.0
+2023-04-03 13:39:34,765 INFO [train.py:903] (2/4) Epoch 29, batch 1900, loss[loss=0.2156, simple_loss=0.2998, pruned_loss=0.0657, over 19540.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2819, pruned_loss=0.05949, over 3815447.32 frames. ], batch size: 56, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:39:45,979 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:39:49,061 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-03 13:39:51,212 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193097.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:39:55,328 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-03 13:40:18,685 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-03 13:40:25,418 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193125.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:40:33,594 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193132.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:40:35,432 INFO [train.py:903] (2/4) Epoch 29, batch 1950, loss[loss=0.2181, simple_loss=0.3001, pruned_loss=0.06811, over 19764.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2824, pruned_loss=0.05974, over 3813574.85 frames. ], batch size: 54, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:40:56,441 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193150.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:40:56,480 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193150.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:41:04,186 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193157.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:41:15,375 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193166.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:41:34,351 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.40 vs. limit=2.0
+2023-04-03 13:41:34,710 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.104e+02 4.788e+02 5.811e+02 7.006e+02 1.429e+03, threshold=1.162e+03, percent-clipped=3.0
+2023-04-03 13:41:37,846 INFO [train.py:903] (2/4) Epoch 29, batch 2000, loss[loss=0.206, simple_loss=0.2903, pruned_loss=0.06087, over 18848.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2824, pruned_loss=0.05949, over 3806125.74 frames. ], batch size: 74, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:41:46,070 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193191.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:41:48,029 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193193.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 13:42:10,549 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193212.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:42:31,346 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-03 13:42:31,630 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=193229.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:42:37,086 INFO [train.py:903] (2/4) Epoch 29, batch 2050, loss[loss=0.1933, simple_loss=0.2823, pruned_loss=0.05214, over 19778.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2827, pruned_loss=0.05955, over 3810783.67 frames. ], batch size: 54, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:42:50,735 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-03 13:42:50,764 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-03 13:43:00,919 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6965, 1.5384, 1.2577, 1.6251, 1.3956, 1.3032, 1.2922, 1.4920],
+       device='cuda:2'), covar=tensor([0.1251, 0.1457, 0.1996, 0.1206, 0.1487, 0.1088, 0.1954, 0.1108],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0363, 0.0321, 0.0260, 0.0310, 0.0259, 0.0324, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 13:43:13,518 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-03 13:43:34,586 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.211e+02 4.912e+02 6.403e+02 8.614e+02 2.001e+03, threshold=1.281e+03, percent-clipped=8.0
+2023-04-03 13:43:36,905 INFO [train.py:903] (2/4) Epoch 29, batch 2100, loss[loss=0.1859, simple_loss=0.2765, pruned_loss=0.04766, over 19539.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2829, pruned_loss=0.05961, over 3819616.27 frames. ], batch size: 56, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:43:59,195 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=193302.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:44:07,586 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-03 13:44:07,940 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193308.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 13:44:25,615 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-03 13:44:37,260 INFO [train.py:903] (2/4) Epoch 29, batch 2150, loss[loss=0.1856, simple_loss=0.2755, pruned_loss=0.04787, over 19727.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2825, pruned_loss=0.05957, over 3807867.26 frames. ], batch size: 63, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:44:56,823 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193349.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:45:25,842 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193374.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:45:35,170 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.248e+02 5.242e+02 6.391e+02 8.913e+02 2.261e+03, threshold=1.278e+03, percent-clipped=9.0
+2023-04-03 13:45:37,409 INFO [train.py:903] (2/4) Epoch 29, batch 2200, loss[loss=0.1827, simple_loss=0.2723, pruned_loss=0.04653, over 19780.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2818, pruned_loss=0.05949, over 3820615.47 frames. ], batch size: 56, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:46:00,712 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193403.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:46:04,416 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193406.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:46:36,067 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193431.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:46:39,105 INFO [train.py:903] (2/4) Epoch 29, batch 2250, loss[loss=0.1997, simple_loss=0.2858, pruned_loss=0.05681, over 19669.00 frames. ], tot_loss[loss=0.1997, simple_loss=0.2812, pruned_loss=0.05906, over 3825638.84 frames. ], batch size: 58, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:46:45,267 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=193439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:47:15,246 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5800, 1.6872, 1.8410, 1.8496, 2.5804, 2.3075, 2.6455, 1.1300],
+       device='cuda:2'), covar=tensor([0.2474, 0.4387, 0.2861, 0.1974, 0.1444, 0.2221, 0.1435, 0.4732],
+       device='cuda:2'), in_proj_covar=tensor([0.0554, 0.0672, 0.0761, 0.0511, 0.0637, 0.0548, 0.0668, 0.0574],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 13:47:20,675 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193468.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:47:25,807 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=193472.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 13:47:36,425 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.451e+02 4.884e+02 5.894e+02 7.303e+02 1.661e+03, threshold=1.179e+03, percent-clipped=4.0
+2023-04-03 13:47:38,737 INFO [train.py:903] (2/4) Epoch 29, batch 2300, loss[loss=0.1883, simple_loss=0.2743, pruned_loss=0.05115, over 19532.00 frames. ], tot_loss[loss=0.199, simple_loss=0.2805, pruned_loss=0.05877, over 3830705.40 frames. ], batch size: 56, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:47:50,437 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193493.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:47:53,667 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-03 13:48:21,002 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193518.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:48:39,107 INFO [train.py:903] (2/4) Epoch 29, batch 2350, loss[loss=0.2265, simple_loss=0.3078, pruned_loss=0.07259, over 13098.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2813, pruned_loss=0.05922, over 3796593.01 frames. ], batch size: 136, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:49:16,338 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193564.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 13:49:20,444 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-03 13:49:27,320 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193573.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:49:33,404 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5914, 1.6230, 1.8261, 1.8344, 2.5454, 2.3120, 2.7307, 1.1974],
+       device='cuda:2'), covar=tensor([0.2436, 0.4142, 0.2689, 0.1899, 0.1590, 0.2155, 0.1519, 0.4583],
+       device='cuda:2'), in_proj_covar=tensor([0.0554, 0.0671, 0.0760, 0.0510, 0.0636, 0.0548, 0.0668, 0.0573],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 13:49:36,480 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-03 13:49:37,594 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.068e+02 4.546e+02 5.901e+02 7.828e+02 1.716e+03, threshold=1.180e+03, percent-clipped=11.0
+2023-04-03 13:49:40,757 INFO [train.py:903] (2/4) Epoch 29, batch 2400, loss[loss=0.1808, simple_loss=0.2624, pruned_loss=0.0496, over 19393.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2823, pruned_loss=0.05963, over 3804309.15 frames. ], batch size: 47, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:49:47,425 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193589.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 13:50:36,643 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 13:50:40,454 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=193633.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:50:41,249 INFO [train.py:903] (2/4) Epoch 29, batch 2450, loss[loss=0.2086, simple_loss=0.2861, pruned_loss=0.06551, over 19625.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2828, pruned_loss=0.06009, over 3804040.42 frames. ], batch size: 50, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:50:54,654 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193646.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:51:39,133 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.050e+02 4.882e+02 5.957e+02 8.043e+02 1.393e+03, threshold=1.191e+03, percent-clipped=5.0
+2023-04-03 13:51:41,316 INFO [train.py:903] (2/4) Epoch 29, batch 2500, loss[loss=0.1975, simple_loss=0.2782, pruned_loss=0.05842, over 19732.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2824, pruned_loss=0.05954, over 3807917.57 frames. ], batch size: 51, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:51:45,939 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193688.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:51:47,057 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5874, 2.2488, 1.7286, 1.5155, 2.0864, 1.4376, 1.3673, 1.9895],
+       device='cuda:2'), covar=tensor([0.1133, 0.0775, 0.0994, 0.0923, 0.0575, 0.1249, 0.0860, 0.0579],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0319, 0.0341, 0.0273, 0.0253, 0.0346, 0.0293, 0.0275],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:51:54,121 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
+2023-04-03 13:52:17,913 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-03 13:52:40,706 INFO [train.py:903] (2/4) Epoch 29, batch 2550, loss[loss=0.1987, simple_loss=0.2841, pruned_loss=0.05663, over 19619.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2824, pruned_loss=0.05939, over 3798540.44 frames. ], batch size: 57, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:53:06,575 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 13:53:15,363 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193761.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:53:30,065 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193774.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:53:35,070 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-03 13:53:38,228 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.88 vs. limit=5.0
+2023-04-03 13:53:40,999 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.098e+02 5.186e+02 6.141e+02 8.140e+02 1.584e+03, threshold=1.228e+03, percent-clipped=10.0
+2023-04-03 13:53:41,167 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193783.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:53:42,121 INFO [train.py:903] (2/4) Epoch 29, batch 2600, loss[loss=0.1897, simple_loss=0.262, pruned_loss=0.05873, over 17345.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.282, pruned_loss=0.05926, over 3815287.27 frames. ], batch size: 38, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:54:02,325 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193799.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:54:22,066 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193816.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 13:54:44,188 INFO [train.py:903] (2/4) Epoch 29, batch 2650, loss[loss=0.2001, simple_loss=0.285, pruned_loss=0.05764, over 19513.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.2812, pruned_loss=0.05874, over 3822170.02 frames. ], batch size: 54, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:54:44,613 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8988, 1.3435, 1.0771, 0.9932, 1.1905, 1.0396, 0.9658, 1.2750],
+       device='cuda:2'), covar=tensor([0.0661, 0.0894, 0.1196, 0.0820, 0.0613, 0.1334, 0.0629, 0.0542],
+       device='cuda:2'), in_proj_covar=tensor([0.0300, 0.0317, 0.0339, 0.0271, 0.0251, 0.0344, 0.0290, 0.0273],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:54:47,974 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5943, 1.2853, 1.3982, 1.1946, 2.2686, 1.0570, 2.1217, 2.5748],
+       device='cuda:2'), covar=tensor([0.0777, 0.2798, 0.2912, 0.1839, 0.0874, 0.2191, 0.1105, 0.0485],
+       device='cuda:2'), in_proj_covar=tensor([0.0423, 0.0378, 0.0398, 0.0353, 0.0381, 0.0358, 0.0395, 0.0417],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:54:53,414 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.7559, 3.0492, 3.2490, 3.2449, 1.7115, 3.0394, 2.7411, 3.0717],
+       device='cuda:2'), covar=tensor([0.1535, 0.2881, 0.0684, 0.0841, 0.4688, 0.1552, 0.0669, 0.1030],
+       device='cuda:2'), in_proj_covar=tensor([0.0825, 0.0792, 0.1002, 0.0883, 0.0872, 0.0766, 0.0592, 0.0929],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 13:54:59,846 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-03 13:55:18,920 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
+2023-04-03 13:55:43,539 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.739e+02 4.600e+02 5.538e+02 7.187e+02 1.315e+03, threshold=1.108e+03, percent-clipped=1.0
+2023-04-03 13:55:44,725 INFO [train.py:903] (2/4) Epoch 29, batch 2700, loss[loss=0.2403, simple_loss=0.3211, pruned_loss=0.07971, over 19289.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2822, pruned_loss=0.05936, over 3820954.75 frames. ], batch size: 66, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:55:48,422 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3264, 2.3513, 2.1962, 2.6164, 2.1457, 2.0711, 2.0804, 2.3290],
+       device='cuda:2'), covar=tensor([0.1188, 0.1744, 0.1570, 0.1170, 0.1588, 0.0632, 0.1521, 0.0820],
+       device='cuda:2'), in_proj_covar=tensor([0.0279, 0.0361, 0.0321, 0.0258, 0.0308, 0.0258, 0.0323, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 13:56:00,592 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193898.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:56:05,905 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=193902.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:56:42,142 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=193931.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 13:56:45,192 INFO [train.py:903] (2/4) Epoch 29, batch 2750, loss[loss=0.1869, simple_loss=0.2608, pruned_loss=0.05651, over 19859.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2826, pruned_loss=0.05943, over 3830970.67 frames. ], batch size: 52, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:56:58,056 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=193944.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:57:27,666 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8652, 4.4278, 2.8486, 3.8834, 1.2804, 4.3530, 4.2800, 4.3521],
+       device='cuda:2'), covar=tensor([0.0545, 0.0988, 0.1965, 0.0895, 0.3836, 0.0654, 0.0938, 0.1024],
+       device='cuda:2'), in_proj_covar=tensor([0.0535, 0.0432, 0.0523, 0.0359, 0.0414, 0.0460, 0.0455, 0.0487],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:57:27,871 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=193969.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:57:36,660 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=193977.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:57:44,120 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.356e+02 4.680e+02 5.858e+02 7.532e+02 1.982e+03, threshold=1.172e+03, percent-clipped=4.0
+2023-04-03 13:57:45,311 INFO [train.py:903] (2/4) Epoch 29, batch 2800, loss[loss=0.16, simple_loss=0.2462, pruned_loss=0.03693, over 19384.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.283, pruned_loss=0.05984, over 3833349.90 frames. ], batch size: 48, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:58:26,659 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=194017.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:58:48,021 INFO [train.py:903] (2/4) Epoch 29, batch 2850, loss[loss=0.2007, simple_loss=0.2764, pruned_loss=0.06252, over 19738.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.282, pruned_loss=0.0593, over 3824428.52 frames. ], batch size: 47, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:58:58,378 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=194042.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:59:01,785 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3188, 1.9838, 1.5615, 1.1504, 1.9882, 1.1196, 1.1033, 1.8619],
+       device='cuda:2'), covar=tensor([0.1123, 0.0861, 0.1140, 0.1148, 0.0602, 0.1423, 0.0907, 0.0514],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0319, 0.0342, 0.0273, 0.0253, 0.0345, 0.0292, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 13:59:45,131 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-03 13:59:47,409 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.156e+02 4.652e+02 5.661e+02 7.187e+02 2.087e+03, threshold=1.132e+03, percent-clipped=4.0
+2023-04-03 13:59:48,549 INFO [train.py:903] (2/4) Epoch 29, batch 2900, loss[loss=0.1911, simple_loss=0.2737, pruned_loss=0.05425, over 19829.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2825, pruned_loss=0.05935, over 3820783.59 frames. ], batch size: 52, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 13:59:55,304 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=194090.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 13:59:57,642 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=194092.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:00:47,046 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4600, 1.3058, 1.2623, 1.4985, 1.2207, 1.2982, 1.2574, 1.4266],
+       device='cuda:2'), covar=tensor([0.0950, 0.1271, 0.1227, 0.0772, 0.1175, 0.0550, 0.1242, 0.0652],
+       device='cuda:2'), in_proj_covar=tensor([0.0280, 0.0362, 0.0322, 0.0260, 0.0310, 0.0260, 0.0325, 0.0264],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 14:00:47,871 INFO [train.py:903] (2/4) Epoch 29, batch 2950, loss[loss=0.2487, simple_loss=0.3177, pruned_loss=0.08984, over 13526.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.2832, pruned_loss=0.05971, over 3830050.79 frames. ], batch size: 136, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 14:01:13,338 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=194154.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:01:31,687 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.60 vs. limit=2.0
+2023-04-03 14:01:42,877 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=194179.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:01:46,909 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.793e+02 4.745e+02 5.839e+02 7.587e+02 1.918e+03, threshold=1.168e+03, percent-clipped=4.0
+2023-04-03 14:01:48,092 INFO [train.py:903] (2/4) Epoch 29, batch 3000, loss[loss=0.2144, simple_loss=0.293, pruned_loss=0.06786, over 19703.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2842, pruned_loss=0.06022, over 3828424.65 frames. ], batch size: 60, lr: 2.83e-03, grad_scale: 8.0
+2023-04-03 14:01:48,093 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 14:02:01,081 INFO [train.py:937] (2/4) Epoch 29, validation: loss=0.1668, simple_loss=0.2661, pruned_loss=0.03375, over 944034.00 frames. 
+2023-04-03 14:02:01,082 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 14:02:02,355 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-03 14:02:05,067 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=194187.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 14:02:36,803 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=194212.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 14:03:01,746 INFO [train.py:903] (2/4) Epoch 29, batch 3050, loss[loss=0.181, simple_loss=0.2626, pruned_loss=0.04965, over 19785.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2827, pruned_loss=0.05933, over 3833152.60 frames. ], batch size: 47, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:03:17,763 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=194246.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:04:02,892 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.301e+02 5.546e+02 6.449e+02 7.988e+02 2.570e+03, threshold=1.290e+03, percent-clipped=8.0
+2023-04-03 14:04:03,997 INFO [train.py:903] (2/4) Epoch 29, batch 3100, loss[loss=0.1935, simple_loss=0.2855, pruned_loss=0.05075, over 19667.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2832, pruned_loss=0.06005, over 3827507.74 frames. ], batch size: 55, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:04:33,736 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.65 vs. limit=5.0
+2023-04-03 14:04:41,066 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3577, 1.3762, 1.5209, 1.5095, 1.7480, 1.8340, 1.7859, 0.6623],
+       device='cuda:2'), covar=tensor([0.2640, 0.4584, 0.2857, 0.2069, 0.1845, 0.2500, 0.1602, 0.5244],
+       device='cuda:2'), in_proj_covar=tensor([0.0557, 0.0674, 0.0762, 0.0511, 0.0638, 0.0549, 0.0672, 0.0576],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:05:04,147 INFO [train.py:903] (2/4) Epoch 29, batch 3150, loss[loss=0.2411, simple_loss=0.3291, pruned_loss=0.07657, over 19705.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2833, pruned_loss=0.0601, over 3821738.34 frames. ], batch size: 59, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:05:06,667 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=194336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:05:07,815 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3738, 1.4584, 1.6361, 1.5763, 2.2780, 2.0511, 2.3303, 1.0067],
+       device='cuda:2'), covar=tensor([0.2669, 0.4614, 0.2849, 0.2103, 0.1592, 0.2307, 0.1476, 0.4898],
+       device='cuda:2'), in_proj_covar=tensor([0.0557, 0.0674, 0.0762, 0.0511, 0.0638, 0.0549, 0.0672, 0.0576],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:05:19,991 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=194348.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:05:27,482 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-03 14:05:36,331 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=194361.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:05:41,124 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.39 vs. limit=2.0
+2023-04-03 14:05:49,246 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=194371.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:05:51,746 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=194373.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:05:59,659 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=194380.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 14:06:02,722 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.204e+02 4.902e+02 5.790e+02 7.151e+02 3.080e+03, threshold=1.158e+03, percent-clipped=4.0
+2023-04-03 14:06:03,882 INFO [train.py:903] (2/4) Epoch 29, batch 3200, loss[loss=0.2301, simple_loss=0.312, pruned_loss=0.07412, over 19313.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2841, pruned_loss=0.06085, over 3793751.20 frames. ], batch size: 66, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:07:04,910 INFO [train.py:903] (2/4) Epoch 29, batch 3250, loss[loss=0.1845, simple_loss=0.2648, pruned_loss=0.05212, over 19867.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2839, pruned_loss=0.06031, over 3797206.96 frames. ], batch size: 52, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:07:05,057 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=194434.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:07:29,393 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9684, 2.0196, 2.3677, 2.5552, 1.9571, 2.5237, 2.3689, 2.1096],
+       device='cuda:2'), covar=tensor([0.4395, 0.4112, 0.1971, 0.2631, 0.4422, 0.2362, 0.5091, 0.3618],
+       device='cuda:2'), in_proj_covar=tensor([0.0944, 0.1023, 0.0747, 0.0956, 0.0920, 0.0862, 0.0862, 0.0813],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:08:04,290 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.869e+02 4.916e+02 6.594e+02 9.076e+02 2.390e+03, threshold=1.319e+03, percent-clipped=9.0
+2023-04-03 14:08:05,467 INFO [train.py:903] (2/4) Epoch 29, batch 3300, loss[loss=0.189, simple_loss=0.276, pruned_loss=0.051, over 19537.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2832, pruned_loss=0.05967, over 3813911.62 frames. ], batch size: 54, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:08:09,431 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-03 14:09:07,372 INFO [train.py:903] (2/4) Epoch 29, batch 3350, loss[loss=0.2367, simple_loss=0.3184, pruned_loss=0.07747, over 19672.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2828, pruned_loss=0.05977, over 3808166.57 frames. ], batch size: 58, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:09:24,568 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=194549.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:10:06,126 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.313e+02 5.166e+02 6.518e+02 8.363e+02 1.379e+03, threshold=1.304e+03, percent-clipped=1.0
+2023-04-03 14:10:07,289 INFO [train.py:903] (2/4) Epoch 29, batch 3400, loss[loss=0.1638, simple_loss=0.2426, pruned_loss=0.04247, over 19404.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.2839, pruned_loss=0.06037, over 3811761.23 frames. ], batch size: 48, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:10:48,248 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=194617.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:11:07,040 INFO [train.py:903] (2/4) Epoch 29, batch 3450, loss[loss=0.2428, simple_loss=0.3224, pruned_loss=0.08158, over 19667.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2843, pruned_loss=0.06072, over 3809777.31 frames. ], batch size: 60, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:11:09,261 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-03 14:11:17,038 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=194642.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:11:29,957 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=194652.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:11:38,587 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8211, 1.8140, 1.9985, 1.9457, 2.6384, 2.3493, 2.7142, 1.7083],
+       device='cuda:2'), covar=tensor([0.2016, 0.3524, 0.2342, 0.1677, 0.1293, 0.1948, 0.1285, 0.4051],
+       device='cuda:2'), in_proj_covar=tensor([0.0556, 0.0674, 0.0762, 0.0511, 0.0636, 0.0547, 0.0671, 0.0575],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:11:39,792 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3475, 2.0063, 1.5397, 1.4055, 1.8538, 1.2940, 1.2962, 1.8282],
+       device='cuda:2'), covar=tensor([0.1062, 0.0846, 0.1183, 0.0955, 0.0584, 0.1398, 0.0733, 0.0494],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0320, 0.0343, 0.0273, 0.0253, 0.0347, 0.0290, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 14:12:02,514 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=194680.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:12:05,596 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.890e+02 4.627e+02 5.712e+02 7.363e+02 1.612e+03, threshold=1.142e+03, percent-clipped=3.0
+2023-04-03 14:12:06,671 INFO [train.py:903] (2/4) Epoch 29, batch 3500, loss[loss=0.2322, simple_loss=0.3086, pruned_loss=0.07787, over 19287.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2832, pruned_loss=0.05999, over 3819049.57 frames. ], batch size: 66, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:12:11,447 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0768, 1.9493, 1.8110, 2.0366, 1.7772, 1.7603, 1.6516, 1.9464],
+       device='cuda:2'), covar=tensor([0.1114, 0.1505, 0.1543, 0.1120, 0.1451, 0.0615, 0.1596, 0.0763],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0362, 0.0322, 0.0260, 0.0310, 0.0260, 0.0324, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 14:12:43,652 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=194715.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:12:54,406 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=194724.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 14:13:06,876 INFO [train.py:903] (2/4) Epoch 29, batch 3550, loss[loss=0.2274, simple_loss=0.3054, pruned_loss=0.07468, over 19603.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2831, pruned_loss=0.05987, over 3815914.13 frames. ], batch size: 57, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:13:49,785 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.60 vs. limit=5.0
+2023-04-03 14:14:05,415 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.1774, 5.6247, 3.2924, 4.9064, 1.0477, 5.7936, 5.5634, 5.7403],
+       device='cuda:2'), covar=tensor([0.0334, 0.0759, 0.1634, 0.0698, 0.4135, 0.0478, 0.0791, 0.1002],
+       device='cuda:2'), in_proj_covar=tensor([0.0529, 0.0426, 0.0516, 0.0355, 0.0409, 0.0456, 0.0451, 0.0482],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 14:14:06,359 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.972e+02 4.806e+02 5.826e+02 6.989e+02 1.690e+03, threshold=1.165e+03, percent-clipped=2.0
+2023-04-03 14:14:07,572 INFO [train.py:903] (2/4) Epoch 29, batch 3600, loss[loss=0.1508, simple_loss=0.2321, pruned_loss=0.03473, over 19076.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.283, pruned_loss=0.05968, over 3809696.76 frames. ], batch size: 42, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:14:20,130 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=194795.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:14:33,795 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=194805.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:15:02,733 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=194830.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:15:02,774 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=194830.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:15:06,259 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 14:15:06,688 INFO [train.py:903] (2/4) Epoch 29, batch 3650, loss[loss=0.2285, simple_loss=0.3048, pruned_loss=0.07609, over 19537.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2835, pruned_loss=0.06004, over 3820601.93 frames. ], batch size: 56, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:15:12,780 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=194839.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 14:15:45,380 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=194865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:16:05,562 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.663e+02 5.135e+02 6.261e+02 7.520e+02 2.080e+03, threshold=1.252e+03, percent-clipped=4.0
+2023-04-03 14:16:06,488 INFO [train.py:903] (2/4) Epoch 29, batch 3700, loss[loss=0.2338, simple_loss=0.312, pruned_loss=0.07778, over 19529.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2838, pruned_loss=0.06006, over 3826868.75 frames. ], batch size: 56, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:17:08,169 INFO [train.py:903] (2/4) Epoch 29, batch 3750, loss[loss=0.1932, simple_loss=0.2761, pruned_loss=0.05519, over 18188.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2838, pruned_loss=0.06026, over 3832491.56 frames. ], batch size: 83, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:18:06,324 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.993e+02 4.741e+02 6.225e+02 7.602e+02 2.236e+03, threshold=1.245e+03, percent-clipped=10.0
+2023-04-03 14:18:07,440 INFO [train.py:903] (2/4) Epoch 29, batch 3800, loss[loss=0.2, simple_loss=0.2874, pruned_loss=0.05634, over 19661.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2831, pruned_loss=0.05985, over 3833947.02 frames. ], batch size: 58, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:18:21,200 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=194996.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:18:34,667 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-03 14:19:01,228 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=195029.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:19:06,523 INFO [train.py:903] (2/4) Epoch 29, batch 3850, loss[loss=0.2513, simple_loss=0.3254, pruned_loss=0.08859, over 18083.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2842, pruned_loss=0.06041, over 3831117.78 frames. ], batch size: 83, lr: 2.82e-03, grad_scale: 4.0
+2023-04-03 14:19:27,237 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=195051.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:19:41,476 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=195062.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 14:19:44,111 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-03 14:19:56,969 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=195076.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:20:06,400 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.076e+02 4.743e+02 5.822e+02 7.676e+02 1.767e+03, threshold=1.164e+03, percent-clipped=5.0
+2023-04-03 14:20:06,419 INFO [train.py:903] (2/4) Epoch 29, batch 3900, loss[loss=0.1766, simple_loss=0.2543, pruned_loss=0.04946, over 19775.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.284, pruned_loss=0.06023, over 3834929.47 frames. ], batch size: 47, lr: 2.82e-03, grad_scale: 4.0
+2023-04-03 14:20:08,998 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=195086.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:20:13,145 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=195089.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:20:21,728 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=195095.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 14:20:39,863 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=195111.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:20:39,904 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=195111.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:20:49,062 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2653, 2.1444, 2.0693, 1.9682, 1.7399, 1.8705, 0.7235, 1.2544],
+       device='cuda:2'), covar=tensor([0.0665, 0.0685, 0.0511, 0.0827, 0.1284, 0.0947, 0.1468, 0.1170],
+       device='cuda:2'), in_proj_covar=tensor([0.0371, 0.0368, 0.0374, 0.0397, 0.0476, 0.0403, 0.0349, 0.0352],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 14:20:50,144 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=195120.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 14:21:07,593 INFO [train.py:903] (2/4) Epoch 29, batch 3950, loss[loss=0.1788, simple_loss=0.2574, pruned_loss=0.05008, over 19755.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2833, pruned_loss=0.06012, over 3830137.89 frames. ], batch size: 47, lr: 2.82e-03, grad_scale: 4.0
+2023-04-03 14:21:12,681 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-03 14:21:55,813 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4300, 2.0707, 1.6129, 1.4207, 1.8631, 1.3065, 1.5486, 1.9295],
+       device='cuda:2'), covar=tensor([0.0904, 0.0862, 0.1184, 0.0901, 0.0589, 0.1391, 0.0568, 0.0457],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0320, 0.0343, 0.0273, 0.0253, 0.0346, 0.0290, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 14:22:08,284 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.119e+02 4.632e+02 5.828e+02 7.591e+02 1.503e+03, threshold=1.166e+03, percent-clipped=4.0
+2023-04-03 14:22:08,303 INFO [train.py:903] (2/4) Epoch 29, batch 4000, loss[loss=0.2211, simple_loss=0.3012, pruned_loss=0.0705, over 17581.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2835, pruned_loss=0.06006, over 3822082.05 frames. ], batch size: 101, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:22:38,720 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=195209.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:22:52,711 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-03 14:23:07,863 INFO [train.py:903] (2/4) Epoch 29, batch 4050, loss[loss=0.2418, simple_loss=0.3111, pruned_loss=0.08627, over 19453.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.283, pruned_loss=0.06, over 3823628.85 frames. ], batch size: 64, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:24:08,396 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.197e+02 5.118e+02 6.147e+02 8.377e+02 1.783e+03, threshold=1.229e+03, percent-clipped=5.0
+2023-04-03 14:24:08,418 INFO [train.py:903] (2/4) Epoch 29, batch 4100, loss[loss=0.2193, simple_loss=0.2964, pruned_loss=0.07105, over 18452.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2826, pruned_loss=0.05964, over 3833091.49 frames. ], batch size: 84, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:24:41,887 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-03 14:24:57,137 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=195324.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:25:08,838 INFO [train.py:903] (2/4) Epoch 29, batch 4150, loss[loss=0.1865, simple_loss=0.2787, pruned_loss=0.04714, over 19363.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2825, pruned_loss=0.05983, over 3821933.11 frames. ], batch size: 70, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:25:49,092 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=195367.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:25:56,330 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=195373.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:26:10,052 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.652e+02 4.925e+02 6.547e+02 8.865e+02 3.200e+03, threshold=1.309e+03, percent-clipped=9.0
+2023-04-03 14:26:10,070 INFO [train.py:903] (2/4) Epoch 29, batch 4200, loss[loss=0.1896, simple_loss=0.2736, pruned_loss=0.05278, over 19543.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2819, pruned_loss=0.05948, over 3800991.35 frames. ], batch size: 56, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:26:11,847 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.75 vs. limit=5.0
+2023-04-03 14:26:13,447 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-03 14:26:19,450 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=195392.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:26:35,632 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=195406.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 14:26:40,099 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=195410.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:27:07,662 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=195433.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:27:08,632 INFO [train.py:903] (2/4) Epoch 29, batch 4250, loss[loss=0.1902, simple_loss=0.2748, pruned_loss=0.05282, over 19597.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2827, pruned_loss=0.06006, over 3801798.39 frames. ], batch size: 52, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:27:22,568 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-03 14:27:31,307 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.25 vs. limit=2.0
+2023-04-03 14:27:32,633 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-03 14:28:08,326 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.783e+02 4.660e+02 5.852e+02 7.750e+02 1.648e+03, threshold=1.170e+03, percent-clipped=3.0
+2023-04-03 14:28:08,345 INFO [train.py:903] (2/4) Epoch 29, batch 4300, loss[loss=0.1824, simple_loss=0.2701, pruned_loss=0.04731, over 19757.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2837, pruned_loss=0.0602, over 3799910.63 frames. ], batch size: 54, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:28:08,829 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8913, 1.9905, 2.2678, 2.5729, 1.9626, 2.4204, 2.2296, 2.0501],
+       device='cuda:2'), covar=tensor([0.4657, 0.4386, 0.2115, 0.2680, 0.4561, 0.2584, 0.5494, 0.3761],
+       device='cuda:2'), in_proj_covar=tensor([0.0948, 0.1030, 0.0751, 0.0963, 0.0926, 0.0867, 0.0867, 0.0815],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:28:14,118 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=195488.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:28:54,530 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=195521.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 14:29:01,476 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-03 14:29:09,900 INFO [train.py:903] (2/4) Epoch 29, batch 4350, loss[loss=0.2092, simple_loss=0.2751, pruned_loss=0.07166, over 19301.00 frames. ], tot_loss[loss=0.2023, simple_loss=0.284, pruned_loss=0.06025, over 3808499.72 frames. ], batch size: 44, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:29:28,074 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=195548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:30:05,585 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=195580.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:30:10,384 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.562e+02 4.994e+02 6.103e+02 7.630e+02 1.747e+03, threshold=1.221e+03, percent-clipped=1.0
+2023-04-03 14:30:10,402 INFO [train.py:903] (2/4) Epoch 29, batch 4400, loss[loss=0.2145, simple_loss=0.3047, pruned_loss=0.06219, over 19667.00 frames. ], tot_loss[loss=0.2036, simple_loss=0.2852, pruned_loss=0.06104, over 3784014.17 frames. ], batch size: 55, lr: 2.82e-03, grad_scale: 8.0
+2023-04-03 14:30:14,280 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4529, 1.5316, 1.8533, 1.7091, 2.8023, 2.2587, 3.0061, 1.4005],
+       device='cuda:2'), covar=tensor([0.2691, 0.4570, 0.2904, 0.2029, 0.1503, 0.2343, 0.1420, 0.4635],
+       device='cuda:2'), in_proj_covar=tensor([0.0558, 0.0677, 0.0766, 0.0514, 0.0639, 0.0551, 0.0674, 0.0578],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:30:29,896 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-03 14:30:35,596 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=195605.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:30:38,550 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-03 14:31:09,644 INFO [train.py:903] (2/4) Epoch 29, batch 4450, loss[loss=0.194, simple_loss=0.277, pruned_loss=0.05546, over 19757.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2835, pruned_loss=0.06031, over 3794341.62 frames. ], batch size: 54, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:32:08,771 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.510e+02 5.083e+02 5.988e+02 7.824e+02 1.664e+03, threshold=1.198e+03, percent-clipped=3.0
+2023-04-03 14:32:08,790 INFO [train.py:903] (2/4) Epoch 29, batch 4500, loss[loss=0.2, simple_loss=0.2792, pruned_loss=0.06036, over 19533.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2839, pruned_loss=0.06006, over 3814423.37 frames. ], batch size: 54, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:33:10,063 INFO [train.py:903] (2/4) Epoch 29, batch 4550, loss[loss=0.1978, simple_loss=0.2754, pruned_loss=0.0601, over 19577.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2843, pruned_loss=0.06037, over 3820921.70 frames. ], batch size: 52, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:33:15,615 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-03 14:33:21,619 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=195744.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:33:33,982 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=195754.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:33:39,333 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-03 14:33:51,784 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=195769.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:34:01,495 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=195777.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 14:34:08,706 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.333e+02 5.047e+02 5.905e+02 8.200e+02 1.793e+03, threshold=1.181e+03, percent-clipped=7.0
+2023-04-03 14:34:08,723 INFO [train.py:903] (2/4) Epoch 29, batch 4600, loss[loss=0.2607, simple_loss=0.3347, pruned_loss=0.09336, over 12805.00 frames. ], tot_loss[loss=0.2029, simple_loss=0.2845, pruned_loss=0.06065, over 3826646.78 frames. ], batch size: 135, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:34:09,415 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=4.44 vs. limit=5.0
+2023-04-03 14:34:22,033 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6907, 1.6021, 1.5382, 2.1929, 1.5740, 1.9254, 1.8646, 1.7751],
+       device='cuda:2'), covar=tensor([0.0853, 0.0943, 0.1062, 0.0701, 0.0946, 0.0793, 0.0939, 0.0706],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0225, 0.0229, 0.0241, 0.0227, 0.0214, 0.0189, 0.0209],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 14:34:31,293 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=195802.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 14:34:33,628 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=195804.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:35:05,208 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=195829.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:35:10,614 INFO [train.py:903] (2/4) Epoch 29, batch 4650, loss[loss=0.259, simple_loss=0.3142, pruned_loss=0.1019, over 13201.00 frames. ], tot_loss[loss=0.204, simple_loss=0.2855, pruned_loss=0.06125, over 3825416.37 frames. ], batch size: 136, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:35:22,175 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-03 14:35:29,353 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.18 vs. limit=2.0
+2023-04-03 14:35:33,355 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-03 14:35:44,564 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.64 vs. limit=2.0
+2023-04-03 14:35:54,059 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=195869.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:36:10,279 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.073e+02 5.115e+02 6.253e+02 8.443e+02 2.371e+03, threshold=1.251e+03, percent-clipped=7.0
+2023-04-03 14:36:10,297 INFO [train.py:903] (2/4) Epoch 29, batch 4700, loss[loss=0.2035, simple_loss=0.293, pruned_loss=0.057, over 19671.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2834, pruned_loss=0.06025, over 3828230.82 frames. ], batch size: 58, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:36:29,170 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-03 14:37:11,415 INFO [train.py:903] (2/4) Epoch 29, batch 4750, loss[loss=0.1922, simple_loss=0.2625, pruned_loss=0.06094, over 19761.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2819, pruned_loss=0.05951, over 3841640.05 frames. ], batch size: 47, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:38:11,665 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.651e+02 4.980e+02 6.350e+02 8.555e+02 2.103e+03, threshold=1.270e+03, percent-clipped=3.0
+2023-04-03 14:38:11,683 INFO [train.py:903] (2/4) Epoch 29, batch 4800, loss[loss=0.1987, simple_loss=0.2794, pruned_loss=0.059, over 19609.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2822, pruned_loss=0.05989, over 3835846.27 frames. ], batch size: 50, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:39:14,512 INFO [train.py:903] (2/4) Epoch 29, batch 4850, loss[loss=0.2141, simple_loss=0.2923, pruned_loss=0.0679, over 17465.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2824, pruned_loss=0.05983, over 3818423.29 frames. ], batch size: 101, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:39:37,047 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-03 14:39:55,381 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-03 14:40:01,768 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-03 14:40:02,672 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-03 14:40:11,417 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-03 14:40:13,827 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.943e+02 4.641e+02 5.767e+02 7.663e+02 1.512e+03, threshold=1.153e+03, percent-clipped=2.0
+2023-04-03 14:40:13,845 INFO [train.py:903] (2/4) Epoch 29, batch 4900, loss[loss=0.1937, simple_loss=0.2866, pruned_loss=0.05038, over 19656.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2817, pruned_loss=0.05951, over 3834818.43 frames. ], batch size: 55, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:40:32,802 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-03 14:41:03,510 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=196125.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:41:14,060 INFO [train.py:903] (2/4) Epoch 29, batch 4950, loss[loss=0.1963, simple_loss=0.2673, pruned_loss=0.06262, over 19632.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2817, pruned_loss=0.05954, over 3844912.90 frames. ], batch size: 50, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:41:24,599 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2499, 2.3826, 2.5545, 3.1271, 2.4409, 3.0393, 2.5758, 2.2855],
+       device='cuda:2'), covar=tensor([0.4628, 0.4386, 0.2029, 0.2746, 0.4686, 0.2351, 0.5299, 0.3621],
+       device='cuda:2'), in_proj_covar=tensor([0.0947, 0.1028, 0.0751, 0.0961, 0.0927, 0.0865, 0.0866, 0.0815],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:41:31,265 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-03 14:41:33,804 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=196150.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:41:49,108 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1233, 2.8147, 2.3994, 2.4314, 2.1172, 2.5721, 1.2340, 2.0548],
+       device='cuda:2'), covar=tensor([0.0749, 0.0700, 0.0708, 0.1186, 0.1168, 0.1134, 0.1452, 0.1215],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0363, 0.0369, 0.0393, 0.0474, 0.0398, 0.0347, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 14:41:52,360 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9434, 2.0756, 2.2797, 2.5767, 1.9995, 2.5322, 2.2510, 2.1132],
+       device='cuda:2'), covar=tensor([0.4194, 0.3929, 0.1984, 0.2414, 0.3997, 0.2183, 0.5104, 0.3389],
+       device='cuda:2'), in_proj_covar=tensor([0.0946, 0.1027, 0.0751, 0.0960, 0.0925, 0.0864, 0.0865, 0.0814],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:41:54,194 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-03 14:42:14,324 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.427e+02 4.864e+02 6.197e+02 7.725e+02 1.739e+03, threshold=1.239e+03, percent-clipped=10.0
+2023-04-03 14:42:14,342 INFO [train.py:903] (2/4) Epoch 29, batch 5000, loss[loss=0.2017, simple_loss=0.2798, pruned_loss=0.06178, over 19654.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.283, pruned_loss=0.06025, over 3837084.64 frames. ], batch size: 55, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:42:23,520 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-03 14:42:35,055 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-03 14:43:14,845 INFO [train.py:903] (2/4) Epoch 29, batch 5050, loss[loss=0.1922, simple_loss=0.2788, pruned_loss=0.05285, over 19676.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2823, pruned_loss=0.06004, over 3822434.20 frames. ], batch size: 59, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:43:49,705 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-03 14:44:15,611 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.659e+02 4.774e+02 5.782e+02 7.176e+02 1.455e+03, threshold=1.156e+03, percent-clipped=5.0
+2023-04-03 14:44:15,629 INFO [train.py:903] (2/4) Epoch 29, batch 5100, loss[loss=0.2138, simple_loss=0.2981, pruned_loss=0.06473, over 19360.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2813, pruned_loss=0.05944, over 3818881.33 frames. ], batch size: 66, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:44:24,663 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-03 14:44:27,976 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-03 14:44:32,506 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-03 14:45:16,434 INFO [train.py:903] (2/4) Epoch 29, batch 5150, loss[loss=0.2328, simple_loss=0.3183, pruned_loss=0.07371, over 19608.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2825, pruned_loss=0.0598, over 3807419.98 frames. ], batch size: 57, lr: 2.81e-03, grad_scale: 4.0
+2023-04-03 14:45:17,952 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2413, 1.3267, 1.2741, 1.0853, 1.1443, 1.0925, 0.0962, 0.3746],
+       device='cuda:2'), covar=tensor([0.0768, 0.0691, 0.0496, 0.0655, 0.1358, 0.0723, 0.1440, 0.1246],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0363, 0.0369, 0.0393, 0.0473, 0.0398, 0.0347, 0.0349],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 14:45:23,038 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=196339.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:45:26,216 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-03 14:45:59,976 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 14:46:10,259 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=196378.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:46:15,848 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0530, 2.1313, 2.3423, 2.6411, 2.0509, 2.5743, 2.2569, 2.0754],
+       device='cuda:2'), covar=tensor([0.4421, 0.4098, 0.2055, 0.2549, 0.4370, 0.2259, 0.5335, 0.3611],
+       device='cuda:2'), in_proj_covar=tensor([0.0945, 0.1023, 0.0748, 0.0958, 0.0923, 0.0862, 0.0863, 0.0812],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:46:17,531 INFO [train.py:903] (2/4) Epoch 29, batch 5200, loss[loss=0.2217, simple_loss=0.3114, pruned_loss=0.06603, over 19682.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2832, pruned_loss=0.05997, over 3820248.49 frames. ], batch size: 59, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:46:18,467 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.574e+02 5.187e+02 6.337e+02 8.295e+02 1.863e+03, threshold=1.267e+03, percent-clipped=5.0
+2023-04-03 14:46:28,766 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-03 14:47:12,666 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-03 14:47:19,206 INFO [train.py:903] (2/4) Epoch 29, batch 5250, loss[loss=0.2122, simple_loss=0.2921, pruned_loss=0.06619, over 19507.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2824, pruned_loss=0.05909, over 3828361.70 frames. ], batch size: 64, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:47:43,299 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9908, 2.0902, 2.4036, 2.6537, 2.0886, 2.6048, 2.3339, 2.1217],
+       device='cuda:2'), covar=tensor([0.4477, 0.4225, 0.2000, 0.2597, 0.4345, 0.2366, 0.5166, 0.3641],
+       device='cuda:2'), in_proj_covar=tensor([0.0949, 0.1026, 0.0751, 0.0961, 0.0926, 0.0864, 0.0866, 0.0815],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:48:07,770 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9766, 2.0744, 2.3550, 2.5753, 2.0273, 2.5006, 2.3018, 2.0598],
+       device='cuda:2'), covar=tensor([0.4315, 0.4058, 0.1954, 0.2662, 0.4119, 0.2285, 0.4833, 0.3561],
+       device='cuda:2'), in_proj_covar=tensor([0.0948, 0.1025, 0.0750, 0.0960, 0.0925, 0.0864, 0.0865, 0.0814],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 14:48:20,444 INFO [train.py:903] (2/4) Epoch 29, batch 5300, loss[loss=0.2077, simple_loss=0.301, pruned_loss=0.0572, over 19687.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2822, pruned_loss=0.0591, over 3819160.73 frames. ], batch size: 59, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:48:21,522 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.666e+02 4.792e+02 5.709e+02 7.130e+02 1.478e+03, threshold=1.142e+03, percent-clipped=2.0
+2023-04-03 14:48:35,856 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-03 14:49:20,274 INFO [train.py:903] (2/4) Epoch 29, batch 5350, loss[loss=0.163, simple_loss=0.2461, pruned_loss=0.03996, over 19485.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2822, pruned_loss=0.05906, over 3820916.40 frames. ], batch size: 49, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:49:51,997 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-03 14:50:09,924 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0099, 3.6803, 2.3483, 3.2842, 0.9569, 3.6582, 3.5243, 3.6331],
+       device='cuda:2'), covar=tensor([0.0889, 0.1202, 0.2285, 0.0966, 0.3973, 0.0808, 0.1031, 0.1460],
+       device='cuda:2'), in_proj_covar=tensor([0.0534, 0.0432, 0.0518, 0.0357, 0.0409, 0.0457, 0.0452, 0.0487],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 14:50:21,627 INFO [train.py:903] (2/4) Epoch 29, batch 5400, loss[loss=0.1785, simple_loss=0.2545, pruned_loss=0.05125, over 19739.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2826, pruned_loss=0.0594, over 3823753.26 frames. ], batch size: 45, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:50:22,762 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.031e+02 4.834e+02 5.946e+02 7.840e+02 1.782e+03, threshold=1.189e+03, percent-clipped=5.0
+2023-04-03 14:50:36,268 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=196596.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:50:59,724 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0771, 3.2830, 1.8882, 2.0652, 2.8834, 1.6488, 1.5438, 2.2682],
+       device='cuda:2'), covar=tensor([0.1418, 0.0645, 0.1168, 0.0901, 0.0642, 0.1402, 0.1042, 0.0717],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0324, 0.0346, 0.0277, 0.0255, 0.0350, 0.0294, 0.0278],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 14:51:22,491 INFO [train.py:903] (2/4) Epoch 29, batch 5450, loss[loss=0.1957, simple_loss=0.2858, pruned_loss=0.05277, over 19546.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2824, pruned_loss=0.05913, over 3833357.18 frames. ], batch size: 56, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:51:34,847 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9188, 5.0167, 5.7487, 5.7645, 2.0180, 5.4252, 4.6027, 5.4311],
+       device='cuda:2'), covar=tensor([0.1894, 0.0964, 0.0635, 0.0676, 0.6550, 0.0919, 0.0700, 0.1229],
+       device='cuda:2'), in_proj_covar=tensor([0.0829, 0.0802, 0.1013, 0.0886, 0.0879, 0.0774, 0.0596, 0.0938],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 14:51:37,075 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1600, 2.0904, 1.9951, 1.8588, 1.7709, 1.7985, 0.6918, 1.1381],
+       device='cuda:2'), covar=tensor([0.0678, 0.0618, 0.0494, 0.0820, 0.1173, 0.0884, 0.1359, 0.1147],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0365, 0.0370, 0.0394, 0.0474, 0.0400, 0.0348, 0.0350],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 14:51:41,456 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.8692, 4.4868, 2.6351, 3.8118, 0.9702, 4.4299, 4.2699, 4.2829],
+       device='cuda:2'), covar=tensor([0.0571, 0.0889, 0.1997, 0.0860, 0.3910, 0.0587, 0.0894, 0.1133],
+       device='cuda:2'), in_proj_covar=tensor([0.0537, 0.0435, 0.0522, 0.0360, 0.0413, 0.0460, 0.0456, 0.0491],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 14:52:21,549 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=196683.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:52:22,558 INFO [train.py:903] (2/4) Epoch 29, batch 5500, loss[loss=0.2212, simple_loss=0.3026, pruned_loss=0.06985, over 19291.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2819, pruned_loss=0.05896, over 3840284.75 frames. ], batch size: 66, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:52:23,692 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.565e+02 4.767e+02 5.823e+02 7.066e+02 1.237e+03, threshold=1.165e+03, percent-clipped=1.0
+2023-04-03 14:52:46,218 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-03 14:53:08,298 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=196722.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:53:22,920 INFO [train.py:903] (2/4) Epoch 29, batch 5550, loss[loss=0.1925, simple_loss=0.2794, pruned_loss=0.05286, over 19784.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.2814, pruned_loss=0.05911, over 3838944.29 frames. ], batch size: 54, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:53:30,039 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-03 14:53:40,089 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.25 vs. limit=5.0
+2023-04-03 14:54:18,738 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-03 14:54:22,916 INFO [train.py:903] (2/4) Epoch 29, batch 5600, loss[loss=0.2088, simple_loss=0.2953, pruned_loss=0.06114, over 18158.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2817, pruned_loss=0.05918, over 3841896.40 frames. ], batch size: 83, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:54:24,076 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.131e+02 4.937e+02 5.977e+02 7.468e+02 1.263e+03, threshold=1.195e+03, percent-clipped=3.0
+2023-04-03 14:54:39,794 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=196797.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:54:40,951 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=196798.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:55:24,436 INFO [train.py:903] (2/4) Epoch 29, batch 5650, loss[loss=0.1887, simple_loss=0.262, pruned_loss=0.05776, over 19788.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2816, pruned_loss=0.05923, over 3827708.73 frames. ], batch size: 48, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:55:28,136 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=196837.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:56:10,107 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=196872.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:56:10,954 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-03 14:56:24,243 INFO [train.py:903] (2/4) Epoch 29, batch 5700, loss[loss=0.2361, simple_loss=0.3136, pruned_loss=0.07931, over 19469.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2821, pruned_loss=0.05955, over 3832887.44 frames. ], batch size: 64, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:56:25,388 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.192e+02 5.159e+02 6.169e+02 7.777e+02 1.148e+03, threshold=1.234e+03, percent-clipped=0.0
+2023-04-03 14:56:41,809 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=196899.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:56:46,521 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.74 vs. limit=2.0
+2023-04-03 14:57:24,047 INFO [train.py:903] (2/4) Epoch 29, batch 5750, loss[loss=0.1978, simple_loss=0.2771, pruned_loss=0.05927, over 19496.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2819, pruned_loss=0.05947, over 3829610.82 frames. ], batch size: 49, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:57:25,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-03 14:57:30,931 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=196940.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:57:31,933 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-03 14:57:38,012 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-03 14:58:24,228 INFO [train.py:903] (2/4) Epoch 29, batch 5800, loss[loss=0.1907, simple_loss=0.2762, pruned_loss=0.05263, over 19669.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2814, pruned_loss=0.05932, over 3828593.04 frames. ], batch size: 53, lr: 2.81e-03, grad_scale: 8.0
+2023-04-03 14:58:25,406 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.058e+02 4.987e+02 6.141e+02 8.368e+02 1.662e+03, threshold=1.228e+03, percent-clipped=5.0
+2023-04-03 14:59:24,878 INFO [train.py:903] (2/4) Epoch 29, batch 5850, loss[loss=0.1515, simple_loss=0.2321, pruned_loss=0.03542, over 19738.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.2809, pruned_loss=0.05933, over 3814855.11 frames. ], batch size: 45, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 14:59:27,414 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.12 vs. limit=2.0
+2023-04-03 14:59:49,586 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=197054.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 14:59:50,543 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=197055.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:00:19,088 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=197079.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:00:24,409 INFO [train.py:903] (2/4) Epoch 29, batch 5900, loss[loss=0.1796, simple_loss=0.2718, pruned_loss=0.0437, over 19668.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2815, pruned_loss=0.05946, over 3830442.55 frames. ], batch size: 59, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:00:25,159 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.70 vs. limit=5.0
+2023-04-03 15:00:25,528 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.208e+02 4.889e+02 5.905e+02 7.501e+02 2.168e+03, threshold=1.181e+03, percent-clipped=6.0
+2023-04-03 15:00:26,684 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-03 15:00:35,853 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=197093.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:00:46,559 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-03 15:00:48,772 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.1325, 3.7959, 2.9284, 3.3698, 1.5260, 3.7379, 3.6219, 3.7353],
+       device='cuda:2'), covar=tensor([0.0827, 0.1069, 0.1901, 0.0936, 0.3182, 0.0799, 0.1060, 0.1435],
+       device='cuda:2'), in_proj_covar=tensor([0.0534, 0.0433, 0.0520, 0.0358, 0.0409, 0.0459, 0.0454, 0.0487],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 15:01:06,448 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=197118.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:01:24,665 INFO [train.py:903] (2/4) Epoch 29, batch 5950, loss[loss=0.1723, simple_loss=0.265, pruned_loss=0.03984, over 19840.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2813, pruned_loss=0.05964, over 3820946.13 frames. ], batch size: 52, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:01:32,740 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=197141.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:01:59,494 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.4410, 1.3919, 1.6269, 1.5488, 3.0397, 1.2013, 2.3711, 3.5000],
+       device='cuda:2'), covar=tensor([0.0567, 0.2937, 0.2837, 0.1908, 0.0757, 0.2518, 0.1319, 0.0254],
+       device='cuda:2'), in_proj_covar=tensor([0.0427, 0.0383, 0.0402, 0.0357, 0.0385, 0.0360, 0.0400, 0.0421],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 15:02:18,325 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2244, 1.2737, 1.2664, 1.0787, 1.1130, 1.1073, 0.0937, 0.3530],
+       device='cuda:2'), covar=tensor([0.0892, 0.0793, 0.0547, 0.0700, 0.1454, 0.0793, 0.1546, 0.1378],
+       device='cuda:2'), in_proj_covar=tensor([0.0366, 0.0363, 0.0369, 0.0393, 0.0471, 0.0400, 0.0347, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 15:02:24,687 INFO [train.py:903] (2/4) Epoch 29, batch 6000, loss[loss=0.1986, simple_loss=0.2828, pruned_loss=0.05725, over 19539.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2818, pruned_loss=0.05987, over 3817188.82 frames. ], batch size: 56, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:02:24,687 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 15:02:43,153 INFO [train.py:937] (2/4) Epoch 29, validation: loss=0.167, simple_loss=0.2662, pruned_loss=0.03392, over 944034.00 frames. 
+2023-04-03 15:02:43,154 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 15:02:44,362 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.479e+02 4.704e+02 5.833e+02 7.372e+02 1.660e+03, threshold=1.167e+03, percent-clipped=5.0
+2023-04-03 15:03:23,050 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=197216.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:03:25,881 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.66 vs. limit=5.0
+2023-04-03 15:03:44,117 INFO [train.py:903] (2/4) Epoch 29, batch 6050, loss[loss=0.2034, simple_loss=0.286, pruned_loss=0.06041, over 19600.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.283, pruned_loss=0.05999, over 3814972.63 frames. ], batch size: 57, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:03:55,200 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=197243.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:04:11,916 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=197256.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:04:45,073 INFO [train.py:903] (2/4) Epoch 29, batch 6100, loss[loss=0.1744, simple_loss=0.26, pruned_loss=0.04434, over 19681.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2834, pruned_loss=0.06003, over 3812704.19 frames. ], batch size: 53, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:04:46,195 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.008e+02 5.045e+02 6.568e+02 8.070e+02 1.422e+03, threshold=1.314e+03, percent-clipped=5.0
+2023-04-03 15:05:17,416 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=197311.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:05:42,435 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=197331.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:05:45,466 INFO [train.py:903] (2/4) Epoch 29, batch 6150, loss[loss=0.1678, simple_loss=0.2557, pruned_loss=0.03989, over 19598.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.282, pruned_loss=0.05973, over 3817154.82 frames. ], batch size: 52, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:05:48,234 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=197336.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:06:13,318 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-03 15:06:14,652 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=197358.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:06:30,288 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.24 vs. limit=2.0
+2023-04-03 15:06:46,116 INFO [train.py:903] (2/4) Epoch 29, batch 6200, loss[loss=0.2149, simple_loss=0.3039, pruned_loss=0.06293, over 19532.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2829, pruned_loss=0.06018, over 3809082.62 frames. ], batch size: 56, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:06:47,112 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.451e+02 5.150e+02 5.975e+02 7.505e+02 2.002e+03, threshold=1.195e+03, percent-clipped=6.0
+2023-04-03 15:07:45,741 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=197433.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 15:07:46,600 INFO [train.py:903] (2/4) Epoch 29, batch 6250, loss[loss=0.2308, simple_loss=0.3096, pruned_loss=0.07596, over 19474.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2836, pruned_loss=0.06034, over 3810412.64 frames. ], batch size: 64, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:08:18,014 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-03 15:08:48,228 INFO [train.py:903] (2/4) Epoch 29, batch 6300, loss[loss=0.1622, simple_loss=0.2399, pruned_loss=0.04227, over 19760.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2822, pruned_loss=0.05962, over 3816630.17 frames. ], batch size: 46, lr: 2.80e-03, grad_scale: 4.0
+2023-04-03 15:08:50,595 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.231e+02 4.620e+02 5.575e+02 6.491e+02 1.508e+03, threshold=1.115e+03, percent-clipped=2.0
+2023-04-03 15:09:21,981 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=197512.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:09:49,202 INFO [train.py:903] (2/4) Epoch 29, batch 6350, loss[loss=0.1922, simple_loss=0.2856, pruned_loss=0.04938, over 19538.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2825, pruned_loss=0.05944, over 3822235.59 frames. ], batch size: 54, lr: 2.80e-03, grad_scale: 4.0
+2023-04-03 15:09:49,491 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=197534.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:09:52,899 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=197537.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:10:14,130 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.71 vs. limit=2.0
+2023-04-03 15:10:23,539 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=197563.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:10:33,869 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.68 vs. limit=2.0
+2023-04-03 15:10:49,098 INFO [train.py:903] (2/4) Epoch 29, batch 6400, loss[loss=0.2039, simple_loss=0.2874, pruned_loss=0.06021, over 19611.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.282, pruned_loss=0.05917, over 3819823.99 frames. ], batch size: 61, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:10:52,229 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.915e+02 4.287e+02 5.708e+02 7.339e+02 1.464e+03, threshold=1.142e+03, percent-clipped=5.0
+2023-04-03 15:10:53,782 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=197587.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:11:23,640 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=197612.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:11:25,910 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=197614.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:11:49,896 INFO [train.py:903] (2/4) Epoch 29, batch 6450, loss[loss=0.2011, simple_loss=0.2794, pruned_loss=0.06139, over 19574.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2825, pruned_loss=0.05934, over 3828341.98 frames. ], batch size: 52, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:11:56,888 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=197639.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:12:27,643 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3805, 3.1130, 2.2207, 2.8067, 0.7471, 3.0633, 2.9412, 3.0488],
+       device='cuda:2'), covar=tensor([0.0993, 0.1263, 0.2029, 0.1092, 0.3900, 0.0979, 0.1198, 0.1273],
+       device='cuda:2'), in_proj_covar=tensor([0.0532, 0.0431, 0.0519, 0.0356, 0.0409, 0.0458, 0.0451, 0.0485],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 15:12:37,429 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-03 15:12:37,704 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2900, 3.8363, 3.9339, 3.9573, 1.5990, 3.7457, 3.2517, 3.6813],
+       device='cuda:2'), covar=tensor([0.1825, 0.1065, 0.0752, 0.0815, 0.6086, 0.1040, 0.0828, 0.1297],
+       device='cuda:2'), in_proj_covar=tensor([0.0824, 0.0793, 0.1001, 0.0876, 0.0868, 0.0766, 0.0590, 0.0932],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 15:12:49,913 INFO [train.py:903] (2/4) Epoch 29, batch 6500, loss[loss=0.1614, simple_loss=0.242, pruned_loss=0.04034, over 19287.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.282, pruned_loss=0.05936, over 3834409.70 frames. ], batch size: 44, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:12:52,112 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.446e+02 4.970e+02 6.097e+02 8.194e+02 1.467e+03, threshold=1.219e+03, percent-clipped=8.0
+2023-04-03 15:12:58,634 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-03 15:13:50,299 INFO [train.py:903] (2/4) Epoch 29, batch 6550, loss[loss=0.2486, simple_loss=0.335, pruned_loss=0.08111, over 19659.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.282, pruned_loss=0.0592, over 3823554.15 frames. ], batch size: 60, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:14:24,670 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.8173, 1.2515, 1.5178, 0.5229, 1.8773, 2.4577, 2.1062, 2.6084],
+       device='cuda:2'), covar=tensor([0.1781, 0.3992, 0.3722, 0.3207, 0.0732, 0.0287, 0.0368, 0.0381],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0334, 0.0367, 0.0275, 0.0256, 0.0199, 0.0221, 0.0279],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 15:14:42,384 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=197777.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 15:14:50,648 INFO [train.py:903] (2/4) Epoch 29, batch 6600, loss[loss=0.2049, simple_loss=0.2873, pruned_loss=0.06123, over 19493.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.283, pruned_loss=0.05977, over 3807084.80 frames. ], batch size: 64, lr: 2.80e-03, grad_scale: 4.0
+2023-04-03 15:14:54,072 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.141e+02 4.758e+02 5.997e+02 7.159e+02 2.116e+03, threshold=1.199e+03, percent-clipped=4.0
+2023-04-03 15:15:51,171 INFO [train.py:903] (2/4) Epoch 29, batch 6650, loss[loss=0.2064, simple_loss=0.2904, pruned_loss=0.06122, over 19597.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2837, pruned_loss=0.06026, over 3791669.29 frames. ], batch size: 61, lr: 2.80e-03, grad_scale: 4.0
+2023-04-03 15:16:45,532 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=197878.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:16:52,897 INFO [train.py:903] (2/4) Epoch 29, batch 6700, loss[loss=0.2182, simple_loss=0.302, pruned_loss=0.06723, over 17346.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2838, pruned_loss=0.06064, over 3784524.49 frames. ], batch size: 101, lr: 2.80e-03, grad_scale: 4.0
+2023-04-03 15:16:56,371 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.106e+02 5.093e+02 5.944e+02 7.634e+02 1.783e+03, threshold=1.189e+03, percent-clipped=4.0
+2023-04-03 15:17:02,427 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=197892.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 15:17:19,980 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=197907.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:17:23,575 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=197910.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:17:50,653 INFO [train.py:903] (2/4) Epoch 29, batch 6750, loss[loss=0.2287, simple_loss=0.304, pruned_loss=0.07674, over 13282.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2824, pruned_loss=0.05994, over 3785914.95 frames. ], batch size: 137, lr: 2.80e-03, grad_scale: 4.0
+2023-04-03 15:18:45,945 INFO [train.py:903] (2/4) Epoch 29, batch 6800, loss[loss=0.1768, simple_loss=0.2728, pruned_loss=0.04044, over 19690.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2822, pruned_loss=0.05967, over 3798992.08 frames. ], batch size: 59, lr: 2.80e-03, grad_scale: 8.0
+2023-04-03 15:18:49,168 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.543e+02 4.853e+02 6.089e+02 7.661e+02 1.249e+03, threshold=1.218e+03, percent-clipped=1.0
+2023-04-03 15:18:56,378 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=197993.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:19:33,505 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9 from training. Duration: 27.47775
+2023-04-03 15:19:33,942 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9 from training. Duration: 26.6166875
+2023-04-03 15:19:37,015 INFO [train.py:903] (2/4) Epoch 30, batch 0, loss[loss=0.2346, simple_loss=0.3165, pruned_loss=0.07639, over 19693.00 frames. ], tot_loss[loss=0.2346, simple_loss=0.3165, pruned_loss=0.07639, over 19693.00 frames. ], batch size: 58, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:19:37,016 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 15:19:49,318 INFO [train.py:937] (2/4) Epoch 30, validation: loss=0.167, simple_loss=0.2667, pruned_loss=0.03362, over 944034.00 frames. 
+2023-04-03 15:19:49,319 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 15:20:02,486 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=198022.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:20:03,308 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425 from training. Duration: 25.775
+2023-04-03 15:20:35,582 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.20 vs. limit=2.0
+2023-04-03 15:20:51,417 INFO [train.py:903] (2/4) Epoch 30, batch 50, loss[loss=0.2118, simple_loss=0.2899, pruned_loss=0.06682, over 19523.00 frames. ], tot_loss[loss=0.1983, simple_loss=0.2802, pruned_loss=0.05824, over 865328.56 frames. ], batch size: 56, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:21:13,156 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.67 vs. limit=2.0
+2023-04-03 15:21:20,382 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.592e+02 4.959e+02 5.838e+02 7.711e+02 1.808e+03, threshold=1.168e+03, percent-clipped=5.0
+2023-04-03 15:21:26,251 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1_rvb from training. Duration: 27.0318125
+2023-04-03 15:21:32,474 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.14 vs. limit=2.0
+2023-04-03 15:21:36,615 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=198099.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:21:52,088 INFO [train.py:903] (2/4) Epoch 30, batch 100, loss[loss=0.1674, simple_loss=0.2511, pruned_loss=0.04179, over 19775.00 frames. ], tot_loss[loss=0.198, simple_loss=0.2801, pruned_loss=0.05795, over 1533689.56 frames. ], batch size: 47, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:22:04,481 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9 from training. Duration: 29.1166875
+2023-04-03 15:22:04,742 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.6662, 4.8516, 5.4903, 5.5005, 2.0649, 5.1657, 4.4233, 5.1871],
+       device='cuda:2'), covar=tensor([0.1713, 0.1129, 0.0601, 0.0654, 0.6363, 0.0943, 0.0646, 0.1185],
+       device='cuda:2'), in_proj_covar=tensor([0.0823, 0.0797, 0.1003, 0.0881, 0.0872, 0.0769, 0.0592, 0.0934],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 15:22:31,187 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6023, 1.7307, 2.2051, 1.9504, 2.9183, 2.5301, 3.1296, 1.6992],
+       device='cuda:2'), covar=tensor([0.2889, 0.4859, 0.3083, 0.2214, 0.1972, 0.2577, 0.2012, 0.4894],
+       device='cuda:2'), in_proj_covar=tensor([0.0561, 0.0682, 0.0770, 0.0517, 0.0642, 0.0553, 0.0675, 0.0579],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 15:22:37,706 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=198148.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 15:22:54,432 INFO [train.py:903] (2/4) Epoch 30, batch 150, loss[loss=0.1868, simple_loss=0.2806, pruned_loss=0.04646, over 19794.00 frames. ], tot_loss[loss=0.1968, simple_loss=0.279, pruned_loss=0.05733, over 2034513.95 frames. ], batch size: 56, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:23:07,449 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=198173.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 15:23:10,044 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.85 vs. limit=2.0
+2023-04-03 15:23:25,376 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.519e+02 4.863e+02 5.858e+02 7.546e+02 1.579e+03, threshold=1.172e+03, percent-clipped=2.0
+2023-04-03 15:23:52,143 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994 from training. Duration: 27.14
+2023-04-03 15:23:55,536 INFO [train.py:903] (2/4) Epoch 30, batch 200, loss[loss=0.2522, simple_loss=0.3195, pruned_loss=0.09246, over 12849.00 frames. ], tot_loss[loss=0.1988, simple_loss=0.2807, pruned_loss=0.05849, over 2409600.55 frames. ], batch size: 136, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:24:42,385 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=198249.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:24:47,683 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=198254.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:24:57,526 INFO [train.py:903] (2/4) Epoch 30, batch 250, loss[loss=0.2222, simple_loss=0.3171, pruned_loss=0.06368, over 19514.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2816, pruned_loss=0.05925, over 2728212.19 frames. ], batch size: 64, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:25:13,962 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=198274.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:25:19,540 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=198278.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:25:29,213 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.056e+02 4.793e+02 5.720e+02 7.294e+02 1.524e+03, threshold=1.144e+03, percent-clipped=6.0
+2023-04-03 15:25:49,116 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=198303.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:26:01,276 INFO [train.py:903] (2/4) Epoch 30, batch 300, loss[loss=0.1726, simple_loss=0.2608, pruned_loss=0.04223, over 19787.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.2812, pruned_loss=0.05872, over 2968538.84 frames. ], batch size: 49, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:27:03,945 INFO [train.py:903] (2/4) Epoch 30, batch 350, loss[loss=0.188, simple_loss=0.278, pruned_loss=0.04899, over 19155.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2809, pruned_loss=0.05872, over 3170584.69 frames. ], batch size: 69, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:27:06,263 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 15:27:12,152 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=198369.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:27:33,410 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.869e+02 4.876e+02 6.987e+02 8.997e+02 2.429e+03, threshold=1.397e+03, percent-clipped=9.0
+2023-04-03 15:28:04,750 INFO [train.py:903] (2/4) Epoch 30, batch 400, loss[loss=0.2188, simple_loss=0.3059, pruned_loss=0.06588, over 19674.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2828, pruned_loss=0.05972, over 3326583.49 frames. ], batch size: 59, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:28:44,694 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=198443.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:29:06,536 INFO [train.py:903] (2/4) Epoch 30, batch 450, loss[loss=0.1856, simple_loss=0.2796, pruned_loss=0.04576, over 19716.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2814, pruned_loss=0.05846, over 3447292.20 frames. ], batch size: 63, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:29:08,583 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.76 vs. limit=2.0
+2023-04-03 15:29:38,785 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.061e+02 5.102e+02 6.085e+02 7.779e+02 1.785e+03, threshold=1.217e+03, percent-clipped=4.0
+2023-04-03 15:29:40,853 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149 from training. Duration: 25.285
+2023-04-03 15:29:42,041 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9 from training. Duration: 25.3333125
+2023-04-03 15:29:54,120 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6242, 1.7438, 1.9968, 2.0173, 1.5165, 1.9480, 1.9613, 1.8704],
+       device='cuda:2'), covar=tensor([0.4299, 0.4068, 0.2120, 0.2621, 0.4288, 0.2435, 0.5433, 0.3600],
+       device='cuda:2'), in_proj_covar=tensor([0.0946, 0.1028, 0.0748, 0.0959, 0.0925, 0.0863, 0.0864, 0.0815],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 15:30:08,497 INFO [train.py:903] (2/4) Epoch 30, batch 500, loss[loss=0.1774, simple_loss=0.2585, pruned_loss=0.04819, over 19613.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2816, pruned_loss=0.05908, over 3529492.80 frames. ], batch size: 50, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:30:11,085 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0626, 1.6532, 1.8558, 1.8614, 4.5734, 1.1492, 2.6606, 5.0733],
+       device='cuda:2'), covar=tensor([0.0419, 0.2877, 0.2909, 0.1970, 0.0770, 0.2897, 0.1487, 0.0154],
+       device='cuda:2'), in_proj_covar=tensor([0.0426, 0.0383, 0.0402, 0.0356, 0.0387, 0.0360, 0.0401, 0.0424],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 15:30:16,774 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=198517.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:31:06,275 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=198558.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:31:11,508 INFO [train.py:903] (2/4) Epoch 30, batch 550, loss[loss=0.2195, simple_loss=0.3006, pruned_loss=0.06923, over 19303.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2828, pruned_loss=0.05972, over 3595339.98 frames. ], batch size: 66, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:31:40,933 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.425e+02 4.928e+02 6.417e+02 8.667e+02 2.852e+03, threshold=1.283e+03, percent-clipped=10.0
+2023-04-03 15:31:47,797 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8191, 1.7329, 1.7600, 2.3593, 1.7840, 2.0709, 2.0321, 1.9298],
+       device='cuda:2'), covar=tensor([0.0798, 0.0842, 0.0906, 0.0695, 0.0825, 0.0751, 0.0853, 0.0643],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0227, 0.0240, 0.0226, 0.0215, 0.0188, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 15:31:56,092 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.21 vs. limit=2.0
+2023-04-03 15:32:13,286 INFO [train.py:903] (2/4) Epoch 30, batch 600, loss[loss=0.2578, simple_loss=0.3255, pruned_loss=0.09512, over 13465.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2831, pruned_loss=0.05957, over 3650092.81 frames. ], batch size: 135, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:32:27,220 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3494, 1.0578, 1.2728, 2.1755, 1.5529, 1.3295, 1.5588, 1.2969],
+       device='cuda:2'), covar=tensor([0.1240, 0.1739, 0.1426, 0.0849, 0.1159, 0.1468, 0.1323, 0.1128],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0228, 0.0240, 0.0226, 0.0215, 0.0188, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 15:32:28,384 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=198625.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:32:38,412 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=198633.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:32:52,849 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9 from training. Duration: 27.8166875
+2023-04-03 15:33:01,379 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=198650.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:33:14,979 INFO [train.py:903] (2/4) Epoch 30, batch 650, loss[loss=0.1961, simple_loss=0.2861, pruned_loss=0.05309, over 18777.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2832, pruned_loss=0.05958, over 3680948.27 frames. ], batch size: 74, lr: 2.75e-03, grad_scale: 8.0
+2023-04-03 15:33:46,600 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.134e+02 5.000e+02 5.780e+02 7.067e+02 2.104e+03, threshold=1.156e+03, percent-clipped=2.0
+2023-04-03 15:34:00,608 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4355, 2.1010, 1.6345, 1.4428, 1.9697, 1.3060, 1.3580, 1.8910],
+       device='cuda:2'), covar=tensor([0.1146, 0.1001, 0.1159, 0.0944, 0.0543, 0.1468, 0.0853, 0.0547],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0321, 0.0346, 0.0276, 0.0253, 0.0349, 0.0292, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 15:34:02,333 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.33 vs. limit=2.0
+2023-04-03 15:34:16,542 INFO [train.py:903] (2/4) Epoch 30, batch 700, loss[loss=0.1869, simple_loss=0.2705, pruned_loss=0.05167, over 19767.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2821, pruned_loss=0.05912, over 3716583.22 frames. ], batch size: 54, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:35:18,679 INFO [train.py:903] (2/4) Epoch 30, batch 750, loss[loss=0.2449, simple_loss=0.3103, pruned_loss=0.08978, over 19591.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2821, pruned_loss=0.05917, over 3735463.91 frames. ], batch size: 52, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:35:51,148 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.284e+02 4.908e+02 5.891e+02 7.920e+02 1.978e+03, threshold=1.178e+03, percent-clipped=7.0
+2023-04-03 15:36:23,532 INFO [train.py:903] (2/4) Epoch 30, batch 800, loss[loss=0.1741, simple_loss=0.2619, pruned_loss=0.04321, over 19773.00 frames. ], tot_loss[loss=0.1989, simple_loss=0.281, pruned_loss=0.0584, over 3771855.88 frames. ], batch size: 54, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:36:27,288 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=198814.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:36:39,870 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1 from training. Duration: 0.9681875
+2023-04-03 15:36:56,815 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=198839.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:37:25,165 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=198861.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:37:26,183 INFO [train.py:903] (2/4) Epoch 30, batch 850, loss[loss=0.1809, simple_loss=0.2698, pruned_loss=0.04594, over 19762.00 frames. ], tot_loss[loss=0.1994, simple_loss=0.2817, pruned_loss=0.05862, over 3766879.92 frames. ], batch size: 54, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:37:35,527 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=198870.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:37:55,569 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.084e+02 4.755e+02 5.781e+02 7.125e+02 1.514e+03, threshold=1.156e+03, percent-clipped=6.0
+2023-04-03 15:38:13,702 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=198901.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:38:20,318 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9_rvb from training. Duration: 25.061125
+2023-04-03 15:38:26,177 INFO [train.py:903] (2/4) Epoch 30, batch 900, loss[loss=0.1943, simple_loss=0.2789, pruned_loss=0.05487, over 19594.00 frames. ], tot_loss[loss=0.1995, simple_loss=0.2814, pruned_loss=0.05882, over 3789617.49 frames. ], batch size: 61, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:39:07,706 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=198945.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:39:27,833 INFO [train.py:903] (2/4) Epoch 30, batch 950, loss[loss=0.2279, simple_loss=0.3132, pruned_loss=0.07128, over 18191.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2821, pruned_loss=0.05881, over 3794412.37 frames. ], batch size: 83, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:39:32,350 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9_rvb from training. Duration: 26.32775
+2023-04-03 15:39:47,090 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=198976.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:39:48,122 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=198977.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:39:59,676 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.142e+02 5.052e+02 6.305e+02 7.870e+02 1.588e+03, threshold=1.261e+03, percent-clipped=4.0
+2023-04-03 15:40:30,254 INFO [train.py:903] (2/4) Epoch 30, batch 1000, loss[loss=0.2227, simple_loss=0.291, pruned_loss=0.07724, over 19613.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2823, pruned_loss=0.05928, over 3792655.20 frames. ], batch size: 50, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:40:34,412 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.76 vs. limit=2.0
+2023-04-03 15:41:23,980 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0026-44402_sp0.9 from training. Duration: 25.061125
+2023-04-03 15:41:33,186 INFO [train.py:903] (2/4) Epoch 30, batch 1050, loss[loss=0.1695, simple_loss=0.2492, pruned_loss=0.04492, over 19752.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2829, pruned_loss=0.05972, over 3793533.63 frames. ], batch size: 47, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:42:03,436 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.270e+02 4.631e+02 5.961e+02 7.864e+02 1.953e+03, threshold=1.192e+03, percent-clipped=2.0
+2023-04-03 15:42:04,614 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1 from training. Duration: 0.7545625
+2023-04-03 15:42:11,036 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=199092.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:42:35,185 INFO [train.py:903] (2/4) Epoch 30, batch 1100, loss[loss=0.1684, simple_loss=0.248, pruned_loss=0.04443, over 19363.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2826, pruned_loss=0.05975, over 3796622.81 frames. ], batch size: 47, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:43:38,430 INFO [train.py:903] (2/4) Epoch 30, batch 1150, loss[loss=0.1598, simple_loss=0.2399, pruned_loss=0.03989, over 19746.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.283, pruned_loss=0.05982, over 3788261.63 frames. ], batch size: 46, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:44:10,292 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.218e+02 5.110e+02 5.915e+02 7.639e+02 1.372e+03, threshold=1.183e+03, percent-clipped=6.0
+2023-04-03 15:44:18,790 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=199194.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:44:28,835 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5979, 2.2962, 1.8148, 1.6150, 2.1179, 1.5111, 1.4580, 2.0874],
+       device='cuda:2'), covar=tensor([0.1092, 0.0864, 0.1069, 0.0914, 0.0624, 0.1334, 0.0792, 0.0517],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0319, 0.0343, 0.0274, 0.0252, 0.0346, 0.0290, 0.0274],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 15:44:41,424 INFO [train.py:903] (2/4) Epoch 30, batch 1200, loss[loss=0.1867, simple_loss=0.2712, pruned_loss=0.05111, over 19747.00 frames. ], tot_loss[loss=0.2013, simple_loss=0.2829, pruned_loss=0.05988, over 3796975.81 frames. ], batch size: 51, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:44:43,968 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=199214.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:45:06,854 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=199232.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:45:14,403 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983 from training. Duration: 0.83
+2023-04-03 15:45:22,169 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=199245.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:45:38,727 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=199257.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:45:44,962 INFO [train.py:903] (2/4) Epoch 30, batch 1250, loss[loss=0.2113, simple_loss=0.2966, pruned_loss=0.06303, over 19603.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2834, pruned_loss=0.0601, over 3782221.92 frames. ], batch size: 61, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:45:54,333 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7749, 4.3348, 2.7845, 3.7843, 0.9792, 4.3551, 4.1795, 4.3043],
+       device='cuda:2'), covar=tensor([0.0585, 0.0933, 0.1790, 0.0838, 0.3857, 0.0636, 0.0955, 0.1139],
+       device='cuda:2'), in_proj_covar=tensor([0.0534, 0.0432, 0.0520, 0.0359, 0.0408, 0.0459, 0.0453, 0.0488],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 15:46:14,640 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.608e+02 5.004e+02 5.991e+02 7.632e+02 1.398e+03, threshold=1.198e+03, percent-clipped=2.0
+2023-04-03 15:46:17,137 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=199289.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:46:46,510 INFO [train.py:903] (2/4) Epoch 30, batch 1300, loss[loss=0.2189, simple_loss=0.3021, pruned_loss=0.06788, over 19311.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2827, pruned_loss=0.05985, over 3803725.69 frames. ], batch size: 66, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:47:07,616 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=199329.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:47:32,057 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=199348.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:47:46,101 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=199360.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:47:47,892 INFO [train.py:903] (2/4) Epoch 30, batch 1350, loss[loss=0.2308, simple_loss=0.3226, pruned_loss=0.0695, over 19676.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2824, pruned_loss=0.05979, over 3803096.38 frames. ], batch size: 60, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:48:03,209 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=199373.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:48:20,886 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.443e+02 4.672e+02 5.739e+02 7.239e+02 1.592e+03, threshold=1.148e+03, percent-clipped=7.0
+2023-04-03 15:48:40,978 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=199404.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:48:50,926 INFO [train.py:903] (2/4) Epoch 30, batch 1400, loss[loss=0.1857, simple_loss=0.2744, pruned_loss=0.04849, over 18478.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2822, pruned_loss=0.0597, over 3798372.19 frames. ], batch size: 84, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:48:58,972 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=199418.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:49:03,143 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.41 vs. limit=2.0
+2023-04-03 15:49:53,473 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.48 vs. limit=5.0
+2023-04-03 15:49:55,031 INFO [train.py:903] (2/4) Epoch 30, batch 1450, loss[loss=0.2428, simple_loss=0.3176, pruned_loss=0.08402, over 19383.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2826, pruned_loss=0.05988, over 3803256.87 frames. ], batch size: 70, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:49:56,190 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_rvb from training. Duration: 25.85
+2023-04-03 15:50:11,576 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=199476.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:50:25,540 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.487e+02 5.040e+02 6.121e+02 7.927e+02 1.972e+03, threshold=1.224e+03, percent-clipped=6.0
+2023-04-03 15:50:56,163 INFO [train.py:903] (2/4) Epoch 30, batch 1500, loss[loss=0.1883, simple_loss=0.2698, pruned_loss=0.05341, over 19617.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2835, pruned_loss=0.06051, over 3794817.28 frames. ], batch size: 50, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:50:56,437 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=199512.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 15:51:28,292 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=199538.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:51:46,271 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9282, 1.5356, 1.5958, 1.5824, 3.5573, 1.2148, 2.3865, 3.9594],
+       device='cuda:2'), covar=tensor([0.0462, 0.2742, 0.2900, 0.1978, 0.0654, 0.2623, 0.1455, 0.0221],
+       device='cuda:2'), in_proj_covar=tensor([0.0427, 0.0383, 0.0403, 0.0356, 0.0388, 0.0362, 0.0403, 0.0424],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 15:51:47,418 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=199553.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 15:51:58,250 INFO [train.py:903] (2/4) Epoch 30, batch 1550, loss[loss=0.2249, simple_loss=0.3056, pruned_loss=0.07214, over 19528.00 frames. ], tot_loss[loss=0.2032, simple_loss=0.2845, pruned_loss=0.06092, over 3797499.97 frames. ], batch size: 54, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:52:28,271 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=199585.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:52:31,299 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.284e+02 4.717e+02 5.804e+02 6.903e+02 1.639e+03, threshold=1.161e+03, percent-clipped=1.0
+2023-04-03 15:52:45,777 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1834, 2.8180, 2.1739, 2.2582, 1.9289, 2.4020, 1.1283, 2.0239],
+       device='cuda:2'), covar=tensor([0.0792, 0.0706, 0.0872, 0.1356, 0.1393, 0.1332, 0.1652, 0.1272],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0364, 0.0370, 0.0395, 0.0472, 0.0398, 0.0347, 0.0348],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 15:52:59,363 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=199610.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:53:01,357 INFO [train.py:903] (2/4) Epoch 30, batch 1600, loss[loss=0.1632, simple_loss=0.2462, pruned_loss=0.04008, over 19739.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2832, pruned_loss=0.06005, over 3803425.14 frames. ], batch size: 46, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:53:06,428 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=199616.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:53:26,407 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9_rvb from training. Duration: 30.1555625
+2023-04-03 15:53:37,688 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=199641.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:53:53,196 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=199653.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:54:01,284 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=199660.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:54:03,852 INFO [train.py:903] (2/4) Epoch 30, batch 1650, loss[loss=0.2372, simple_loss=0.3111, pruned_loss=0.08159, over 19354.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.282, pruned_loss=0.05948, over 3816254.73 frames. ], batch size: 70, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:54:32,758 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=199685.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:54:35,821 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.122e+02 4.724e+02 5.858e+02 7.730e+02 3.208e+03, threshold=1.172e+03, percent-clipped=5.0
+2023-04-03 15:55:06,073 INFO [train.py:903] (2/4) Epoch 30, batch 1700, loss[loss=0.175, simple_loss=0.262, pruned_loss=0.04401, over 19770.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2818, pruned_loss=0.05901, over 3804111.32 frames. ], batch size: 54, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 15:55:24,093 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.2642, 1.3230, 1.2226, 1.0544, 1.1230, 1.0754, 0.0943, 0.4747],
+       device='cuda:2'), covar=tensor([0.0780, 0.0718, 0.0549, 0.0700, 0.1439, 0.0798, 0.1491, 0.1278],
+       device='cuda:2'), in_proj_covar=tensor([0.0371, 0.0366, 0.0373, 0.0398, 0.0476, 0.0402, 0.0350, 0.0351],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 15:55:40,547 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.68 vs. limit=2.0
+2023-04-03 15:55:46,477 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590 from training. Duration: 25.85
+2023-04-03 15:56:09,061 INFO [train.py:903] (2/4) Epoch 30, batch 1750, loss[loss=0.1753, simple_loss=0.2605, pruned_loss=0.04506, over 19683.00 frames. ], tot_loss[loss=0.1991, simple_loss=0.281, pruned_loss=0.05859, over 3820988.47 frames. ], batch size: 53, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:56:09,243 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=199762.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:56:42,925 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.076e+02 4.893e+02 6.270e+02 7.375e+02 1.627e+03, threshold=1.254e+03, percent-clipped=1.0
+2023-04-03 15:57:00,416 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3629, 3.8173, 3.9334, 3.9499, 1.5241, 3.7403, 3.2724, 3.6923],
+       device='cuda:2'), covar=tensor([0.1750, 0.1072, 0.0718, 0.0836, 0.6383, 0.1131, 0.0787, 0.1218],
+       device='cuda:2'), in_proj_covar=tensor([0.0829, 0.0803, 0.1015, 0.0891, 0.0877, 0.0776, 0.0600, 0.0943],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 15:57:11,428 INFO [train.py:903] (2/4) Epoch 30, batch 1800, loss[loss=0.1886, simple_loss=0.2747, pruned_loss=0.05132, over 19664.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.2811, pruned_loss=0.05877, over 3809815.25 frames. ], batch size: 58, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:57:21,129 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=199820.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:58:06,475 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=199856.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 15:58:08,440 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9_rvb from training. Duration: 25.0944375
+2023-04-03 15:58:13,035 INFO [train.py:903] (2/4) Epoch 30, batch 1850, loss[loss=0.1784, simple_loss=0.2611, pruned_loss=0.04786, over 19480.00 frames. ], tot_loss[loss=0.1991, simple_loss=0.281, pruned_loss=0.05858, over 3804097.41 frames. ], batch size: 49, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:58:15,386 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9185, 4.3769, 4.6367, 4.6265, 1.8198, 4.3586, 3.7855, 4.3514],
+       device='cuda:2'), covar=tensor([0.1692, 0.1032, 0.0630, 0.0696, 0.6203, 0.1172, 0.0728, 0.1123],
+       device='cuda:2'), in_proj_covar=tensor([0.0831, 0.0806, 0.1020, 0.0894, 0.0881, 0.0779, 0.0603, 0.0948],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 15:58:32,561 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=199877.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:58:46,820 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.213e+02 5.043e+02 6.338e+02 8.325e+02 2.069e+03, threshold=1.268e+03, percent-clipped=7.0
+2023-04-03 15:58:46,872 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_sp0.9_rvb from training. Duration: 27.8166875
+2023-04-03 15:58:57,090 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=199897.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 15:59:12,883 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=199909.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:59:15,989 INFO [train.py:903] (2/4) Epoch 30, batch 1900, loss[loss=0.174, simple_loss=0.2627, pruned_loss=0.04267, over 19604.00 frames. ], tot_loss[loss=0.1989, simple_loss=0.2805, pruned_loss=0.05862, over 3820641.50 frames. ], batch size: 52, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 15:59:33,272 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9 from training. Duration: 29.816625
+2023-04-03 15:59:33,576 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=199927.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:59:38,042 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9_rvb from training. Duration: 27.02225
+2023-04-03 15:59:42,764 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=199934.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 15:59:43,851 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=199935.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:00:03,962 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9 from training. Duration: 0.92225
+2023-04-03 16:00:17,079 INFO [train.py:903] (2/4) Epoch 30, batch 1950, loss[loss=0.2086, simple_loss=0.288, pruned_loss=0.06465, over 19729.00 frames. ], tot_loss[loss=0.1983, simple_loss=0.2801, pruned_loss=0.05823, over 3812841.00 frames. ], batch size: 51, lr: 2.74e-03, grad_scale: 4.0
+2023-04-03 16:00:29,632 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=199971.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 16:00:51,087 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.452e+02 5.211e+02 6.525e+02 7.685e+02 1.771e+03, threshold=1.305e+03, percent-clipped=2.0
+2023-04-03 16:01:21,188 INFO [train.py:903] (2/4) Epoch 30, batch 2000, loss[loss=0.1665, simple_loss=0.2424, pruned_loss=0.04527, over 19757.00 frames. ], tot_loss[loss=0.1981, simple_loss=0.2804, pruned_loss=0.05788, over 3810087.91 frames. ], batch size: 46, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 16:01:22,689 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=200012.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 16:02:21,496 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_rvb from training. Duration: 26.8349375
+2023-04-03 16:02:23,758 INFO [train.py:903] (2/4) Epoch 30, batch 2050, loss[loss=0.1886, simple_loss=0.2582, pruned_loss=0.05953, over 19744.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2819, pruned_loss=0.05898, over 3820882.78 frames. ], batch size: 45, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 16:02:43,246 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1 from training. Duration: 0.95
+2023-04-03 16:02:43,278 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp1.1 from training. Duration: 27.0318125
+2023-04-03 16:02:50,510 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3765, 2.3491, 2.7127, 3.0975, 2.3331, 2.8876, 2.6775, 2.4861],
+       device='cuda:2'), covar=tensor([0.4420, 0.4446, 0.1964, 0.2769, 0.4783, 0.2540, 0.5036, 0.3539],
+       device='cuda:2'), in_proj_covar=tensor([0.0947, 0.1032, 0.0750, 0.0959, 0.0926, 0.0866, 0.0867, 0.0815],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 16:02:57,798 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.348e+02 4.986e+02 6.252e+02 8.206e+02 1.738e+03, threshold=1.250e+03, percent-clipped=4.0
+2023-04-03 16:03:03,577 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1 from training. Duration: 0.836375
+2023-04-03 16:03:11,191 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.34 vs. limit=5.0
+2023-04-03 16:03:26,460 INFO [train.py:903] (2/4) Epoch 30, batch 2100, loss[loss=0.2101, simple_loss=0.288, pruned_loss=0.06608, over 19521.00 frames. ], tot_loss[loss=0.1994, simple_loss=0.2811, pruned_loss=0.05885, over 3818132.18 frames. ], batch size: 54, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 16:03:52,972 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=200133.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:03:57,203 WARNING [train.py:1073] (2/4) Exclude cut with ID 453-131332-0000-131866_sp0.9_rvb from training. Duration: 25.3333125
+2023-04-03 16:04:18,962 WARNING [train.py:1073] (2/4) Exclude cut with ID 7699-105389-0094-102071_sp0.9_rvb from training. Duration: 26.6166875
+2023-04-03 16:04:24,922 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=200158.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:04:29,062 INFO [train.py:903] (2/4) Epoch 30, batch 2150, loss[loss=0.2335, simple_loss=0.3055, pruned_loss=0.08072, over 12901.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2816, pruned_loss=0.05926, over 3792743.28 frames. ], batch size: 135, lr: 2.74e-03, grad_scale: 8.0
+2023-04-03 16:05:02,779 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.654e+02 4.819e+02 5.957e+02 8.119e+02 2.108e+03, threshold=1.191e+03, percent-clipped=2.0
+2023-04-03 16:05:05,537 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=200191.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:05:10,723 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=200195.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 16:05:30,906 INFO [train.py:903] (2/4) Epoch 30, batch 2200, loss[loss=0.1608, simple_loss=0.2354, pruned_loss=0.04306, over 18682.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2813, pruned_loss=0.05945, over 3797976.52 frames. ], batch size: 41, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:05:37,218 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=200216.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:05:39,454 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9553, 4.4313, 4.6966, 4.6912, 1.7656, 4.3993, 3.8220, 4.4200],
+       device='cuda:2'), covar=tensor([0.1777, 0.0869, 0.0640, 0.0712, 0.6306, 0.0986, 0.0710, 0.1137],
+       device='cuda:2'), in_proj_covar=tensor([0.0824, 0.0798, 0.1011, 0.0885, 0.0872, 0.0772, 0.0597, 0.0936],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 16:05:50,127 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=200227.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 16:06:20,843 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=200252.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 16:06:33,034 INFO [train.py:903] (2/4) Epoch 30, batch 2250, loss[loss=0.2023, simple_loss=0.2869, pruned_loss=0.05884, over 19472.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2816, pruned_loss=0.05976, over 3806911.12 frames. ], batch size: 64, lr: 2.73e-03, grad_scale: 4.0
+2023-04-03 16:06:41,201 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=200268.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 16:06:44,368 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=200271.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:07:08,303 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.532e+02 5.298e+02 6.530e+02 8.599e+02 1.543e+03, threshold=1.306e+03, percent-clipped=6.0
+2023-04-03 16:07:12,109 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=200293.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 16:07:17,566 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=200297.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:07:35,304 INFO [train.py:903] (2/4) Epoch 30, batch 2300, loss[loss=0.1743, simple_loss=0.2643, pruned_loss=0.04214, over 19528.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.2826, pruned_loss=0.06015, over 3817016.90 frames. ], batch size: 54, lr: 2.73e-03, grad_scale: 4.0
+2023-04-03 16:07:51,115 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_rvb from training. Duration: 26.205
+2023-04-03 16:08:18,938 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
+2023-04-03 16:08:37,756 INFO [train.py:903] (2/4) Epoch 30, batch 2350, loss[loss=0.1932, simple_loss=0.2812, pruned_loss=0.05262, over 19685.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2834, pruned_loss=0.06053, over 3810722.84 frames. ], batch size: 60, lr: 2.73e-03, grad_scale: 4.0
+2023-04-03 16:08:47,325 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.47 vs. limit=5.0
+2023-04-03 16:09:07,684 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=200386.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:09:12,865 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.379e+02 4.836e+02 5.833e+02 7.163e+02 1.475e+03, threshold=1.167e+03, percent-clipped=1.0
+2023-04-03 16:09:21,106 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_rvb from training. Duration: 25.775
+2023-04-03 16:09:34,069 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.6694, 1.3843, 1.5755, 1.4340, 3.2298, 1.1250, 2.4041, 3.6586],
+       device='cuda:2'), covar=tensor([0.0492, 0.2918, 0.3069, 0.2089, 0.0724, 0.2681, 0.1375, 0.0265],
+       device='cuda:2'), in_proj_covar=tensor([0.0426, 0.0383, 0.0404, 0.0356, 0.0386, 0.0361, 0.0402, 0.0423],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:09:38,150 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9_rvb from training. Duration: 25.45
+2023-04-03 16:09:40,564 INFO [train.py:903] (2/4) Epoch 30, batch 2400, loss[loss=0.1842, simple_loss=0.2789, pruned_loss=0.04473, over 19657.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2828, pruned_loss=0.06029, over 3801319.42 frames. ], batch size: 58, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:10:24,209 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.9363, 1.4519, 1.6881, 1.4537, 3.5206, 1.2462, 2.5109, 3.9666],
+       device='cuda:2'), covar=tensor([0.0469, 0.2873, 0.2885, 0.2123, 0.0677, 0.2593, 0.1439, 0.0213],
+       device='cuda:2'), in_proj_covar=tensor([0.0427, 0.0383, 0.0403, 0.0356, 0.0386, 0.0361, 0.0402, 0.0423],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:10:43,362 INFO [train.py:903] (2/4) Epoch 30, batch 2450, loss[loss=0.1787, simple_loss=0.2671, pruned_loss=0.04516, over 19672.00 frames. ], tot_loss[loss=0.2007, simple_loss=0.2822, pruned_loss=0.05963, over 3809664.88 frames. ], batch size: 53, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:11:19,107 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.119e+02 5.121e+02 5.946e+02 7.814e+02 2.121e+03, threshold=1.189e+03, percent-clipped=7.0
+2023-04-03 16:11:27,565 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3012, 3.8153, 3.9371, 3.9357, 1.5674, 3.7615, 3.2582, 3.6951],
+       device='cuda:2'), covar=tensor([0.1761, 0.1013, 0.0703, 0.0864, 0.6148, 0.1130, 0.0822, 0.1237],
+       device='cuda:2'), in_proj_covar=tensor([0.0819, 0.0795, 0.1006, 0.0883, 0.0868, 0.0770, 0.0593, 0.0935],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 16:11:46,476 INFO [train.py:903] (2/4) Epoch 30, batch 2500, loss[loss=0.1859, simple_loss=0.2679, pruned_loss=0.05196, over 19467.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2819, pruned_loss=0.05946, over 3803896.71 frames. ], batch size: 49, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:12:20,493 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=200539.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 16:12:48,794 INFO [train.py:903] (2/4) Epoch 30, batch 2550, loss[loss=0.2009, simple_loss=0.2909, pruned_loss=0.05547, over 19779.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2829, pruned_loss=0.0597, over 3815871.26 frames. ], batch size: 56, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:13:23,055 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.619e+02 4.923e+02 6.163e+02 7.973e+02 2.573e+03, threshold=1.233e+03, percent-clipped=12.0
+2023-04-03 16:13:41,800 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0794, 3.7398, 2.6108, 3.3290, 1.0136, 3.6831, 3.6180, 3.6288],
+       device='cuda:2'), covar=tensor([0.0738, 0.1046, 0.1884, 0.0946, 0.3660, 0.0751, 0.0988, 0.1164],
+       device='cuda:2'), in_proj_covar=tensor([0.0533, 0.0431, 0.0517, 0.0358, 0.0409, 0.0458, 0.0449, 0.0487],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:13:47,181 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9 from training. Duration: 25.988875
+2023-04-03 16:13:51,619 INFO [train.py:903] (2/4) Epoch 30, batch 2600, loss[loss=0.2127, simple_loss=0.2938, pruned_loss=0.06583, over 19479.00 frames. ], tot_loss[loss=0.1995, simple_loss=0.2812, pruned_loss=0.05886, over 3823184.30 frames. ], batch size: 64, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:14:28,356 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=200641.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:14:29,747 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=200642.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:14:44,531 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=200654.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 16:14:54,165 INFO [train.py:903] (2/4) Epoch 30, batch 2650, loss[loss=0.1871, simple_loss=0.2663, pruned_loss=0.05394, over 19800.00 frames. ], tot_loss[loss=0.1989, simple_loss=0.2809, pruned_loss=0.05852, over 3825078.85 frames. ], batch size: 49, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:14:55,550 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=200663.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:15:00,435 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=200667.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:15:12,727 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.9857, 1.8285, 2.0743, 1.8219, 4.4836, 1.3054, 2.6739, 4.9002],
+       device='cuda:2'), covar=tensor([0.0430, 0.2737, 0.2596, 0.1942, 0.0719, 0.2589, 0.1488, 0.0156],
+       device='cuda:2'), in_proj_covar=tensor([0.0425, 0.0382, 0.0402, 0.0355, 0.0386, 0.0361, 0.0402, 0.0422],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:15:15,805 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9_rvb from training. Duration: 27.25
+2023-04-03 16:15:28,266 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.276e+02 4.881e+02 6.412e+02 8.116e+02 1.737e+03, threshold=1.282e+03, percent-clipped=7.0
+2023-04-03 16:15:55,158 INFO [train.py:903] (2/4) Epoch 30, batch 2700, loss[loss=0.1842, simple_loss=0.2654, pruned_loss=0.05148, over 19872.00 frames. ], tot_loss[loss=0.199, simple_loss=0.2808, pruned_loss=0.05865, over 3821183.82 frames. ], batch size: 52, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:16:34,930 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-03 16:16:51,805 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=200756.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:16:59,614 INFO [train.py:903] (2/4) Epoch 30, batch 2750, loss[loss=0.1827, simple_loss=0.2596, pruned_loss=0.0529, over 19737.00 frames. ], tot_loss[loss=0.1979, simple_loss=0.2798, pruned_loss=0.05797, over 3820622.60 frames. ], batch size: 46, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:17:34,086 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.266e+02 4.594e+02 5.767e+02 6.844e+02 1.269e+03, threshold=1.153e+03, percent-clipped=0.0
+2023-04-03 16:18:02,575 INFO [train.py:903] (2/4) Epoch 30, batch 2800, loss[loss=0.184, simple_loss=0.2621, pruned_loss=0.05298, over 19412.00 frames. ], tot_loss[loss=0.1982, simple_loss=0.2803, pruned_loss=0.05807, over 3828352.34 frames. ], batch size: 48, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:19:05,168 INFO [train.py:903] (2/4) Epoch 30, batch 2850, loss[loss=0.1783, simple_loss=0.2653, pruned_loss=0.04562, over 19670.00 frames. ], tot_loss[loss=0.1989, simple_loss=0.2808, pruned_loss=0.05855, over 3821738.91 frames. ], batch size: 53, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:19:39,289 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.089e+02 4.865e+02 5.683e+02 7.765e+02 1.857e+03, threshold=1.137e+03, percent-clipped=6.0
+2023-04-03 16:20:04,719 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=200910.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 16:20:06,535 INFO [train.py:903] (2/4) Epoch 30, batch 2900, loss[loss=0.2104, simple_loss=0.2869, pruned_loss=0.06693, over 19598.00 frames. ], tot_loss[loss=0.1994, simple_loss=0.2812, pruned_loss=0.05879, over 3819018.11 frames. ], batch size: 52, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:20:07,770 WARNING [train.py:1073] (2/4) Exclude cut with ID 8631-249866-0030-64025_sp0.9 from training. Duration: 26.32775
+2023-04-03 16:20:36,333 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=200935.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 16:21:00,112 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3548, 2.0261, 1.6023, 1.3741, 1.8520, 1.3352, 1.2751, 1.8670],
+       device='cuda:2'), covar=tensor([0.0992, 0.0875, 0.1145, 0.0951, 0.0598, 0.1392, 0.0781, 0.0488],
+       device='cuda:2'), in_proj_covar=tensor([0.0305, 0.0321, 0.0345, 0.0277, 0.0255, 0.0350, 0.0291, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:21:08,765 INFO [train.py:903] (2/4) Epoch 30, batch 2950, loss[loss=0.2047, simple_loss=0.2958, pruned_loss=0.05674, over 19564.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.281, pruned_loss=0.05869, over 3821370.01 frames. ], batch size: 61, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:21:44,100 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.449e+02 4.844e+02 6.179e+02 7.399e+02 1.416e+03, threshold=1.236e+03, percent-clipped=4.0
+2023-04-03 16:22:06,367 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=201007.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:22:11,911 INFO [train.py:903] (2/4) Epoch 30, batch 3000, loss[loss=0.1718, simple_loss=0.2558, pruned_loss=0.04387, over 19729.00 frames. ], tot_loss[loss=0.1996, simple_loss=0.2813, pruned_loss=0.05896, over 3808287.74 frames. ], batch size: 51, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:22:11,912 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 16:22:26,196 INFO [train.py:937] (2/4) Epoch 30, validation: loss=0.1666, simple_loss=0.266, pruned_loss=0.03357, over 944034.00 frames. 
+2023-04-03 16:22:26,198 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 16:22:26,684 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=201012.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:22:32,383 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_rvb from training. Duration: 29.735
+2023-04-03 16:22:57,375 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=201037.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:23:27,830 INFO [train.py:903] (2/4) Epoch 30, batch 3050, loss[loss=0.1913, simple_loss=0.2808, pruned_loss=0.0509, over 19655.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2817, pruned_loss=0.05923, over 3809209.33 frames. ], batch size: 58, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:23:57,942 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([0.9446, 1.3404, 1.7366, 0.6170, 2.0862, 2.4820, 2.2065, 2.6023],
+       device='cuda:2'), covar=tensor([0.1633, 0.3860, 0.3283, 0.2881, 0.0635, 0.0300, 0.0351, 0.0440],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0335, 0.0367, 0.0274, 0.0257, 0.0200, 0.0222, 0.0281],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 16:24:02,298 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=201089.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:24:03,231 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.915e+02 4.896e+02 5.871e+02 7.483e+02 2.064e+03, threshold=1.174e+03, percent-clipped=5.0
+2023-04-03 16:24:32,129 INFO [train.py:903] (2/4) Epoch 30, batch 3100, loss[loss=0.2015, simple_loss=0.2851, pruned_loss=0.05892, over 19554.00 frames. ], tot_loss[loss=0.199, simple_loss=0.2806, pruned_loss=0.0587, over 3802428.14 frames. ], batch size: 61, lr: 2.73e-03, grad_scale: 4.0
+2023-04-03 16:24:43,664 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=201122.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:25:03,520 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.82 vs. limit=2.0
+2023-04-03 16:25:33,516 INFO [train.py:903] (2/4) Epoch 30, batch 3150, loss[loss=0.164, simple_loss=0.2377, pruned_loss=0.04514, over 19334.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2813, pruned_loss=0.05938, over 3798348.70 frames. ], batch size: 47, lr: 2.73e-03, grad_scale: 4.0
+2023-04-03 16:26:02,516 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1 from training. Duration: 25.3818125
+2023-04-03 16:26:10,329 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.152e+02 4.625e+02 5.752e+02 7.402e+02 1.953e+03, threshold=1.150e+03, percent-clipped=5.0
+2023-04-03 16:26:16,507 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.5238, 2.4693, 2.2309, 2.5266, 2.3730, 2.0367, 2.0295, 2.4537],
+       device='cuda:2'), covar=tensor([0.0952, 0.1493, 0.1360, 0.1035, 0.1390, 0.0590, 0.1470, 0.0662],
+       device='cuda:2'), in_proj_covar=tensor([0.0280, 0.0358, 0.0319, 0.0258, 0.0309, 0.0260, 0.0324, 0.0263],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0004, 0.0003],
+       device='cuda:2')
+2023-04-03 16:26:35,936 INFO [train.py:903] (2/4) Epoch 30, batch 3200, loss[loss=0.2222, simple_loss=0.2993, pruned_loss=0.07256, over 17487.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.281, pruned_loss=0.05881, over 3807738.41 frames. ], batch size: 101, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:26:38,603 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0685, 1.5849, 1.8511, 2.8720, 2.0614, 2.0974, 2.2920, 1.8589],
+       device='cuda:2'), covar=tensor([0.0906, 0.1151, 0.1091, 0.0781, 0.0929, 0.0955, 0.0991, 0.0863],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0227, 0.0240, 0.0227, 0.0216, 0.0187, 0.0209],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 16:27:03,299 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.88 vs. limit=2.0
+2023-04-03 16:27:26,766 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5927, 1.7358, 2.0388, 1.8907, 3.1361, 2.6460, 3.3866, 1.7594],
+       device='cuda:2'), covar=tensor([0.2691, 0.4516, 0.2994, 0.2020, 0.1604, 0.2220, 0.1650, 0.4520],
+       device='cuda:2'), in_proj_covar=tensor([0.0557, 0.0679, 0.0766, 0.0514, 0.0637, 0.0549, 0.0672, 0.0580],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 16:27:40,090 INFO [train.py:903] (2/4) Epoch 30, batch 3250, loss[loss=0.1997, simple_loss=0.2878, pruned_loss=0.0558, over 19696.00 frames. ], tot_loss[loss=0.1989, simple_loss=0.2807, pruned_loss=0.05855, over 3816932.03 frames. ], batch size: 58, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:27:51,494 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=201271.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:28:14,883 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.466e+02 4.729e+02 5.856e+02 7.119e+02 1.424e+03, threshold=1.171e+03, percent-clipped=4.0
+2023-04-03 16:28:16,412 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=201292.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:28:42,756 INFO [train.py:903] (2/4) Epoch 30, batch 3300, loss[loss=0.1819, simple_loss=0.2684, pruned_loss=0.04765, over 19730.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2811, pruned_loss=0.05868, over 3819314.64 frames. ], batch size: 51, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:28:49,704 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465 from training. Duration: 26.8349375
+2023-04-03 16:28:51,261 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4024, 3.6771, 2.1413, 2.3279, 3.2777, 2.0250, 1.6092, 2.6477],
+       device='cuda:2'), covar=tensor([0.1298, 0.0532, 0.1151, 0.0889, 0.0476, 0.1254, 0.1033, 0.0577],
+       device='cuda:2'), in_proj_covar=tensor([0.0303, 0.0319, 0.0343, 0.0276, 0.0253, 0.0348, 0.0290, 0.0276],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:29:22,254 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-03 16:29:44,709 INFO [train.py:903] (2/4) Epoch 30, batch 3350, loss[loss=0.18, simple_loss=0.2756, pruned_loss=0.0422, over 18737.00 frames. ], tot_loss[loss=0.1985, simple_loss=0.2806, pruned_loss=0.0582, over 3827364.08 frames. ], batch size: 74, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:30:05,903 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=201378.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:30:21,786 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.184e+02 4.772e+02 5.759e+02 7.012e+02 1.305e+03, threshold=1.152e+03, percent-clipped=2.0
+2023-04-03 16:30:37,279 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=201403.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:30:48,355 INFO [train.py:903] (2/4) Epoch 30, batch 3400, loss[loss=0.1936, simple_loss=0.2693, pruned_loss=0.05893, over 19698.00 frames. ], tot_loss[loss=0.1985, simple_loss=0.2805, pruned_loss=0.05825, over 3826015.04 frames. ], batch size: 53, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:31:16,056 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=201433.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:31:51,795 INFO [train.py:903] (2/4) Epoch 30, batch 3450, loss[loss=0.2188, simple_loss=0.2997, pruned_loss=0.06893, over 17264.00 frames. ], tot_loss[loss=0.1975, simple_loss=0.2797, pruned_loss=0.05763, over 3829199.02 frames. ], batch size: 101, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:31:57,371 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9_rvb from training. Duration: 25.2444375
+2023-04-03 16:32:27,320 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.371e+02 5.269e+02 6.567e+02 8.372e+02 2.121e+03, threshold=1.313e+03, percent-clipped=9.0
+2023-04-03 16:32:29,864 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.2146, 2.8509, 2.3701, 2.2567, 2.0458, 2.5538, 1.0476, 2.1541],
+       device='cuda:2'), covar=tensor([0.0739, 0.0714, 0.0695, 0.1215, 0.1291, 0.1169, 0.1520, 0.1155],
+       device='cuda:2'), in_proj_covar=tensor([0.0369, 0.0366, 0.0371, 0.0396, 0.0474, 0.0401, 0.0349, 0.0352],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 16:32:55,662 INFO [train.py:903] (2/4) Epoch 30, batch 3500, loss[loss=0.2128, simple_loss=0.2989, pruned_loss=0.06338, over 17470.00 frames. ], tot_loss[loss=0.1979, simple_loss=0.2801, pruned_loss=0.05784, over 3817040.32 frames. ], batch size: 101, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:33:41,231 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=201548.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:33:58,204 INFO [train.py:903] (2/4) Epoch 30, batch 3550, loss[loss=0.2014, simple_loss=0.2877, pruned_loss=0.05752, over 19778.00 frames. ], tot_loss[loss=0.1985, simple_loss=0.2803, pruned_loss=0.05841, over 3808557.40 frames. ], batch size: 56, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:34:35,156 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.339e+02 4.645e+02 6.006e+02 7.208e+02 1.141e+03, threshold=1.201e+03, percent-clipped=0.0
+2023-04-03 16:34:37,087 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.38 vs. limit=2.0
+2023-04-03 16:35:01,953 INFO [train.py:903] (2/4) Epoch 30, batch 3600, loss[loss=0.1938, simple_loss=0.282, pruned_loss=0.05282, over 18211.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.2818, pruned_loss=0.05893, over 3816565.46 frames. ], batch size: 84, lr: 2.73e-03, grad_scale: 8.0
+2023-04-03 16:35:06,946 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=201615.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:35:14,942 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4748, 1.5335, 1.7113, 1.6733, 2.2314, 2.0951, 2.3784, 0.9690],
+       device='cuda:2'), covar=tensor([0.2468, 0.4381, 0.2736, 0.1948, 0.1579, 0.2290, 0.1396, 0.4888],
+       device='cuda:2'), in_proj_covar=tensor([0.0556, 0.0677, 0.0764, 0.0514, 0.0637, 0.0551, 0.0670, 0.0579],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 16:35:32,763 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=201636.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:36:04,974 INFO [train.py:903] (2/4) Epoch 30, batch 3650, loss[loss=0.2331, simple_loss=0.3085, pruned_loss=0.07881, over 17429.00 frames. ], tot_loss[loss=0.201, simple_loss=0.2826, pruned_loss=0.0597, over 3822710.25 frames. ], batch size: 102, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:36:05,318 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=201662.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:36:20,502 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.3371, 3.8526, 3.9708, 3.9770, 1.7349, 3.7944, 3.2566, 3.7430],
+       device='cuda:2'), covar=tensor([0.1683, 0.0937, 0.0737, 0.0790, 0.5781, 0.1035, 0.0827, 0.1156],
+       device='cuda:2'), in_proj_covar=tensor([0.0824, 0.0798, 0.1008, 0.0886, 0.0874, 0.0775, 0.0596, 0.0942],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 16:36:27,549 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=201679.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:36:42,040 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.871e+02 4.844e+02 5.974e+02 7.556e+02 1.962e+03, threshold=1.195e+03, percent-clipped=4.0
+2023-04-03 16:37:09,554 INFO [train.py:903] (2/4) Epoch 30, batch 3700, loss[loss=0.3025, simple_loss=0.3511, pruned_loss=0.127, over 13050.00 frames. ], tot_loss[loss=0.1997, simple_loss=0.2813, pruned_loss=0.05905, over 3821908.80 frames. ], batch size: 136, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:37:16,821 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.1586, 1.3130, 1.5782, 1.3900, 2.7692, 1.1822, 2.2608, 3.1381],
+       device='cuda:2'), covar=tensor([0.0531, 0.2825, 0.2780, 0.1906, 0.0738, 0.2314, 0.1114, 0.0306],
+       device='cuda:2'), in_proj_covar=tensor([0.0431, 0.0386, 0.0404, 0.0358, 0.0390, 0.0364, 0.0405, 0.0427],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:37:20,707 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-03 16:37:23,578 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=201724.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:37:31,425 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=201730.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:37:57,751 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=201751.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:38:11,314 INFO [train.py:903] (2/4) Epoch 30, batch 3750, loss[loss=0.1813, simple_loss=0.2626, pruned_loss=0.05005, over 19565.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2809, pruned_loss=0.05878, over 3830547.14 frames. ], batch size: 52, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:38:47,455 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.241e+02 4.921e+02 6.534e+02 8.381e+02 2.079e+03, threshold=1.307e+03, percent-clipped=7.0
+2023-04-03 16:39:04,399 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=201804.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:39:14,011 INFO [train.py:903] (2/4) Epoch 30, batch 3800, loss[loss=0.2098, simple_loss=0.2869, pruned_loss=0.0663, over 19589.00 frames. ], tot_loss[loss=0.1987, simple_loss=0.2804, pruned_loss=0.05848, over 3831879.38 frames. ], batch size: 52, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:39:35,692 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=201829.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:39:41,270 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914_sp0.9_rvb from training. Duration: 29.1166875
+2023-04-03 16:39:41,684 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3108, 2.1998, 2.1350, 2.0000, 1.8455, 1.9500, 0.8343, 1.3032],
+       device='cuda:2'), covar=tensor([0.0730, 0.0679, 0.0542, 0.0913, 0.1238, 0.1029, 0.1445, 0.1217],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0365, 0.0371, 0.0395, 0.0473, 0.0401, 0.0348, 0.0351],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 16:39:46,606 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.73 vs. limit=2.0
+2023-04-03 16:40:15,946 INFO [train.py:903] (2/4) Epoch 30, batch 3850, loss[loss=0.1919, simple_loss=0.2751, pruned_loss=0.05432, over 19082.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.2805, pruned_loss=0.059, over 3821041.04 frames. ], batch size: 69, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:40:51,663 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.891e+02 4.977e+02 6.719e+02 8.916e+02 2.147e+03, threshold=1.344e+03, percent-clipped=8.0
+2023-04-03 16:41:00,221 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6580, 1.7391, 2.0136, 1.9350, 1.4736, 1.9198, 1.9785, 1.8261],
+       device='cuda:2'), covar=tensor([0.4412, 0.3994, 0.2155, 0.2580, 0.4122, 0.2419, 0.5678, 0.3734],
+       device='cuda:2'), in_proj_covar=tensor([0.0956, 0.1039, 0.0757, 0.0966, 0.0934, 0.0873, 0.0872, 0.0821],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 16:41:18,277 INFO [train.py:903] (2/4) Epoch 30, batch 3900, loss[loss=0.2433, simple_loss=0.3175, pruned_loss=0.08451, over 13587.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2819, pruned_loss=0.05969, over 3825326.60 frames. ], batch size: 138, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:42:10,282 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3003, 2.3420, 2.6016, 3.0334, 2.3505, 3.0106, 2.4047, 2.2956],
+       device='cuda:2'), covar=tensor([0.4619, 0.4137, 0.2133, 0.2617, 0.4400, 0.2188, 0.5930, 0.3626],
+       device='cuda:2'), in_proj_covar=tensor([0.0956, 0.1039, 0.0756, 0.0965, 0.0932, 0.0874, 0.0872, 0.0821],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 16:42:20,923 INFO [train.py:903] (2/4) Epoch 30, batch 3950, loss[loss=0.1882, simple_loss=0.2785, pruned_loss=0.04898, over 19524.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.2808, pruned_loss=0.0589, over 3830657.15 frames. ], batch size: 54, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:42:20,976 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9 from training. Duration: 28.0944375
+2023-04-03 16:42:51,089 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=201986.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:42:56,914 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.990e+02 4.814e+02 5.725e+02 7.208e+02 1.816e+03, threshold=1.145e+03, percent-clipped=2.0
+2023-04-03 16:43:11,428 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.19 vs. limit=2.0
+2023-04-03 16:43:16,606 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=202006.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:43:18,103 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=202007.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:43:19,156 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=202008.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:43:23,700 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=202011.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:43:24,455 INFO [train.py:903] (2/4) Epoch 30, batch 4000, loss[loss=0.177, simple_loss=0.2603, pruned_loss=0.04682, over 19389.00 frames. ], tot_loss[loss=0.1994, simple_loss=0.2808, pruned_loss=0.05894, over 3840014.65 frames. ], batch size: 48, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:43:38,595 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=202023.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:43:42,230 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.3804, 1.9695, 1.5850, 1.3811, 1.7917, 1.3142, 1.2764, 1.8007],
+       device='cuda:2'), covar=tensor([0.0921, 0.0833, 0.1100, 0.0864, 0.0636, 0.1339, 0.0717, 0.0491],
+       device='cuda:2'), in_proj_covar=tensor([0.0304, 0.0322, 0.0345, 0.0277, 0.0255, 0.0350, 0.0292, 0.0277],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:43:47,508 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5841, 1.6366, 1.9555, 1.8622, 2.6404, 2.2842, 2.7973, 1.2235],
+       device='cuda:2'), covar=tensor([0.2704, 0.4736, 0.2976, 0.2112, 0.1719, 0.2465, 0.1677, 0.5107],
+       device='cuda:2'), in_proj_covar=tensor([0.0556, 0.0677, 0.0764, 0.0514, 0.0637, 0.0551, 0.0670, 0.0579],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 16:43:49,648 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=202032.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:44:08,199 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp1.1_rvb from training. Duration: 0.7545625
+2023-04-03 16:44:27,677 INFO [train.py:903] (2/4) Epoch 30, batch 4050, loss[loss=0.2081, simple_loss=0.2952, pruned_loss=0.06054, over 19382.00 frames. ], tot_loss[loss=0.1986, simple_loss=0.2803, pruned_loss=0.05847, over 3841083.39 frames. ], batch size: 70, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:44:34,768 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=202068.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:45:02,986 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.018e+02 4.674e+02 6.115e+02 7.260e+02 2.667e+03, threshold=1.223e+03, percent-clipped=7.0
+2023-04-03 16:45:30,406 INFO [train.py:903] (2/4) Epoch 30, batch 4100, loss[loss=0.2185, simple_loss=0.2983, pruned_loss=0.06932, over 19599.00 frames. ], tot_loss[loss=0.1983, simple_loss=0.2801, pruned_loss=0.05826, over 3855216.24 frames. ], batch size: 57, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:45:42,195 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=202121.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:45:47,983 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.1744, 5.1667, 6.0251, 6.0413, 2.0974, 5.7324, 4.7849, 5.7175],
+       device='cuda:2'), covar=tensor([0.1767, 0.0869, 0.0581, 0.0593, 0.6430, 0.0854, 0.0642, 0.1108],
+       device='cuda:2'), in_proj_covar=tensor([0.0826, 0.0803, 0.1014, 0.0893, 0.0877, 0.0777, 0.0600, 0.0944],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 16:45:48,423 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-03 16:46:03,035 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=202138.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:46:04,971 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1_rvb from training. Duration: 0.97725
+2023-04-03 16:46:32,899 INFO [train.py:903] (2/4) Epoch 30, batch 4150, loss[loss=0.2117, simple_loss=0.2968, pruned_loss=0.06329, over 19767.00 frames. ], tot_loss[loss=0.1986, simple_loss=0.2806, pruned_loss=0.05825, over 3852101.41 frames. ], batch size: 56, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:46:45,117 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.13 vs. limit=2.0
+2023-04-03 16:46:59,293 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=202183.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:47:08,855 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.767e+02 4.823e+02 5.653e+02 7.013e+02 1.196e+03, threshold=1.131e+03, percent-clipped=0.0
+2023-04-03 16:47:27,784 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0611, 5.0297, 5.8701, 5.8849, 2.1154, 5.5793, 4.6094, 5.5071],
+       device='cuda:2'), covar=tensor([0.1850, 0.1016, 0.0606, 0.0661, 0.6276, 0.0799, 0.0680, 0.1285],
+       device='cuda:2'), in_proj_covar=tensor([0.0829, 0.0805, 0.1015, 0.0894, 0.0878, 0.0778, 0.0601, 0.0947],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 16:47:34,528 INFO [train.py:903] (2/4) Epoch 30, batch 4200, loss[loss=0.1968, simple_loss=0.2856, pruned_loss=0.05399, over 19547.00 frames. ], tot_loss[loss=0.1982, simple_loss=0.2801, pruned_loss=0.05814, over 3848916.31 frames. ], batch size: 56, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:47:37,803 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9 from training. Duration: 26.438875
+2023-04-03 16:48:35,832 INFO [train.py:903] (2/4) Epoch 30, batch 4250, loss[loss=0.2067, simple_loss=0.2933, pruned_loss=0.05999, over 19507.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2818, pruned_loss=0.05942, over 3831981.54 frames. ], batch size: 64, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:48:52,010 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0003-9465_sp0.9_rvb from training. Duration: 29.816625
+2023-04-03 16:48:57,125 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.1984, 1.9067, 2.0183, 2.9427, 1.8960, 2.3962, 2.3768, 2.1748],
+       device='cuda:2'), covar=tensor([0.0769, 0.0870, 0.0913, 0.0672, 0.0919, 0.0752, 0.0880, 0.0657],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0223, 0.0228, 0.0240, 0.0227, 0.0216, 0.0187, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 16:49:03,287 WARNING [train.py:1073] (2/4) Exclude cut with ID 4964-30587-0040-138716_sp0.9 from training. Duration: 25.0944375
+2023-04-03 16:49:12,500 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.375e+02 5.334e+02 6.771e+02 9.277e+02 2.113e+03, threshold=1.354e+03, percent-clipped=7.0
+2023-04-03 16:49:38,448 INFO [train.py:903] (2/4) Epoch 30, batch 4300, loss[loss=0.1958, simple_loss=0.285, pruned_loss=0.05333, over 19504.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2809, pruned_loss=0.05877, over 3828703.04 frames. ], batch size: 64, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:50:28,706 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=202352.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:50:34,362 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9 from training. Duration: 33.038875
+2023-04-03 16:50:41,238 INFO [train.py:903] (2/4) Epoch 30, batch 4350, loss[loss=0.2251, simple_loss=0.3089, pruned_loss=0.07067, over 19655.00 frames. ], tot_loss[loss=0.1991, simple_loss=0.2808, pruned_loss=0.05868, over 3838418.38 frames. ], batch size: 53, lr: 2.72e-03, grad_scale: 4.0
+2023-04-03 16:50:59,702 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=202377.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:51:05,037 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.4277, 4.0263, 2.5611, 3.5298, 1.1340, 4.0091, 3.8918, 3.9593],
+       device='cuda:2'), covar=tensor([0.0665, 0.1044, 0.2117, 0.0996, 0.3748, 0.0714, 0.0998, 0.1171],
+       device='cuda:2'), in_proj_covar=tensor([0.0541, 0.0440, 0.0525, 0.0365, 0.0416, 0.0464, 0.0459, 0.0495],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 16:51:18,778 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.299e+02 4.712e+02 5.570e+02 7.585e+02 1.545e+03, threshold=1.114e+03, percent-clipped=3.0
+2023-04-03 16:51:21,659 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=202394.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:51:31,125 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=202402.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:51:43,047 INFO [train.py:903] (2/4) Epoch 30, batch 4400, loss[loss=0.2125, simple_loss=0.2975, pruned_loss=0.06371, over 19598.00 frames. ], tot_loss[loss=0.1996, simple_loss=0.2811, pruned_loss=0.05905, over 3847221.28 frames. ], batch size: 57, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:51:52,572 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=202419.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:52:08,212 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_rvb from training. Duration: 25.285
+2023-04-03 16:52:17,009 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0009-44385_sp0.9 from training. Duration: 27.02225
+2023-04-03 16:52:17,410 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=202439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:52:46,171 INFO [train.py:903] (2/4) Epoch 30, batch 4450, loss[loss=0.2007, simple_loss=0.2826, pruned_loss=0.05942, over 19316.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2815, pruned_loss=0.05942, over 3841777.26 frames. ], batch size: 66, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:52:48,952 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=202464.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:52:52,449 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=202467.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:52:58,714 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.54 vs. limit=5.0
+2023-04-03 16:53:23,819 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.801e+02 4.882e+02 5.921e+02 7.342e+02 1.295e+03, threshold=1.184e+03, percent-clipped=2.0
+2023-04-03 16:53:39,171 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4624, 1.4842, 1.7520, 1.6894, 2.6279, 2.2173, 2.8877, 1.2304],
+       device='cuda:2'), covar=tensor([0.2685, 0.4804, 0.2977, 0.2108, 0.1632, 0.2402, 0.1488, 0.4963],
+       device='cuda:2'), in_proj_covar=tensor([0.0561, 0.0682, 0.0769, 0.0519, 0.0640, 0.0555, 0.0673, 0.0583],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 16:53:48,733 INFO [train.py:903] (2/4) Epoch 30, batch 4500, loss[loss=0.2069, simple_loss=0.2903, pruned_loss=0.06177, over 19424.00 frames. ], tot_loss[loss=0.1996, simple_loss=0.2808, pruned_loss=0.05917, over 3842815.08 frames. ], batch size: 70, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:54:50,692 INFO [train.py:903] (2/4) Epoch 30, batch 4550, loss[loss=0.2319, simple_loss=0.3092, pruned_loss=0.07731, over 17278.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2813, pruned_loss=0.05927, over 3845076.49 frames. ], batch size: 101, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:55:01,223 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9_rvb from training. Duration: 28.72225
+2023-04-03 16:55:25,946 WARNING [train.py:1073] (2/4) Exclude cut with ID 4278-13270-0009-62705_sp0.9 from training. Duration: 25.45
+2023-04-03 16:55:27,103 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.113e+02 5.006e+02 6.254e+02 8.173e+02 1.576e+03, threshold=1.251e+03, percent-clipped=3.0
+2023-04-03 16:55:52,915 INFO [train.py:903] (2/4) Epoch 30, batch 4600, loss[loss=0.209, simple_loss=0.2885, pruned_loss=0.06472, over 19687.00 frames. ], tot_loss[loss=0.2021, simple_loss=0.2835, pruned_loss=0.0604, over 3843390.62 frames. ], batch size: 53, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:56:54,624 INFO [train.py:903] (2/4) Epoch 30, batch 4650, loss[loss=0.1768, simple_loss=0.2554, pruned_loss=0.0491, over 19787.00 frames. ], tot_loss[loss=0.2015, simple_loss=0.283, pruned_loss=0.05997, over 3830278.78 frames. ], batch size: 47, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:57:12,746 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_rvb from training. Duration: 0.92
+2023-04-03 16:57:22,337 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2459, 2.3480, 2.5059, 2.9860, 2.3521, 2.9028, 2.4807, 2.3102],
+       device='cuda:2'), covar=tensor([0.4367, 0.4732, 0.2108, 0.2895, 0.4870, 0.2490, 0.5261, 0.3579],
+       device='cuda:2'), in_proj_covar=tensor([0.0953, 0.1036, 0.0753, 0.0964, 0.0930, 0.0871, 0.0868, 0.0820],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 16:57:23,003 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_rvb from training. Duration: 0.83
+2023-04-03 16:57:31,777 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.354e+02 5.029e+02 5.947e+02 7.618e+02 1.686e+03, threshold=1.189e+03, percent-clipped=3.0
+2023-04-03 16:57:55,570 INFO [train.py:903] (2/4) Epoch 30, batch 4700, loss[loss=0.2273, simple_loss=0.3114, pruned_loss=0.07161, over 18116.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2844, pruned_loss=0.06031, over 3828658.61 frames. ], batch size: 83, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:58:10,551 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=202723.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:58:19,481 WARNING [train.py:1073] (2/4) Exclude cut with ID 3033-130750-0096-107983_sp0.9_rvb from training. Duration: 0.92225
+2023-04-03 16:58:41,337 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=202748.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 16:58:59,227 INFO [train.py:903] (2/4) Epoch 30, batch 4750, loss[loss=0.1971, simple_loss=0.2811, pruned_loss=0.05658, over 17287.00 frames. ], tot_loss[loss=0.2017, simple_loss=0.2833, pruned_loss=0.06011, over 3819732.95 frames. ], batch size: 101, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 16:59:35,970 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.278e+02 5.055e+02 5.959e+02 7.636e+02 1.705e+03, threshold=1.192e+03, percent-clipped=6.0
+2023-04-03 17:00:01,993 INFO [train.py:903] (2/4) Epoch 30, batch 4800, loss[loss=0.1942, simple_loss=0.2865, pruned_loss=0.05094, over 19631.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2834, pruned_loss=0.05994, over 3813721.56 frames. ], batch size: 57, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 17:00:08,684 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.30 vs. limit=2.0
+2023-04-03 17:00:19,798 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=192, metric=1.68 vs. limit=2.0
+2023-04-03 17:00:47,867 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=202848.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 17:01:03,245 INFO [train.py:903] (2/4) Epoch 30, batch 4850, loss[loss=0.1566, simple_loss=0.2402, pruned_loss=0.03654, over 19738.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.283, pruned_loss=0.05974, over 3816180.73 frames. ], batch size: 46, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 17:01:27,949 WARNING [train.py:1073] (2/4) Exclude cut with ID 774-127930-0014-48411_sp1.1_rvb from training. Duration: 0.95
+2023-04-03 17:01:34,025 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5018, 1.3991, 1.4611, 1.8165, 1.5226, 1.6069, 1.5836, 1.5311],
+       device='cuda:2'), covar=tensor([0.0721, 0.0764, 0.0822, 0.0602, 0.0937, 0.0747, 0.0858, 0.0630],
+       device='cuda:2'), in_proj_covar=tensor([0.0213, 0.0224, 0.0228, 0.0240, 0.0227, 0.0216, 0.0188, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 17:01:41,381 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.446e+02 5.041e+02 6.050e+02 7.335e+02 2.031e+03, threshold=1.210e+03, percent-clipped=4.0
+2023-04-03 17:01:47,276 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1_rvb from training. Duration: 0.9409375
+2023-04-03 17:01:53,233 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467 from training. Duration: 25.035
+2023-04-03 17:01:55,297 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9 from training. Duration: 27.511125
+2023-04-03 17:02:02,743 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.9380, 2.0662, 2.3307, 2.5504, 1.9811, 2.4071, 2.3072, 2.1287],
+       device='cuda:2'), covar=tensor([0.4314, 0.3917, 0.1999, 0.2550, 0.4323, 0.2369, 0.5055, 0.3444],
+       device='cuda:2'), in_proj_covar=tensor([0.0950, 0.1035, 0.0753, 0.0961, 0.0929, 0.0870, 0.0867, 0.0817],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 17:02:03,487 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp1.1_rvb from training. Duration: 25.3818125
+2023-04-03 17:02:05,915 INFO [train.py:903] (2/4) Epoch 30, batch 4900, loss[loss=0.2099, simple_loss=0.2982, pruned_loss=0.06076, over 19651.00 frames. ], tot_loss[loss=0.2008, simple_loss=0.2824, pruned_loss=0.05962, over 3816656.31 frames. ], batch size: 60, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 17:02:25,021 WARNING [train.py:1073] (2/4) Exclude cut with ID 3972-170212-0014-103914 from training. Duration: 26.205
+2023-04-03 17:03:07,820 INFO [train.py:903] (2/4) Epoch 30, batch 4950, loss[loss=0.262, simple_loss=0.3304, pruned_loss=0.09679, over 19667.00 frames. ], tot_loss[loss=0.2022, simple_loss=0.2838, pruned_loss=0.06027, over 3811931.82 frames. ], batch size: 58, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 17:03:22,390 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0007-9590_sp0.9 from training. Duration: 28.72225
+2023-04-03 17:03:27,595 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.16 vs. limit=2.0
+2023-04-03 17:03:43,835 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.897e+02 4.771e+02 6.104e+02 8.250e+02 2.222e+03, threshold=1.221e+03, percent-clipped=2.0
+2023-04-03 17:03:46,234 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585 from training. Duration: 0.92
+2023-04-03 17:04:09,796 INFO [train.py:903] (2/4) Epoch 30, batch 5000, loss[loss=0.1772, simple_loss=0.2613, pruned_loss=0.04651, over 19632.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2834, pruned_loss=0.06027, over 3809945.92 frames. ], batch size: 50, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 17:04:16,548 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_rvb from training. Duration: 27.14
+2023-04-03 17:04:28,740 WARNING [train.py:1073] (2/4) Exclude cut with ID 5239-32139-0047-92994_sp0.9 from training. Duration: 30.1555625
+2023-04-03 17:05:02,472 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=203056.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:05:09,009 INFO [train.py:903] (2/4) Epoch 30, batch 5050, loss[loss=0.2722, simple_loss=0.346, pruned_loss=0.09916, over 13628.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2839, pruned_loss=0.06057, over 3808230.00 frames. ], batch size: 136, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 17:05:18,183 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7104, 4.2583, 2.7040, 3.6983, 1.1287, 4.2206, 4.1058, 4.1518],
+       device='cuda:2'), covar=tensor([0.0601, 0.1026, 0.2100, 0.1024, 0.3829, 0.0757, 0.1007, 0.1164],
+       device='cuda:2'), in_proj_covar=tensor([0.0538, 0.0437, 0.0520, 0.0361, 0.0413, 0.0461, 0.0454, 0.0491],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0004, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 17:05:45,267 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9_rvb from training. Duration: 26.62775
+2023-04-03 17:05:46,420 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.400e+02 4.511e+02 5.411e+02 6.959e+02 2.884e+03, threshold=1.082e+03, percent-clipped=1.0
+2023-04-03 17:05:59,235 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=203103.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:05:59,653 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=2.74 vs. limit=5.0
+2023-04-03 17:06:10,226 INFO [train.py:903] (2/4) Epoch 30, batch 5100, loss[loss=0.1751, simple_loss=0.263, pruned_loss=0.04357, over 18248.00 frames. ], tot_loss[loss=0.2018, simple_loss=0.2835, pruned_loss=0.06004, over 3822949.89 frames. ], batch size: 83, lr: 2.72e-03, grad_scale: 8.0
+2023-04-03 17:06:23,804 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9 from training. Duration: 31.02225
+2023-04-03 17:06:27,361 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0005-9467_rvb from training. Duration: 25.035
+2023-04-03 17:06:28,822 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5883, 1.5332, 1.5815, 1.8887, 1.4719, 1.7009, 1.6304, 1.7101],
+       device='cuda:2'), covar=tensor([0.0806, 0.0869, 0.0927, 0.0620, 0.0771, 0.0799, 0.0841, 0.0672],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0227, 0.0239, 0.0226, 0.0216, 0.0187, 0.0208],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 17:06:30,798 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_rvb from training. Duration: 27.92
+2023-04-03 17:07:12,618 INFO [train.py:903] (2/4) Epoch 30, batch 5150, loss[loss=0.206, simple_loss=0.2906, pruned_loss=0.06073, over 19544.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2826, pruned_loss=0.05965, over 3808765.31 frames. ], batch size: 54, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:07:27,936 WARNING [train.py:1073] (2/4) Exclude cut with ID 2411-132532-0017-25057_sp1.1 from training. Duration: 0.9681875
+2023-04-03 17:07:49,458 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.244e+02 5.115e+02 6.435e+02 8.085e+02 2.061e+03, threshold=1.287e+03, percent-clipped=7.0
+2023-04-03 17:07:49,628 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=203192.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 17:08:01,715 WARNING [train.py:1073] (2/4) Exclude cut with ID 4133-6541-0027-26893_sp1.1_rvb from training. Duration: 0.9681875
+2023-04-03 17:08:15,003 INFO [train.py:903] (2/4) Epoch 30, batch 5200, loss[loss=0.2552, simple_loss=0.3272, pruned_loss=0.09159, over 19700.00 frames. ], tot_loss[loss=0.2001, simple_loss=0.2814, pruned_loss=0.05939, over 3815657.13 frames. ], batch size: 59, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:08:30,111 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9 from training. Duration: 28.638875
+2023-04-03 17:09:14,167 WARNING [train.py:1073] (2/4) Exclude cut with ID 6709-74022-0004-57021_sp1.1 from training. Duration: 0.9409375
+2023-04-03 17:09:16,391 INFO [train.py:903] (2/4) Epoch 30, batch 5250, loss[loss=0.2404, simple_loss=0.3198, pruned_loss=0.08046, over 19321.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2816, pruned_loss=0.05917, over 3808943.21 frames. ], batch size: 66, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:09:53,738 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.978e+02 4.929e+02 6.276e+02 8.119e+02 2.486e+03, threshold=1.255e+03, percent-clipped=4.0
+2023-04-03 17:10:12,254 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=203307.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 17:10:17,557 INFO [train.py:903] (2/4) Epoch 30, batch 5300, loss[loss=0.2237, simple_loss=0.3103, pruned_loss=0.06854, over 19789.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.2826, pruned_loss=0.05959, over 3803555.78 frames. ], batch size: 56, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:10:36,826 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390 from training. Duration: 27.92
+2023-04-03 17:11:02,677 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([6.2286, 5.6364, 3.0563, 4.9551, 1.1337, 5.8561, 5.6810, 5.8620],
+       device='cuda:2'), covar=tensor([0.0358, 0.0759, 0.2077, 0.0779, 0.4078, 0.0472, 0.0770, 0.0875],
+       device='cuda:2'), in_proj_covar=tensor([0.0537, 0.0436, 0.0519, 0.0361, 0.0412, 0.0461, 0.0453, 0.0490],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 17:11:18,759 INFO [train.py:903] (2/4) Epoch 30, batch 5350, loss[loss=0.1946, simple_loss=0.2843, pruned_loss=0.05248, over 18677.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2824, pruned_loss=0.05923, over 3816376.55 frames. ], batch size: 74, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:11:53,881 WARNING [train.py:1073] (2/4) Exclude cut with ID 8291-282929-0024-9607_sp0.9_rvb from training. Duration: 26.438875
+2023-04-03 17:11:56,058 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.690e+02 5.524e+02 6.450e+02 8.325e+02 1.910e+03, threshold=1.290e+03, percent-clipped=5.0
+2023-04-03 17:12:05,337 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=203400.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:12:20,979 INFO [train.py:903] (2/4) Epoch 30, batch 5400, loss[loss=0.2159, simple_loss=0.2945, pruned_loss=0.06868, over 19579.00 frames. ], tot_loss[loss=0.2025, simple_loss=0.2839, pruned_loss=0.06053, over 3799057.55 frames. ], batch size: 52, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:13:02,974 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=203447.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:13:20,915 INFO [train.py:903] (2/4) Epoch 30, batch 5450, loss[loss=0.2034, simple_loss=0.2875, pruned_loss=0.05965, over 19618.00 frames. ], tot_loss[loss=0.202, simple_loss=0.2836, pruned_loss=0.06018, over 3816116.69 frames. ], batch size: 50, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:13:21,414 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.2762, 2.2569, 2.6007, 2.9997, 2.2624, 2.7895, 2.5699, 2.3663],
+       device='cuda:2'), covar=tensor([0.4430, 0.4399, 0.1984, 0.2861, 0.4942, 0.2501, 0.5142, 0.3554],
+       device='cuda:2'), in_proj_covar=tensor([0.0954, 0.1036, 0.0753, 0.0963, 0.0930, 0.0869, 0.0867, 0.0819],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 17:13:50,566 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=203485.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:13:59,461 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.086e+02 4.910e+02 6.531e+02 8.117e+02 1.984e+03, threshold=1.306e+03, percent-clipped=3.0
+2023-04-03 17:14:10,096 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.5416, 1.3382, 1.9371, 1.7293, 3.0738, 4.4240, 4.3019, 4.9231],
+       device='cuda:2'), covar=tensor([0.1616, 0.4181, 0.3624, 0.2518, 0.0704, 0.0239, 0.0202, 0.0210],
+       device='cuda:2'), in_proj_covar=tensor([0.0282, 0.0336, 0.0368, 0.0275, 0.0258, 0.0200, 0.0221, 0.0283],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0004, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 17:14:23,410 INFO [train.py:903] (2/4) Epoch 30, batch 5500, loss[loss=0.2204, simple_loss=0.3031, pruned_loss=0.06884, over 19652.00 frames. ], tot_loss[loss=0.2014, simple_loss=0.2831, pruned_loss=0.05983, over 3810898.98 frames. ], batch size: 58, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:14:26,959 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=203515.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:14:48,309 WARNING [train.py:1073] (2/4) Exclude cut with ID 3488-85273-0017-111273_sp0.9_rvb from training. Duration: 27.47775
+2023-04-03 17:15:24,331 INFO [train.py:903] (2/4) Epoch 30, batch 5550, loss[loss=0.2006, simple_loss=0.2888, pruned_loss=0.05618, over 19663.00 frames. ], tot_loss[loss=0.2016, simple_loss=0.2834, pruned_loss=0.05989, over 3815274.65 frames. ], batch size: 55, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:15:24,639 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=203562.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:15:25,807 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=203563.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 17:15:31,862 WARNING [train.py:1073] (2/4) Exclude cut with ID 7255-291500-0009-9471_sp0.9 from training. Duration: 26.62775
+2023-04-03 17:15:56,770 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=203588.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 17:16:01,700 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.118e+02 4.952e+02 6.311e+02 7.819e+02 2.120e+03, threshold=1.262e+03, percent-clipped=2.0
+2023-04-03 17:16:03,245 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8318, 1.5646, 1.6430, 2.3608, 1.7568, 2.0432, 2.0858, 1.8447],
+       device='cuda:2'), covar=tensor([0.0803, 0.0953, 0.0974, 0.0621, 0.0837, 0.0774, 0.0840, 0.0699],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0223, 0.0227, 0.0238, 0.0226, 0.0215, 0.0187, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 17:16:20,042 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([3.5742, 4.1312, 4.3101, 4.3114, 1.7886, 4.0935, 3.5690, 4.0714],
+       device='cuda:2'), covar=tensor([0.1842, 0.0908, 0.0667, 0.0809, 0.6130, 0.0916, 0.0740, 0.1173],
+       device='cuda:2'), in_proj_covar=tensor([0.0830, 0.0807, 0.1016, 0.0892, 0.0879, 0.0779, 0.0600, 0.0947],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 17:16:22,134 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403 from training. Duration: 29.735
+2023-04-03 17:16:27,765 INFO [train.py:903] (2/4) Epoch 30, batch 5600, loss[loss=0.2265, simple_loss=0.3081, pruned_loss=0.07242, over 18719.00 frames. ], tot_loss[loss=0.2019, simple_loss=0.2837, pruned_loss=0.05999, over 3813962.45 frames. ], batch size: 74, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:16:48,443 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.38 vs. limit=2.0
+2023-04-03 17:17:02,903 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.3425, 2.3256, 2.6549, 3.1489, 2.4457, 2.9898, 2.6632, 2.3926],
+       device='cuda:2'), covar=tensor([0.4549, 0.4284, 0.1985, 0.2776, 0.4467, 0.2438, 0.5274, 0.3636],
+       device='cuda:2'), in_proj_covar=tensor([0.0955, 0.1039, 0.0755, 0.0966, 0.0933, 0.0871, 0.0869, 0.0821],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 17:17:29,524 INFO [train.py:903] (2/4) Epoch 30, batch 5650, loss[loss=0.1947, simple_loss=0.2837, pruned_loss=0.05283, over 19658.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2825, pruned_loss=0.05918, over 3826541.89 frames. ], batch size: 55, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:18:06,339 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.203e+02 4.913e+02 5.869e+02 7.597e+02 1.607e+03, threshold=1.174e+03, percent-clipped=2.0
+2023-04-03 17:18:18,656 WARNING [train.py:1073] (2/4) Exclude cut with ID 6951-79737-0043-83149_sp0.9_rvb from training. Duration: 28.0944375
+2023-04-03 17:18:29,973 INFO [train.py:903] (2/4) Epoch 30, batch 5700, loss[loss=0.2242, simple_loss=0.3025, pruned_loss=0.07294, over 19681.00 frames. ], tot_loss[loss=0.2009, simple_loss=0.283, pruned_loss=0.05945, over 3819749.87 frames. ], batch size: 60, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:19:03,886 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4928, 1.5175, 1.7754, 1.7604, 2.7233, 2.3492, 2.8716, 1.3077],
+       device='cuda:2'), covar=tensor([0.2745, 0.4781, 0.3024, 0.2137, 0.1621, 0.2312, 0.1625, 0.5026],
+       device='cuda:2'), in_proj_covar=tensor([0.0562, 0.0684, 0.0769, 0.0518, 0.0641, 0.0555, 0.0674, 0.0584],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 17:19:31,947 INFO [train.py:903] (2/4) Epoch 30, batch 5750, loss[loss=0.1993, simple_loss=0.2822, pruned_loss=0.05816, over 19291.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2824, pruned_loss=0.05915, over 3815656.16 frames. ], batch size: 66, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:19:35,369 WARNING [train.py:1073] (2/4) Exclude cut with ID 2929-85685-0079-61403_sp0.9_rvb from training. Duration: 33.038875
+2023-04-03 17:19:35,647 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=203765.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:19:44,378 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=203771.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:19:45,195 WARNING [train.py:1073] (2/4) Exclude cut with ID 7859-102521-0017-21930_sp0.9 from training. Duration: 27.25
+2023-04-03 17:19:51,030 WARNING [train.py:1073] (2/4) Exclude cut with ID 497-129325-0061-9566_sp1.1 from training. Duration: 0.97725
+2023-04-03 17:20:00,633 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=203784.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:20:09,169 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.085e+02 5.021e+02 5.985e+02 7.897e+02 1.857e+03, threshold=1.197e+03, percent-clipped=7.0
+2023-04-03 17:20:15,351 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=203796.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:20:35,340 INFO [train.py:903] (2/4) Epoch 30, batch 5800, loss[loss=0.1664, simple_loss=0.2421, pruned_loss=0.04536, over 18701.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2822, pruned_loss=0.05928, over 3814844.16 frames. ], batch size: 41, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:20:38,228 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.17 vs. limit=2.0
+2023-04-03 17:20:43,833 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=203818.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:20:55,516 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4765, 2.0533, 1.6223, 1.3364, 1.9374, 1.1363, 1.2460, 1.8918],
+       device='cuda:2'), covar=tensor([0.1120, 0.0932, 0.1163, 0.1033, 0.0668, 0.1583, 0.0918, 0.0524],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0324, 0.0347, 0.0279, 0.0257, 0.0351, 0.0293, 0.0281],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 17:20:56,441 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=203829.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:21:13,740 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=203843.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:21:37,911 INFO [train.py:903] (2/4) Epoch 30, batch 5850, loss[loss=0.231, simple_loss=0.3019, pruned_loss=0.0801, over 19629.00 frames. ], tot_loss[loss=0.2012, simple_loss=0.2827, pruned_loss=0.05987, over 3814961.05 frames. ], batch size: 50, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:21:41,696 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=203865.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:22:15,808 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.367e+02 4.919e+02 5.824e+02 7.977e+02 1.569e+03, threshold=1.165e+03, percent-clipped=4.0
+2023-04-03 17:22:39,480 INFO [train.py:903] (2/4) Epoch 30, batch 5900, loss[loss=0.1948, simple_loss=0.2813, pruned_loss=0.05421, over 19545.00 frames. ], tot_loss[loss=0.2004, simple_loss=0.2818, pruned_loss=0.05947, over 3825629.28 frames. ], batch size: 56, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:22:42,674 WARNING [train.py:1073] (2/4) Exclude cut with ID 1914-133440-0024-53073_sp0.9 from training. Duration: 25.2444375
+2023-04-03 17:22:47,260 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=203918.0, num_to_drop=1, layers_to_drop={1}
+2023-04-03 17:23:06,121 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0021-44397_sp0.9_rvb from training. Duration: 27.511125
+2023-04-03 17:23:19,592 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=203944.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:23:25,690 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8279, 1.9537, 2.2069, 2.3089, 1.8232, 2.2688, 2.1889, 2.0581],
+       device='cuda:2'), covar=tensor([0.4309, 0.4029, 0.2009, 0.2552, 0.4184, 0.2361, 0.5060, 0.3497],
+       device='cuda:2'), in_proj_covar=tensor([0.0952, 0.1036, 0.0753, 0.0965, 0.0931, 0.0870, 0.0865, 0.0818],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 17:23:40,675 INFO [train.py:903] (2/4) Epoch 30, batch 5950, loss[loss=0.1912, simple_loss=0.2773, pruned_loss=0.05258, over 18790.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2818, pruned_loss=0.0594, over 3816235.60 frames. ], batch size: 74, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:24:18,146 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.982e+02 5.092e+02 6.183e+02 7.281e+02 1.501e+03, threshold=1.237e+03, percent-clipped=4.0
+2023-04-03 17:24:45,152 INFO [train.py:903] (2/4) Epoch 30, batch 6000, loss[loss=0.2087, simple_loss=0.2934, pruned_loss=0.06206, over 19341.00 frames. ], tot_loss[loss=0.1992, simple_loss=0.2808, pruned_loss=0.05885, over 3826981.32 frames. ], batch size: 70, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:24:45,153 INFO [train.py:928] (2/4) Computing validation loss
+2023-04-03 17:24:58,734 INFO [train.py:937] (2/4) Epoch 30, validation: loss=0.167, simple_loss=0.2658, pruned_loss=0.03407, over 944034.00 frames. 
+2023-04-03 17:24:58,735 INFO [train.py:938] (2/4) Maximum memory allocated so far is 18869MB
+2023-04-03 17:26:02,075 INFO [train.py:903] (2/4) Epoch 30, batch 6050, loss[loss=0.1664, simple_loss=0.2464, pruned_loss=0.04323, over 19384.00 frames. ], tot_loss[loss=0.1993, simple_loss=0.2809, pruned_loss=0.05885, over 3831955.51 frames. ], batch size: 48, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:26:38,224 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.289e+02 5.054e+02 6.352e+02 7.854e+02 1.582e+03, threshold=1.270e+03, percent-clipped=1.0
+2023-04-03 17:26:40,400 INFO [scaling.py:679] (2/4) Whitening: num_groups=8, num_channels=96, metric=1.37 vs. limit=2.0
+2023-04-03 17:26:42,133 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=204095.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:27:00,747 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=204109.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:27:04,114 INFO [train.py:903] (2/4) Epoch 30, batch 6100, loss[loss=0.219, simple_loss=0.3034, pruned_loss=0.06725, over 19520.00 frames. ], tot_loss[loss=0.1998, simple_loss=0.2812, pruned_loss=0.05916, over 3828165.56 frames. ], batch size: 54, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:27:23,317 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=204128.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:28:04,388 INFO [train.py:903] (2/4) Epoch 30, batch 6150, loss[loss=0.1856, simple_loss=0.2664, pruned_loss=0.05238, over 19787.00 frames. ], tot_loss[loss=0.2002, simple_loss=0.2816, pruned_loss=0.05942, over 3831193.50 frames. ], batch size: 54, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:28:04,787 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.1767, 1.3326, 1.7175, 1.1700, 2.4710, 3.3521, 3.0162, 3.5533],
+       device='cuda:2'), covar=tensor([0.1683, 0.4057, 0.3555, 0.2829, 0.0702, 0.0222, 0.0254, 0.0324],
+       device='cuda:2'), in_proj_covar=tensor([0.0281, 0.0336, 0.0368, 0.0275, 0.0258, 0.0200, 0.0221, 0.0282],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0004, 0.0004, 0.0003, 0.0003, 0.0002, 0.0002, 0.0003],
+       device='cuda:2')
+2023-04-03 17:28:29,856 INFO [zipformer.py:1188] (2/4) warmup_begin=1333.3, warmup_end=2000.0, batch_count=204181.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:28:34,970 WARNING [train.py:1073] (2/4) Exclude cut with ID 7357-94126-0014-44390_sp0.9_rvb from training. Duration: 31.02225
+2023-04-03 17:28:42,857 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.206e+02 5.061e+02 6.485e+02 7.945e+02 1.594e+03, threshold=1.297e+03, percent-clipped=2.0
+2023-04-03 17:28:52,807 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=204200.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:29:03,795 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=204209.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:29:07,246 INFO [train.py:903] (2/4) Epoch 30, batch 6200, loss[loss=0.244, simple_loss=0.3151, pruned_loss=0.08647, over 13504.00 frames. ], tot_loss[loss=0.2005, simple_loss=0.2821, pruned_loss=0.05947, over 3812138.32 frames. ], batch size: 136, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:29:24,438 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=204224.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:29:25,574 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=204225.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:29:29,046 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.4162, 2.4081, 2.1195, 2.0113, 1.9406, 2.2671, 1.5655, 1.8727],
+       device='cuda:2'), covar=tensor([0.0658, 0.0704, 0.0552, 0.0894, 0.0927, 0.0953, 0.1159, 0.0921],
+       device='cuda:2'), in_proj_covar=tensor([0.0369, 0.0369, 0.0372, 0.0397, 0.0476, 0.0402, 0.0349, 0.0352],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 17:29:45,908 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=204243.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:30:09,327 INFO [train.py:903] (2/4) Epoch 30, batch 6250, loss[loss=0.2194, simple_loss=0.2972, pruned_loss=0.07077, over 19663.00 frames. ], tot_loss[loss=0.2003, simple_loss=0.2817, pruned_loss=0.05942, over 3810738.42 frames. ], batch size: 60, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:30:10,640 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=204262.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 17:30:18,767 INFO [scaling.py:679] (2/4) Whitening: num_groups=1, num_channels=256, metric=3.71 vs. limit=5.0
+2023-04-03 17:30:38,580 WARNING [train.py:1073] (2/4) Exclude cut with ID 6758-72288-0033-148662_sp0.9_rvb from training. Duration: 25.988875
+2023-04-03 17:30:46,054 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.091e+02 5.004e+02 5.938e+02 7.424e+02 1.100e+03, threshold=1.188e+03, percent-clipped=0.0
+2023-04-03 17:31:10,305 INFO [train.py:903] (2/4) Epoch 30, batch 6300, loss[loss=0.2746, simple_loss=0.3384, pruned_loss=0.1054, over 18105.00 frames. ], tot_loss[loss=0.2011, simple_loss=0.2826, pruned_loss=0.05984, over 3795761.77 frames. ], batch size: 83, lr: 2.71e-03, grad_scale: 4.0
+2023-04-03 17:31:24,170 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=204324.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:32:11,325 INFO [train.py:903] (2/4) Epoch 30, batch 6350, loss[loss=0.1846, simple_loss=0.2767, pruned_loss=0.04628, over 19651.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2821, pruned_loss=0.05958, over 3801761.65 frames. ], batch size: 55, lr: 2.71e-03, grad_scale: 4.0
+2023-04-03 17:32:30,606 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=204377.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 17:32:50,291 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.055e+02 4.728e+02 6.049e+02 7.442e+02 1.533e+03, threshold=1.210e+03, percent-clipped=4.0
+2023-04-03 17:33:07,743 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.8746, 2.7423, 2.1940, 2.1972, 1.9632, 2.4292, 1.1755, 2.0273],
+       device='cuda:2'), covar=tensor([0.0734, 0.0662, 0.0725, 0.1207, 0.1179, 0.1116, 0.1522, 0.1108],
+       device='cuda:2'), in_proj_covar=tensor([0.0367, 0.0366, 0.0370, 0.0394, 0.0472, 0.0398, 0.0347, 0.0350],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 17:33:12,661 INFO [train.py:903] (2/4) Epoch 30, batch 6400, loss[loss=0.2234, simple_loss=0.3, pruned_loss=0.07333, over 19659.00 frames. ], tot_loss[loss=0.2006, simple_loss=0.2821, pruned_loss=0.05958, over 3803509.48 frames. ], batch size: 53, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:33:45,677 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=204439.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:33:45,837 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([5.0882, 5.1954, 5.9328, 5.9361, 2.0918, 5.5978, 4.7192, 5.6287],
+       device='cuda:2'), covar=tensor([0.1888, 0.0849, 0.0553, 0.0685, 0.6484, 0.0924, 0.0681, 0.1141],
+       device='cuda:2'), in_proj_covar=tensor([0.0825, 0.0803, 0.1009, 0.0883, 0.0872, 0.0774, 0.0597, 0.0940],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0002, 0.0001, 0.0002],
+       device='cuda:2')
+2023-04-03 17:34:00,732 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([2.0042, 1.9680, 1.9098, 1.7360, 1.5730, 1.7324, 0.4819, 0.9450],
+       device='cuda:2'), covar=tensor([0.0704, 0.0726, 0.0446, 0.0748, 0.1325, 0.0857, 0.1432, 0.1194],
+       device='cuda:2'), in_proj_covar=tensor([0.0368, 0.0367, 0.0370, 0.0395, 0.0474, 0.0399, 0.0349, 0.0350],
+       device='cuda:2'), out_proj_covar=tensor([0.0002, 0.0002, 0.0002, 0.0002, 0.0003, 0.0002, 0.0002, 0.0002],
+       device='cuda:2')
+2023-04-03 17:34:13,537 INFO [train.py:903] (2/4) Epoch 30, batch 6450, loss[loss=0.1627, simple_loss=0.2469, pruned_loss=0.03927, over 19379.00 frames. ], tot_loss[loss=0.1999, simple_loss=0.2818, pruned_loss=0.05905, over 3820583.43 frames. ], batch size: 47, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:34:35,895 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=204480.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:34:51,303 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.580e+02 4.981e+02 6.276e+02 8.010e+02 2.155e+03, threshold=1.255e+03, percent-clipped=8.0
+2023-04-03 17:34:54,966 WARNING [train.py:1073] (2/4) Exclude cut with ID 5622-44585-0006-50425_sp0.9_rvb from training. Duration: 28.638875
+2023-04-03 17:34:59,498 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=204499.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:35:08,072 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=204505.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:35:16,832 INFO [train.py:903] (2/4) Epoch 30, batch 6500, loss[loss=0.2012, simple_loss=0.283, pruned_loss=0.05972, over 19681.00 frames. ], tot_loss[loss=0.1989, simple_loss=0.281, pruned_loss=0.05842, over 3812492.46 frames. ], batch size: 53, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:35:19,135 WARNING [train.py:1073] (2/4) Exclude cut with ID 3557-8342-0013-71585_sp1.1_rvb from training. Duration: 0.836375
+2023-04-03 17:35:30,921 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=204524.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:35:31,809 INFO [zipformer.py:1188] (2/4) warmup_begin=666.7, warmup_end=1333.3, batch_count=204525.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:36:09,146 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=204554.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:36:11,588 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.8219, 1.6872, 1.7773, 2.2662, 1.6760, 2.0708, 1.9777, 1.8887],
+       device='cuda:2'), covar=tensor([0.0823, 0.0865, 0.0916, 0.0605, 0.0864, 0.0769, 0.0838, 0.0674],
+       device='cuda:2'), in_proj_covar=tensor([0.0212, 0.0221, 0.0227, 0.0238, 0.0226, 0.0215, 0.0186, 0.0207],
+       device='cuda:2'), out_proj_covar=tensor([0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0005, 0.0004, 0.0005],
+       device='cuda:2')
+2023-04-03 17:36:18,057 INFO [train.py:903] (2/4) Epoch 30, batch 6550, loss[loss=0.2174, simple_loss=0.3029, pruned_loss=0.06596, over 17940.00 frames. ], tot_loss[loss=0.198, simple_loss=0.2803, pruned_loss=0.05782, over 3824201.61 frames. ], batch size: 83, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:36:28,069 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.0779, 3.7275, 2.6619, 3.3251, 0.9208, 3.7102, 3.5715, 3.6704],
+       device='cuda:2'), covar=tensor([0.0706, 0.0988, 0.1806, 0.0980, 0.3688, 0.0772, 0.0989, 0.1125],
+       device='cuda:2'), in_proj_covar=tensor([0.0535, 0.0434, 0.0517, 0.0358, 0.0407, 0.0457, 0.0451, 0.0486],
+       device='cuda:2'), out_proj_covar=tensor([0.0004, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 17:36:40,537 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=204580.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:36:56,887 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.390e+02 5.288e+02 6.916e+02 9.470e+02 2.608e+03, threshold=1.383e+03, percent-clipped=11.0
+2023-04-03 17:37:11,460 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=204605.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:37:20,113 INFO [train.py:903] (2/4) Epoch 30, batch 6600, loss[loss=0.1846, simple_loss=0.2728, pruned_loss=0.04826, over 19530.00 frames. ], tot_loss[loss=0.1972, simple_loss=0.2797, pruned_loss=0.05733, over 3821586.09 frames. ], batch size: 54, lr: 2.71e-03, grad_scale: 8.0
+2023-04-03 17:37:46,981 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=204633.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 17:37:54,610 INFO [zipformer.py:1188] (2/4) warmup_begin=2000.0, warmup_end=2666.7, batch_count=204640.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:38:17,186 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=204658.0, num_to_drop=1, layers_to_drop={0}
+2023-04-03 17:38:21,420 INFO [train.py:903] (2/4) Epoch 30, batch 6650, loss[loss=0.1943, simple_loss=0.2758, pruned_loss=0.05643, over 19761.00 frames. ], tot_loss[loss=0.1979, simple_loss=0.2803, pruned_loss=0.05777, over 3812309.34 frames. ], batch size: 54, lr: 2.70e-03, grad_scale: 8.0
+2023-04-03 17:38:59,519 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 3.417e+02 4.923e+02 6.497e+02 8.594e+02 3.232e+03, threshold=1.299e+03, percent-clipped=5.0
+2023-04-03 17:39:24,424 INFO [train.py:903] (2/4) Epoch 30, batch 6700, loss[loss=0.2401, simple_loss=0.324, pruned_loss=0.07812, over 19711.00 frames. ], tot_loss[loss=0.1989, simple_loss=0.2814, pruned_loss=0.05822, over 3812983.28 frames. ], batch size: 63, lr: 2.70e-03, grad_scale: 4.0
+2023-04-03 17:39:42,313 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([4.7955, 1.7714, 1.9260, 1.8821, 4.3718, 1.4391, 2.5354, 4.8297],
+       device='cuda:2'), covar=tensor([0.0516, 0.2822, 0.2883, 0.1943, 0.0730, 0.2557, 0.1649, 0.0161],
+       device='cuda:2'), in_proj_covar=tensor([0.0426, 0.0381, 0.0402, 0.0357, 0.0386, 0.0361, 0.0401, 0.0423],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 17:40:21,758 INFO [train.py:903] (2/4) Epoch 30, batch 6750, loss[loss=0.2627, simple_loss=0.3359, pruned_loss=0.09474, over 18797.00 frames. ], tot_loss[loss=0.1986, simple_loss=0.2809, pruned_loss=0.05813, over 3824455.58 frames. ], batch size: 74, lr: 2.70e-03, grad_scale: 4.0
+2023-04-03 17:40:41,886 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.4250, 2.0780, 1.6161, 1.4852, 1.8594, 1.3807, 1.4444, 1.8465],
+       device='cuda:2'), covar=tensor([0.0967, 0.0761, 0.1100, 0.0869, 0.0577, 0.1249, 0.0626, 0.0481],
+       device='cuda:2'), in_proj_covar=tensor([0.0307, 0.0324, 0.0346, 0.0278, 0.0256, 0.0351, 0.0293, 0.0281],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0003, 0.0003, 0.0002, 0.0003, 0.0003, 0.0003],
+       device='cuda:2')
+2023-04-03 17:40:46,282 INFO [zipformer.py:2441] (2/4) attn_weights_entropy = tensor([1.6658, 1.7545, 2.0010, 2.0173, 1.6039, 2.0160, 1.9611, 1.8552],
+       device='cuda:2'), covar=tensor([0.4207, 0.3809, 0.2050, 0.2512, 0.3926, 0.2257, 0.5456, 0.3546],
+       device='cuda:2'), in_proj_covar=tensor([0.0955, 0.1039, 0.0754, 0.0967, 0.0935, 0.0871, 0.0869, 0.0821],
+       device='cuda:2'), out_proj_covar=tensor([0.0003, 0.0003, 0.0002, 0.0002, 0.0003, 0.0002, 0.0003, 0.0002],
+       device='cuda:2')
+2023-04-03 17:40:58,540 INFO [optim.py:369] (2/4) Clipping_scale=2.0, grad-norm quartiles 2.758e+02 4.849e+02 6.262e+02 9.905e+02 2.863e+03, threshold=1.252e+03, percent-clipped=11.0
+2023-04-03 17:41:17,890 INFO [zipformer.py:1188] (2/4) warmup_begin=3333.3, warmup_end=4000.0, batch_count=204810.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:41:19,750 INFO [train.py:903] (2/4) Epoch 30, batch 6800, loss[loss=0.2148, simple_loss=0.2994, pruned_loss=0.06514, over 19408.00 frames. ], tot_loss[loss=0.2, simple_loss=0.2821, pruned_loss=0.05895, over 3820932.07 frames. ], batch size: 70, lr: 2.70e-03, grad_scale: 8.0
+2023-04-03 17:41:45,204 INFO [zipformer.py:1188] (2/4) warmup_begin=2666.7, warmup_end=3333.3, batch_count=204835.0, num_to_drop=0, layers_to_drop=set()
+2023-04-03 17:41:50,102 INFO [train.py:1171] (2/4) Done!