Update models

Browse files

Files changed (5) hide show

asr.ckpt +2 -2
hyperparams.yaml +16 -19
lm.ckpt +2 -2
normalizer.ckpt +2 -2
tokenizer.ckpt +2 -2

asr.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:893a5fb84a67315a954d7645fd3b5f96cee806531f538e0073f6dcdf17dcf7c3
-size 183510489

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e718dc29b403dfaa8d2604c43c3666be3fa99e958b77e3c6ff387e94d4a174c
+size 184546287

hyperparams.yaml CHANGED Viewed

@@ -29,7 +29,6 @@ vocab_size: 5000
 # Outputs
 blank_index: 0
-label_smoothing: 0.1
 pad_index: 0
 bos_index: 1
 eos_index: 2
@@ -38,10 +37,8 @@ unk_index: 0
 # Decoding parameters
 min_decode_ratio: 0.0
 max_decode_ratio: 1.0
-valid_search_interval: 10
-valid_beam_size: 10
-test_beam_size: 60
-lm_weight: 0.20
 ctc_weight_decode: 0.40
 ############################## models ################################
@@ -51,15 +48,15 @@ normalizer: !new:speechbrain.processing.features.InputNormalization
 CNN: !new:speechbrain.lobes.models.convolution.ConvolutionFrontEnd
     input_shape: (8, 10, 80)
-    num_blocks: 2
     num_layers_per_block: 1
-    out_channels: (64, 32)
-    kernel_sizes: (3, 3)
-    strides: (2, 2)
-    residuals: (False, False)
 Transformer: !new:speechbrain.lobes.models.transformer.TransformerASR.TransformerASR # yamllint disable-line rule:line-length
-    input_size: 640
     tgt_vocab: !ref <output_neurons>
     d_model: !ref <d_model>
     nhead: !ref <nhead>
@@ -106,11 +103,14 @@ decoder: !new:speechbrain.decoders.S2STransformerBeamSearch
     ctc_weight: !ref <ctc_weight_decode>
     lm_weight: !ref <lm_weight>
     lm_modules: !ref <lm_model>
-    temperature: 1.25
-    temperature_lm: 1.25
     using_eos_threshold: False
     length_normalization: True
 Tencoder: !new:speechbrain.lobes.models.transformer.TransformerASR.EncoderWrapper
     transformer: !ref <Transformer>
@@ -122,11 +122,7 @@ encoder: !new:speechbrain.nnet.containers.LengthsCapableSequential
     transformer_encoder: !ref <Tencoder>
 asr_model: !new:torch.nn.ModuleList
-    - [!ref <normalizer>, !ref <CNN>, !ref <Transformer>, !ref <seq_lin>, !ref <ctc_lin>]
-log_softmax: !new:torch.nn.LogSoftmax
-    dim: -1
 compute_features: !new:speechbrain.lobes.features.Fbank
     sample_rate: !ref <sample_rate>
@@ -142,6 +138,7 @@ modules:
    lm_model: !ref <lm_model>
    encoder: !ref <encoder>
    decoder: !ref <decoder>
 # The pretrainer allows a mapping between pretrained files and instances that
 # are declared in the yaml.
 pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer

 # Outputs
 blank_index: 0
 pad_index: 0
 bos_index: 1
 eos_index: 2
 # Decoding parameters
 min_decode_ratio: 0.0
 max_decode_ratio: 1.0
+test_beam_size: 10
+lm_weight: 0.0
 ctc_weight_decode: 0.40
 ############################## models ################################
 CNN: !new:speechbrain.lobes.models.convolution.ConvolutionFrontEnd
     input_shape: (8, 10, 80)
+    num_blocks: 3
     num_layers_per_block: 1
+    out_channels: (64, 64, 64)
+    kernel_sizes: (5, 5, 1)
+    strides: (2, 2, 1)
+    residuals: (False, False, True)
 Transformer: !new:speechbrain.lobes.models.transformer.TransformerASR.TransformerASR # yamllint disable-line rule:line-length
+    input_size: 1280
     tgt_vocab: !ref <output_neurons>
     d_model: !ref <d_model>
     nhead: !ref <nhead>
     ctc_weight: !ref <ctc_weight_decode>
     lm_weight: !ref <lm_weight>
     lm_modules: !ref <lm_model>
+    temperature: 1.30
+    temperature_lm: 1.30
     using_eos_threshold: False
     length_normalization: True
+log_softmax: !new:torch.nn.LogSoftmax
+    dim: -1
 Tencoder: !new:speechbrain.lobes.models.transformer.TransformerASR.EncoderWrapper
     transformer: !ref <Transformer>
     transformer_encoder: !ref <Tencoder>
 asr_model: !new:torch.nn.ModuleList
+    - [!ref <CNN>, !ref <Transformer>, !ref <seq_lin>, !ref <ctc_lin>]
 compute_features: !new:speechbrain.lobes.features.Fbank
     sample_rate: !ref <sample_rate>
    lm_model: !ref <lm_model>
    encoder: !ref <encoder>
    decoder: !ref <decoder>
 # The pretrainer allows a mapping between pretrained files and instances that
 # are declared in the yaml.
 pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer

lm.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee4a5a5d9ce11e24dcea93f24a241528b9b376798be6478c70fb279736515110
-size 381074814

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f0b49d5e1f9894c0c9f2ec21c8658da8e1a07f509b807e8624450ba19ea667c
+size 381072461

normalizer.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4866d96b29f5c97526c7469aa6f58cd50aeb9865b457daf599f0f42e5827be9
-size 1783

 version https://git-lfs.github.com/spec/v1
+oid sha256:1da2ced935d955c014177591249e5db497d0c5dc7143e64378da0cb5590fe77a
+size 1703

tokenizer.ckpt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e095c023a42b6bd25352512597a245db9bf9126ce6bf64082bd41d0a196b220
-size 313899

 version https://git-lfs.github.com/spec/v1
+oid sha256:d419e55734c26df6c5690671be2b887a7db389c1a7f63286111ce737508c6569
+size 313900