siuze
/

Cantonese-MDCC

Automatic Speech Recognition

ESPnet

Chambri

audio

Model card Files Files and versions Community

siuze commited on Mar 18, 2023

Commit

0d55394

•

1 Parent(s): 1144e58

reback

Browse files

Files changed (1) hide show

exp/asr_train_asr_transformer_raw_can_char/config.yaml +29 -0

exp/asr_train_asr_transformer_raw_can_char/config.yaml CHANGED Viewed

@@ -10,7 +10,12 @@ num_workers: 1
 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://
 local_rank: 0
 multiprocessing_distributed: false
 unused_parameters: false
 sharded_ddp: false
@@ -20,6 +25,7 @@ cudnn_deterministic: true
 collect_stats: false
 write_collected_feats: false
 max_epoch: 30
 val_scheduler_criterion:
 - valid
 - loss
@@ -41,17 +47,26 @@ no_forward_run: false
 resume: true
 train_dtype: float32
 use_amp: false
 use_matplotlib: true
 use_tensorboard: true
 create_graph_in_tensorboard: false
 use_wandb: false
 wandb_model_log_interval: -1
 detect_anomaly: false
 init_param: []
 ignore_init_mismatch: false
 freeze_param: []
 batch_size: 16
 batch_bins: 1000000
 train_shape_file:
 - exp/asr_stats_raw_can_char/train/speech_shape
 - exp/asr_stats_raw_can_char/train/text_shape.char
@@ -59,6 +74,7 @@ valid_shape_file:
 - exp/asr_stats_raw_can_char/valid/speech_shape
 - exp/asr_stats_raw_can_char/valid/text_shape.char
 batch_type: folded
 fold_length:
 - 80000
 - 150
@@ -86,6 +102,7 @@ valid_data_path_and_name_and_type:
 allow_variable_data_keys: false
 max_cache_size: 0.0
 max_cache_fd: 32
 exclude_weight_decay: false
 exclude_weight_decay_conf: {}
 optim: adam
@@ -131,13 +148,22 @@ token_list:
 - q
 - <sos/eos>
 init: xavier_uniform
 ctc_conf:
     dropout_rate: 0.0
     ctc_type: builtin
     reduce: true
 use_preprocessor: true
 token_type: char
 rir_apply_prob: 1.0
 noise_apply_prob: 1.0
 noise_db_range: '13_15'
 short_noise_thres: 0.5
@@ -145,6 +171,7 @@ aux_ctc_tasks: []
 frontend: default
 frontend_conf:
     fs: 16k
 specaug_conf: {}
 normalize: global_mvn
 normalize_conf:
@@ -154,6 +181,7 @@ model_conf:
     ctc_weight: 0.3
     lsm_weight: 0.1
     length_normalized_loss: false
 preencoder_conf: {}
 encoder: transformer
 encoder_conf:
@@ -166,6 +194,7 @@ encoder_conf:
     attention_dropout_rate: 0.0
     input_layer: conv2d
     normalize_before: true
 postencoder_conf: {}
 decoder: transformer
 decoder_conf:

 num_att_plot: 3
 dist_backend: nccl
 dist_init_method: env://
+dist_world_size: null
+dist_rank: null
 local_rank: 0
+dist_master_addr: null
+dist_master_port: null
+dist_launcher: null
 multiprocessing_distributed: false
 unused_parameters: false
 sharded_ddp: false
 collect_stats: false
 write_collected_feats: false
 max_epoch: 30
+patience: null
 val_scheduler_criterion:
 - valid
 - loss
 resume: true
 train_dtype: float32
 use_amp: false
+log_interval: null
 use_matplotlib: true
 use_tensorboard: true
 create_graph_in_tensorboard: false
 use_wandb: false
+wandb_project: null
+wandb_id: null
+wandb_entity: null
+wandb_name: null
 wandb_model_log_interval: -1
 detect_anomaly: false
+pretrain_path: null
 init_param: []
 ignore_init_mismatch: false
 freeze_param: []
+num_iters_per_epoch: null
 batch_size: 16
+valid_batch_size: null
 batch_bins: 1000000
+valid_batch_bins: null
 train_shape_file:
 - exp/asr_stats_raw_can_char/train/speech_shape
 - exp/asr_stats_raw_can_char/train/text_shape.char
 - exp/asr_stats_raw_can_char/valid/speech_shape
 - exp/asr_stats_raw_can_char/valid/text_shape.char
 batch_type: folded
+valid_batch_type: null
 fold_length:
 - 80000
 - 150
 allow_variable_data_keys: false
 max_cache_size: 0.0
 max_cache_fd: 32
+valid_max_cache_size: null
 exclude_weight_decay: false
 exclude_weight_decay_conf: {}
 optim: adam
 - q
 - <sos/eos>
 init: xavier_uniform
+input_size: null
 ctc_conf:
     dropout_rate: 0.0
     ctc_type: builtin
     reduce: true
+joint_net_conf: null
 use_preprocessor: true
 token_type: char
+bpemodel: null
+non_linguistic_symbols: null
+cleaner: null
+g2p: null
+speech_volume_normalize: null
+rir_scp: null
 rir_apply_prob: 1.0
+noise_scp: null
 noise_apply_prob: 1.0
 noise_db_range: '13_15'
 short_noise_thres: 0.5
 frontend: default
 frontend_conf:
     fs: 16k
+specaug: null
 specaug_conf: {}
 normalize: global_mvn
 normalize_conf:
     ctc_weight: 0.3
     lsm_weight: 0.1
     length_normalized_loss: false
+preencoder: null
 preencoder_conf: {}
 encoder: transformer
 encoder_conf:
     attention_dropout_rate: 0.0
     input_layer: conv2d
     normalize_before: true
+postencoder: null
 postencoder_conf: {}
 decoder: transformer
 decoder_conf: