add model voice-filter

Browse files

Files changed (3) hide show

config.json +128 -0
pytorch_model.bin +3 -0
xvector_sincnet.pt +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,128 @@

+{
+  "_name_or_path": "./model-bin/voice_enhancing",
+  "architectures": [
+    "ASRVoiceFilter"
+  ],
+  "audio_max_lengh": 20,
+  "blank_token_id": 30,
+  "ctc_zero_infinity": true,
+  "d_dec": 640,
+  "d_enc": 256,
+  "d_inner": 0,
+  "dec_drop": 0.2,
+  "do_asr": false,
+  "do_enh": true,
+  "dropout": 0.2,
+  "emb_drop": 0.2,
+  "enc_drop": 0.2,
+  "enh_args": {
+    "batch_size": 8,
+    "batch_type": "folded",
+    "best_model_criterion": [
+      [
+        "valid",
+        "si_snr",
+        "max"
+      ],
+      [
+        "valid",
+        "loss",
+        "min"
+      ]
+    ],
+    "criterions": [
+      {
+        "conf": {
+          "eps": 1e-07
+        },
+        "name": "si_snr",
+        "wrapper": "pit",
+        "wrapper_conf": {
+          "independent_perm": false,
+          "weight": 1.0
+        }
+      }
+    ],
+    "decoder": "stft",
+    "decoder_conf": {
+      "hop_length": 128,
+      "n_fft": 512
+    },
+    "encoder": "stft",
+    "encoder_conf": {
+      "hop_length": 128,
+      "n_fft": 512
+    },
+    "init": "xavier_uniform",
+    "keep_nbest_models": 1,
+    "max_epoch": 5,
+    "model_conf": {
+      "loss_type": "mask_mse",
+      "mask_type": "psm"
+    },
+    "num_workers": 4,
+    "optim": "adam",
+    "optim_conf": {
+      "eps": 1e-08,
+      "lr": 0.001,
+      "weight_decay": 1e-07
+    },
+    "patience": 10,
+    "scheduler": "reducelronplateau",
+    "scheduler_conf": {
+      "factor": 0.7,
+      "mode": "min",
+      "patience": 1
+    },
+    "separator": "conformer_voice_filter",
+    "separator_conf": {
+      "adim": 1024,
+      "aheads": 8,
+      "attention_dropout_rate": 0.1,
+      "concat_after": false,
+      "conformer_activation_type": "swish",
+      "conformer_enc_kernel_size": 5,
+      "conformer_pos_enc_layer_type": "rel_pos",
+      "conformer_self_attn_layer_type": "rel_selfattn",
+      "dropout_rate": 0.1,
+      "input_layer": "linear",
+      "layers": 4,
+      "linear_units": 896,
+      "nonlinear": "relu",
+      "normalize_before": false,
+      "num_spk": 1,
+      "positional_dropout_rate": 0.1,
+      "positionwise_conv_kernel_size": 1,
+      "positionwise_layer_type": "conv1d",
+      "use_cnn_in_conformer": true,
+      "use_macaron_style_in_conformer": true
+    },
+    "val_scheduler_criterion": [
+      "valid",
+      "loss"
+    ],
+    "xvector_emb_dim": 512
+  },
+  "enh_chunk_size": 5,
+  "freq_kn": 3,
+  "freq_std": 2,
+  "ignore_token_id": -1,
+  "label_smooth": 0.1,
+  "loss_reduction": "mean",
+  "model_type": "asr_voicefilter",
+  "n_classes_ctc": 33,
+  "n_classes_s2s": 5003,
+  "n_dec": 1,
+  "n_enc": 16,
+  "n_fft": 512,
+  "n_head": 4,
+  "n_kernel": 25,
+  "n_mels": 80,
+  "sample_rate": 16000,
+  "shared_emb": true,
+  "teacher_force": 0.7,
+  "time_ds": 1,
+  "torch_dtype": "float32",
+  "transformers_version": "4.24.0",
+  "use_cnn": true
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abc7ebeb21a9d3cf7addcca0a40df72411195fc5f1a5d3b0c937ded9798d1baa
+size 197745909

xvector_sincnet.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bcec986de13da7af7ac88736572692359950df63669989c4f78b294934c9089
+size 96383626