amphion
/

fastspeech2_ljspeech

Model card Files Files and versions Community

lmxue commited on Feb 24, 2024

Commit

7bbced2

•

1 Parent(s): a7e33c6

Add statistics.json and update args.json

Browse files

Files changed (3) hide show

LJSpeech/phone_energys/statistics.json +18 -0
LJSpeech/phone_pitches/statistics.json +18 -0
args.json +223 -0

LJSpeech/phone_energys/statistics.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "LJSpeech_LJSpeech": {
+        "voiced_positions": {
+            "mean": 37.32167273078069,
+            "std": 26.03995642040225,
+            "median": 33.35212326049805,
+            "min": 0.055834684520959854,
+            "max": 193.185302734375
+        },
+        "total_positions": {
+            "mean": 39.04022008133081,
+            "std": 28.566342788309033,
+            "median": 34.09701156616211,
+            "min": 0.055834684520959854,
+            "max": 250.4805908203125
+        }
+    }
+}

LJSpeech/phone_pitches/statistics.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "LJSpeech_LJSpeech": {
+        "voiced_positions": {
+            "mean": 207.58058673202913,
+            "std": 46.75336553769516,
+            "median": 200.32668035755094,
+            "min": 71.18287971496915,
+            "max": 548.2513848778569
+        },
+        "total_positions": {
+            "mean": 210.5202303777099,
+            "std": 51.35927989141311,
+            "median": 201.6134682945546,
+            "min": 71.18287971496915,
+            "max": 740.4636406694369
+        }
+    }
+}

args.json ADDED Viewed

	@@ -0,0 +1,223 @@

+{
+    "base_config": "config/fs2.json",
+    "dataset": [
+        "LJSpeech",
+    ],
+    "dataset_path": {
+        "LJSpeech": "/home/datasets/LJSpeech-1.1",
+    },
+    "model": {
+        "max_seq_len": 1000,
+        "transformer": {
+            "conv_filter_size": 1024,
+            "conv_kernel_size": [
+                9,
+                1,
+            ],
+            "decoder_dropout": 0.2,
+            "decoder_head": 2,
+            "decoder_hidden": 256,
+            "decoder_layer": 6,
+            "encoder_dropout": 0.2,
+            "encoder_head": 2,
+            "encoder_hidden": 256,
+            "encoder_layer": 4,
+        },
+        "variance_embedding": {
+            "energy_quantization": "linear",
+            "n_bins": 256,
+            "pitch_quantization": "linear",
+        },
+        "variance_predictor": {
+            "dropout": 0.5,
+            "filter_size": 256,
+            "kernel_size": 3,
+        },
+    },
+    "model_type": "FastSpeech2",
+    "preprocess": {
+        "processed_dir": "ckpts/tts/fastspeech/",
+        "align_mel_duration": true,
+        "audio_dir": "audios",
+        "bits": 8,
+        "content_vector_dir": "content_vector",
+        "contentvec_dir": "contentvec",
+        "data_augment": false,
+        "dur_dir": "durs",
+        "duration_dir": "duration",
+        "emo2id": "emo2id.json",
+        "energy_dir": "energys",
+        "energy_extract_mode": "from_tacotron_stft",
+        "energy_norm": true,
+        "energy_remove_outlier": true,
+        "extract_amplitude_phase": false,
+        "extract_audio": true,
+        "extract_contentvec_feature": false,
+        "extract_duration": true,
+        "extract_energy": true,
+        "extract_label": false,
+        "extract_linear_spec": false,
+        "extract_mcep": false,
+        "extract_mel": true,
+        "extract_mert_feature": false,
+        "extract_pitch": true,
+        "extract_uv": false,
+        "extract_wenet_feature": false,
+        "extract_whisper_feature": false,
+        "f0_max": 800,
+        "f0_min": 71,
+        "file_lst": "file.lst",
+        "fmax": 8000,
+        "fmin": 0,
+        "hop_size": 256,
+        "imaginary_dir": "imaginarys",
+        "is_label": true,
+        "is_mu_law": true,
+        "lab_dir": "labs",
+        "label_dir": "labels",
+        "lexicon_path": "./text/lexicon/librispeech-lexicon.txt",
+        "linear_dir": "linears",
+        "log_amplitude_dir": "log_amplitudes",
+        "mcep_dir": "mcep",
+        "mel_dir": "mels",
+        "mel_extract_mode": "taco",
+        "mel_min_max_norm": false,
+        "mel_min_max_stats_dir": "mel_min_max_stats",
+        "mert_dir": "mert",
+        "min_level_db": -115,
+        "n_fft": 1024,
+        "n_mel": 80,
+        "num_silent_frames": 8,
+        "phase_dir": "phases",
+        "phone_energy_dir": "phone_energys",
+        "phone_pitch_dir": "phone_pitches",
+        "phone_seq_file": "phone_seq_file",
+        "pitch_bin": 256,
+        "pitch_dir": "pitches",
+        "pitch_extractor": "dio",
+        "pitch_max": 1100.0,
+        "pitch_min": 50.0,
+        "pitch_norm": true,
+        "pitch_remove_outlier": true,
+        "raw_data": "raw_data",
+        "real_dir": "reals",
+        "ref_level_db": 20,
+        "sample_rate": 22050,
+        "spk2id": "spk2id.json",
+        "text_cleaners": [
+            "english_cleaners",
+        ],
+        "train_file": "train.json",
+        "trim_fft_size": 512,
+        "trim_hop_size": 128,
+        "trim_silence": false,
+        "trim_top_db": 30,
+        "trimmed_wav_dir": "trimmed_wavs",
+        "use_amplitude_phase": false,
+        "use_audio": false,
+        "use_dur": false,
+        "use_emoid": false,
+        "use_frame_duration": false,
+        "use_frame_energy": false,
+        "use_frame_pitch": false,
+        "use_lab": false,
+        "use_label": false,
+        "use_linear": false,
+        "use_log_scale_energy": false,
+        "use_log_scale_pitch": false,
+        "use_mel": true,
+        "use_min_max_norm_mel": false,
+        "use_one_hot": false,
+        "use_phn_seq": false,
+        "use_phone": true,
+        "use_phone_duration": false,
+        "use_phone_energy": true,
+        "use_phone_pitch": true,
+        "use_spkid": false,
+        "use_text": false,
+        "use_uv": false,
+        "use_wav": false,
+        "use_wenet": false,
+        "utt2emo": "utt2emo",
+        "utt2spk": "utt2spk",
+        "uv_dir": "uvs",
+        "valid_file": "test.json",
+        "wav_dir": "wavs",
+        "wenet_dir": "wenet",
+        "whisper_dir": "whisper",
+        "win_size": 1024,
+    },
+    "supported_model_type": [
+        "GANVocoder",
+        "Fastspeech2",
+        "DiffSVC",
+        "Transformer",
+        "EDM",
+        "CD",
+    ],
+    "task_type": "",
+    "train": {
+        "adam": {
+            "betas": [
+                0.9,
+                0.98,
+            ],
+            "eps": 1e-09,
+            "lr": 0.0625,
+            "weight_decay": 0.0,
+        },
+        "adamw": {
+            "lr": 0.0004,
+        },
+        "batch_size": 16,
+        "dataloader": {
+            "num_worker": 8,
+            "pin_memory": true,
+        },
+        "ddp": false,
+        "drop_last": true,
+        "grad_clip_thresh": 1.0,
+        "gradient_accumulation_step": 1,
+        "group_size": 4,
+        "keep_checkpoint_max": 5,
+        "keep_last": [
+            3,
+            -1,
+        ],
+        "lr_scheduler": {
+            "num_warmup": 4000,
+        },
+        "max_epoch": -1,
+        "max_steps": 1000000,
+        "multi_speaker_training": false,
+        "optimizer": "Adam",
+        "random_seed": 10086,
+        "reducelronplateau": {
+            "factor": 0.8,
+            "min_lr": 0.0001,
+            "patience": 10,
+        },
+        "run_eval": [
+            false,
+            true,
+        ],
+        "sampler": {
+            "drop_last": true,
+            "holistic_shuffle": true,
+        },
+        "save_checkpoint_stride": [
+            5,
+            20,
+        ],
+        "save_checkpoints_steps": 10000,
+        "save_summary_steps": 500,
+        "scheduler": "NoamLR",
+        "sort_sample": true,
+        "total_training_steps": 50000,
+        "tracker": [
+            "tensorboard",
+        ],
+        "valid_interval": 10000,
+    },
+    "use_custom_dataset": false,
+}