novateur
/

aaa

Model card Files Files and versions Community

novateur commited on Jan 15

Commit

3e73800

verified ·

1 Parent(s): 3188c79

Upload jsp_wavtokenizer_dit_stage2_vocoder_noreduce_center_mel100_node3.yaml

Browse files

Files changed (1) hide show

jsp_wavtokenizer_dit_stage2_vocoder_noreduce_center_mel100_node3.yaml +102 -0

jsp_wavtokenizer_dit_stage2_vocoder_noreduce_center_mel100_node3.yaml ADDED Viewed

	@@ -0,0 +1,102 @@

+seed_everything: 3407
+data:
+  class_path: decoder.dataset.VocosDataModule
+  init_args:
+    train_params:
+      filelist_path: /cpfs01/shared/jishengpeng/Data/DataPath/libritts_train_dev_test
+      sampling_rate: 24000
+      num_samples: 144000
+      batch_size: 22  # 20
+      num_workers: 8
+      n_mels: 100
+    val_params:
+      filelist_path: /cpfs01/shared/jishengpeng/Data/DataPath/libritts_testclean
+      sampling_rate: 24000
+      num_samples: 144000
+      batch_size: 2   # 10
+      num_workers: 8
+      n_mels: 100
+model:
+  class_path: decoder.experiment.WavTokenizer
+  init_args:
+    sample_rate: 24000
+    train_vocoder: true
+    reduce_length: false
+    initial_learning_rate: 2e-4
+    mel_loss_coeff: 360
+    mrd_loss_coeff: 1.0
+    num_warmup_steps: 0 # Optimizers warmup steps
+    pretrain_mel_steps: 0  # 0 means GAN objective from the first iteration
+    # automatic evaluation
+    evaluate_utmos: true
+    evaluate_pesq: true
+    evaluate_periodicty: true
+    resume: false
+    resume_config: ./WavTokenizer/configs/wavtokenizer_smalldata_frame75_3s_nq1_code16384_dim512_kmeans800_attn.yaml
+    resume_model: /home/xj_data/jishengpeng/Qwen_Codec/WavTokenizer_fm_dit/result/train/dit_stage2_trainvocoder_noreduce_center/lightning_logs/version_4/checkpoints/wavtokenizer_checkpoint_epoch=1_step=96596_val_loss=0.1223.ckpt
+    feature_extractor:
+      class_path: decoder.feature_extractors.EncodecFeatures
+      init_args:
+        encodec_model: encodec_24khz
+        bandwidths: [6.6, 6.6, 6.6, 6.6]
+        train_codebooks: true
+        num_quantizers: 1
+        dowmsamples: [8, 5, 4, 2]
+        vq_bins: 4096
+        vq_kmeans: 200
+    backbone:
+      class_path: decoder.models.WavTokenizerDiT
+      init_args:
+        train_vocoder: true
+        reduce_length: false
+        input_channels: 100
+        dim: 768
+        intermediate_dim: 1536
+        num_layers: 12
+        adanorm_num_embeddings: 4
+    head:
+      class_path: decoder.heads.ISTFTHead
+      init_args:
+        dim: 768
+        n_fft: 1280
+        hop_length: 320
+        padding: center
+trainer:
+  logger:
+    class_path: pytorch_lightning.loggers.TensorBoardLogger
+    init_args:
+      save_dir: /home/xj_data/jishengpeng/Qwen_Codec/WavTokenizerDiT/result/train/dit_stage2_trainvocoder_noreduce_center_mel100_node3/
+      # save_dir: /home/xj_data/jishengpeng/Qwen_Codec/WavTokenizer_fm_gtmel/result/train/wavtokenizer_smalldata_flowing_matching_frame75_3s_nq1_code4096_dim512_kmeans200_attn/
+  callbacks:
+    - class_path: pytorch_lightning.callbacks.LearningRateMonitor
+    - class_path: pytorch_lightning.callbacks.ModelSummary
+      init_args:
+        max_depth: 2
+    - class_path: pytorch_lightning.callbacks.ModelCheckpoint
+      init_args:
+        monitor: val_loss
+        filename: wavtokenizer_checkpoint_{epoch}_{step}_{val_loss:.4f}
+        save_top_k: 6
+        save_last: true
+    - class_path: decoder.helpers.GradNormCallback
+  # Lightning calculates max_steps across all optimizer steps (rather than number of batches)
+  # This equals to 1M steps per generator and 1M per discriminator
+  max_steps: 1000000
+  # You might want to limit val batches when evaluating all the metrics, as they are time-consuming
+  limit_val_batches: 100
+  accelerator: gpu
+  strategy: ddp
+  # devices: [0]
+  devices: [0,1,2,3,4,5,6,7]
+  num_nodes: 3
+  log_every_n_steps: 1000