use_ema: true
output_dir: results/train
pretrained_model_path: /mnt/vepfs/zhaomin/projects/LargeData/checkpoints/stable-video-diffusion-img2vid/
train_data:
  file_path: /mnt/vepfs/zhaomin/projects/scence_fusion/improved-svd/finalre/webvid.csv
  video_folder: /mnt/vepfs/bigdata/video_datasets/webvid/2M_train
  sample_size: 320,512
  fps: 3
  sample_n_frames: 16
validation_folder: /mnt/vepfs/zhaomin/projects/scence_fusion/improved-svd/SVD_diffusers/demo
motion_bucket_id: 20.0
cfg_random_null_ratio: 0.1
resume_path: ''
ema_decay: 0.9999
noise_scheduler_kwargs:
  P_mean: -1.2
  P_std: 1.2
  sigma_data: 1
  beta_m: 15
  a: 5
max_train_steps: 100000
validation_steps: 10
learning_rate: 3.0e-05
scale_lr: false
lr_scheduler: constant
train_batch_size: 1
adam_beta1: 0.9
adam_beta2: 0.999
adam_weight_decay: 0.01
adam_epsilon: 1.0e-08
gradient_accumulation_steps: 1
gradient_checkpointing: true
checkpointing_steps: 10000
mixed_precision_training: true
global_seed: 23
max_grad_norm: 1.0