{
  "_class_name": "CausalVideoAutoencoder",
  "dims": [3, 64, 128, 256, 512],
  "blocks": [2, 2, 2, 2],
  "attention_head_dim": 8,
  "num_groups": 32,
  "out_channels": 3,
  "down_block_types": ["DownBlock2D", "DownBlock2D", "DownBlock2D", "DownBlock2D"],
  "up_block_types": ["UpBlock2D", "UpBlock2D", "UpBlock2D", "UpBlock2D"]
}