diff --git "a/ablation/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask/20230304_103934.log" "b/ablation/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask/20230304_103934.log"
new file mode 100644--- /dev/null
+++ "b/ablation/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask/20230304_103934.log"
@@ -0,0 +1,1306 @@
+2023-03-04 10:39:34,378 - mmseg - INFO - Multi-processing start method is `None`
+2023-03-04 10:39:34,392 - mmseg - INFO - OpenCV num_threads is `128
+2023-03-04 10:39:34,392 - mmseg - INFO - OMP num threads is 1
+2023-03-04 10:39:34,453 - mmseg - INFO - Environment info:
+------------------------------------------------------------
+sys.platform: linux
+Python: 3.7.16 (default, Jan 17 2023, 22:20:44) [GCC 11.2.0]
+CUDA available: True
+GPU 0,1,2,3,4,5,6,7: NVIDIA A100-SXM4-80GB
+CUDA_HOME: /mnt/petrelfs/laizeqiang/miniconda3/envs/torch
+NVCC: Cuda compilation tools, release 11.6, V11.6.124
+GCC: gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-44)
+PyTorch: 1.13.1
+PyTorch compiling details: PyTorch built with:
+  - GCC 9.3
+  - C++ Version: 201402
+  - Intel(R) oneAPI Math Kernel Library Version 2021.4-Product Build 20210904 for Intel(R) 64 architecture applications
+  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
+  - OpenMP 201511 (a.k.a. OpenMP 4.5)
+  - LAPACK is enabled (usually provided by MKL)
+  - NNPACK is enabled
+  - CPU capability usage: AVX2
+  - CUDA Runtime 11.6
+  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_37,code=compute_37
+  - CuDNN 8.3.2  (built against CUDA 11.5)
+  - Magma 2.6.1
+  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.6, CUDNN_VERSION=8.3.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -fabi-version=11 -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Werror=non-virtual-dtor -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wunused-local-typedefs -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.13.1, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=ON, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF, 
+
+TorchVision: 0.14.1
+OpenCV: 4.7.0
+MMCV: 1.7.1
+MMCV Compiler: GCC 9.3
+MMCV CUDA Compiler: 11.6
+MMSegmentation: 0.30.0+d4f0cb3
+------------------------------------------------------------
+
+2023-03-04 10:39:34,453 - mmseg - INFO - Distributed training: True
+2023-03-04 10:39:35,115 - mmseg - INFO - Config:
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+checkpoint = 'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth'
+model = dict(
+    type='EncoderDecoderFreeze',
+    freeze_parameters=['backbone', 'decode_head'],
+    pretrained=
+    'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth',
+    backbone=dict(
+        type='MixVisionTransformerCustomInitWeights',
+        in_channels=3,
+        embed_dims=64,
+        num_stages=4,
+        num_layers=[3, 4, 6, 3],
+        num_heads=[1, 2, 5, 8],
+        patch_sizes=[7, 3, 3, 3],
+        sr_ratios=[8, 4, 2, 1],
+        out_indices=(0, 1, 2, 3),
+        mlp_ratio=4,
+        qkv_bias=True,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.1),
+    decode_head=dict(
+        type='SegformerHeadUnetFCHeadSingleStepMask',
+        pretrained=
+        'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth',
+        dim=128,
+        out_dim=256,
+        unet_channels=272,
+        dim_mults=[1, 1, 1],
+        cat_embedding_dim=16,
+        in_channels=[64, 128, 320, 512],
+        in_index=[0, 1, 2, 3],
+        channels=256,
+        dropout_ratio=0.1,
+        num_classes=151,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        ignore_index=0,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'ADE20K151Dataset'
+data_root = 'data/ade/ADEChallengeData2016'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (512, 512)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', reduce_zero_label=False),
+    dict(type='Resize', img_scale=(2048, 512), ratio_range=(0.5, 2.0)),
+    dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+    dict(type='RandomFlip', prob=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=0),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(2048, 512),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=16, pad_val=0, seg_pad_val=0),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=4,
+    workers_per_gpu=4,
+    train=dict(
+        type='ADE20K151Dataset',
+        data_root='data/ade/ADEChallengeData2016',
+        img_dir='images/training',
+        ann_dir='annotations/training',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', reduce_zero_label=False),
+            dict(type='Resize', img_scale=(2048, 512), ratio_range=(0.5, 2.0)),
+            dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+            dict(type='RandomFlip', prob=0.5),
+            dict(type='PhotoMetricDistortion'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=0),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='ADE20K151Dataset',
+        data_root='data/ade/ADEChallengeData2016',
+        img_dir='images/validation',
+        ann_dir='annotations/validation',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(2048, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(
+                        type='Pad', size_divisor=16, pad_val=0, seg_pad_val=0),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='ADE20K151Dataset',
+        data_root='data/ade/ADEChallengeData2016',
+        img_dir='images/validation',
+        ann_dir='annotations/validation',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(2048, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(
+                        type='Pad', size_divisor=16, pad_val=0, seg_pad_val=0),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW', lr=0.00015, betas=[0.9, 0.96], weight_decay=0.045)
+optimizer_config = dict()
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=1000,
+    warmup_ratio=1e-06,
+    step=10000,
+    gamma=0.5,
+    min_lr=1e-06,
+    by_epoch=False)
+runner = dict(type='IterBasedRunner', max_iters=80000)
+checkpoint_config = dict(by_epoch=False, interval=8000)
+evaluation = dict(
+    interval=8000, metric='mIoU', pre_eval=True, save_best='mIoU')
+work_dir = './work_dirs2/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask'
+gpu_ids = range(0, 8)
+auto_resume = True
+
+2023-03-04 10:39:39,413 - mmseg - INFO - Set random seed to 1648012630, deterministic: False
+2023-03-04 10:39:39,670 - mmseg - INFO - Parameters in backbone freezed!
+2023-03-04 10:39:39,671 - mmseg - INFO - Trainable parameters in SegformerHeadUnetFCHeadSingleStep: ['unet.init_conv.weight', 'unet.init_conv.bias', 'unet.time_mlp.1.weight', 'unet.time_mlp.1.bias', 'unet.time_mlp.3.weight', 'unet.time_mlp.3.bias', 'unet.downs.0.0.mlp.1.weight', 'unet.downs.0.0.mlp.1.bias', 'unet.downs.0.0.block1.proj.weight', 'unet.downs.0.0.block1.proj.bias', 'unet.downs.0.0.block1.norm.weight', 'unet.downs.0.0.block1.norm.bias', 'unet.downs.0.0.block2.proj.weight', 'unet.downs.0.0.block2.proj.bias', 'unet.downs.0.0.block2.norm.weight', 'unet.downs.0.0.block2.norm.bias', 'unet.downs.0.1.mlp.1.weight', 'unet.downs.0.1.mlp.1.bias', 'unet.downs.0.1.block1.proj.weight', 'unet.downs.0.1.block1.proj.bias', 'unet.downs.0.1.block1.norm.weight', 'unet.downs.0.1.block1.norm.bias', 'unet.downs.0.1.block2.proj.weight', 'unet.downs.0.1.block2.proj.bias', 'unet.downs.0.1.block2.norm.weight', 'unet.downs.0.1.block2.norm.bias', 'unet.downs.0.2.fn.fn.to_qkv.weight', 'unet.downs.0.2.fn.fn.to_out.0.weight', 'unet.downs.0.2.fn.fn.to_out.0.bias', 'unet.downs.0.2.fn.fn.to_out.1.g', 'unet.downs.0.2.fn.norm.g', 'unet.downs.0.3.weight', 'unet.downs.0.3.bias', 'unet.downs.1.0.mlp.1.weight', 'unet.downs.1.0.mlp.1.bias', 'unet.downs.1.0.block1.proj.weight', 'unet.downs.1.0.block1.proj.bias', 'unet.downs.1.0.block1.norm.weight', 'unet.downs.1.0.block1.norm.bias', 'unet.downs.1.0.block2.proj.weight', 'unet.downs.1.0.block2.proj.bias', 'unet.downs.1.0.block2.norm.weight', 'unet.downs.1.0.block2.norm.bias', 'unet.downs.1.1.mlp.1.weight', 'unet.downs.1.1.mlp.1.bias', 'unet.downs.1.1.block1.proj.weight', 'unet.downs.1.1.block1.proj.bias', 'unet.downs.1.1.block1.norm.weight', 'unet.downs.1.1.block1.norm.bias', 'unet.downs.1.1.block2.proj.weight', 'unet.downs.1.1.block2.proj.bias', 'unet.downs.1.1.block2.norm.weight', 'unet.downs.1.1.block2.norm.bias', 'unet.downs.1.2.fn.fn.to_qkv.weight', 'unet.downs.1.2.fn.fn.to_out.0.weight', 'unet.downs.1.2.fn.fn.to_out.0.bias', 'unet.downs.1.2.fn.fn.to_out.1.g', 'unet.downs.1.2.fn.norm.g', 'unet.downs.1.3.weight', 'unet.downs.1.3.bias', 'unet.downs.2.0.mlp.1.weight', 'unet.downs.2.0.mlp.1.bias', 'unet.downs.2.0.block1.proj.weight', 'unet.downs.2.0.block1.proj.bias', 'unet.downs.2.0.block1.norm.weight', 'unet.downs.2.0.block1.norm.bias', 'unet.downs.2.0.block2.proj.weight', 'unet.downs.2.0.block2.proj.bias', 'unet.downs.2.0.block2.norm.weight', 'unet.downs.2.0.block2.norm.bias', 'unet.downs.2.1.mlp.1.weight', 'unet.downs.2.1.mlp.1.bias', 'unet.downs.2.1.block1.proj.weight', 'unet.downs.2.1.block1.proj.bias', 'unet.downs.2.1.block1.norm.weight', 'unet.downs.2.1.block1.norm.bias', 'unet.downs.2.1.block2.proj.weight', 'unet.downs.2.1.block2.proj.bias', 'unet.downs.2.1.block2.norm.weight', 'unet.downs.2.1.block2.norm.bias', 'unet.downs.2.2.fn.fn.to_qkv.weight', 'unet.downs.2.2.fn.fn.to_out.0.weight', 'unet.downs.2.2.fn.fn.to_out.0.bias', 'unet.downs.2.2.fn.fn.to_out.1.g', 'unet.downs.2.2.fn.norm.g', 'unet.downs.2.3.weight', 'unet.downs.2.3.bias', 'unet.ups.0.0.mlp.1.weight', 'unet.ups.0.0.mlp.1.bias', 'unet.ups.0.0.block1.proj.weight', 'unet.ups.0.0.block1.proj.bias', 'unet.ups.0.0.block1.norm.weight', 'unet.ups.0.0.block1.norm.bias', 'unet.ups.0.0.block2.proj.weight', 'unet.ups.0.0.block2.proj.bias', 'unet.ups.0.0.block2.norm.weight', 'unet.ups.0.0.block2.norm.bias', 'unet.ups.0.0.res_conv.weight', 'unet.ups.0.0.res_conv.bias', 'unet.ups.0.1.mlp.1.weight', 'unet.ups.0.1.mlp.1.bias', 'unet.ups.0.1.block1.proj.weight', 'unet.ups.0.1.block1.proj.bias', 'unet.ups.0.1.block1.norm.weight', 'unet.ups.0.1.block1.norm.bias', 'unet.ups.0.1.block2.proj.weight', 'unet.ups.0.1.block2.proj.bias', 'unet.ups.0.1.block2.norm.weight', 'unet.ups.0.1.block2.norm.bias', 'unet.ups.0.1.res_conv.weight', 'unet.ups.0.1.res_conv.bias', 'unet.ups.0.2.fn.fn.to_qkv.weight', 'unet.ups.0.2.fn.fn.to_out.0.weight', 'unet.ups.0.2.fn.fn.to_out.0.bias', 'unet.ups.0.2.fn.fn.to_out.1.g', 'unet.ups.0.2.fn.norm.g', 'unet.ups.0.3.1.weight', 'unet.ups.0.3.1.bias', 'unet.ups.1.0.mlp.1.weight', 'unet.ups.1.0.mlp.1.bias', 'unet.ups.1.0.block1.proj.weight', 'unet.ups.1.0.block1.proj.bias', 'unet.ups.1.0.block1.norm.weight', 'unet.ups.1.0.block1.norm.bias', 'unet.ups.1.0.block2.proj.weight', 'unet.ups.1.0.block2.proj.bias', 'unet.ups.1.0.block2.norm.weight', 'unet.ups.1.0.block2.norm.bias', 'unet.ups.1.0.res_conv.weight', 'unet.ups.1.0.res_conv.bias', 'unet.ups.1.1.mlp.1.weight', 'unet.ups.1.1.mlp.1.bias', 'unet.ups.1.1.block1.proj.weight', 'unet.ups.1.1.block1.proj.bias', 'unet.ups.1.1.block1.norm.weight', 'unet.ups.1.1.block1.norm.bias', 'unet.ups.1.1.block2.proj.weight', 'unet.ups.1.1.block2.proj.bias', 'unet.ups.1.1.block2.norm.weight', 'unet.ups.1.1.block2.norm.bias', 'unet.ups.1.1.res_conv.weight', 'unet.ups.1.1.res_conv.bias', 'unet.ups.1.2.fn.fn.to_qkv.weight', 'unet.ups.1.2.fn.fn.to_out.0.weight', 'unet.ups.1.2.fn.fn.to_out.0.bias', 'unet.ups.1.2.fn.fn.to_out.1.g', 'unet.ups.1.2.fn.norm.g', 'unet.ups.1.3.1.weight', 'unet.ups.1.3.1.bias', 'unet.ups.2.0.mlp.1.weight', 'unet.ups.2.0.mlp.1.bias', 'unet.ups.2.0.block1.proj.weight', 'unet.ups.2.0.block1.proj.bias', 'unet.ups.2.0.block1.norm.weight', 'unet.ups.2.0.block1.norm.bias', 'unet.ups.2.0.block2.proj.weight', 'unet.ups.2.0.block2.proj.bias', 'unet.ups.2.0.block2.norm.weight', 'unet.ups.2.0.block2.norm.bias', 'unet.ups.2.0.res_conv.weight', 'unet.ups.2.0.res_conv.bias', 'unet.ups.2.1.mlp.1.weight', 'unet.ups.2.1.mlp.1.bias', 'unet.ups.2.1.block1.proj.weight', 'unet.ups.2.1.block1.proj.bias', 'unet.ups.2.1.block1.norm.weight', 'unet.ups.2.1.block1.norm.bias', 'unet.ups.2.1.block2.proj.weight', 'unet.ups.2.1.block2.proj.bias', 'unet.ups.2.1.block2.norm.weight', 'unet.ups.2.1.block2.norm.bias', 'unet.ups.2.1.res_conv.weight', 'unet.ups.2.1.res_conv.bias', 'unet.ups.2.2.fn.fn.to_qkv.weight', 'unet.ups.2.2.fn.fn.to_out.0.weight', 'unet.ups.2.2.fn.fn.to_out.0.bias', 'unet.ups.2.2.fn.fn.to_out.1.g', 'unet.ups.2.2.fn.norm.g', 'unet.ups.2.3.weight', 'unet.ups.2.3.bias', 'unet.mid_block1.mlp.1.weight', 'unet.mid_block1.mlp.1.bias', 'unet.mid_block1.block1.proj.weight', 'unet.mid_block1.block1.proj.bias', 'unet.mid_block1.block1.norm.weight', 'unet.mid_block1.block1.norm.bias', 'unet.mid_block1.block2.proj.weight', 'unet.mid_block1.block2.proj.bias', 'unet.mid_block1.block2.norm.weight', 'unet.mid_block1.block2.norm.bias', 'unet.mid_attn.fn.fn.to_qkv.weight', 'unet.mid_attn.fn.fn.to_out.weight', 'unet.mid_attn.fn.fn.to_out.bias', 'unet.mid_attn.fn.norm.g', 'unet.mid_block2.mlp.1.weight', 'unet.mid_block2.mlp.1.bias', 'unet.mid_block2.block1.proj.weight', 'unet.mid_block2.block1.proj.bias', 'unet.mid_block2.block1.norm.weight', 'unet.mid_block2.block1.norm.bias', 'unet.mid_block2.block2.proj.weight', 'unet.mid_block2.block2.proj.bias', 'unet.mid_block2.block2.norm.weight', 'unet.mid_block2.block2.norm.bias', 'unet.final_res_block.mlp.1.weight', 'unet.final_res_block.mlp.1.bias', 'unet.final_res_block.block1.proj.weight', 'unet.final_res_block.block1.proj.bias', 'unet.final_res_block.block1.norm.weight', 'unet.final_res_block.block1.norm.bias', 'unet.final_res_block.block2.proj.weight', 'unet.final_res_block.block2.proj.bias', 'unet.final_res_block.block2.norm.weight', 'unet.final_res_block.block2.norm.bias', 'unet.final_res_block.res_conv.weight', 'unet.final_res_block.res_conv.bias', 'unet.final_conv.weight', 'unet.final_conv.bias', 'conv_seg_new.weight', 'conv_seg_new.bias']
+2023-03-04 10:39:39,671 - mmseg - INFO - Parameters in decode_head freezed!
+2023-03-04 10:39:39,693 - mmseg - INFO - load checkpoint from local path: pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth
+2023-03-04 10:39:39,944 - mmseg - WARNING - The model and loaded state dict do not match exactly
+
+unexpected key in source state_dict: decode_head.conv_seg.weight, decode_head.conv_seg.bias, decode_head.convs.0.conv.weight, decode_head.convs.0.bn.weight, decode_head.convs.0.bn.bias, decode_head.convs.0.bn.running_mean, decode_head.convs.0.bn.running_var, decode_head.convs.0.bn.num_batches_tracked, decode_head.convs.1.conv.weight, decode_head.convs.1.bn.weight, decode_head.convs.1.bn.bias, decode_head.convs.1.bn.running_mean, decode_head.convs.1.bn.running_var, decode_head.convs.1.bn.num_batches_tracked, decode_head.convs.2.conv.weight, decode_head.convs.2.bn.weight, decode_head.convs.2.bn.bias, decode_head.convs.2.bn.running_mean, decode_head.convs.2.bn.running_var, decode_head.convs.2.bn.num_batches_tracked, decode_head.convs.3.conv.weight, decode_head.convs.3.bn.weight, decode_head.convs.3.bn.bias, decode_head.convs.3.bn.running_mean, decode_head.convs.3.bn.running_var, decode_head.convs.3.bn.num_batches_tracked, decode_head.fusion_conv.conv.weight, decode_head.fusion_conv.bn.weight, decode_head.fusion_conv.bn.bias, decode_head.fusion_conv.bn.running_mean, decode_head.fusion_conv.bn.running_var, decode_head.fusion_conv.bn.num_batches_tracked
+
+2023-03-04 10:39:39,956 - mmseg - INFO - load checkpoint from local path: pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth
+2023-03-04 10:39:40,173 - mmseg - WARNING - The model and loaded state dict do not match exactly
+
+unexpected key in source state_dict: backbone.layers.0.0.projection.weight, backbone.layers.0.0.projection.bias, backbone.layers.0.0.norm.weight, backbone.layers.0.0.norm.bias, backbone.layers.0.1.0.norm1.weight, backbone.layers.0.1.0.norm1.bias, backbone.layers.0.1.0.attn.attn.in_proj_weight, backbone.layers.0.1.0.attn.attn.in_proj_bias, backbone.layers.0.1.0.attn.attn.out_proj.weight, backbone.layers.0.1.0.attn.attn.out_proj.bias, backbone.layers.0.1.0.attn.sr.weight, backbone.layers.0.1.0.attn.sr.bias, backbone.layers.0.1.0.attn.norm.weight, backbone.layers.0.1.0.attn.norm.bias, backbone.layers.0.1.0.norm2.weight, backbone.layers.0.1.0.norm2.bias, backbone.layers.0.1.0.ffn.layers.0.weight, backbone.layers.0.1.0.ffn.layers.0.bias, backbone.layers.0.1.0.ffn.layers.1.weight, backbone.layers.0.1.0.ffn.layers.1.bias, backbone.layers.0.1.0.ffn.layers.4.weight, backbone.layers.0.1.0.ffn.layers.4.bias, backbone.layers.0.1.1.norm1.weight, backbone.layers.0.1.1.norm1.bias, backbone.layers.0.1.1.attn.attn.in_proj_weight, backbone.layers.0.1.1.attn.attn.in_proj_bias, backbone.layers.0.1.1.attn.attn.out_proj.weight, backbone.layers.0.1.1.attn.attn.out_proj.bias, backbone.layers.0.1.1.attn.sr.weight, backbone.layers.0.1.1.attn.sr.bias, backbone.layers.0.1.1.attn.norm.weight, backbone.layers.0.1.1.attn.norm.bias, backbone.layers.0.1.1.norm2.weight, backbone.layers.0.1.1.norm2.bias, backbone.layers.0.1.1.ffn.layers.0.weight, backbone.layers.0.1.1.ffn.layers.0.bias, backbone.layers.0.1.1.ffn.layers.1.weight, backbone.layers.0.1.1.ffn.layers.1.bias, backbone.layers.0.1.1.ffn.layers.4.weight, backbone.layers.0.1.1.ffn.layers.4.bias, backbone.layers.0.1.2.norm1.weight, backbone.layers.0.1.2.norm1.bias, backbone.layers.0.1.2.attn.attn.in_proj_weight, backbone.layers.0.1.2.attn.attn.in_proj_bias, backbone.layers.0.1.2.attn.attn.out_proj.weight, backbone.layers.0.1.2.attn.attn.out_proj.bias, backbone.layers.0.1.2.attn.sr.weight, backbone.layers.0.1.2.attn.sr.bias, backbone.layers.0.1.2.attn.norm.weight, backbone.layers.0.1.2.attn.norm.bias, backbone.layers.0.1.2.norm2.weight, backbone.layers.0.1.2.norm2.bias, backbone.layers.0.1.2.ffn.layers.0.weight, backbone.layers.0.1.2.ffn.layers.0.bias, backbone.layers.0.1.2.ffn.layers.1.weight, backbone.layers.0.1.2.ffn.layers.1.bias, backbone.layers.0.1.2.ffn.layers.4.weight, backbone.layers.0.1.2.ffn.layers.4.bias, backbone.layers.0.2.weight, backbone.layers.0.2.bias, backbone.layers.1.0.projection.weight, backbone.layers.1.0.projection.bias, backbone.layers.1.0.norm.weight, backbone.layers.1.0.norm.bias, backbone.layers.1.1.0.norm1.weight, backbone.layers.1.1.0.norm1.bias, backbone.layers.1.1.0.attn.attn.in_proj_weight, backbone.layers.1.1.0.attn.attn.in_proj_bias, backbone.layers.1.1.0.attn.attn.out_proj.weight, backbone.layers.1.1.0.attn.attn.out_proj.bias, backbone.layers.1.1.0.attn.sr.weight, backbone.layers.1.1.0.attn.sr.bias, backbone.layers.1.1.0.attn.norm.weight, backbone.layers.1.1.0.attn.norm.bias, backbone.layers.1.1.0.norm2.weight, backbone.layers.1.1.0.norm2.bias, backbone.layers.1.1.0.ffn.layers.0.weight, backbone.layers.1.1.0.ffn.layers.0.bias, backbone.layers.1.1.0.ffn.layers.1.weight, backbone.layers.1.1.0.ffn.layers.1.bias, backbone.layers.1.1.0.ffn.layers.4.weight, backbone.layers.1.1.0.ffn.layers.4.bias, backbone.layers.1.1.1.norm1.weight, backbone.layers.1.1.1.norm1.bias, backbone.layers.1.1.1.attn.attn.in_proj_weight, backbone.layers.1.1.1.attn.attn.in_proj_bias, backbone.layers.1.1.1.attn.attn.out_proj.weight, backbone.layers.1.1.1.attn.attn.out_proj.bias, backbone.layers.1.1.1.attn.sr.weight, backbone.layers.1.1.1.attn.sr.bias, backbone.layers.1.1.1.attn.norm.weight, backbone.layers.1.1.1.attn.norm.bias, backbone.layers.1.1.1.norm2.weight, backbone.layers.1.1.1.norm2.bias, backbone.layers.1.1.1.ffn.layers.0.weight, backbone.layers.1.1.1.ffn.layers.0.bias, backbone.layers.1.1.1.ffn.layers.1.weight, backbone.layers.1.1.1.ffn.layers.1.bias, backbone.layers.1.1.1.ffn.layers.4.weight, backbone.layers.1.1.1.ffn.layers.4.bias, backbone.layers.1.1.2.norm1.weight, backbone.layers.1.1.2.norm1.bias, backbone.layers.1.1.2.attn.attn.in_proj_weight, backbone.layers.1.1.2.attn.attn.in_proj_bias, backbone.layers.1.1.2.attn.attn.out_proj.weight, backbone.layers.1.1.2.attn.attn.out_proj.bias, backbone.layers.1.1.2.attn.sr.weight, backbone.layers.1.1.2.attn.sr.bias, backbone.layers.1.1.2.attn.norm.weight, backbone.layers.1.1.2.attn.norm.bias, backbone.layers.1.1.2.norm2.weight, backbone.layers.1.1.2.norm2.bias, backbone.layers.1.1.2.ffn.layers.0.weight, backbone.layers.1.1.2.ffn.layers.0.bias, backbone.layers.1.1.2.ffn.layers.1.weight, backbone.layers.1.1.2.ffn.layers.1.bias, backbone.layers.1.1.2.ffn.layers.4.weight, backbone.layers.1.1.2.ffn.layers.4.bias, backbone.layers.1.1.3.norm1.weight, backbone.layers.1.1.3.norm1.bias, backbone.layers.1.1.3.attn.attn.in_proj_weight, backbone.layers.1.1.3.attn.attn.in_proj_bias, backbone.layers.1.1.3.attn.attn.out_proj.weight, backbone.layers.1.1.3.attn.attn.out_proj.bias, backbone.layers.1.1.3.attn.sr.weight, backbone.layers.1.1.3.attn.sr.bias, backbone.layers.1.1.3.attn.norm.weight, backbone.layers.1.1.3.attn.norm.bias, backbone.layers.1.1.3.norm2.weight, backbone.layers.1.1.3.norm2.bias, backbone.layers.1.1.3.ffn.layers.0.weight, backbone.layers.1.1.3.ffn.layers.0.bias, backbone.layers.1.1.3.ffn.layers.1.weight, backbone.layers.1.1.3.ffn.layers.1.bias, backbone.layers.1.1.3.ffn.layers.4.weight, backbone.layers.1.1.3.ffn.layers.4.bias, backbone.layers.1.2.weight, backbone.layers.1.2.bias, backbone.layers.2.0.projection.weight, backbone.layers.2.0.projection.bias, backbone.layers.2.0.norm.weight, backbone.layers.2.0.norm.bias, backbone.layers.2.1.0.norm1.weight, backbone.layers.2.1.0.norm1.bias, backbone.layers.2.1.0.attn.attn.in_proj_weight, backbone.layers.2.1.0.attn.attn.in_proj_bias, backbone.layers.2.1.0.attn.attn.out_proj.weight, backbone.layers.2.1.0.attn.attn.out_proj.bias, backbone.layers.2.1.0.attn.sr.weight, backbone.layers.2.1.0.attn.sr.bias, backbone.layers.2.1.0.attn.norm.weight, backbone.layers.2.1.0.attn.norm.bias, backbone.layers.2.1.0.norm2.weight, backbone.layers.2.1.0.norm2.bias, backbone.layers.2.1.0.ffn.layers.0.weight, backbone.layers.2.1.0.ffn.layers.0.bias, backbone.layers.2.1.0.ffn.layers.1.weight, backbone.layers.2.1.0.ffn.layers.1.bias, backbone.layers.2.1.0.ffn.layers.4.weight, backbone.layers.2.1.0.ffn.layers.4.bias, backbone.layers.2.1.1.norm1.weight, backbone.layers.2.1.1.norm1.bias, backbone.layers.2.1.1.attn.attn.in_proj_weight, backbone.layers.2.1.1.attn.attn.in_proj_bias, backbone.layers.2.1.1.attn.attn.out_proj.weight, backbone.layers.2.1.1.attn.attn.out_proj.bias, backbone.layers.2.1.1.attn.sr.weight, backbone.layers.2.1.1.attn.sr.bias, backbone.layers.2.1.1.attn.norm.weight, backbone.layers.2.1.1.attn.norm.bias, backbone.layers.2.1.1.norm2.weight, backbone.layers.2.1.1.norm2.bias, backbone.layers.2.1.1.ffn.layers.0.weight, backbone.layers.2.1.1.ffn.layers.0.bias, backbone.layers.2.1.1.ffn.layers.1.weight, backbone.layers.2.1.1.ffn.layers.1.bias, backbone.layers.2.1.1.ffn.layers.4.weight, backbone.layers.2.1.1.ffn.layers.4.bias, backbone.layers.2.1.2.norm1.weight, backbone.layers.2.1.2.norm1.bias, backbone.layers.2.1.2.attn.attn.in_proj_weight, backbone.layers.2.1.2.attn.attn.in_proj_bias, backbone.layers.2.1.2.attn.attn.out_proj.weight, backbone.layers.2.1.2.attn.attn.out_proj.bias, backbone.layers.2.1.2.attn.sr.weight, backbone.layers.2.1.2.attn.sr.bias, backbone.layers.2.1.2.attn.norm.weight, backbone.layers.2.1.2.attn.norm.bias, backbone.layers.2.1.2.norm2.weight, backbone.layers.2.1.2.norm2.bias, backbone.layers.2.1.2.ffn.layers.0.weight, backbone.layers.2.1.2.ffn.layers.0.bias, backbone.layers.2.1.2.ffn.layers.1.weight, backbone.layers.2.1.2.ffn.layers.1.bias, backbone.layers.2.1.2.ffn.layers.4.weight, backbone.layers.2.1.2.ffn.layers.4.bias, backbone.layers.2.1.3.norm1.weight, backbone.layers.2.1.3.norm1.bias, backbone.layers.2.1.3.attn.attn.in_proj_weight, backbone.layers.2.1.3.attn.attn.in_proj_bias, backbone.layers.2.1.3.attn.attn.out_proj.weight, backbone.layers.2.1.3.attn.attn.out_proj.bias, backbone.layers.2.1.3.attn.sr.weight, backbone.layers.2.1.3.attn.sr.bias, backbone.layers.2.1.3.attn.norm.weight, backbone.layers.2.1.3.attn.norm.bias, backbone.layers.2.1.3.norm2.weight, backbone.layers.2.1.3.norm2.bias, backbone.layers.2.1.3.ffn.layers.0.weight, backbone.layers.2.1.3.ffn.layers.0.bias, backbone.layers.2.1.3.ffn.layers.1.weight, backbone.layers.2.1.3.ffn.layers.1.bias, backbone.layers.2.1.3.ffn.layers.4.weight, backbone.layers.2.1.3.ffn.layers.4.bias, backbone.layers.2.1.4.norm1.weight, backbone.layers.2.1.4.norm1.bias, backbone.layers.2.1.4.attn.attn.in_proj_weight, backbone.layers.2.1.4.attn.attn.in_proj_bias, backbone.layers.2.1.4.attn.attn.out_proj.weight, backbone.layers.2.1.4.attn.attn.out_proj.bias, backbone.layers.2.1.4.attn.sr.weight, backbone.layers.2.1.4.attn.sr.bias, backbone.layers.2.1.4.attn.norm.weight, backbone.layers.2.1.4.attn.norm.bias, backbone.layers.2.1.4.norm2.weight, backbone.layers.2.1.4.norm2.bias, backbone.layers.2.1.4.ffn.layers.0.weight, backbone.layers.2.1.4.ffn.layers.0.bias, backbone.layers.2.1.4.ffn.layers.1.weight, backbone.layers.2.1.4.ffn.layers.1.bias, backbone.layers.2.1.4.ffn.layers.4.weight, backbone.layers.2.1.4.ffn.layers.4.bias, backbone.layers.2.1.5.norm1.weight, backbone.layers.2.1.5.norm1.bias, backbone.layers.2.1.5.attn.attn.in_proj_weight, backbone.layers.2.1.5.attn.attn.in_proj_bias, backbone.layers.2.1.5.attn.attn.out_proj.weight, backbone.layers.2.1.5.attn.attn.out_proj.bias, backbone.layers.2.1.5.attn.sr.weight, backbone.layers.2.1.5.attn.sr.bias, backbone.layers.2.1.5.attn.norm.weight, backbone.layers.2.1.5.attn.norm.bias, backbone.layers.2.1.5.norm2.weight, backbone.layers.2.1.5.norm2.bias, backbone.layers.2.1.5.ffn.layers.0.weight, backbone.layers.2.1.5.ffn.layers.0.bias, backbone.layers.2.1.5.ffn.layers.1.weight, backbone.layers.2.1.5.ffn.layers.1.bias, backbone.layers.2.1.5.ffn.layers.4.weight, backbone.layers.2.1.5.ffn.layers.4.bias, backbone.layers.2.2.weight, backbone.layers.2.2.bias, backbone.layers.3.0.projection.weight, backbone.layers.3.0.projection.bias, backbone.layers.3.0.norm.weight, backbone.layers.3.0.norm.bias, backbone.layers.3.1.0.norm1.weight, backbone.layers.3.1.0.norm1.bias, backbone.layers.3.1.0.attn.attn.in_proj_weight, backbone.layers.3.1.0.attn.attn.in_proj_bias, backbone.layers.3.1.0.attn.attn.out_proj.weight, backbone.layers.3.1.0.attn.attn.out_proj.bias, backbone.layers.3.1.0.norm2.weight, backbone.layers.3.1.0.norm2.bias, backbone.layers.3.1.0.ffn.layers.0.weight, backbone.layers.3.1.0.ffn.layers.0.bias, backbone.layers.3.1.0.ffn.layers.1.weight, backbone.layers.3.1.0.ffn.layers.1.bias, backbone.layers.3.1.0.ffn.layers.4.weight, backbone.layers.3.1.0.ffn.layers.4.bias, backbone.layers.3.1.1.norm1.weight, backbone.layers.3.1.1.norm1.bias, backbone.layers.3.1.1.attn.attn.in_proj_weight, backbone.layers.3.1.1.attn.attn.in_proj_bias, backbone.layers.3.1.1.attn.attn.out_proj.weight, backbone.layers.3.1.1.attn.attn.out_proj.bias, backbone.layers.3.1.1.norm2.weight, backbone.layers.3.1.1.norm2.bias, backbone.layers.3.1.1.ffn.layers.0.weight, backbone.layers.3.1.1.ffn.layers.0.bias, backbone.layers.3.1.1.ffn.layers.1.weight, backbone.layers.3.1.1.ffn.layers.1.bias, backbone.layers.3.1.1.ffn.layers.4.weight, backbone.layers.3.1.1.ffn.layers.4.bias, backbone.layers.3.1.2.norm1.weight, backbone.layers.3.1.2.norm1.bias, backbone.layers.3.1.2.attn.attn.in_proj_weight, backbone.layers.3.1.2.attn.attn.in_proj_bias, backbone.layers.3.1.2.attn.attn.out_proj.weight, backbone.layers.3.1.2.attn.attn.out_proj.bias, backbone.layers.3.1.2.norm2.weight, backbone.layers.3.1.2.norm2.bias, backbone.layers.3.1.2.ffn.layers.0.weight, backbone.layers.3.1.2.ffn.layers.0.bias, backbone.layers.3.1.2.ffn.layers.1.weight, backbone.layers.3.1.2.ffn.layers.1.bias, backbone.layers.3.1.2.ffn.layers.4.weight, backbone.layers.3.1.2.ffn.layers.4.bias, backbone.layers.3.2.weight, backbone.layers.3.2.bias
+
+missing keys in source state_dict: unet.init_conv.weight, unet.init_conv.bias, unet.time_mlp.1.weight, unet.time_mlp.1.bias, unet.time_mlp.3.weight, unet.time_mlp.3.bias, unet.downs.0.0.mlp.1.weight, unet.downs.0.0.mlp.1.bias, unet.downs.0.0.block1.proj.weight, unet.downs.0.0.block1.proj.bias, unet.downs.0.0.block1.norm.weight, unet.downs.0.0.block1.norm.bias, unet.downs.0.0.block2.proj.weight, unet.downs.0.0.block2.proj.bias, unet.downs.0.0.block2.norm.weight, unet.downs.0.0.block2.norm.bias, unet.downs.0.1.mlp.1.weight, unet.downs.0.1.mlp.1.bias, unet.downs.0.1.block1.proj.weight, unet.downs.0.1.block1.proj.bias, unet.downs.0.1.block1.norm.weight, unet.downs.0.1.block1.norm.bias, unet.downs.0.1.block2.proj.weight, unet.downs.0.1.block2.proj.bias, unet.downs.0.1.block2.norm.weight, unet.downs.0.1.block2.norm.bias, unet.downs.0.2.fn.fn.to_qkv.weight, unet.downs.0.2.fn.fn.to_out.0.weight, unet.downs.0.2.fn.fn.to_out.0.bias, unet.downs.0.2.fn.fn.to_out.1.g, unet.downs.0.2.fn.norm.g, unet.downs.0.3.weight, unet.downs.0.3.bias, unet.downs.1.0.mlp.1.weight, unet.downs.1.0.mlp.1.bias, unet.downs.1.0.block1.proj.weight, unet.downs.1.0.block1.proj.bias, unet.downs.1.0.block1.norm.weight, unet.downs.1.0.block1.norm.bias, unet.downs.1.0.block2.proj.weight, unet.downs.1.0.block2.proj.bias, unet.downs.1.0.block2.norm.weight, unet.downs.1.0.block2.norm.bias, unet.downs.1.1.mlp.1.weight, unet.downs.1.1.mlp.1.bias, unet.downs.1.1.block1.proj.weight, unet.downs.1.1.block1.proj.bias, unet.downs.1.1.block1.norm.weight, unet.downs.1.1.block1.norm.bias, unet.downs.1.1.block2.proj.weight, unet.downs.1.1.block2.proj.bias, unet.downs.1.1.block2.norm.weight, unet.downs.1.1.block2.norm.bias, unet.downs.1.2.fn.fn.to_qkv.weight, unet.downs.1.2.fn.fn.to_out.0.weight, unet.downs.1.2.fn.fn.to_out.0.bias, unet.downs.1.2.fn.fn.to_out.1.g, unet.downs.1.2.fn.norm.g, unet.downs.1.3.weight, unet.downs.1.3.bias, unet.downs.2.0.mlp.1.weight, unet.downs.2.0.mlp.1.bias, unet.downs.2.0.block1.proj.weight, unet.downs.2.0.block1.proj.bias, unet.downs.2.0.block1.norm.weight, unet.downs.2.0.block1.norm.bias, unet.downs.2.0.block2.proj.weight, unet.downs.2.0.block2.proj.bias, unet.downs.2.0.block2.norm.weight, unet.downs.2.0.block2.norm.bias, unet.downs.2.1.mlp.1.weight, unet.downs.2.1.mlp.1.bias, unet.downs.2.1.block1.proj.weight, unet.downs.2.1.block1.proj.bias, unet.downs.2.1.block1.norm.weight, unet.downs.2.1.block1.norm.bias, unet.downs.2.1.block2.proj.weight, unet.downs.2.1.block2.proj.bias, unet.downs.2.1.block2.norm.weight, unet.downs.2.1.block2.norm.bias, unet.downs.2.2.fn.fn.to_qkv.weight, unet.downs.2.2.fn.fn.to_out.0.weight, unet.downs.2.2.fn.fn.to_out.0.bias, unet.downs.2.2.fn.fn.to_out.1.g, unet.downs.2.2.fn.norm.g, unet.downs.2.3.weight, unet.downs.2.3.bias, unet.ups.0.0.mlp.1.weight, unet.ups.0.0.mlp.1.bias, unet.ups.0.0.block1.proj.weight, unet.ups.0.0.block1.proj.bias, unet.ups.0.0.block1.norm.weight, unet.ups.0.0.block1.norm.bias, unet.ups.0.0.block2.proj.weight, unet.ups.0.0.block2.proj.bias, unet.ups.0.0.block2.norm.weight, unet.ups.0.0.block2.norm.bias, unet.ups.0.0.res_conv.weight, unet.ups.0.0.res_conv.bias, unet.ups.0.1.mlp.1.weight, unet.ups.0.1.mlp.1.bias, unet.ups.0.1.block1.proj.weight, unet.ups.0.1.block1.proj.bias, unet.ups.0.1.block1.norm.weight, unet.ups.0.1.block1.norm.bias, unet.ups.0.1.block2.proj.weight, unet.ups.0.1.block2.proj.bias, unet.ups.0.1.block2.norm.weight, unet.ups.0.1.block2.norm.bias, unet.ups.0.1.res_conv.weight, unet.ups.0.1.res_conv.bias, unet.ups.0.2.fn.fn.to_qkv.weight, unet.ups.0.2.fn.fn.to_out.0.weight, unet.ups.0.2.fn.fn.to_out.0.bias, unet.ups.0.2.fn.fn.to_out.1.g, unet.ups.0.2.fn.norm.g, unet.ups.0.3.1.weight, unet.ups.0.3.1.bias, unet.ups.1.0.mlp.1.weight, unet.ups.1.0.mlp.1.bias, unet.ups.1.0.block1.proj.weight, unet.ups.1.0.block1.proj.bias, unet.ups.1.0.block1.norm.weight, unet.ups.1.0.block1.norm.bias, unet.ups.1.0.block2.proj.weight, unet.ups.1.0.block2.proj.bias, unet.ups.1.0.block2.norm.weight, unet.ups.1.0.block2.norm.bias, unet.ups.1.0.res_conv.weight, unet.ups.1.0.res_conv.bias, unet.ups.1.1.mlp.1.weight, unet.ups.1.1.mlp.1.bias, unet.ups.1.1.block1.proj.weight, unet.ups.1.1.block1.proj.bias, unet.ups.1.1.block1.norm.weight, unet.ups.1.1.block1.norm.bias, unet.ups.1.1.block2.proj.weight, unet.ups.1.1.block2.proj.bias, unet.ups.1.1.block2.norm.weight, unet.ups.1.1.block2.norm.bias, unet.ups.1.1.res_conv.weight, unet.ups.1.1.res_conv.bias, unet.ups.1.2.fn.fn.to_qkv.weight, unet.ups.1.2.fn.fn.to_out.0.weight, unet.ups.1.2.fn.fn.to_out.0.bias, unet.ups.1.2.fn.fn.to_out.1.g, unet.ups.1.2.fn.norm.g, unet.ups.1.3.1.weight, unet.ups.1.3.1.bias, unet.ups.2.0.mlp.1.weight, unet.ups.2.0.mlp.1.bias, unet.ups.2.0.block1.proj.weight, unet.ups.2.0.block1.proj.bias, unet.ups.2.0.block1.norm.weight, unet.ups.2.0.block1.norm.bias, unet.ups.2.0.block2.proj.weight, unet.ups.2.0.block2.proj.bias, unet.ups.2.0.block2.norm.weight, unet.ups.2.0.block2.norm.bias, unet.ups.2.0.res_conv.weight, unet.ups.2.0.res_conv.bias, unet.ups.2.1.mlp.1.weight, unet.ups.2.1.mlp.1.bias, unet.ups.2.1.block1.proj.weight, unet.ups.2.1.block1.proj.bias, unet.ups.2.1.block1.norm.weight, unet.ups.2.1.block1.norm.bias, unet.ups.2.1.block2.proj.weight, unet.ups.2.1.block2.proj.bias, unet.ups.2.1.block2.norm.weight, unet.ups.2.1.block2.norm.bias, unet.ups.2.1.res_conv.weight, unet.ups.2.1.res_conv.bias, unet.ups.2.2.fn.fn.to_qkv.weight, unet.ups.2.2.fn.fn.to_out.0.weight, unet.ups.2.2.fn.fn.to_out.0.bias, unet.ups.2.2.fn.fn.to_out.1.g, unet.ups.2.2.fn.norm.g, unet.ups.2.3.weight, unet.ups.2.3.bias, unet.mid_block1.mlp.1.weight, unet.mid_block1.mlp.1.bias, unet.mid_block1.block1.proj.weight, unet.mid_block1.block1.proj.bias, unet.mid_block1.block1.norm.weight, unet.mid_block1.block1.norm.bias, unet.mid_block1.block2.proj.weight, unet.mid_block1.block2.proj.bias, unet.mid_block1.block2.norm.weight, unet.mid_block1.block2.norm.bias, unet.mid_attn.fn.fn.to_qkv.weight, unet.mid_attn.fn.fn.to_out.weight, unet.mid_attn.fn.fn.to_out.bias, unet.mid_attn.fn.norm.g, unet.mid_block2.mlp.1.weight, unet.mid_block2.mlp.1.bias, unet.mid_block2.block1.proj.weight, unet.mid_block2.block1.proj.bias, unet.mid_block2.block1.norm.weight, unet.mid_block2.block1.norm.bias, unet.mid_block2.block2.proj.weight, unet.mid_block2.block2.proj.bias, unet.mid_block2.block2.norm.weight, unet.mid_block2.block2.norm.bias, unet.final_res_block.mlp.1.weight, unet.final_res_block.mlp.1.bias, unet.final_res_block.block1.proj.weight, unet.final_res_block.block1.proj.bias, unet.final_res_block.block1.norm.weight, unet.final_res_block.block1.norm.bias, unet.final_res_block.block2.proj.weight, unet.final_res_block.block2.proj.bias, unet.final_res_block.block2.norm.weight, unet.final_res_block.block2.norm.bias, unet.final_res_block.res_conv.weight, unet.final_res_block.res_conv.bias, unet.final_conv.weight, unet.final_conv.bias, conv_seg_new.weight, conv_seg_new.bias, embed.weight
+
+2023-03-04 10:39:40,196 - mmseg - INFO - EncoderDecoderFreeze(
+  (backbone): MixVisionTransformerCustomInitWeights(
+    (layers): ModuleList(
+      (0): ModuleList(
+        (0): PatchEmbed(
+          (projection): Conv2d(3, 64, kernel_size=(7, 7), stride=(4, 4), padding=(3, 3))
+          (norm): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+        )
+        (1): ModuleList(
+          (0): TransformerEncoderLayer(
+            (norm1): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=64, out_features=64, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(64, 64, kernel_size=(8, 8), stride=(8, 8))
+              (norm): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=256)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (1): TransformerEncoderLayer(
+            (norm1): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=64, out_features=64, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(64, 64, kernel_size=(8, 8), stride=(8, 8))
+              (norm): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=256)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (2): TransformerEncoderLayer(
+            (norm1): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=64, out_features=64, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(64, 64, kernel_size=(8, 8), stride=(8, 8))
+              (norm): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=256)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+        )
+        (2): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+      )
+      (1): ModuleList(
+        (0): PatchEmbed(
+          (projection): Conv2d(64, 128, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
+          (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+        )
+        (1): ModuleList(
+          (0): TransformerEncoderLayer(
+            (norm1): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=128, out_features=128, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(128, 128, kernel_size=(4, 4), stride=(4, 4))
+              (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (1): TransformerEncoderLayer(
+            (norm1): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=128, out_features=128, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(128, 128, kernel_size=(4, 4), stride=(4, 4))
+              (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (2): TransformerEncoderLayer(
+            (norm1): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=128, out_features=128, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(128, 128, kernel_size=(4, 4), stride=(4, 4))
+              (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (3): TransformerEncoderLayer(
+            (norm1): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=128, out_features=128, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(128, 128, kernel_size=(4, 4), stride=(4, 4))
+              (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+        )
+        (2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+      )
+      (2): ModuleList(
+        (0): PatchEmbed(
+          (projection): Conv2d(128, 320, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
+          (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+        )
+        (1): ModuleList(
+          (0): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (1): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (2): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (3): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (4): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (5): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+        )
+        (2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+      )
+      (3): ModuleList(
+        (0): PatchEmbed(
+          (projection): Conv2d(320, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
+          (norm): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+        )
+        (1): ModuleList(
+          (0): TransformerEncoderLayer(
+            (norm1): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+            )
+            (norm2): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(2048, 2048, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=2048)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (1): TransformerEncoderLayer(
+            (norm1): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+            )
+            (norm2): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(2048, 2048, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=2048)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (2): TransformerEncoderLayer(
+            (norm1): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+            )
+            (norm2): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(2048, 2048, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=2048)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+        )
+        (2): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+      )
+    )
+  )
+  init_cfg={'type': 'Pretrained', 'checkpoint': 'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth'}
+  (decode_head): SegformerHeadUnetFCHeadSingleStepMask(
+    input_transform=multiple_select, ignore_index=0, align_corners=False
+    (loss_decode): CrossEntropyLoss(avg_non_ignore=False)
+    (conv_seg): None
+    (dropout): Dropout2d(p=0.1, inplace=False)
+    (convs): ModuleList(
+      (0): ConvModule(
+        (conv): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+        (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (activate): ReLU(inplace=True)
+      )
+      (1): ConvModule(
+        (conv): Conv2d(128, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+        (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (activate): ReLU(inplace=True)
+      )
+      (2): ConvModule(
+        (conv): Conv2d(320, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+        (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (activate): ReLU(inplace=True)
+      )
+      (3): ConvModule(
+        (conv): Conv2d(512, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+        (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (activate): ReLU(inplace=True)
+      )
+    )
+    (fusion_conv): ConvModule(
+      (conv): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+      (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+      (activate): ReLU(inplace=True)
+    )
+    (unet): Unet(
+      (init_conv): Conv2d(272, 128, kernel_size=(7, 7), stride=(1, 1), padding=(3, 3))
+      (time_mlp): Sequential(
+        (0): SinusoidalPosEmb()
+        (1): Linear(in_features=128, out_features=512, bias=True)
+        (2): GELU(approximate='none')
+        (3): Linear(in_features=512, out_features=512, bias=True)
+      )
+      (downs): ModuleList(
+        (0): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Conv2d(128, 128, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1))
+        )
+        (1): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Conv2d(128, 128, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1))
+        )
+        (2): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+        )
+      )
+      (ups): ModuleList(
+        (0): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Sequential(
+            (0): Upsample(scale_factor=2.0, mode=nearest)
+            (1): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          )
+        )
+        (1): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Sequential(
+            (0): Upsample(scale_factor=2.0, mode=nearest)
+            (1): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          )
+        )
+        (2): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+        )
+      )
+      (mid_block1): ResnetBlock(
+        (mlp): Sequential(
+          (0): SiLU()
+          (1): Linear(in_features=512, out_features=256, bias=True)
+        )
+        (block1): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (block2): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (res_conv): Identity()
+      )
+      (mid_attn): Residual(
+        (fn): PreNorm(
+          (fn): Attention(
+            (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+            (to_out): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (norm): LayerNorm()
+        )
+      )
+      (mid_block2): ResnetBlock(
+        (mlp): Sequential(
+          (0): SiLU()
+          (1): Linear(in_features=512, out_features=256, bias=True)
+        )
+        (block1): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (block2): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (res_conv): Identity()
+      )
+      (final_res_block): ResnetBlock(
+        (mlp): Sequential(
+          (0): SiLU()
+          (1): Linear(in_features=512, out_features=256, bias=True)
+        )
+        (block1): Block(
+          (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (block2): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+      )
+      (final_conv): Conv2d(128, 256, kernel_size=(1, 1), stride=(1, 1))
+    )
+    (conv_seg_new): Conv2d(256, 151, kernel_size=(1, 1), stride=(1, 1))
+    (embed): Embedding(152, 16)
+  )
+  init_cfg={'type': 'Pretrained', 'checkpoint': 'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth'}
+)
+2023-03-04 10:39:41,082 - mmseg - INFO - Loaded 20210 images
+2023-03-04 10:39:42,091 - mmseg - INFO - Loaded 2000 images
+2023-03-04 10:39:42,094 - mmseg - INFO - Start running, host: laizeqiang@SH-IDC1-10-140-37-113, work_dir: /mnt/petrelfs/laizeqiang/mmseg-baseline/work_dirs2/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask
+2023-03-04 10:39:42,095 - mmseg - INFO - Hooks will be executed in the following order:
+before_run:
+(VERY_HIGH   ) StepLrUpdaterHook                  
+(NORMAL      ) CheckpointHook                     
+(LOW         ) DistEvalHookMultiSteps             
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+before_train_epoch:
+(VERY_HIGH   ) StepLrUpdaterHook                  
+(LOW         ) IterTimerHook                      
+(LOW         ) DistEvalHookMultiSteps             
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+before_train_iter:
+(VERY_HIGH   ) StepLrUpdaterHook                  
+(LOW         ) IterTimerHook                      
+(LOW         ) DistEvalHookMultiSteps             
+ -------------------- 
+after_train_iter:
+(ABOVE_NORMAL) OptimizerHook                      
+(NORMAL      ) CheckpointHook                     
+(LOW         ) IterTimerHook                      
+(LOW         ) DistEvalHookMultiSteps             
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+after_train_epoch:
+(NORMAL      ) CheckpointHook                     
+(LOW         ) DistEvalHookMultiSteps             
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+before_val_epoch:
+(LOW         ) IterTimerHook                      
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+before_val_iter:
+(LOW         ) IterTimerHook                      
+ -------------------- 
+after_val_iter:
+(LOW         ) IterTimerHook                      
+ -------------------- 
+after_val_epoch:
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+after_run:
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+2023-03-04 10:39:42,095 - mmseg - INFO - workflow: [('train', 1)], max: 80000 iters
+2023-03-04 10:39:42,095 - mmseg - INFO - Checkpoints will be saved to /mnt/petrelfs/laizeqiang/mmseg-baseline/work_dirs2/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask by HardDiskBackend.
+2023-03-04 10:40:19,768 - mmseg - INFO - Iter [50/80000]	lr: 7.350e-06, eta: 6:25:03, time: 0.289, data_time: 0.015, memory: 19783, decode.loss_ce: 3.7859, decode.acc_seg: 13.4490, loss: 3.7859
+2023-03-04 10:40:28,394 - mmseg - INFO - Iter [100/80000]	lr: 1.485e-05, eta: 5:07:16, time: 0.173, data_time: 0.007, memory: 19783, decode.loss_ce: 2.9195, decode.acc_seg: 44.1399, loss: 2.9195
+2023-03-04 10:40:37,170 - mmseg - INFO - Iter [150/80000]	lr: 2.235e-05, eta: 4:42:33, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 2.1041, decode.acc_seg: 53.5898, loss: 2.1041
+2023-03-04 10:40:45,505 - mmseg - INFO - Iter [200/80000]	lr: 2.985e-05, eta: 4:27:13, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 1.6526, decode.acc_seg: 62.4784, loss: 1.6526
+2023-03-04 10:40:54,703 - mmseg - INFO - Iter [250/80000]	lr: 3.735e-05, eta: 4:22:32, time: 0.184, data_time: 0.008, memory: 19783, decode.loss_ce: 1.3220, decode.acc_seg: 68.9933, loss: 1.3220
+2023-03-04 10:41:02,996 - mmseg - INFO - Iter [300/80000]	lr: 4.485e-05, eta: 4:15:21, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 1.0711, decode.acc_seg: 74.7625, loss: 1.0711
+2023-03-04 10:41:11,869 - mmseg - INFO - Iter [350/80000]	lr: 5.235e-05, eta: 4:12:22, time: 0.177, data_time: 0.008, memory: 19783, decode.loss_ce: 0.8786, decode.acc_seg: 77.9736, loss: 0.8786
+2023-03-04 10:41:20,062 - mmseg - INFO - Iter [400/80000]	lr: 5.985e-05, eta: 4:07:52, time: 0.164, data_time: 0.008, memory: 19783, decode.loss_ce: 0.7595, decode.acc_seg: 80.1142, loss: 0.7595
+2023-03-04 10:41:28,322 - mmseg - INFO - Iter [450/80000]	lr: 6.735e-05, eta: 4:04:32, time: 0.165, data_time: 0.008, memory: 19783, decode.loss_ce: 0.7039, decode.acc_seg: 80.5049, loss: 0.7039
+2023-03-04 10:41:36,777 - mmseg - INFO - Iter [500/80000]	lr: 7.485e-05, eta: 4:02:20, time: 0.169, data_time: 0.008, memory: 19783, decode.loss_ce: 0.5658, decode.acc_seg: 84.0258, loss: 0.5658
+2023-03-04 10:41:45,429 - mmseg - INFO - Iter [550/80000]	lr: 8.235e-05, eta: 4:01:00, time: 0.173, data_time: 0.007, memory: 19783, decode.loss_ce: 0.5104, decode.acc_seg: 84.6513, loss: 0.5104
+2023-03-04 10:41:53,959 - mmseg - INFO - Iter [600/80000]	lr: 8.985e-05, eta: 3:59:35, time: 0.170, data_time: 0.007, memory: 19783, decode.loss_ce: 0.4669, decode.acc_seg: 85.4204, loss: 0.4669
+2023-03-04 10:42:05,131 - mmseg - INFO - Iter [650/80000]	lr: 9.735e-05, eta: 4:03:44, time: 0.223, data_time: 0.056, memory: 19783, decode.loss_ce: 0.4262, decode.acc_seg: 86.1640, loss: 0.4262
+2023-03-04 10:42:13,516 - mmseg - INFO - Iter [700/80000]	lr: 1.049e-04, eta: 4:02:02, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3909, decode.acc_seg: 86.6498, loss: 0.3909
+2023-03-04 10:42:22,014 - mmseg - INFO - Iter [750/80000]	lr: 1.124e-04, eta: 4:00:42, time: 0.170, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3580, decode.acc_seg: 87.6399, loss: 0.3580
+2023-03-04 10:42:30,418 - mmseg - INFO - Iter [800/80000]	lr: 1.199e-04, eta: 3:59:24, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3727, decode.acc_seg: 87.0897, loss: 0.3727
+2023-03-04 10:42:38,996 - mmseg - INFO - Iter [850/80000]	lr: 1.274e-04, eta: 3:58:29, time: 0.172, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3519, decode.acc_seg: 87.4741, loss: 0.3519
+2023-03-04 10:42:47,867 - mmseg - INFO - Iter [900/80000]	lr: 1.349e-04, eta: 3:58:05, time: 0.177, data_time: 0.008, memory: 19783, decode.loss_ce: 0.3370, decode.acc_seg: 87.8333, loss: 0.3370
+2023-03-04 10:42:56,616 - mmseg - INFO - Iter [950/80000]	lr: 1.424e-04, eta: 3:57:32, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3321, decode.acc_seg: 87.9078, loss: 0.3321
+2023-03-04 10:43:05,510 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask.py
+2023-03-04 10:43:05,511 - mmseg - INFO - Iter [1000/80000]	lr: 1.499e-04, eta: 3:57:14, time: 0.178, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3253, decode.acc_seg: 87.8060, loss: 0.3253
+2023-03-04 10:43:13,862 - mmseg - INFO - Iter [1050/80000]	lr: 1.500e-04, eta: 3:56:15, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3173, decode.acc_seg: 88.3146, loss: 0.3173
+2023-03-04 10:43:22,272 - mmseg - INFO - Iter [1100/80000]	lr: 1.500e-04, eta: 3:55:26, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3194, decode.acc_seg: 88.1590, loss: 0.3194
+2023-03-04 10:43:30,663 - mmseg - INFO - Iter [1150/80000]	lr: 1.500e-04, eta: 3:54:38, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.3151, decode.acc_seg: 88.1037, loss: 0.3151
+2023-03-04 10:43:38,890 - mmseg - INFO - Iter [1200/80000]	lr: 1.500e-04, eta: 3:53:43, time: 0.165, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2937, decode.acc_seg: 89.0985, loss: 0.2937
+2023-03-04 10:43:47,316 - mmseg - INFO - Iter [1250/80000]	lr: 1.500e-04, eta: 3:53:04, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2911, decode.acc_seg: 88.9765, loss: 0.2911
+2023-03-04 10:43:57,906 - mmseg - INFO - Iter [1300/80000]	lr: 1.500e-04, eta: 3:54:39, time: 0.212, data_time: 0.054, memory: 19783, decode.loss_ce: 0.2841, decode.acc_seg: 89.2974, loss: 0.2841
+2023-03-04 10:44:06,044 - mmseg - INFO - Iter [1350/80000]	lr: 1.500e-04, eta: 3:53:43, time: 0.163, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2847, decode.acc_seg: 88.9205, loss: 0.2847
+2023-03-04 10:44:14,181 - mmseg - INFO - Iter [1400/80000]	lr: 1.500e-04, eta: 3:52:51, time: 0.163, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2892, decode.acc_seg: 89.1170, loss: 0.2892
+2023-03-04 10:44:22,355 - mmseg - INFO - Iter [1450/80000]	lr: 1.500e-04, eta: 3:52:03, time: 0.163, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2827, decode.acc_seg: 89.0879, loss: 0.2827
+2023-03-04 10:44:30,701 - mmseg - INFO - Iter [1500/80000]	lr: 1.500e-04, eta: 3:51:27, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2832, decode.acc_seg: 88.9422, loss: 0.2832
+2023-03-04 10:44:39,023 - mmseg - INFO - Iter [1550/80000]	lr: 1.500e-04, eta: 3:50:52, time: 0.167, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2921, decode.acc_seg: 88.8510, loss: 0.2921
+2023-03-04 10:44:47,471 - mmseg - INFO - Iter [1600/80000]	lr: 1.500e-04, eta: 3:50:24, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2803, decode.acc_seg: 89.1634, loss: 0.2803
+2023-03-04 10:44:56,042 - mmseg - INFO - Iter [1650/80000]	lr: 1.500e-04, eta: 3:50:04, time: 0.171, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2740, decode.acc_seg: 89.4784, loss: 0.2740
+2023-03-04 10:45:04,568 - mmseg - INFO - Iter [1700/80000]	lr: 1.500e-04, eta: 3:49:42, time: 0.170, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2794, decode.acc_seg: 89.0487, loss: 0.2794
+2023-03-04 10:45:12,954 - mmseg - INFO - Iter [1750/80000]	lr: 1.500e-04, eta: 3:49:14, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2729, decode.acc_seg: 89.3096, loss: 0.2729
+2023-03-04 10:45:21,504 - mmseg - INFO - Iter [1800/80000]	lr: 1.500e-04, eta: 3:48:55, time: 0.171, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2543, decode.acc_seg: 89.9217, loss: 0.2543
+2023-03-04 10:45:29,939 - mmseg - INFO - Iter [1850/80000]	lr: 1.500e-04, eta: 3:48:32, time: 0.169, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2710, decode.acc_seg: 89.3832, loss: 0.2710
+2023-03-04 10:45:41,141 - mmseg - INFO - Iter [1900/80000]	lr: 1.500e-04, eta: 3:50:03, time: 0.224, data_time: 0.055, memory: 19783, decode.loss_ce: 0.2626, decode.acc_seg: 89.7940, loss: 0.2626
+2023-03-04 10:45:49,790 - mmseg - INFO - Iter [1950/80000]	lr: 1.500e-04, eta: 3:49:46, time: 0.173, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2754, decode.acc_seg: 89.2875, loss: 0.2754
+2023-03-04 10:45:58,104 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask.py
+2023-03-04 10:45:58,104 - mmseg - INFO - Iter [2000/80000]	lr: 1.500e-04, eta: 3:49:17, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2625, decode.acc_seg: 89.7253, loss: 0.2625
+2023-03-04 10:46:06,913 - mmseg - INFO - Iter [2050/80000]	lr: 1.500e-04, eta: 3:49:08, time: 0.176, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2689, decode.acc_seg: 89.6072, loss: 0.2689
+2023-03-04 10:46:15,126 - mmseg - INFO - Iter [2100/80000]	lr: 1.500e-04, eta: 3:48:37, time: 0.164, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2552, decode.acc_seg: 89.8869, loss: 0.2552
+2023-03-04 10:46:23,456 - mmseg - INFO - Iter [2150/80000]	lr: 1.500e-04, eta: 3:48:11, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2610, decode.acc_seg: 89.7910, loss: 0.2610
+2023-03-04 10:46:32,028 - mmseg - INFO - Iter [2200/80000]	lr: 1.500e-04, eta: 3:47:54, time: 0.172, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2627, decode.acc_seg: 89.6450, loss: 0.2627
+2023-03-04 10:46:40,360 - mmseg - INFO - Iter [2250/80000]	lr: 1.500e-04, eta: 3:47:30, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2678, decode.acc_seg: 89.3489, loss: 0.2678
+2023-03-04 10:46:48,902 - mmseg - INFO - Iter [2300/80000]	lr: 1.500e-04, eta: 3:47:13, time: 0.171, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2612, decode.acc_seg: 89.6551, loss: 0.2612
+2023-03-04 10:46:57,199 - mmseg - INFO - Iter [2350/80000]	lr: 1.500e-04, eta: 3:46:49, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2651, decode.acc_seg: 89.4492, loss: 0.2651
+2023-03-04 10:47:05,911 - mmseg - INFO - Iter [2400/80000]	lr: 1.500e-04, eta: 3:46:38, time: 0.174, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2513, decode.acc_seg: 89.9775, loss: 0.2513
+2023-03-04 10:47:14,559 - mmseg - INFO - Iter [2450/80000]	lr: 1.500e-04, eta: 3:46:26, time: 0.173, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2664, decode.acc_seg: 89.3411, loss: 0.2664
+2023-03-04 10:47:23,071 - mmseg - INFO - Iter [2500/80000]	lr: 1.500e-04, eta: 3:46:09, time: 0.170, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2621, decode.acc_seg: 89.7861, loss: 0.2621
+2023-03-04 10:47:33,849 - mmseg - INFO - Iter [2550/80000]	lr: 1.500e-04, eta: 3:47:02, time: 0.215, data_time: 0.052, memory: 19783, decode.loss_ce: 0.2430, decode.acc_seg: 90.1081, loss: 0.2430
+2023-03-04 10:47:42,586 - mmseg - INFO - Iter [2600/80000]	lr: 1.500e-04, eta: 3:46:51, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2538, decode.acc_seg: 90.0208, loss: 0.2538
+2023-03-04 10:47:50,929 - mmseg - INFO - Iter [2650/80000]	lr: 1.500e-04, eta: 3:46:29, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2603, decode.acc_seg: 89.7723, loss: 0.2603
+2023-03-04 10:47:59,288 - mmseg - INFO - Iter [2700/80000]	lr: 1.500e-04, eta: 3:46:09, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2666, decode.acc_seg: 89.2236, loss: 0.2666
+2023-03-04 10:48:07,657 - mmseg - INFO - Iter [2750/80000]	lr: 1.500e-04, eta: 3:45:48, time: 0.167, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2615, decode.acc_seg: 89.5421, loss: 0.2615
+2023-03-04 10:48:15,801 - mmseg - INFO - Iter [2800/80000]	lr: 1.500e-04, eta: 3:45:22, time: 0.163, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2504, decode.acc_seg: 89.9115, loss: 0.2504
+2023-03-04 10:48:24,489 - mmseg - INFO - Iter [2850/80000]	lr: 1.500e-04, eta: 3:45:11, time: 0.174, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2543, decode.acc_seg: 89.8737, loss: 0.2543
+2023-03-04 10:48:33,268 - mmseg - INFO - Iter [2900/80000]	lr: 1.500e-04, eta: 3:45:03, time: 0.176, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2511, decode.acc_seg: 89.8458, loss: 0.2511
+2023-03-04 10:48:41,822 - mmseg - INFO - Iter [2950/80000]	lr: 1.500e-04, eta: 3:44:49, time: 0.171, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2501, decode.acc_seg: 90.1233, loss: 0.2501
+2023-03-04 10:48:50,016 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask.py
+2023-03-04 10:48:50,016 - mmseg - INFO - Iter [3000/80000]	lr: 1.500e-04, eta: 3:44:26, time: 0.164, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2560, decode.acc_seg: 89.8225, loss: 0.2560
+2023-03-04 10:48:58,989 - mmseg - INFO - Iter [3050/80000]	lr: 1.500e-04, eta: 3:44:23, time: 0.179, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2596, decode.acc_seg: 89.8237, loss: 0.2596
+2023-03-04 10:49:07,425 - mmseg - INFO - Iter [3100/80000]	lr: 1.500e-04, eta: 3:44:06, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2553, decode.acc_seg: 89.7767, loss: 0.2553
+2023-03-04 10:49:16,128 - mmseg - INFO - Iter [3150/80000]	lr: 1.500e-04, eta: 3:43:57, time: 0.174, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2580, decode.acc_seg: 89.6480, loss: 0.2580
+2023-03-04 10:49:26,984 - mmseg - INFO - Iter [3200/80000]	lr: 1.500e-04, eta: 3:44:39, time: 0.217, data_time: 0.055, memory: 19783, decode.loss_ce: 0.2482, decode.acc_seg: 90.1017, loss: 0.2482
+2023-03-04 10:49:35,204 - mmseg - INFO - Iter [3250/80000]	lr: 1.500e-04, eta: 3:44:17, time: 0.164, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2407, decode.acc_seg: 90.3456, loss: 0.2407
+2023-03-04 10:49:43,357 - mmseg - INFO - Iter [3300/80000]	lr: 1.500e-04, eta: 3:43:54, time: 0.163, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2432, decode.acc_seg: 90.3905, loss: 0.2432
+2023-03-04 10:49:51,699 - mmseg - INFO - Iter [3350/80000]	lr: 1.500e-04, eta: 3:43:36, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2476, decode.acc_seg: 90.0593, loss: 0.2476
+2023-03-04 10:49:59,822 - mmseg - INFO - Iter [3400/80000]	lr: 1.500e-04, eta: 3:43:13, time: 0.162, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2412, decode.acc_seg: 90.3920, loss: 0.2412
+2023-03-04 10:50:08,120 - mmseg - INFO - Iter [3450/80000]	lr: 1.500e-04, eta: 3:42:54, time: 0.166, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2498, decode.acc_seg: 89.7723, loss: 0.2498
+2023-03-04 10:50:16,596 - mmseg - INFO - Iter [3500/80000]	lr: 1.500e-04, eta: 3:42:40, time: 0.169, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2521, decode.acc_seg: 89.7954, loss: 0.2521
+2023-03-04 10:50:25,020 - mmseg - INFO - Iter [3550/80000]	lr: 1.500e-04, eta: 3:42:24, time: 0.168, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2620, decode.acc_seg: 89.4047, loss: 0.2620
+2023-03-04 10:50:33,206 - mmseg - INFO - Iter [3600/80000]	lr: 1.500e-04, eta: 3:42:04, time: 0.164, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2496, decode.acc_seg: 89.7942, loss: 0.2496
+2023-03-04 10:50:41,827 - mmseg - INFO - Iter [3650/80000]	lr: 1.500e-04, eta: 3:41:53, time: 0.172, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2358, decode.acc_seg: 90.5511, loss: 0.2358
+2023-03-04 10:50:50,373 - mmseg - INFO - Iter [3700/80000]	lr: 1.500e-04, eta: 3:41:41, time: 0.171, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2532, decode.acc_seg: 89.9536, loss: 0.2532
+2023-03-04 10:50:58,771 - mmseg - INFO - Iter [3750/80000]	lr: 1.500e-04, eta: 3:41:26, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2533, decode.acc_seg: 89.7424, loss: 0.2533
+2023-03-04 10:51:10,308 - mmseg - INFO - Iter [3800/80000]	lr: 1.500e-04, eta: 3:42:14, time: 0.231, data_time: 0.054, memory: 19783, decode.loss_ce: 0.2479, decode.acc_seg: 89.9442, loss: 0.2479
+2023-03-04 10:51:18,725 - mmseg - INFO - Iter [3850/80000]	lr: 1.500e-04, eta: 3:41:58, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2395, decode.acc_seg: 90.1810, loss: 0.2395
+2023-03-04 10:51:27,497 - mmseg - INFO - Iter [3900/80000]	lr: 1.500e-04, eta: 3:41:50, time: 0.175, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2346, decode.acc_seg: 90.4616, loss: 0.2346
+2023-03-04 10:51:35,887 - mmseg - INFO - Iter [3950/80000]	lr: 1.500e-04, eta: 3:41:35, time: 0.168, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2477, decode.acc_seg: 90.0169, loss: 0.2477
+2023-03-04 10:51:44,251 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask.py
+2023-03-04 10:51:44,251 - mmseg - INFO - Iter [4000/80000]	lr: 1.500e-04, eta: 3:41:19, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2463, decode.acc_seg: 90.2101, loss: 0.2463
+2023-03-04 10:51:52,831 - mmseg - INFO - Iter [4050/80000]	lr: 1.500e-04, eta: 3:41:07, time: 0.172, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2341, decode.acc_seg: 90.5790, loss: 0.2341
+2023-03-04 10:52:01,011 - mmseg - INFO - Iter [4100/80000]	lr: 1.500e-04, eta: 3:40:48, time: 0.163, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2457, decode.acc_seg: 90.1654, loss: 0.2457
+2023-03-04 10:52:09,434 - mmseg - INFO - Iter [4150/80000]	lr: 1.500e-04, eta: 3:40:34, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2428, decode.acc_seg: 90.2830, loss: 0.2428
+2023-03-04 10:52:17,813 - mmseg - INFO - Iter [4200/80000]	lr: 1.500e-04, eta: 3:40:19, time: 0.168, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2396, decode.acc_seg: 90.3066, loss: 0.2396
+2023-03-04 10:52:26,312 - mmseg - INFO - Iter [4250/80000]	lr: 1.500e-04, eta: 3:40:06, time: 0.170, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2479, decode.acc_seg: 90.0032, loss: 0.2479
+2023-03-04 10:52:34,715 - mmseg - INFO - Iter [4300/80000]	lr: 1.500e-04, eta: 3:39:52, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2313, decode.acc_seg: 90.5487, loss: 0.2313
+2023-03-04 10:52:43,128 - mmseg - INFO - Iter [4350/80000]	lr: 1.500e-04, eta: 3:39:38, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2404, decode.acc_seg: 90.4703, loss: 0.2404
+2023-03-04 10:52:51,656 - mmseg - INFO - Iter [4400/80000]	lr: 1.500e-04, eta: 3:39:26, time: 0.171, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2455, decode.acc_seg: 89.9588, loss: 0.2455
+2023-03-04 10:53:02,324 - mmseg - INFO - Iter [4450/80000]	lr: 1.500e-04, eta: 3:39:51, time: 0.213, data_time: 0.054, memory: 19783, decode.loss_ce: 0.2265, decode.acc_seg: 90.9040, loss: 0.2265
+2023-03-04 10:53:10,677 - mmseg - INFO - Iter [4500/80000]	lr: 1.500e-04, eta: 3:39:35, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2470, decode.acc_seg: 90.0427, loss: 0.2470
+2023-03-04 10:53:19,305 - mmseg - INFO - Iter [4550/80000]	lr: 1.500e-04, eta: 3:39:25, time: 0.173, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2394, decode.acc_seg: 90.4684, loss: 0.2394
+2023-03-04 10:53:27,574 - mmseg - INFO - Iter [4600/80000]	lr: 1.500e-04, eta: 3:39:09, time: 0.165, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2467, decode.acc_seg: 90.0508, loss: 0.2467
+2023-03-04 10:53:36,263 - mmseg - INFO - Iter [4650/80000]	lr: 1.500e-04, eta: 3:39:00, time: 0.174, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2489, decode.acc_seg: 89.9800, loss: 0.2489
+2023-03-04 10:53:45,026 - mmseg - INFO - Iter [4700/80000]	lr: 1.500e-04, eta: 3:38:52, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2507, decode.acc_seg: 90.1082, loss: 0.2507
+2023-03-04 10:53:53,478 - mmseg - INFO - Iter [4750/80000]	lr: 1.500e-04, eta: 3:38:39, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2308, decode.acc_seg: 90.6857, loss: 0.2308
+2023-03-04 10:54:01,946 - mmseg - INFO - Iter [4800/80000]	lr: 1.500e-04, eta: 3:38:26, time: 0.169, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2416, decode.acc_seg: 90.2168, loss: 0.2416
+2023-03-04 10:54:10,558 - mmseg - INFO - Iter [4850/80000]	lr: 1.500e-04, eta: 3:38:16, time: 0.172, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2412, decode.acc_seg: 90.2115, loss: 0.2412
+2023-03-04 10:54:18,994 - mmseg - INFO - Iter [4900/80000]	lr: 1.500e-04, eta: 3:38:03, time: 0.169, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2487, decode.acc_seg: 90.0607, loss: 0.2487
+2023-03-04 10:54:27,104 - mmseg - INFO - Iter [4950/80000]	lr: 1.500e-04, eta: 3:37:45, time: 0.162, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2416, decode.acc_seg: 90.2829, loss: 0.2416
+2023-03-04 10:54:35,970 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask.py
+2023-03-04 10:54:35,970 - mmseg - INFO - Iter [5000/80000]	lr: 1.500e-04, eta: 3:37:39, time: 0.177, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2389, decode.acc_seg: 90.3370, loss: 0.2389
+2023-03-04 10:54:46,640 - mmseg - INFO - Iter [5050/80000]	lr: 1.500e-04, eta: 3:37:59, time: 0.213, data_time: 0.054, memory: 19783, decode.loss_ce: 0.2344, decode.acc_seg: 90.6600, loss: 0.2344
+2023-03-04 10:54:55,399 - mmseg - INFO - Iter [5100/80000]	lr: 1.500e-04, eta: 3:37:51, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2438, decode.acc_seg: 90.1963, loss: 0.2438
+2023-03-04 10:55:03,895 - mmseg - INFO - Iter [5150/80000]	lr: 1.500e-04, eta: 3:37:39, time: 0.170, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2458, decode.acc_seg: 90.2370, loss: 0.2458
+2023-03-04 10:55:12,027 - mmseg - INFO - Iter [5200/80000]	lr: 1.500e-04, eta: 3:37:22, time: 0.163, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2333, decode.acc_seg: 90.5189, loss: 0.2333
+2023-03-04 10:55:20,421 - mmseg - INFO - Iter [5250/80000]	lr: 1.500e-04, eta: 3:37:08, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2447, decode.acc_seg: 90.2732, loss: 0.2447
+2023-03-04 10:55:28,792 - mmseg - INFO - Iter [5300/80000]	lr: 1.500e-04, eta: 3:36:55, time: 0.167, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2411, decode.acc_seg: 90.3910, loss: 0.2411
+2023-03-04 10:55:36,858 - mmseg - INFO - Iter [5350/80000]	lr: 1.500e-04, eta: 3:36:37, time: 0.161, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2367, decode.acc_seg: 90.3233, loss: 0.2367
+2023-03-04 10:55:45,097 - mmseg - INFO - Iter [5400/80000]	lr: 1.500e-04, eta: 3:36:22, time: 0.165, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2368, decode.acc_seg: 90.4841, loss: 0.2368
+2023-03-04 10:55:53,220 - mmseg - INFO - Iter [5450/80000]	lr: 1.500e-04, eta: 3:36:05, time: 0.162, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2439, decode.acc_seg: 90.0750, loss: 0.2439
+2023-03-04 10:56:01,928 - mmseg - INFO - Iter [5500/80000]	lr: 1.500e-04, eta: 3:35:57, time: 0.174, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2508, decode.acc_seg: 89.9955, loss: 0.2508
+2023-03-04 10:56:10,453 - mmseg - INFO - Iter [5550/80000]	lr: 1.500e-04, eta: 3:35:46, time: 0.170, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2418, decode.acc_seg: 90.2273, loss: 0.2418
+2023-03-04 10:56:19,434 - mmseg - INFO - Iter [5600/80000]	lr: 1.500e-04, eta: 3:35:41, time: 0.180, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2364, decode.acc_seg: 90.3205, loss: 0.2364
+2023-03-04 10:56:28,085 - mmseg - INFO - Iter [5650/80000]	lr: 1.500e-04, eta: 3:35:32, time: 0.173, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2238, decode.acc_seg: 90.8957, loss: 0.2238
+2023-03-04 10:56:38,921 - mmseg - INFO - Iter [5700/80000]	lr: 1.500e-04, eta: 3:35:51, time: 0.217, data_time: 0.054, memory: 19783, decode.loss_ce: 0.2381, decode.acc_seg: 90.3593, loss: 0.2381
+2023-03-04 10:56:47,238 - mmseg - INFO - Iter [5750/80000]	lr: 1.500e-04, eta: 3:35:37, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2358, decode.acc_seg: 90.4793, loss: 0.2358
+2023-03-04 10:56:55,664 - mmseg - INFO - Iter [5800/80000]	lr: 1.500e-04, eta: 3:35:24, time: 0.168, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2520, decode.acc_seg: 89.8180, loss: 0.2520
+2023-03-04 10:57:04,406 - mmseg - INFO - Iter [5850/80000]	lr: 1.500e-04, eta: 3:35:16, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2357, decode.acc_seg: 90.3680, loss: 0.2357
+2023-03-04 10:57:12,918 - mmseg - INFO - Iter [5900/80000]	lr: 1.500e-04, eta: 3:35:05, time: 0.170, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2416, decode.acc_seg: 90.2775, loss: 0.2416
+2023-03-04 10:57:21,507 - mmseg - INFO - Iter [5950/80000]	lr: 1.500e-04, eta: 3:34:55, time: 0.172, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2356, decode.acc_seg: 90.4321, loss: 0.2356
+2023-03-04 10:57:30,278 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask.py
+2023-03-04 10:57:30,278 - mmseg - INFO - Iter [6000/80000]	lr: 1.500e-04, eta: 3:34:47, time: 0.176, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2205, decode.acc_seg: 91.0505, loss: 0.2205
+2023-03-04 10:57:38,952 - mmseg - INFO - Iter [6050/80000]	lr: 1.500e-04, eta: 3:34:38, time: 0.173, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2322, decode.acc_seg: 90.5761, loss: 0.2322
+2023-03-04 10:57:47,239 - mmseg - INFO - Iter [6100/80000]	lr: 1.500e-04, eta: 3:34:24, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2406, decode.acc_seg: 90.3130, loss: 0.2406
+2023-03-04 10:57:55,668 - mmseg - INFO - Iter [6150/80000]	lr: 1.500e-04, eta: 3:34:12, time: 0.169, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2398, decode.acc_seg: 90.3884, loss: 0.2398
+2023-03-04 10:58:03,880 - mmseg - INFO - Iter [6200/80000]	lr: 1.500e-04, eta: 3:33:57, time: 0.164, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2341, decode.acc_seg: 90.4439, loss: 0.2341
+2023-03-04 10:58:12,420 - mmseg - INFO - Iter [6250/80000]	lr: 1.500e-04, eta: 3:33:47, time: 0.171, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2457, decode.acc_seg: 90.2746, loss: 0.2457
+2023-03-04 10:58:21,028 - mmseg - INFO - Iter [6300/80000]	lr: 1.500e-04, eta: 3:33:37, time: 0.172, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2241, decode.acc_seg: 90.7329, loss: 0.2241
+2023-03-04 10:58:31,978 - mmseg - INFO - Iter [6350/80000]	lr: 1.500e-04, eta: 3:33:54, time: 0.219, data_time: 0.057, memory: 19783, decode.loss_ce: 0.2358, decode.acc_seg: 90.3823, loss: 0.2358
+2023-03-04 10:58:40,519 - mmseg - INFO - Iter [6400/80000]	lr: 1.500e-04, eta: 3:33:44, time: 0.171, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2235, decode.acc_seg: 90.7687, loss: 0.2235
+2023-03-04 10:58:49,251 - mmseg - INFO - Iter [6450/80000]	lr: 1.500e-04, eta: 3:33:35, time: 0.174, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2222, decode.acc_seg: 90.8290, loss: 0.2222
+2023-03-04 10:58:57,984 - mmseg - INFO - Iter [6500/80000]	lr: 1.500e-04, eta: 3:33:27, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2297, decode.acc_seg: 90.7046, loss: 0.2297
+2023-03-04 10:59:06,485 - mmseg - INFO - Iter [6550/80000]	lr: 1.500e-04, eta: 3:33:16, time: 0.170, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2243, decode.acc_seg: 90.8331, loss: 0.2243
+2023-03-04 10:59:14,776 - mmseg - INFO - Iter [6600/80000]	lr: 1.500e-04, eta: 3:33:02, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2422, decode.acc_seg: 90.4272, loss: 0.2422
+2023-03-04 10:59:23,531 - mmseg - INFO - Iter [6650/80000]	lr: 1.500e-04, eta: 3:32:54, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2338, decode.acc_seg: 90.6051, loss: 0.2338
+2023-03-04 10:59:31,830 - mmseg - INFO - Iter [6700/80000]	lr: 1.500e-04, eta: 3:32:41, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2431, decode.acc_seg: 90.1269, loss: 0.2431
+2023-03-04 10:59:39,996 - mmseg - INFO - Iter [6750/80000]	lr: 1.500e-04, eta: 3:32:26, time: 0.163, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2382, decode.acc_seg: 90.3808, loss: 0.2382
+2023-03-04 10:59:48,478 - mmseg - INFO - Iter [6800/80000]	lr: 1.500e-04, eta: 3:32:15, time: 0.170, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2379, decode.acc_seg: 90.4926, loss: 0.2379
+2023-03-04 10:59:56,938 - mmseg - INFO - Iter [6850/80000]	lr: 1.500e-04, eta: 3:32:04, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2449, decode.acc_seg: 90.1923, loss: 0.2449
+2023-03-04 11:00:05,210 - mmseg - INFO - Iter [6900/80000]	lr: 1.500e-04, eta: 3:31:51, time: 0.165, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2359, decode.acc_seg: 90.4707, loss: 0.2359
+2023-03-04 11:00:16,221 - mmseg - INFO - Iter [6950/80000]	lr: 1.500e-04, eta: 3:32:07, time: 0.220, data_time: 0.055, memory: 19783, decode.loss_ce: 0.2249, decode.acc_seg: 90.7482, loss: 0.2249
+2023-03-04 11:00:24,686 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask.py
+2023-03-04 11:00:24,686 - mmseg - INFO - Iter [7000/80000]	lr: 1.500e-04, eta: 3:31:55, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2287, decode.acc_seg: 90.8435, loss: 0.2287
+2023-03-04 11:00:33,149 - mmseg - INFO - Iter [7050/80000]	lr: 1.500e-04, eta: 3:31:44, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2345, decode.acc_seg: 90.5396, loss: 0.2345
+2023-03-04 11:00:41,856 - mmseg - INFO - Iter [7100/80000]	lr: 1.500e-04, eta: 3:31:35, time: 0.174, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2287, decode.acc_seg: 90.7287, loss: 0.2287
+2023-03-04 11:00:50,279 - mmseg - INFO - Iter [7150/80000]	lr: 1.500e-04, eta: 3:31:24, time: 0.168, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2317, decode.acc_seg: 90.6485, loss: 0.2317
+2023-03-04 11:00:58,900 - mmseg - INFO - Iter [7200/80000]	lr: 1.500e-04, eta: 3:31:14, time: 0.172, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2383, decode.acc_seg: 90.2918, loss: 0.2383
+2023-03-04 11:01:07,099 - mmseg - INFO - Iter [7250/80000]	lr: 1.500e-04, eta: 3:31:00, time: 0.164, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2313, decode.acc_seg: 90.6792, loss: 0.2313
+2023-03-04 11:01:15,856 - mmseg - INFO - Iter [7300/80000]	lr: 1.500e-04, eta: 3:30:52, time: 0.175, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2304, decode.acc_seg: 90.6756, loss: 0.2304
+2023-03-04 11:01:24,596 - mmseg - INFO - Iter [7350/80000]	lr: 1.500e-04, eta: 3:30:44, time: 0.175, data_time: 0.008, memory: 19783, decode.loss_ce: 0.2310, decode.acc_seg: 90.4861, loss: 0.2310
+2023-03-04 11:01:32,903 - mmseg - INFO - Iter [7400/80000]	lr: 1.500e-04, eta: 3:30:31, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2365, decode.acc_seg: 90.4146, loss: 0.2365
+2023-03-04 11:01:41,248 - mmseg - INFO - Iter [7450/80000]	lr: 1.500e-04, eta: 3:30:19, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2339, decode.acc_seg: 90.5637, loss: 0.2339
+2023-03-04 11:01:49,569 - mmseg - INFO - Iter [7500/80000]	lr: 1.500e-04, eta: 3:30:07, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2283, decode.acc_seg: 90.6626, loss: 0.2283
+2023-03-04 11:01:57,844 - mmseg - INFO - Iter [7550/80000]	lr: 1.500e-04, eta: 3:29:54, time: 0.165, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2372, decode.acc_seg: 90.3080, loss: 0.2372
+2023-03-04 11:02:08,896 - mmseg - INFO - Iter [7600/80000]	lr: 1.500e-04, eta: 3:30:08, time: 0.221, data_time: 0.056, memory: 19783, decode.loss_ce: 0.2315, decode.acc_seg: 90.5686, loss: 0.2315
+2023-03-04 11:02:17,516 - mmseg - INFO - Iter [7650/80000]	lr: 1.500e-04, eta: 3:29:58, time: 0.172, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2374, decode.acc_seg: 90.4020, loss: 0.2374
+2023-03-04 11:02:25,862 - mmseg - INFO - Iter [7700/80000]	lr: 1.500e-04, eta: 3:29:46, time: 0.167, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2377, decode.acc_seg: 90.3854, loss: 0.2377
+2023-03-04 11:02:34,310 - mmseg - INFO - Iter [7750/80000]	lr: 1.500e-04, eta: 3:29:35, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2310, decode.acc_seg: 90.6413, loss: 0.2310
+2023-03-04 11:02:42,405 - mmseg - INFO - Iter [7800/80000]	lr: 1.500e-04, eta: 3:29:21, time: 0.162, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2344, decode.acc_seg: 90.4540, loss: 0.2344
+2023-03-04 11:02:50,839 - mmseg - INFO - Iter [7850/80000]	lr: 1.500e-04, eta: 3:29:10, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2354, decode.acc_seg: 90.5682, loss: 0.2354
+2023-03-04 11:02:59,300 - mmseg - INFO - Iter [7900/80000]	lr: 1.500e-04, eta: 3:28:59, time: 0.169, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2317, decode.acc_seg: 90.6238, loss: 0.2317
+2023-03-04 11:03:07,614 - mmseg - INFO - Iter [7950/80000]	lr: 1.500e-04, eta: 3:28:47, time: 0.166, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2295, decode.acc_seg: 90.7864, loss: 0.2295
+2023-03-04 11:03:16,412 - mmseg - INFO - Saving checkpoint at 8000 iterations
+2023-03-04 11:03:17,008 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_mask.py
+2023-03-04 11:03:17,008 - mmseg - INFO - Iter [8000/80000]	lr: 1.500e-04, eta: 3:28:44, time: 0.188, data_time: 0.007, memory: 19783, decode.loss_ce: 0.2282, decode.acc_seg: 90.7558, loss: 0.2282