diff --git "a/ablation/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits/20230304_174053.log" "b/ablation/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits/20230304_174053.log"
new file mode 100644--- /dev/null
+++ "b/ablation/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits/20230304_174053.log"
@@ -0,0 +1,1306 @@
+2023-03-04 17:40:53,177 - mmseg - INFO - Multi-processing start method is `None`
+2023-03-04 17:40:53,190 - mmseg - INFO - OpenCV num_threads is `128
+2023-03-04 17:40:53,190 - mmseg - INFO - OMP num threads is 1
+2023-03-04 17:40:53,262 - mmseg - INFO - Environment info:
+------------------------------------------------------------
+sys.platform: linux
+Python: 3.7.16 (default, Jan 17 2023, 22:20:44) [GCC 11.2.0]
+CUDA available: True
+GPU 0,1,2,3,4,5,6,7: NVIDIA A100-SXM4-80GB
+CUDA_HOME: /mnt/petrelfs/laizeqiang/miniconda3/envs/torch
+NVCC: Cuda compilation tools, release 11.6, V11.6.124
+GCC: gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-44)
+PyTorch: 1.13.1
+PyTorch compiling details: PyTorch built with:
+  - GCC 9.3
+  - C++ Version: 201402
+  - Intel(R) oneAPI Math Kernel Library Version 2021.4-Product Build 20210904 for Intel(R) 64 architecture applications
+  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
+  - OpenMP 201511 (a.k.a. OpenMP 4.5)
+  - LAPACK is enabled (usually provided by MKL)
+  - NNPACK is enabled
+  - CPU capability usage: AVX2
+  - CUDA Runtime 11.6
+  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_37,code=compute_37
+  - CuDNN 8.3.2  (built against CUDA 11.5)
+  - Magma 2.6.1
+  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.6, CUDNN_VERSION=8.3.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -fabi-version=11 -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Werror=non-virtual-dtor -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wunused-local-typedefs -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.13.1, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=ON, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF, 
+
+TorchVision: 0.14.1
+OpenCV: 4.7.0
+MMCV: 1.7.1
+MMCV Compiler: GCC 9.3
+MMCV CUDA Compiler: 11.6
+MMSegmentation: 0.30.0+6749699
+------------------------------------------------------------
+
+2023-03-04 17:40:53,262 - mmseg - INFO - Distributed training: True
+2023-03-04 17:40:53,958 - mmseg - INFO - Config:
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+checkpoint = 'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth'
+model = dict(
+    type='EncoderDecoderFreeze',
+    freeze_parameters=['backbone', 'decode_head'],
+    pretrained=
+    'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth',
+    backbone=dict(
+        type='MixVisionTransformerCustomInitWeights',
+        in_channels=3,
+        embed_dims=64,
+        num_stages=4,
+        num_layers=[3, 4, 6, 3],
+        num_heads=[1, 2, 5, 8],
+        patch_sizes=[7, 3, 3, 3],
+        sr_ratios=[8, 4, 2, 1],
+        out_indices=(0, 1, 2, 3),
+        mlp_ratio=4,
+        qkv_bias=True,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        drop_path_rate=0.1),
+    decode_head=dict(
+        type='SegformerHeadUnetFCHeadSingleStepLogits',
+        pretrained=
+        'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth',
+        dim=128,
+        out_dim=256,
+        unet_channels=166,
+        dim_mults=[1, 1, 1],
+        cat_embedding_dim=16,
+        in_channels=[64, 128, 320, 512],
+        in_index=[0, 1, 2, 3],
+        channels=256,
+        dropout_ratio=0.1,
+        num_classes=151,
+        norm_cfg=dict(type='SyncBN', requires_grad=True),
+        align_corners=False,
+        ignore_index=0,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
+dataset_type = 'ADE20K151Dataset'
+data_root = 'data/ade/ADEChallengeData2016'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (512, 512)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations', reduce_zero_label=False),
+    dict(type='Resize', img_scale=(2048, 512), ratio_range=(0.5, 2.0)),
+    dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+    dict(type='RandomFlip', prob=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[58.395, 57.12, 57.375],
+        to_rgb=True),
+    dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=0),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(2048, 512),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=16, pad_val=0, seg_pad_val=0),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img'])
+        ])
+]
+data = dict(
+    samples_per_gpu=4,
+    workers_per_gpu=4,
+    train=dict(
+        type='ADE20K151Dataset',
+        data_root='data/ade/ADEChallengeData2016',
+        img_dir='images/training',
+        ann_dir='annotations/training',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(type='LoadAnnotations', reduce_zero_label=False),
+            dict(type='Resize', img_scale=(2048, 512), ratio_range=(0.5, 2.0)),
+            dict(type='RandomCrop', crop_size=(512, 512), cat_max_ratio=0.75),
+            dict(type='RandomFlip', prob=0.5),
+            dict(type='PhotoMetricDistortion'),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[58.395, 57.12, 57.375],
+                to_rgb=True),
+            dict(type='Pad', size=(512, 512), pad_val=0, seg_pad_val=0),
+            dict(type='DefaultFormatBundle'),
+            dict(type='Collect', keys=['img', 'gt_semantic_seg'])
+        ]),
+    val=dict(
+        type='ADE20K151Dataset',
+        data_root='data/ade/ADEChallengeData2016',
+        img_dir='images/validation',
+        ann_dir='annotations/validation',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(2048, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(
+                        type='Pad', size_divisor=16, pad_val=0, seg_pad_val=0),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]),
+    test=dict(
+        type='ADE20K151Dataset',
+        data_root='data/ade/ADEChallengeData2016',
+        img_dir='images/validation',
+        ann_dir='annotations/validation',
+        pipeline=[
+            dict(type='LoadImageFromFile'),
+            dict(
+                type='MultiScaleFlipAug',
+                img_scale=(2048, 512),
+                flip=False,
+                transforms=[
+                    dict(type='Resize', keep_ratio=True),
+                    dict(type='RandomFlip'),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[58.395, 57.12, 57.375],
+                        to_rgb=True),
+                    dict(
+                        type='Pad', size_divisor=16, pad_val=0, seg_pad_val=0),
+                    dict(type='ImageToTensor', keys=['img']),
+                    dict(type='Collect', keys=['img'])
+                ])
+        ]))
+log_config = dict(
+    interval=50, hooks=[dict(type='TextLoggerHook', by_epoch=False)])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+cudnn_benchmark = True
+optimizer = dict(
+    type='AdamW', lr=0.00015, betas=[0.9, 0.96], weight_decay=0.045)
+optimizer_config = dict()
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=1000,
+    warmup_ratio=1e-06,
+    step=10000,
+    gamma=0.5,
+    min_lr=1e-06,
+    by_epoch=False)
+runner = dict(type='IterBasedRunner', max_iters=80000)
+checkpoint_config = dict(by_epoch=False, interval=8000)
+evaluation = dict(
+    interval=8000, metric='mIoU', pre_eval=True, save_best='mIoU')
+work_dir = './work_dirs2/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits'
+gpu_ids = range(0, 8)
+auto_resume = True
+
+2023-03-04 17:40:58,203 - mmseg - INFO - Set random seed to 358795777, deterministic: False
+2023-03-04 17:40:58,454 - mmseg - INFO - Parameters in backbone freezed!
+2023-03-04 17:40:58,455 - mmseg - INFO - Trainable parameters in SegformerHeadUnetFCHeadSingleStep: ['unet.init_conv.weight', 'unet.init_conv.bias', 'unet.time_mlp.1.weight', 'unet.time_mlp.1.bias', 'unet.time_mlp.3.weight', 'unet.time_mlp.3.bias', 'unet.downs.0.0.mlp.1.weight', 'unet.downs.0.0.mlp.1.bias', 'unet.downs.0.0.block1.proj.weight', 'unet.downs.0.0.block1.proj.bias', 'unet.downs.0.0.block1.norm.weight', 'unet.downs.0.0.block1.norm.bias', 'unet.downs.0.0.block2.proj.weight', 'unet.downs.0.0.block2.proj.bias', 'unet.downs.0.0.block2.norm.weight', 'unet.downs.0.0.block2.norm.bias', 'unet.downs.0.1.mlp.1.weight', 'unet.downs.0.1.mlp.1.bias', 'unet.downs.0.1.block1.proj.weight', 'unet.downs.0.1.block1.proj.bias', 'unet.downs.0.1.block1.norm.weight', 'unet.downs.0.1.block1.norm.bias', 'unet.downs.0.1.block2.proj.weight', 'unet.downs.0.1.block2.proj.bias', 'unet.downs.0.1.block2.norm.weight', 'unet.downs.0.1.block2.norm.bias', 'unet.downs.0.2.fn.fn.to_qkv.weight', 'unet.downs.0.2.fn.fn.to_out.0.weight', 'unet.downs.0.2.fn.fn.to_out.0.bias', 'unet.downs.0.2.fn.fn.to_out.1.g', 'unet.downs.0.2.fn.norm.g', 'unet.downs.0.3.weight', 'unet.downs.0.3.bias', 'unet.downs.1.0.mlp.1.weight', 'unet.downs.1.0.mlp.1.bias', 'unet.downs.1.0.block1.proj.weight', 'unet.downs.1.0.block1.proj.bias', 'unet.downs.1.0.block1.norm.weight', 'unet.downs.1.0.block1.norm.bias', 'unet.downs.1.0.block2.proj.weight', 'unet.downs.1.0.block2.proj.bias', 'unet.downs.1.0.block2.norm.weight', 'unet.downs.1.0.block2.norm.bias', 'unet.downs.1.1.mlp.1.weight', 'unet.downs.1.1.mlp.1.bias', 'unet.downs.1.1.block1.proj.weight', 'unet.downs.1.1.block1.proj.bias', 'unet.downs.1.1.block1.norm.weight', 'unet.downs.1.1.block1.norm.bias', 'unet.downs.1.1.block2.proj.weight', 'unet.downs.1.1.block2.proj.bias', 'unet.downs.1.1.block2.norm.weight', 'unet.downs.1.1.block2.norm.bias', 'unet.downs.1.2.fn.fn.to_qkv.weight', 'unet.downs.1.2.fn.fn.to_out.0.weight', 'unet.downs.1.2.fn.fn.to_out.0.bias', 'unet.downs.1.2.fn.fn.to_out.1.g', 'unet.downs.1.2.fn.norm.g', 'unet.downs.1.3.weight', 'unet.downs.1.3.bias', 'unet.downs.2.0.mlp.1.weight', 'unet.downs.2.0.mlp.1.bias', 'unet.downs.2.0.block1.proj.weight', 'unet.downs.2.0.block1.proj.bias', 'unet.downs.2.0.block1.norm.weight', 'unet.downs.2.0.block1.norm.bias', 'unet.downs.2.0.block2.proj.weight', 'unet.downs.2.0.block2.proj.bias', 'unet.downs.2.0.block2.norm.weight', 'unet.downs.2.0.block2.norm.bias', 'unet.downs.2.1.mlp.1.weight', 'unet.downs.2.1.mlp.1.bias', 'unet.downs.2.1.block1.proj.weight', 'unet.downs.2.1.block1.proj.bias', 'unet.downs.2.1.block1.norm.weight', 'unet.downs.2.1.block1.norm.bias', 'unet.downs.2.1.block2.proj.weight', 'unet.downs.2.1.block2.proj.bias', 'unet.downs.2.1.block2.norm.weight', 'unet.downs.2.1.block2.norm.bias', 'unet.downs.2.2.fn.fn.to_qkv.weight', 'unet.downs.2.2.fn.fn.to_out.0.weight', 'unet.downs.2.2.fn.fn.to_out.0.bias', 'unet.downs.2.2.fn.fn.to_out.1.g', 'unet.downs.2.2.fn.norm.g', 'unet.downs.2.3.weight', 'unet.downs.2.3.bias', 'unet.ups.0.0.mlp.1.weight', 'unet.ups.0.0.mlp.1.bias', 'unet.ups.0.0.block1.proj.weight', 'unet.ups.0.0.block1.proj.bias', 'unet.ups.0.0.block1.norm.weight', 'unet.ups.0.0.block1.norm.bias', 'unet.ups.0.0.block2.proj.weight', 'unet.ups.0.0.block2.proj.bias', 'unet.ups.0.0.block2.norm.weight', 'unet.ups.0.0.block2.norm.bias', 'unet.ups.0.0.res_conv.weight', 'unet.ups.0.0.res_conv.bias', 'unet.ups.0.1.mlp.1.weight', 'unet.ups.0.1.mlp.1.bias', 'unet.ups.0.1.block1.proj.weight', 'unet.ups.0.1.block1.proj.bias', 'unet.ups.0.1.block1.norm.weight', 'unet.ups.0.1.block1.norm.bias', 'unet.ups.0.1.block2.proj.weight', 'unet.ups.0.1.block2.proj.bias', 'unet.ups.0.1.block2.norm.weight', 'unet.ups.0.1.block2.norm.bias', 'unet.ups.0.1.res_conv.weight', 'unet.ups.0.1.res_conv.bias', 'unet.ups.0.2.fn.fn.to_qkv.weight', 'unet.ups.0.2.fn.fn.to_out.0.weight', 'unet.ups.0.2.fn.fn.to_out.0.bias', 'unet.ups.0.2.fn.fn.to_out.1.g', 'unet.ups.0.2.fn.norm.g', 'unet.ups.0.3.1.weight', 'unet.ups.0.3.1.bias', 'unet.ups.1.0.mlp.1.weight', 'unet.ups.1.0.mlp.1.bias', 'unet.ups.1.0.block1.proj.weight', 'unet.ups.1.0.block1.proj.bias', 'unet.ups.1.0.block1.norm.weight', 'unet.ups.1.0.block1.norm.bias', 'unet.ups.1.0.block2.proj.weight', 'unet.ups.1.0.block2.proj.bias', 'unet.ups.1.0.block2.norm.weight', 'unet.ups.1.0.block2.norm.bias', 'unet.ups.1.0.res_conv.weight', 'unet.ups.1.0.res_conv.bias', 'unet.ups.1.1.mlp.1.weight', 'unet.ups.1.1.mlp.1.bias', 'unet.ups.1.1.block1.proj.weight', 'unet.ups.1.1.block1.proj.bias', 'unet.ups.1.1.block1.norm.weight', 'unet.ups.1.1.block1.norm.bias', 'unet.ups.1.1.block2.proj.weight', 'unet.ups.1.1.block2.proj.bias', 'unet.ups.1.1.block2.norm.weight', 'unet.ups.1.1.block2.norm.bias', 'unet.ups.1.1.res_conv.weight', 'unet.ups.1.1.res_conv.bias', 'unet.ups.1.2.fn.fn.to_qkv.weight', 'unet.ups.1.2.fn.fn.to_out.0.weight', 'unet.ups.1.2.fn.fn.to_out.0.bias', 'unet.ups.1.2.fn.fn.to_out.1.g', 'unet.ups.1.2.fn.norm.g', 'unet.ups.1.3.1.weight', 'unet.ups.1.3.1.bias', 'unet.ups.2.0.mlp.1.weight', 'unet.ups.2.0.mlp.1.bias', 'unet.ups.2.0.block1.proj.weight', 'unet.ups.2.0.block1.proj.bias', 'unet.ups.2.0.block1.norm.weight', 'unet.ups.2.0.block1.norm.bias', 'unet.ups.2.0.block2.proj.weight', 'unet.ups.2.0.block2.proj.bias', 'unet.ups.2.0.block2.norm.weight', 'unet.ups.2.0.block2.norm.bias', 'unet.ups.2.0.res_conv.weight', 'unet.ups.2.0.res_conv.bias', 'unet.ups.2.1.mlp.1.weight', 'unet.ups.2.1.mlp.1.bias', 'unet.ups.2.1.block1.proj.weight', 'unet.ups.2.1.block1.proj.bias', 'unet.ups.2.1.block1.norm.weight', 'unet.ups.2.1.block1.norm.bias', 'unet.ups.2.1.block2.proj.weight', 'unet.ups.2.1.block2.proj.bias', 'unet.ups.2.1.block2.norm.weight', 'unet.ups.2.1.block2.norm.bias', 'unet.ups.2.1.res_conv.weight', 'unet.ups.2.1.res_conv.bias', 'unet.ups.2.2.fn.fn.to_qkv.weight', 'unet.ups.2.2.fn.fn.to_out.0.weight', 'unet.ups.2.2.fn.fn.to_out.0.bias', 'unet.ups.2.2.fn.fn.to_out.1.g', 'unet.ups.2.2.fn.norm.g', 'unet.ups.2.3.weight', 'unet.ups.2.3.bias', 'unet.mid_block1.mlp.1.weight', 'unet.mid_block1.mlp.1.bias', 'unet.mid_block1.block1.proj.weight', 'unet.mid_block1.block1.proj.bias', 'unet.mid_block1.block1.norm.weight', 'unet.mid_block1.block1.norm.bias', 'unet.mid_block1.block2.proj.weight', 'unet.mid_block1.block2.proj.bias', 'unet.mid_block1.block2.norm.weight', 'unet.mid_block1.block2.norm.bias', 'unet.mid_attn.fn.fn.to_qkv.weight', 'unet.mid_attn.fn.fn.to_out.weight', 'unet.mid_attn.fn.fn.to_out.bias', 'unet.mid_attn.fn.norm.g', 'unet.mid_block2.mlp.1.weight', 'unet.mid_block2.mlp.1.bias', 'unet.mid_block2.block1.proj.weight', 'unet.mid_block2.block1.proj.bias', 'unet.mid_block2.block1.norm.weight', 'unet.mid_block2.block1.norm.bias', 'unet.mid_block2.block2.proj.weight', 'unet.mid_block2.block2.proj.bias', 'unet.mid_block2.block2.norm.weight', 'unet.mid_block2.block2.norm.bias', 'unet.final_res_block.mlp.1.weight', 'unet.final_res_block.mlp.1.bias', 'unet.final_res_block.block1.proj.weight', 'unet.final_res_block.block1.proj.bias', 'unet.final_res_block.block1.norm.weight', 'unet.final_res_block.block1.norm.bias', 'unet.final_res_block.block2.proj.weight', 'unet.final_res_block.block2.proj.bias', 'unet.final_res_block.block2.norm.weight', 'unet.final_res_block.block2.norm.bias', 'unet.final_res_block.res_conv.weight', 'unet.final_res_block.res_conv.bias', 'unet.final_conv.weight', 'unet.final_conv.bias', 'conv_seg_new.weight', 'conv_seg_new.bias']
+2023-03-04 17:40:58,455 - mmseg - INFO - Parameters in decode_head freezed!
+2023-03-04 17:40:58,476 - mmseg - INFO - load checkpoint from local path: pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth
+2023-03-04 17:40:58,763 - mmseg - WARNING - The model and loaded state dict do not match exactly
+
+unexpected key in source state_dict: decode_head.conv_seg.weight, decode_head.conv_seg.bias, decode_head.convs.0.conv.weight, decode_head.convs.0.bn.weight, decode_head.convs.0.bn.bias, decode_head.convs.0.bn.running_mean, decode_head.convs.0.bn.running_var, decode_head.convs.0.bn.num_batches_tracked, decode_head.convs.1.conv.weight, decode_head.convs.1.bn.weight, decode_head.convs.1.bn.bias, decode_head.convs.1.bn.running_mean, decode_head.convs.1.bn.running_var, decode_head.convs.1.bn.num_batches_tracked, decode_head.convs.2.conv.weight, decode_head.convs.2.bn.weight, decode_head.convs.2.bn.bias, decode_head.convs.2.bn.running_mean, decode_head.convs.2.bn.running_var, decode_head.convs.2.bn.num_batches_tracked, decode_head.convs.3.conv.weight, decode_head.convs.3.bn.weight, decode_head.convs.3.bn.bias, decode_head.convs.3.bn.running_mean, decode_head.convs.3.bn.running_var, decode_head.convs.3.bn.num_batches_tracked, decode_head.fusion_conv.conv.weight, decode_head.fusion_conv.bn.weight, decode_head.fusion_conv.bn.bias, decode_head.fusion_conv.bn.running_mean, decode_head.fusion_conv.bn.running_var, decode_head.fusion_conv.bn.num_batches_tracked
+
+2023-03-04 17:40:58,785 - mmseg - INFO - load checkpoint from local path: pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth
+2023-03-04 17:40:59,010 - mmseg - WARNING - The model and loaded state dict do not match exactly
+
+unexpected key in source state_dict: backbone.layers.0.0.projection.weight, backbone.layers.0.0.projection.bias, backbone.layers.0.0.norm.weight, backbone.layers.0.0.norm.bias, backbone.layers.0.1.0.norm1.weight, backbone.layers.0.1.0.norm1.bias, backbone.layers.0.1.0.attn.attn.in_proj_weight, backbone.layers.0.1.0.attn.attn.in_proj_bias, backbone.layers.0.1.0.attn.attn.out_proj.weight, backbone.layers.0.1.0.attn.attn.out_proj.bias, backbone.layers.0.1.0.attn.sr.weight, backbone.layers.0.1.0.attn.sr.bias, backbone.layers.0.1.0.attn.norm.weight, backbone.layers.0.1.0.attn.norm.bias, backbone.layers.0.1.0.norm2.weight, backbone.layers.0.1.0.norm2.bias, backbone.layers.0.1.0.ffn.layers.0.weight, backbone.layers.0.1.0.ffn.layers.0.bias, backbone.layers.0.1.0.ffn.layers.1.weight, backbone.layers.0.1.0.ffn.layers.1.bias, backbone.layers.0.1.0.ffn.layers.4.weight, backbone.layers.0.1.0.ffn.layers.4.bias, backbone.layers.0.1.1.norm1.weight, backbone.layers.0.1.1.norm1.bias, backbone.layers.0.1.1.attn.attn.in_proj_weight, backbone.layers.0.1.1.attn.attn.in_proj_bias, backbone.layers.0.1.1.attn.attn.out_proj.weight, backbone.layers.0.1.1.attn.attn.out_proj.bias, backbone.layers.0.1.1.attn.sr.weight, backbone.layers.0.1.1.attn.sr.bias, backbone.layers.0.1.1.attn.norm.weight, backbone.layers.0.1.1.attn.norm.bias, backbone.layers.0.1.1.norm2.weight, backbone.layers.0.1.1.norm2.bias, backbone.layers.0.1.1.ffn.layers.0.weight, backbone.layers.0.1.1.ffn.layers.0.bias, backbone.layers.0.1.1.ffn.layers.1.weight, backbone.layers.0.1.1.ffn.layers.1.bias, backbone.layers.0.1.1.ffn.layers.4.weight, backbone.layers.0.1.1.ffn.layers.4.bias, backbone.layers.0.1.2.norm1.weight, backbone.layers.0.1.2.norm1.bias, backbone.layers.0.1.2.attn.attn.in_proj_weight, backbone.layers.0.1.2.attn.attn.in_proj_bias, backbone.layers.0.1.2.attn.attn.out_proj.weight, backbone.layers.0.1.2.attn.attn.out_proj.bias, backbone.layers.0.1.2.attn.sr.weight, backbone.layers.0.1.2.attn.sr.bias, backbone.layers.0.1.2.attn.norm.weight, backbone.layers.0.1.2.attn.norm.bias, backbone.layers.0.1.2.norm2.weight, backbone.layers.0.1.2.norm2.bias, backbone.layers.0.1.2.ffn.layers.0.weight, backbone.layers.0.1.2.ffn.layers.0.bias, backbone.layers.0.1.2.ffn.layers.1.weight, backbone.layers.0.1.2.ffn.layers.1.bias, backbone.layers.0.1.2.ffn.layers.4.weight, backbone.layers.0.1.2.ffn.layers.4.bias, backbone.layers.0.2.weight, backbone.layers.0.2.bias, backbone.layers.1.0.projection.weight, backbone.layers.1.0.projection.bias, backbone.layers.1.0.norm.weight, backbone.layers.1.0.norm.bias, backbone.layers.1.1.0.norm1.weight, backbone.layers.1.1.0.norm1.bias, backbone.layers.1.1.0.attn.attn.in_proj_weight, backbone.layers.1.1.0.attn.attn.in_proj_bias, backbone.layers.1.1.0.attn.attn.out_proj.weight, backbone.layers.1.1.0.attn.attn.out_proj.bias, backbone.layers.1.1.0.attn.sr.weight, backbone.layers.1.1.0.attn.sr.bias, backbone.layers.1.1.0.attn.norm.weight, backbone.layers.1.1.0.attn.norm.bias, backbone.layers.1.1.0.norm2.weight, backbone.layers.1.1.0.norm2.bias, backbone.layers.1.1.0.ffn.layers.0.weight, backbone.layers.1.1.0.ffn.layers.0.bias, backbone.layers.1.1.0.ffn.layers.1.weight, backbone.layers.1.1.0.ffn.layers.1.bias, backbone.layers.1.1.0.ffn.layers.4.weight, backbone.layers.1.1.0.ffn.layers.4.bias, backbone.layers.1.1.1.norm1.weight, backbone.layers.1.1.1.norm1.bias, backbone.layers.1.1.1.attn.attn.in_proj_weight, backbone.layers.1.1.1.attn.attn.in_proj_bias, backbone.layers.1.1.1.attn.attn.out_proj.weight, backbone.layers.1.1.1.attn.attn.out_proj.bias, backbone.layers.1.1.1.attn.sr.weight, backbone.layers.1.1.1.attn.sr.bias, backbone.layers.1.1.1.attn.norm.weight, backbone.layers.1.1.1.attn.norm.bias, backbone.layers.1.1.1.norm2.weight, backbone.layers.1.1.1.norm2.bias, backbone.layers.1.1.1.ffn.layers.0.weight, backbone.layers.1.1.1.ffn.layers.0.bias, backbone.layers.1.1.1.ffn.layers.1.weight, backbone.layers.1.1.1.ffn.layers.1.bias, backbone.layers.1.1.1.ffn.layers.4.weight, backbone.layers.1.1.1.ffn.layers.4.bias, backbone.layers.1.1.2.norm1.weight, backbone.layers.1.1.2.norm1.bias, backbone.layers.1.1.2.attn.attn.in_proj_weight, backbone.layers.1.1.2.attn.attn.in_proj_bias, backbone.layers.1.1.2.attn.attn.out_proj.weight, backbone.layers.1.1.2.attn.attn.out_proj.bias, backbone.layers.1.1.2.attn.sr.weight, backbone.layers.1.1.2.attn.sr.bias, backbone.layers.1.1.2.attn.norm.weight, backbone.layers.1.1.2.attn.norm.bias, backbone.layers.1.1.2.norm2.weight, backbone.layers.1.1.2.norm2.bias, backbone.layers.1.1.2.ffn.layers.0.weight, backbone.layers.1.1.2.ffn.layers.0.bias, backbone.layers.1.1.2.ffn.layers.1.weight, backbone.layers.1.1.2.ffn.layers.1.bias, backbone.layers.1.1.2.ffn.layers.4.weight, backbone.layers.1.1.2.ffn.layers.4.bias, backbone.layers.1.1.3.norm1.weight, backbone.layers.1.1.3.norm1.bias, backbone.layers.1.1.3.attn.attn.in_proj_weight, backbone.layers.1.1.3.attn.attn.in_proj_bias, backbone.layers.1.1.3.attn.attn.out_proj.weight, backbone.layers.1.1.3.attn.attn.out_proj.bias, backbone.layers.1.1.3.attn.sr.weight, backbone.layers.1.1.3.attn.sr.bias, backbone.layers.1.1.3.attn.norm.weight, backbone.layers.1.1.3.attn.norm.bias, backbone.layers.1.1.3.norm2.weight, backbone.layers.1.1.3.norm2.bias, backbone.layers.1.1.3.ffn.layers.0.weight, backbone.layers.1.1.3.ffn.layers.0.bias, backbone.layers.1.1.3.ffn.layers.1.weight, backbone.layers.1.1.3.ffn.layers.1.bias, backbone.layers.1.1.3.ffn.layers.4.weight, backbone.layers.1.1.3.ffn.layers.4.bias, backbone.layers.1.2.weight, backbone.layers.1.2.bias, backbone.layers.2.0.projection.weight, backbone.layers.2.0.projection.bias, backbone.layers.2.0.norm.weight, backbone.layers.2.0.norm.bias, backbone.layers.2.1.0.norm1.weight, backbone.layers.2.1.0.norm1.bias, backbone.layers.2.1.0.attn.attn.in_proj_weight, backbone.layers.2.1.0.attn.attn.in_proj_bias, backbone.layers.2.1.0.attn.attn.out_proj.weight, backbone.layers.2.1.0.attn.attn.out_proj.bias, backbone.layers.2.1.0.attn.sr.weight, backbone.layers.2.1.0.attn.sr.bias, backbone.layers.2.1.0.attn.norm.weight, backbone.layers.2.1.0.attn.norm.bias, backbone.layers.2.1.0.norm2.weight, backbone.layers.2.1.0.norm2.bias, backbone.layers.2.1.0.ffn.layers.0.weight, backbone.layers.2.1.0.ffn.layers.0.bias, backbone.layers.2.1.0.ffn.layers.1.weight, backbone.layers.2.1.0.ffn.layers.1.bias, backbone.layers.2.1.0.ffn.layers.4.weight, backbone.layers.2.1.0.ffn.layers.4.bias, backbone.layers.2.1.1.norm1.weight, backbone.layers.2.1.1.norm1.bias, backbone.layers.2.1.1.attn.attn.in_proj_weight, backbone.layers.2.1.1.attn.attn.in_proj_bias, backbone.layers.2.1.1.attn.attn.out_proj.weight, backbone.layers.2.1.1.attn.attn.out_proj.bias, backbone.layers.2.1.1.attn.sr.weight, backbone.layers.2.1.1.attn.sr.bias, backbone.layers.2.1.1.attn.norm.weight, backbone.layers.2.1.1.attn.norm.bias, backbone.layers.2.1.1.norm2.weight, backbone.layers.2.1.1.norm2.bias, backbone.layers.2.1.1.ffn.layers.0.weight, backbone.layers.2.1.1.ffn.layers.0.bias, backbone.layers.2.1.1.ffn.layers.1.weight, backbone.layers.2.1.1.ffn.layers.1.bias, backbone.layers.2.1.1.ffn.layers.4.weight, backbone.layers.2.1.1.ffn.layers.4.bias, backbone.layers.2.1.2.norm1.weight, backbone.layers.2.1.2.norm1.bias, backbone.layers.2.1.2.attn.attn.in_proj_weight, backbone.layers.2.1.2.attn.attn.in_proj_bias, backbone.layers.2.1.2.attn.attn.out_proj.weight, backbone.layers.2.1.2.attn.attn.out_proj.bias, backbone.layers.2.1.2.attn.sr.weight, backbone.layers.2.1.2.attn.sr.bias, backbone.layers.2.1.2.attn.norm.weight, backbone.layers.2.1.2.attn.norm.bias, backbone.layers.2.1.2.norm2.weight, backbone.layers.2.1.2.norm2.bias, backbone.layers.2.1.2.ffn.layers.0.weight, backbone.layers.2.1.2.ffn.layers.0.bias, backbone.layers.2.1.2.ffn.layers.1.weight, backbone.layers.2.1.2.ffn.layers.1.bias, backbone.layers.2.1.2.ffn.layers.4.weight, backbone.layers.2.1.2.ffn.layers.4.bias, backbone.layers.2.1.3.norm1.weight, backbone.layers.2.1.3.norm1.bias, backbone.layers.2.1.3.attn.attn.in_proj_weight, backbone.layers.2.1.3.attn.attn.in_proj_bias, backbone.layers.2.1.3.attn.attn.out_proj.weight, backbone.layers.2.1.3.attn.attn.out_proj.bias, backbone.layers.2.1.3.attn.sr.weight, backbone.layers.2.1.3.attn.sr.bias, backbone.layers.2.1.3.attn.norm.weight, backbone.layers.2.1.3.attn.norm.bias, backbone.layers.2.1.3.norm2.weight, backbone.layers.2.1.3.norm2.bias, backbone.layers.2.1.3.ffn.layers.0.weight, backbone.layers.2.1.3.ffn.layers.0.bias, backbone.layers.2.1.3.ffn.layers.1.weight, backbone.layers.2.1.3.ffn.layers.1.bias, backbone.layers.2.1.3.ffn.layers.4.weight, backbone.layers.2.1.3.ffn.layers.4.bias, backbone.layers.2.1.4.norm1.weight, backbone.layers.2.1.4.norm1.bias, backbone.layers.2.1.4.attn.attn.in_proj_weight, backbone.layers.2.1.4.attn.attn.in_proj_bias, backbone.layers.2.1.4.attn.attn.out_proj.weight, backbone.layers.2.1.4.attn.attn.out_proj.bias, backbone.layers.2.1.4.attn.sr.weight, backbone.layers.2.1.4.attn.sr.bias, backbone.layers.2.1.4.attn.norm.weight, backbone.layers.2.1.4.attn.norm.bias, backbone.layers.2.1.4.norm2.weight, backbone.layers.2.1.4.norm2.bias, backbone.layers.2.1.4.ffn.layers.0.weight, backbone.layers.2.1.4.ffn.layers.0.bias, backbone.layers.2.1.4.ffn.layers.1.weight, backbone.layers.2.1.4.ffn.layers.1.bias, backbone.layers.2.1.4.ffn.layers.4.weight, backbone.layers.2.1.4.ffn.layers.4.bias, backbone.layers.2.1.5.norm1.weight, backbone.layers.2.1.5.norm1.bias, backbone.layers.2.1.5.attn.attn.in_proj_weight, backbone.layers.2.1.5.attn.attn.in_proj_bias, backbone.layers.2.1.5.attn.attn.out_proj.weight, backbone.layers.2.1.5.attn.attn.out_proj.bias, backbone.layers.2.1.5.attn.sr.weight, backbone.layers.2.1.5.attn.sr.bias, backbone.layers.2.1.5.attn.norm.weight, backbone.layers.2.1.5.attn.norm.bias, backbone.layers.2.1.5.norm2.weight, backbone.layers.2.1.5.norm2.bias, backbone.layers.2.1.5.ffn.layers.0.weight, backbone.layers.2.1.5.ffn.layers.0.bias, backbone.layers.2.1.5.ffn.layers.1.weight, backbone.layers.2.1.5.ffn.layers.1.bias, backbone.layers.2.1.5.ffn.layers.4.weight, backbone.layers.2.1.5.ffn.layers.4.bias, backbone.layers.2.2.weight, backbone.layers.2.2.bias, backbone.layers.3.0.projection.weight, backbone.layers.3.0.projection.bias, backbone.layers.3.0.norm.weight, backbone.layers.3.0.norm.bias, backbone.layers.3.1.0.norm1.weight, backbone.layers.3.1.0.norm1.bias, backbone.layers.3.1.0.attn.attn.in_proj_weight, backbone.layers.3.1.0.attn.attn.in_proj_bias, backbone.layers.3.1.0.attn.attn.out_proj.weight, backbone.layers.3.1.0.attn.attn.out_proj.bias, backbone.layers.3.1.0.norm2.weight, backbone.layers.3.1.0.norm2.bias, backbone.layers.3.1.0.ffn.layers.0.weight, backbone.layers.3.1.0.ffn.layers.0.bias, backbone.layers.3.1.0.ffn.layers.1.weight, backbone.layers.3.1.0.ffn.layers.1.bias, backbone.layers.3.1.0.ffn.layers.4.weight, backbone.layers.3.1.0.ffn.layers.4.bias, backbone.layers.3.1.1.norm1.weight, backbone.layers.3.1.1.norm1.bias, backbone.layers.3.1.1.attn.attn.in_proj_weight, backbone.layers.3.1.1.attn.attn.in_proj_bias, backbone.layers.3.1.1.attn.attn.out_proj.weight, backbone.layers.3.1.1.attn.attn.out_proj.bias, backbone.layers.3.1.1.norm2.weight, backbone.layers.3.1.1.norm2.bias, backbone.layers.3.1.1.ffn.layers.0.weight, backbone.layers.3.1.1.ffn.layers.0.bias, backbone.layers.3.1.1.ffn.layers.1.weight, backbone.layers.3.1.1.ffn.layers.1.bias, backbone.layers.3.1.1.ffn.layers.4.weight, backbone.layers.3.1.1.ffn.layers.4.bias, backbone.layers.3.1.2.norm1.weight, backbone.layers.3.1.2.norm1.bias, backbone.layers.3.1.2.attn.attn.in_proj_weight, backbone.layers.3.1.2.attn.attn.in_proj_bias, backbone.layers.3.1.2.attn.attn.out_proj.weight, backbone.layers.3.1.2.attn.attn.out_proj.bias, backbone.layers.3.1.2.norm2.weight, backbone.layers.3.1.2.norm2.bias, backbone.layers.3.1.2.ffn.layers.0.weight, backbone.layers.3.1.2.ffn.layers.0.bias, backbone.layers.3.1.2.ffn.layers.1.weight, backbone.layers.3.1.2.ffn.layers.1.bias, backbone.layers.3.1.2.ffn.layers.4.weight, backbone.layers.3.1.2.ffn.layers.4.bias, backbone.layers.3.2.weight, backbone.layers.3.2.bias
+
+missing keys in source state_dict: unet.init_conv.weight, unet.init_conv.bias, unet.time_mlp.1.weight, unet.time_mlp.1.bias, unet.time_mlp.3.weight, unet.time_mlp.3.bias, unet.downs.0.0.mlp.1.weight, unet.downs.0.0.mlp.1.bias, unet.downs.0.0.block1.proj.weight, unet.downs.0.0.block1.proj.bias, unet.downs.0.0.block1.norm.weight, unet.downs.0.0.block1.norm.bias, unet.downs.0.0.block2.proj.weight, unet.downs.0.0.block2.proj.bias, unet.downs.0.0.block2.norm.weight, unet.downs.0.0.block2.norm.bias, unet.downs.0.1.mlp.1.weight, unet.downs.0.1.mlp.1.bias, unet.downs.0.1.block1.proj.weight, unet.downs.0.1.block1.proj.bias, unet.downs.0.1.block1.norm.weight, unet.downs.0.1.block1.norm.bias, unet.downs.0.1.block2.proj.weight, unet.downs.0.1.block2.proj.bias, unet.downs.0.1.block2.norm.weight, unet.downs.0.1.block2.norm.bias, unet.downs.0.2.fn.fn.to_qkv.weight, unet.downs.0.2.fn.fn.to_out.0.weight, unet.downs.0.2.fn.fn.to_out.0.bias, unet.downs.0.2.fn.fn.to_out.1.g, unet.downs.0.2.fn.norm.g, unet.downs.0.3.weight, unet.downs.0.3.bias, unet.downs.1.0.mlp.1.weight, unet.downs.1.0.mlp.1.bias, unet.downs.1.0.block1.proj.weight, unet.downs.1.0.block1.proj.bias, unet.downs.1.0.block1.norm.weight, unet.downs.1.0.block1.norm.bias, unet.downs.1.0.block2.proj.weight, unet.downs.1.0.block2.proj.bias, unet.downs.1.0.block2.norm.weight, unet.downs.1.0.block2.norm.bias, unet.downs.1.1.mlp.1.weight, unet.downs.1.1.mlp.1.bias, unet.downs.1.1.block1.proj.weight, unet.downs.1.1.block1.proj.bias, unet.downs.1.1.block1.norm.weight, unet.downs.1.1.block1.norm.bias, unet.downs.1.1.block2.proj.weight, unet.downs.1.1.block2.proj.bias, unet.downs.1.1.block2.norm.weight, unet.downs.1.1.block2.norm.bias, unet.downs.1.2.fn.fn.to_qkv.weight, unet.downs.1.2.fn.fn.to_out.0.weight, unet.downs.1.2.fn.fn.to_out.0.bias, unet.downs.1.2.fn.fn.to_out.1.g, unet.downs.1.2.fn.norm.g, unet.downs.1.3.weight, unet.downs.1.3.bias, unet.downs.2.0.mlp.1.weight, unet.downs.2.0.mlp.1.bias, unet.downs.2.0.block1.proj.weight, unet.downs.2.0.block1.proj.bias, unet.downs.2.0.block1.norm.weight, unet.downs.2.0.block1.norm.bias, unet.downs.2.0.block2.proj.weight, unet.downs.2.0.block2.proj.bias, unet.downs.2.0.block2.norm.weight, unet.downs.2.0.block2.norm.bias, unet.downs.2.1.mlp.1.weight, unet.downs.2.1.mlp.1.bias, unet.downs.2.1.block1.proj.weight, unet.downs.2.1.block1.proj.bias, unet.downs.2.1.block1.norm.weight, unet.downs.2.1.block1.norm.bias, unet.downs.2.1.block2.proj.weight, unet.downs.2.1.block2.proj.bias, unet.downs.2.1.block2.norm.weight, unet.downs.2.1.block2.norm.bias, unet.downs.2.2.fn.fn.to_qkv.weight, unet.downs.2.2.fn.fn.to_out.0.weight, unet.downs.2.2.fn.fn.to_out.0.bias, unet.downs.2.2.fn.fn.to_out.1.g, unet.downs.2.2.fn.norm.g, unet.downs.2.3.weight, unet.downs.2.3.bias, unet.ups.0.0.mlp.1.weight, unet.ups.0.0.mlp.1.bias, unet.ups.0.0.block1.proj.weight, unet.ups.0.0.block1.proj.bias, unet.ups.0.0.block1.norm.weight, unet.ups.0.0.block1.norm.bias, unet.ups.0.0.block2.proj.weight, unet.ups.0.0.block2.proj.bias, unet.ups.0.0.block2.norm.weight, unet.ups.0.0.block2.norm.bias, unet.ups.0.0.res_conv.weight, unet.ups.0.0.res_conv.bias, unet.ups.0.1.mlp.1.weight, unet.ups.0.1.mlp.1.bias, unet.ups.0.1.block1.proj.weight, unet.ups.0.1.block1.proj.bias, unet.ups.0.1.block1.norm.weight, unet.ups.0.1.block1.norm.bias, unet.ups.0.1.block2.proj.weight, unet.ups.0.1.block2.proj.bias, unet.ups.0.1.block2.norm.weight, unet.ups.0.1.block2.norm.bias, unet.ups.0.1.res_conv.weight, unet.ups.0.1.res_conv.bias, unet.ups.0.2.fn.fn.to_qkv.weight, unet.ups.0.2.fn.fn.to_out.0.weight, unet.ups.0.2.fn.fn.to_out.0.bias, unet.ups.0.2.fn.fn.to_out.1.g, unet.ups.0.2.fn.norm.g, unet.ups.0.3.1.weight, unet.ups.0.3.1.bias, unet.ups.1.0.mlp.1.weight, unet.ups.1.0.mlp.1.bias, unet.ups.1.0.block1.proj.weight, unet.ups.1.0.block1.proj.bias, unet.ups.1.0.block1.norm.weight, unet.ups.1.0.block1.norm.bias, unet.ups.1.0.block2.proj.weight, unet.ups.1.0.block2.proj.bias, unet.ups.1.0.block2.norm.weight, unet.ups.1.0.block2.norm.bias, unet.ups.1.0.res_conv.weight, unet.ups.1.0.res_conv.bias, unet.ups.1.1.mlp.1.weight, unet.ups.1.1.mlp.1.bias, unet.ups.1.1.block1.proj.weight, unet.ups.1.1.block1.proj.bias, unet.ups.1.1.block1.norm.weight, unet.ups.1.1.block1.norm.bias, unet.ups.1.1.block2.proj.weight, unet.ups.1.1.block2.proj.bias, unet.ups.1.1.block2.norm.weight, unet.ups.1.1.block2.norm.bias, unet.ups.1.1.res_conv.weight, unet.ups.1.1.res_conv.bias, unet.ups.1.2.fn.fn.to_qkv.weight, unet.ups.1.2.fn.fn.to_out.0.weight, unet.ups.1.2.fn.fn.to_out.0.bias, unet.ups.1.2.fn.fn.to_out.1.g, unet.ups.1.2.fn.norm.g, unet.ups.1.3.1.weight, unet.ups.1.3.1.bias, unet.ups.2.0.mlp.1.weight, unet.ups.2.0.mlp.1.bias, unet.ups.2.0.block1.proj.weight, unet.ups.2.0.block1.proj.bias, unet.ups.2.0.block1.norm.weight, unet.ups.2.0.block1.norm.bias, unet.ups.2.0.block2.proj.weight, unet.ups.2.0.block2.proj.bias, unet.ups.2.0.block2.norm.weight, unet.ups.2.0.block2.norm.bias, unet.ups.2.0.res_conv.weight, unet.ups.2.0.res_conv.bias, unet.ups.2.1.mlp.1.weight, unet.ups.2.1.mlp.1.bias, unet.ups.2.1.block1.proj.weight, unet.ups.2.1.block1.proj.bias, unet.ups.2.1.block1.norm.weight, unet.ups.2.1.block1.norm.bias, unet.ups.2.1.block2.proj.weight, unet.ups.2.1.block2.proj.bias, unet.ups.2.1.block2.norm.weight, unet.ups.2.1.block2.norm.bias, unet.ups.2.1.res_conv.weight, unet.ups.2.1.res_conv.bias, unet.ups.2.2.fn.fn.to_qkv.weight, unet.ups.2.2.fn.fn.to_out.0.weight, unet.ups.2.2.fn.fn.to_out.0.bias, unet.ups.2.2.fn.fn.to_out.1.g, unet.ups.2.2.fn.norm.g, unet.ups.2.3.weight, unet.ups.2.3.bias, unet.mid_block1.mlp.1.weight, unet.mid_block1.mlp.1.bias, unet.mid_block1.block1.proj.weight, unet.mid_block1.block1.proj.bias, unet.mid_block1.block1.norm.weight, unet.mid_block1.block1.norm.bias, unet.mid_block1.block2.proj.weight, unet.mid_block1.block2.proj.bias, unet.mid_block1.block2.norm.weight, unet.mid_block1.block2.norm.bias, unet.mid_attn.fn.fn.to_qkv.weight, unet.mid_attn.fn.fn.to_out.weight, unet.mid_attn.fn.fn.to_out.bias, unet.mid_attn.fn.norm.g, unet.mid_block2.mlp.1.weight, unet.mid_block2.mlp.1.bias, unet.mid_block2.block1.proj.weight, unet.mid_block2.block1.proj.bias, unet.mid_block2.block1.norm.weight, unet.mid_block2.block1.norm.bias, unet.mid_block2.block2.proj.weight, unet.mid_block2.block2.proj.bias, unet.mid_block2.block2.norm.weight, unet.mid_block2.block2.norm.bias, unet.final_res_block.mlp.1.weight, unet.final_res_block.mlp.1.bias, unet.final_res_block.block1.proj.weight, unet.final_res_block.block1.proj.bias, unet.final_res_block.block1.norm.weight, unet.final_res_block.block1.norm.bias, unet.final_res_block.block2.proj.weight, unet.final_res_block.block2.proj.bias, unet.final_res_block.block2.norm.weight, unet.final_res_block.block2.norm.bias, unet.final_res_block.res_conv.weight, unet.final_res_block.res_conv.bias, unet.final_conv.weight, unet.final_conv.bias, conv_seg_new.weight, conv_seg_new.bias, embed.weight
+
+2023-03-04 17:40:59,032 - mmseg - INFO - EncoderDecoderFreeze(
+  (backbone): MixVisionTransformerCustomInitWeights(
+    (layers): ModuleList(
+      (0): ModuleList(
+        (0): PatchEmbed(
+          (projection): Conv2d(3, 64, kernel_size=(7, 7), stride=(4, 4), padding=(3, 3))
+          (norm): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+        )
+        (1): ModuleList(
+          (0): TransformerEncoderLayer(
+            (norm1): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=64, out_features=64, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(64, 64, kernel_size=(8, 8), stride=(8, 8))
+              (norm): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=256)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (1): TransformerEncoderLayer(
+            (norm1): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=64, out_features=64, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(64, 64, kernel_size=(8, 8), stride=(8, 8))
+              (norm): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=256)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (2): TransformerEncoderLayer(
+            (norm1): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=64, out_features=64, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(64, 64, kernel_size=(8, 8), stride=(8, 8))
+              (norm): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=256)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+        )
+        (2): LayerNorm((64,), eps=1e-06, elementwise_affine=True)
+      )
+      (1): ModuleList(
+        (0): PatchEmbed(
+          (projection): Conv2d(64, 128, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
+          (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+        )
+        (1): ModuleList(
+          (0): TransformerEncoderLayer(
+            (norm1): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=128, out_features=128, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(128, 128, kernel_size=(4, 4), stride=(4, 4))
+              (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (1): TransformerEncoderLayer(
+            (norm1): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=128, out_features=128, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(128, 128, kernel_size=(4, 4), stride=(4, 4))
+              (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (2): TransformerEncoderLayer(
+            (norm1): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=128, out_features=128, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(128, 128, kernel_size=(4, 4), stride=(4, 4))
+              (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (3): TransformerEncoderLayer(
+            (norm1): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=128, out_features=128, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(128, 128, kernel_size=(4, 4), stride=(4, 4))
+              (norm): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+        )
+        (2): LayerNorm((128,), eps=1e-06, elementwise_affine=True)
+      )
+      (2): ModuleList(
+        (0): PatchEmbed(
+          (projection): Conv2d(128, 320, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
+          (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+        )
+        (1): ModuleList(
+          (0): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (1): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (2): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (3): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (4): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (5): TransformerEncoderLayer(
+            (norm1): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=320, out_features=320, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+              (sr): Conv2d(320, 320, kernel_size=(2, 2), stride=(2, 2))
+              (norm): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            )
+            (norm2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(1280, 1280, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1280)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(1280, 320, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+        )
+        (2): LayerNorm((320,), eps=1e-06, elementwise_affine=True)
+      )
+      (3): ModuleList(
+        (0): PatchEmbed(
+          (projection): Conv2d(320, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))
+          (norm): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+        )
+        (1): ModuleList(
+          (0): TransformerEncoderLayer(
+            (norm1): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+            )
+            (norm2): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(2048, 2048, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=2048)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (1): TransformerEncoderLayer(
+            (norm1): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+            )
+            (norm2): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(2048, 2048, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=2048)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+          (2): TransformerEncoderLayer(
+            (norm1): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (attn): EfficientMultiheadAttention(
+              (attn): MultiheadAttention(
+                (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
+              )
+              (proj_drop): Dropout(p=0.0, inplace=False)
+              (dropout_layer): DropPath()
+            )
+            (norm2): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+            (ffn): MixFFN(
+              (activate): GELU(approximate='none')
+              (layers): Sequential(
+                (0): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1))
+                (1): Conv2d(2048, 2048, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=2048)
+                (2): GELU(approximate='none')
+                (3): Dropout(p=0.0, inplace=False)
+                (4): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1))
+                (5): Dropout(p=0.0, inplace=False)
+              )
+              (dropout_layer): DropPath()
+            )
+          )
+        )
+        (2): LayerNorm((512,), eps=1e-06, elementwise_affine=True)
+      )
+    )
+  )
+  init_cfg={'type': 'Pretrained', 'checkpoint': 'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth'}
+  (decode_head): SegformerHeadUnetFCHeadSingleStepLogits(
+    input_transform=multiple_select, ignore_index=0, align_corners=False
+    (loss_decode): CrossEntropyLoss(avg_non_ignore=False)
+    (conv_seg): Conv2d(256, 150, kernel_size=(1, 1), stride=(1, 1))
+    (dropout): Dropout2d(p=0.1, inplace=False)
+    (convs): ModuleList(
+      (0): ConvModule(
+        (conv): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+        (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (activate): ReLU(inplace=True)
+      )
+      (1): ConvModule(
+        (conv): Conv2d(128, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+        (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (activate): ReLU(inplace=True)
+      )
+      (2): ConvModule(
+        (conv): Conv2d(320, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+        (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (activate): ReLU(inplace=True)
+      )
+      (3): ConvModule(
+        (conv): Conv2d(512, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+        (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+        (activate): ReLU(inplace=True)
+      )
+    )
+    (fusion_conv): ConvModule(
+      (conv): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
+      (bn): SyncBatchNorm(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
+      (activate): ReLU(inplace=True)
+    )
+    (unet): Unet(
+      (init_conv): Conv2d(166, 128, kernel_size=(7, 7), stride=(1, 1), padding=(3, 3))
+      (time_mlp): Sequential(
+        (0): SinusoidalPosEmb()
+        (1): Linear(in_features=128, out_features=512, bias=True)
+        (2): GELU(approximate='none')
+        (3): Linear(in_features=512, out_features=512, bias=True)
+      )
+      (downs): ModuleList(
+        (0): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Conv2d(128, 128, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1))
+        )
+        (1): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Conv2d(128, 128, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1))
+        )
+        (2): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Identity()
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+        )
+      )
+      (ups): ModuleList(
+        (0): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Sequential(
+            (0): Upsample(scale_factor=2.0, mode=nearest)
+            (1): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          )
+        )
+        (1): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Sequential(
+            (0): Upsample(scale_factor=2.0, mode=nearest)
+            (1): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          )
+        )
+        (2): ModuleList(
+          (0): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (1): ResnetBlock(
+            (mlp): Sequential(
+              (0): SiLU()
+              (1): Linear(in_features=512, out_features=256, bias=True)
+            )
+            (block1): Block(
+              (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (block2): Block(
+              (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+              (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+              (act): SiLU()
+            )
+            (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (2): Residual(
+            (fn): PreNorm(
+              (fn): LinearAttention(
+                (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+                (to_out): Sequential(
+                  (0): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+                  (1): LayerNorm()
+                )
+              )
+              (norm): LayerNorm()
+            )
+          )
+          (3): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+        )
+      )
+      (mid_block1): ResnetBlock(
+        (mlp): Sequential(
+          (0): SiLU()
+          (1): Linear(in_features=512, out_features=256, bias=True)
+        )
+        (block1): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (block2): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (res_conv): Identity()
+      )
+      (mid_attn): Residual(
+        (fn): PreNorm(
+          (fn): Attention(
+            (to_qkv): Conv2d(128, 384, kernel_size=(1, 1), stride=(1, 1), bias=False)
+            (to_out): Conv2d(128, 128, kernel_size=(1, 1), stride=(1, 1))
+          )
+          (norm): LayerNorm()
+        )
+      )
+      (mid_block2): ResnetBlock(
+        (mlp): Sequential(
+          (0): SiLU()
+          (1): Linear(in_features=512, out_features=256, bias=True)
+        )
+        (block1): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (block2): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (res_conv): Identity()
+      )
+      (final_res_block): ResnetBlock(
+        (mlp): Sequential(
+          (0): SiLU()
+          (1): Linear(in_features=512, out_features=256, bias=True)
+        )
+        (block1): Block(
+          (proj): WeightStandardizedConv2d(256, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (block2): Block(
+          (proj): WeightStandardizedConv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
+          (norm): GroupNorm(8, 128, eps=1e-05, affine=True)
+          (act): SiLU()
+        )
+        (res_conv): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
+      )
+      (final_conv): Conv2d(128, 256, kernel_size=(1, 1), stride=(1, 1))
+    )
+    (conv_seg_new): Conv2d(256, 151, kernel_size=(1, 1), stride=(1, 1))
+    (embed): Embedding(151, 16)
+  )
+  init_cfg={'type': 'Pretrained', 'checkpoint': 'pretrained/segformer_mit-b2_512x512_160k_ade20k_20220620_114047-64e4feca.pth'}
+)
+2023-03-04 17:40:59,909 - mmseg - INFO - Loaded 20210 images
+2023-03-04 17:41:00,954 - mmseg - INFO - Loaded 2000 images
+2023-03-04 17:41:00,957 - mmseg - INFO - Start running, host: laizeqiang@SH-IDC1-10-140-37-132, work_dir: /mnt/petrelfs/laizeqiang/mmseg-baseline/work_dirs2/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits
+2023-03-04 17:41:00,957 - mmseg - INFO - Hooks will be executed in the following order:
+before_run:
+(VERY_HIGH   ) StepLrUpdaterHook                  
+(NORMAL      ) CheckpointHook                     
+(LOW         ) DistEvalHookMultiSteps             
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+before_train_epoch:
+(VERY_HIGH   ) StepLrUpdaterHook                  
+(LOW         ) IterTimerHook                      
+(LOW         ) DistEvalHookMultiSteps             
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+before_train_iter:
+(VERY_HIGH   ) StepLrUpdaterHook                  
+(LOW         ) IterTimerHook                      
+(LOW         ) DistEvalHookMultiSteps             
+ -------------------- 
+after_train_iter:
+(ABOVE_NORMAL) OptimizerHook                      
+(NORMAL      ) CheckpointHook                     
+(LOW         ) IterTimerHook                      
+(LOW         ) DistEvalHookMultiSteps             
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+after_train_epoch:
+(NORMAL      ) CheckpointHook                     
+(LOW         ) DistEvalHookMultiSteps             
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+before_val_epoch:
+(LOW         ) IterTimerHook                      
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+before_val_iter:
+(LOW         ) IterTimerHook                      
+ -------------------- 
+after_val_iter:
+(LOW         ) IterTimerHook                      
+ -------------------- 
+after_val_epoch:
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+after_run:
+(VERY_LOW    ) TextLoggerHook                     
+ -------------------- 
+2023-03-04 17:41:00,957 - mmseg - INFO - workflow: [('train', 1)], max: 80000 iters
+2023-03-04 17:41:00,957 - mmseg - INFO - Checkpoints will be saved to /mnt/petrelfs/laizeqiang/mmseg-baseline/work_dirs2/ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits by HardDiskBackend.
+2023-03-04 17:41:38,687 - mmseg - INFO - Iter [50/80000]	lr: 7.350e-06, eta: 6:28:27, time: 0.292, data_time: 0.015, memory: 19750, decode.loss_ce: 3.7067, decode.acc_seg: 12.7455, loss: 3.7067
+2023-03-04 17:41:47,394 - mmseg - INFO - Iter [100/80000]	lr: 1.485e-05, eta: 5:10:01, time: 0.174, data_time: 0.007, memory: 19750, decode.loss_ce: 2.8377, decode.acc_seg: 33.7928, loss: 2.8377
+2023-03-04 17:41:55,953 - mmseg - INFO - Iter [150/80000]	lr: 2.235e-05, eta: 4:42:29, time: 0.171, data_time: 0.007, memory: 19750, decode.loss_ce: 2.2951, decode.acc_seg: 45.9183, loss: 2.2951
+2023-03-04 17:42:04,387 - mmseg - INFO - Iter [200/80000]	lr: 2.985e-05, eta: 4:27:49, time: 0.169, data_time: 0.006, memory: 19750, decode.loss_ce: 1.8720, decode.acc_seg: 55.4342, loss: 1.8720
+2023-03-04 17:42:12,771 - mmseg - INFO - Iter [250/80000]	lr: 3.735e-05, eta: 4:18:41, time: 0.168, data_time: 0.006, memory: 19750, decode.loss_ce: 1.5865, decode.acc_seg: 61.1137, loss: 1.5865
+2023-03-04 17:42:21,256 - mmseg - INFO - Iter [300/80000]	lr: 4.485e-05, eta: 4:12:58, time: 0.170, data_time: 0.006, memory: 19750, decode.loss_ce: 1.2947, decode.acc_seg: 67.7891, loss: 1.2947
+2023-03-04 17:42:29,693 - mmseg - INFO - Iter [350/80000]	lr: 5.235e-05, eta: 4:08:43, time: 0.169, data_time: 0.007, memory: 19750, decode.loss_ce: 1.1761, decode.acc_seg: 69.6866, loss: 1.1761
+2023-03-04 17:42:38,021 - mmseg - INFO - Iter [400/80000]	lr: 5.985e-05, eta: 4:05:07, time: 0.167, data_time: 0.006, memory: 19750, decode.loss_ce: 1.0405, decode.acc_seg: 72.4620, loss: 1.0405
+2023-03-04 17:42:46,266 - mmseg - INFO - Iter [450/80000]	lr: 6.735e-05, eta: 4:02:02, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.9029, decode.acc_seg: 73.9512, loss: 0.9029
+2023-03-04 17:42:54,644 - mmseg - INFO - Iter [500/80000]	lr: 7.485e-05, eta: 3:59:54, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.8425, decode.acc_seg: 75.0831, loss: 0.8425
+2023-03-04 17:43:03,204 - mmseg - INFO - Iter [550/80000]	lr: 8.235e-05, eta: 3:58:32, time: 0.171, data_time: 0.007, memory: 19750, decode.loss_ce: 0.7289, decode.acc_seg: 77.3203, loss: 0.7289
+2023-03-04 17:43:11,492 - mmseg - INFO - Iter [600/80000]	lr: 8.985e-05, eta: 3:56:49, time: 0.166, data_time: 0.007, memory: 19750, decode.loss_ce: 0.7088, decode.acc_seg: 77.5648, loss: 0.7088
+2023-03-04 17:43:22,186 - mmseg - INFO - Iter [650/80000]	lr: 9.735e-05, eta: 4:00:13, time: 0.214, data_time: 0.054, memory: 19750, decode.loss_ce: 0.7057, decode.acc_seg: 77.2875, loss: 0.7057
+2023-03-04 17:43:30,370 - mmseg - INFO - Iter [700/80000]	lr: 1.049e-04, eta: 3:58:22, time: 0.164, data_time: 0.007, memory: 19750, decode.loss_ce: 0.6063, decode.acc_seg: 79.7392, loss: 0.6063
+2023-03-04 17:43:38,468 - mmseg - INFO - Iter [750/80000]	lr: 1.124e-04, eta: 3:56:36, time: 0.162, data_time: 0.007, memory: 19750, decode.loss_ce: 0.5983, decode.acc_seg: 79.6223, loss: 0.5983
+2023-03-04 17:43:46,872 - mmseg - INFO - Iter [800/80000]	lr: 1.199e-04, eta: 3:55:32, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.6085, decode.acc_seg: 79.3720, loss: 0.6085
+2023-03-04 17:43:55,652 - mmseg - INFO - Iter [850/80000]	lr: 1.274e-04, eta: 3:55:10, time: 0.176, data_time: 0.007, memory: 19750, decode.loss_ce: 0.5524, decode.acc_seg: 80.7622, loss: 0.5524
+2023-03-04 17:44:04,181 - mmseg - INFO - Iter [900/80000]	lr: 1.349e-04, eta: 3:54:27, time: 0.171, data_time: 0.007, memory: 19750, decode.loss_ce: 0.5195, decode.acc_seg: 81.8791, loss: 0.5195
+2023-03-04 17:44:12,470 - mmseg - INFO - Iter [950/80000]	lr: 1.424e-04, eta: 3:53:28, time: 0.166, data_time: 0.007, memory: 19750, decode.loss_ce: 0.5824, decode.acc_seg: 80.0942, loss: 0.5824
+2023-03-04 17:44:20,940 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits.py
+2023-03-04 17:44:20,940 - mmseg - INFO - Iter [1000/80000]	lr: 1.499e-04, eta: 3:52:48, time: 0.169, data_time: 0.007, memory: 19750, decode.loss_ce: 0.5004, decode.acc_seg: 82.3555, loss: 0.5004
+2023-03-04 17:44:29,434 - mmseg - INFO - Iter [1050/80000]	lr: 1.500e-04, eta: 3:52:13, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.5678, decode.acc_seg: 80.5865, loss: 0.5678
+2023-03-04 17:44:37,635 - mmseg - INFO - Iter [1100/80000]	lr: 1.500e-04, eta: 3:51:20, time: 0.164, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4944, decode.acc_seg: 82.7006, loss: 0.4944
+2023-03-04 17:44:45,888 - mmseg - INFO - Iter [1150/80000]	lr: 1.500e-04, eta: 3:50:34, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.5138, decode.acc_seg: 82.0025, loss: 0.5138
+2023-03-04 17:44:54,576 - mmseg - INFO - Iter [1200/80000]	lr: 1.500e-04, eta: 3:50:19, time: 0.174, data_time: 0.007, memory: 19750, decode.loss_ce: 0.5015, decode.acc_seg: 82.4690, loss: 0.5015
+2023-03-04 17:45:02,960 - mmseg - INFO - Iter [1250/80000]	lr: 1.500e-04, eta: 3:49:46, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4756, decode.acc_seg: 83.0932, loss: 0.4756
+2023-03-04 17:45:14,473 - mmseg - INFO - Iter [1300/80000]	lr: 1.500e-04, eta: 3:52:25, time: 0.230, data_time: 0.058, memory: 19750, decode.loss_ce: 0.4762, decode.acc_seg: 83.2476, loss: 0.4762
+2023-03-04 17:45:23,070 - mmseg - INFO - Iter [1350/80000]	lr: 1.500e-04, eta: 3:52:00, time: 0.172, data_time: 0.006, memory: 19750, decode.loss_ce: 0.4435, decode.acc_seg: 84.0603, loss: 0.4435
+2023-03-04 17:45:31,298 - mmseg - INFO - Iter [1400/80000]	lr: 1.500e-04, eta: 3:51:17, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4708, decode.acc_seg: 83.0864, loss: 0.4708
+2023-03-04 17:45:39,664 - mmseg - INFO - Iter [1450/80000]	lr: 1.500e-04, eta: 3:50:43, time: 0.167, data_time: 0.006, memory: 19750, decode.loss_ce: 0.4864, decode.acc_seg: 83.0124, loss: 0.4864
+2023-03-04 17:45:47,891 - mmseg - INFO - Iter [1500/80000]	lr: 1.500e-04, eta: 3:50:03, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4173, decode.acc_seg: 84.9140, loss: 0.4173
+2023-03-04 17:45:56,141 - mmseg - INFO - Iter [1550/80000]	lr: 1.500e-04, eta: 3:49:27, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4383, decode.acc_seg: 84.3010, loss: 0.4383
+2023-03-04 17:46:04,379 - mmseg - INFO - Iter [1600/80000]	lr: 1.500e-04, eta: 3:48:52, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4218, decode.acc_seg: 84.6036, loss: 0.4218
+2023-03-04 17:46:13,148 - mmseg - INFO - Iter [1650/80000]	lr: 1.500e-04, eta: 3:48:44, time: 0.175, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4423, decode.acc_seg: 84.1087, loss: 0.4423
+2023-03-04 17:46:21,416 - mmseg - INFO - Iter [1700/80000]	lr: 1.500e-04, eta: 3:48:12, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4231, decode.acc_seg: 84.6961, loss: 0.4231
+2023-03-04 17:46:29,929 - mmseg - INFO - Iter [1750/80000]	lr: 1.500e-04, eta: 3:47:53, time: 0.170, data_time: 0.006, memory: 19750, decode.loss_ce: 0.4006, decode.acc_seg: 85.2823, loss: 0.4006
+2023-03-04 17:46:38,580 - mmseg - INFO - Iter [1800/80000]	lr: 1.500e-04, eta: 3:47:41, time: 0.173, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4438, decode.acc_seg: 84.2487, loss: 0.4438
+2023-03-04 17:46:46,846 - mmseg - INFO - Iter [1850/80000]	lr: 1.500e-04, eta: 3:47:12, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3896, decode.acc_seg: 85.7313, loss: 0.3896
+2023-03-04 17:46:57,796 - mmseg - INFO - Iter [1900/80000]	lr: 1.500e-04, eta: 3:48:35, time: 0.219, data_time: 0.054, memory: 19750, decode.loss_ce: 0.4073, decode.acc_seg: 85.2914, loss: 0.4073
+2023-03-04 17:47:06,005 - mmseg - INFO - Iter [1950/80000]	lr: 1.500e-04, eta: 3:48:03, time: 0.164, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4031, decode.acc_seg: 85.3779, loss: 0.4031
+2023-03-04 17:47:14,326 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits.py
+2023-03-04 17:47:14,326 - mmseg - INFO - Iter [2000/80000]	lr: 1.500e-04, eta: 3:47:37, time: 0.166, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3931, decode.acc_seg: 85.6631, loss: 0.3931
+2023-03-04 17:47:22,812 - mmseg - INFO - Iter [2050/80000]	lr: 1.500e-04, eta: 3:47:18, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3710, decode.acc_seg: 86.2932, loss: 0.3710
+2023-03-04 17:47:31,149 - mmseg - INFO - Iter [2100/80000]	lr: 1.500e-04, eta: 3:46:54, time: 0.167, data_time: 0.007, memory: 19750, decode.loss_ce: 0.4126, decode.acc_seg: 84.8069, loss: 0.4126
+2023-03-04 17:47:39,535 - mmseg - INFO - Iter [2150/80000]	lr: 1.500e-04, eta: 3:46:33, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3724, decode.acc_seg: 85.9416, loss: 0.3724
+2023-03-04 17:47:47,788 - mmseg - INFO - Iter [2200/80000]	lr: 1.500e-04, eta: 3:46:07, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3642, decode.acc_seg: 86.2829, loss: 0.3642
+2023-03-04 17:47:56,026 - mmseg - INFO - Iter [2250/80000]	lr: 1.500e-04, eta: 3:45:42, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3770, decode.acc_seg: 86.2560, loss: 0.3770
+2023-03-04 17:48:04,540 - mmseg - INFO - Iter [2300/80000]	lr: 1.500e-04, eta: 3:45:26, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3861, decode.acc_seg: 85.8316, loss: 0.3861
+2023-03-04 17:48:12,763 - mmseg - INFO - Iter [2350/80000]	lr: 1.500e-04, eta: 3:45:02, time: 0.164, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3638, decode.acc_seg: 86.4444, loss: 0.3638
+2023-03-04 17:48:21,178 - mmseg - INFO - Iter [2400/80000]	lr: 1.500e-04, eta: 3:44:44, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3779, decode.acc_seg: 85.8464, loss: 0.3779
+2023-03-04 17:48:29,637 - mmseg - INFO - Iter [2450/80000]	lr: 1.500e-04, eta: 3:44:28, time: 0.169, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3843, decode.acc_seg: 85.9641, loss: 0.3843
+2023-03-04 17:48:38,526 - mmseg - INFO - Iter [2500/80000]	lr: 1.500e-04, eta: 3:44:26, time: 0.178, data_time: 0.008, memory: 19750, decode.loss_ce: 0.3918, decode.acc_seg: 85.5628, loss: 0.3918
+2023-03-04 17:48:49,254 - mmseg - INFO - Iter [2550/80000]	lr: 1.500e-04, eta: 3:45:19, time: 0.215, data_time: 0.054, memory: 19750, decode.loss_ce: 0.3811, decode.acc_seg: 86.0961, loss: 0.3811
+2023-03-04 17:48:57,420 - mmseg - INFO - Iter [2600/80000]	lr: 1.500e-04, eta: 3:44:54, time: 0.163, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3629, decode.acc_seg: 86.3370, loss: 0.3629
+2023-03-04 17:49:05,776 - mmseg - INFO - Iter [2650/80000]	lr: 1.500e-04, eta: 3:44:34, time: 0.167, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3549, decode.acc_seg: 86.5272, loss: 0.3549
+2023-03-04 17:49:14,147 - mmseg - INFO - Iter [2700/80000]	lr: 1.500e-04, eta: 3:44:16, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3417, decode.acc_seg: 86.9315, loss: 0.3417
+2023-03-04 17:49:22,806 - mmseg - INFO - Iter [2750/80000]	lr: 1.500e-04, eta: 3:44:06, time: 0.173, data_time: 0.008, memory: 19750, decode.loss_ce: 0.3670, decode.acc_seg: 86.2587, loss: 0.3670
+2023-03-04 17:49:31,271 - mmseg - INFO - Iter [2800/80000]	lr: 1.500e-04, eta: 3:43:50, time: 0.169, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3454, decode.acc_seg: 87.1267, loss: 0.3454
+2023-03-04 17:49:40,036 - mmseg - INFO - Iter [2850/80000]	lr: 1.500e-04, eta: 3:43:44, time: 0.175, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3389, decode.acc_seg: 86.9478, loss: 0.3389
+2023-03-04 17:49:48,288 - mmseg - INFO - Iter [2900/80000]	lr: 1.500e-04, eta: 3:43:23, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3724, decode.acc_seg: 86.1858, loss: 0.3724
+2023-03-04 17:49:56,764 - mmseg - INFO - Iter [2950/80000]	lr: 1.500e-04, eta: 3:43:09, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3525, decode.acc_seg: 86.6987, loss: 0.3525
+2023-03-04 17:50:05,213 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits.py
+2023-03-04 17:50:05,214 - mmseg - INFO - Iter [3000/80000]	lr: 1.500e-04, eta: 3:42:54, time: 0.169, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3591, decode.acc_seg: 86.6925, loss: 0.3591
+2023-03-04 17:50:13,840 - mmseg - INFO - Iter [3050/80000]	lr: 1.500e-04, eta: 3:42:44, time: 0.173, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3479, decode.acc_seg: 86.9902, loss: 0.3479
+2023-03-04 17:50:21,936 - mmseg - INFO - Iter [3100/80000]	lr: 1.500e-04, eta: 3:42:20, time: 0.162, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3334, decode.acc_seg: 87.3112, loss: 0.3334
+2023-03-04 17:50:30,420 - mmseg - INFO - Iter [3150/80000]	lr: 1.500e-04, eta: 3:42:07, time: 0.170, data_time: 0.008, memory: 19750, decode.loss_ce: 0.3405, decode.acc_seg: 87.3015, loss: 0.3405
+2023-03-04 17:50:41,134 - mmseg - INFO - Iter [3200/80000]	lr: 1.500e-04, eta: 3:42:47, time: 0.214, data_time: 0.054, memory: 19750, decode.loss_ce: 0.3656, decode.acc_seg: 86.3573, loss: 0.3656
+2023-03-04 17:50:49,692 - mmseg - INFO - Iter [3250/80000]	lr: 1.500e-04, eta: 3:42:35, time: 0.171, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3158, decode.acc_seg: 88.1145, loss: 0.3158
+2023-03-04 17:50:58,104 - mmseg - INFO - Iter [3300/80000]	lr: 1.500e-04, eta: 3:42:20, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3687, decode.acc_seg: 86.3116, loss: 0.3687
+2023-03-04 17:51:06,700 - mmseg - INFO - Iter [3350/80000]	lr: 1.500e-04, eta: 3:42:09, time: 0.172, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3404, decode.acc_seg: 87.0685, loss: 0.3404
+2023-03-04 17:51:15,569 - mmseg - INFO - Iter [3400/80000]	lr: 1.500e-04, eta: 3:42:04, time: 0.177, data_time: 0.008, memory: 19750, decode.loss_ce: 0.3338, decode.acc_seg: 87.2902, loss: 0.3338
+2023-03-04 17:51:23,979 - mmseg - INFO - Iter [3450/80000]	lr: 1.500e-04, eta: 3:41:49, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3392, decode.acc_seg: 86.9704, loss: 0.3392
+2023-03-04 17:51:32,467 - mmseg - INFO - Iter [3500/80000]	lr: 1.500e-04, eta: 3:41:36, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3338, decode.acc_seg: 87.1070, loss: 0.3338
+2023-03-04 17:51:41,010 - mmseg - INFO - Iter [3550/80000]	lr: 1.500e-04, eta: 3:41:24, time: 0.171, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3286, decode.acc_seg: 87.4822, loss: 0.3286
+2023-03-04 17:51:49,707 - mmseg - INFO - Iter [3600/80000]	lr: 1.500e-04, eta: 3:41:16, time: 0.174, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3460, decode.acc_seg: 86.5224, loss: 0.3460
+2023-03-04 17:51:58,429 - mmseg - INFO - Iter [3650/80000]	lr: 1.500e-04, eta: 3:41:07, time: 0.174, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3420, decode.acc_seg: 87.0248, loss: 0.3420
+2023-03-04 17:52:07,094 - mmseg - INFO - Iter [3700/80000]	lr: 1.500e-04, eta: 3:40:58, time: 0.173, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3416, decode.acc_seg: 87.1649, loss: 0.3416
+2023-03-04 17:52:15,516 - mmseg - INFO - Iter [3750/80000]	lr: 1.500e-04, eta: 3:40:44, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3495, decode.acc_seg: 86.8175, loss: 0.3495
+2023-03-04 17:52:26,221 - mmseg - INFO - Iter [3800/80000]	lr: 1.500e-04, eta: 3:41:16, time: 0.214, data_time: 0.053, memory: 19750, decode.loss_ce: 0.3411, decode.acc_seg: 87.0386, loss: 0.3411
+2023-03-04 17:52:34,652 - mmseg - INFO - Iter [3850/80000]	lr: 1.500e-04, eta: 3:41:02, time: 0.169, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3444, decode.acc_seg: 86.9819, loss: 0.3444
+2023-03-04 17:52:43,178 - mmseg - INFO - Iter [3900/80000]	lr: 1.500e-04, eta: 3:40:49, time: 0.171, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3237, decode.acc_seg: 87.6071, loss: 0.3237
+2023-03-04 17:52:51,539 - mmseg - INFO - Iter [3950/80000]	lr: 1.500e-04, eta: 3:40:34, time: 0.167, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3426, decode.acc_seg: 87.0679, loss: 0.3426
+2023-03-04 17:53:00,046 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits.py
+2023-03-04 17:53:00,046 - mmseg - INFO - Iter [4000/80000]	lr: 1.500e-04, eta: 3:40:22, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3375, decode.acc_seg: 86.8639, loss: 0.3375
+2023-03-04 17:53:08,574 - mmseg - INFO - Iter [4050/80000]	lr: 1.500e-04, eta: 3:40:10, time: 0.171, data_time: 0.008, memory: 19750, decode.loss_ce: 0.3216, decode.acc_seg: 87.7530, loss: 0.3216
+2023-03-04 17:53:16,918 - mmseg - INFO - Iter [4100/80000]	lr: 1.500e-04, eta: 3:39:54, time: 0.167, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3328, decode.acc_seg: 87.0733, loss: 0.3328
+2023-03-04 17:53:25,443 - mmseg - INFO - Iter [4150/80000]	lr: 1.500e-04, eta: 3:39:43, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2983, decode.acc_seg: 88.3308, loss: 0.2983
+2023-03-04 17:53:34,240 - mmseg - INFO - Iter [4200/80000]	lr: 1.500e-04, eta: 3:39:36, time: 0.176, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3121, decode.acc_seg: 88.0459, loss: 0.3121
+2023-03-04 17:53:42,513 - mmseg - INFO - Iter [4250/80000]	lr: 1.500e-04, eta: 3:39:20, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3334, decode.acc_seg: 87.2530, loss: 0.3334
+2023-03-04 17:53:50,960 - mmseg - INFO - Iter [4300/80000]	lr: 1.500e-04, eta: 3:39:07, time: 0.169, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3227, decode.acc_seg: 87.6320, loss: 0.3227
+2023-03-04 17:53:59,654 - mmseg - INFO - Iter [4350/80000]	lr: 1.500e-04, eta: 3:38:58, time: 0.174, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3294, decode.acc_seg: 87.4896, loss: 0.3294
+2023-03-04 17:54:08,373 - mmseg - INFO - Iter [4400/80000]	lr: 1.500e-04, eta: 3:38:50, time: 0.174, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3007, decode.acc_seg: 88.4320, loss: 0.3007
+2023-03-04 17:54:19,332 - mmseg - INFO - Iter [4450/80000]	lr: 1.500e-04, eta: 3:39:20, time: 0.219, data_time: 0.055, memory: 19750, decode.loss_ce: 0.3360, decode.acc_seg: 87.2233, loss: 0.3360
+2023-03-04 17:54:27,928 - mmseg - INFO - Iter [4500/80000]	lr: 1.500e-04, eta: 3:39:10, time: 0.172, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3455, decode.acc_seg: 86.7218, loss: 0.3455
+2023-03-04 17:54:36,130 - mmseg - INFO - Iter [4550/80000]	lr: 1.500e-04, eta: 3:38:53, time: 0.164, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3248, decode.acc_seg: 87.5538, loss: 0.3248
+2023-03-04 17:54:44,482 - mmseg - INFO - Iter [4600/80000]	lr: 1.500e-04, eta: 3:38:38, time: 0.167, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3231, decode.acc_seg: 87.6441, loss: 0.3231
+2023-03-04 17:54:53,571 - mmseg - INFO - Iter [4650/80000]	lr: 1.500e-04, eta: 3:38:36, time: 0.182, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3115, decode.acc_seg: 87.9987, loss: 0.3115
+2023-03-04 17:55:02,139 - mmseg - INFO - Iter [4700/80000]	lr: 1.500e-04, eta: 3:38:25, time: 0.171, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3110, decode.acc_seg: 87.9252, loss: 0.3110
+2023-03-04 17:55:10,653 - mmseg - INFO - Iter [4750/80000]	lr: 1.500e-04, eta: 3:38:13, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3146, decode.acc_seg: 87.9460, loss: 0.3146
+2023-03-04 17:55:19,173 - mmseg - INFO - Iter [4800/80000]	lr: 1.500e-04, eta: 3:38:02, time: 0.170, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3292, decode.acc_seg: 87.3476, loss: 0.3292
+2023-03-04 17:55:27,469 - mmseg - INFO - Iter [4850/80000]	lr: 1.500e-04, eta: 3:37:47, time: 0.166, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3118, decode.acc_seg: 87.8422, loss: 0.3118
+2023-03-04 17:55:36,037 - mmseg - INFO - Iter [4900/80000]	lr: 1.500e-04, eta: 3:37:36, time: 0.171, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2962, decode.acc_seg: 88.3332, loss: 0.2962
+2023-03-04 17:55:44,362 - mmseg - INFO - Iter [4950/80000]	lr: 1.500e-04, eta: 3:37:22, time: 0.167, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3175, decode.acc_seg: 87.6346, loss: 0.3175
+2023-03-04 17:55:53,160 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits.py
+2023-03-04 17:55:53,160 - mmseg - INFO - Iter [5000/80000]	lr: 1.500e-04, eta: 3:37:15, time: 0.176, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3071, decode.acc_seg: 88.2463, loss: 0.3071
+2023-03-04 17:56:04,141 - mmseg - INFO - Iter [5050/80000]	lr: 1.500e-04, eta: 3:37:40, time: 0.220, data_time: 0.055, memory: 19750, decode.loss_ce: 0.2970, decode.acc_seg: 88.5397, loss: 0.2970
+2023-03-04 17:56:12,404 - mmseg - INFO - Iter [5100/80000]	lr: 1.500e-04, eta: 3:37:25, time: 0.165, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3081, decode.acc_seg: 88.0177, loss: 0.3081
+2023-03-04 17:56:20,938 - mmseg - INFO - Iter [5150/80000]	lr: 1.500e-04, eta: 3:37:13, time: 0.171, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3155, decode.acc_seg: 88.0889, loss: 0.3155
+2023-03-04 17:56:29,117 - mmseg - INFO - Iter [5200/80000]	lr: 1.500e-04, eta: 3:36:57, time: 0.164, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2982, decode.acc_seg: 88.4193, loss: 0.2982
+2023-03-04 17:56:37,766 - mmseg - INFO - Iter [5250/80000]	lr: 1.500e-04, eta: 3:36:48, time: 0.173, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2976, decode.acc_seg: 88.1717, loss: 0.2976
+2023-03-04 17:56:46,542 - mmseg - INFO - Iter [5300/80000]	lr: 1.500e-04, eta: 3:36:40, time: 0.176, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3143, decode.acc_seg: 87.9674, loss: 0.3143
+2023-03-04 17:56:54,749 - mmseg - INFO - Iter [5350/80000]	lr: 1.500e-04, eta: 3:36:24, time: 0.164, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3181, decode.acc_seg: 87.8943, loss: 0.3181
+2023-03-04 17:57:02,957 - mmseg - INFO - Iter [5400/80000]	lr: 1.500e-04, eta: 3:36:09, time: 0.164, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3217, decode.acc_seg: 87.4080, loss: 0.3217
+2023-03-04 17:57:11,173 - mmseg - INFO - Iter [5450/80000]	lr: 1.500e-04, eta: 3:35:54, time: 0.164, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2996, decode.acc_seg: 88.1262, loss: 0.2996
+2023-03-04 17:57:19,609 - mmseg - INFO - Iter [5500/80000]	lr: 1.500e-04, eta: 3:35:42, time: 0.169, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2922, decode.acc_seg: 88.4956, loss: 0.2922
+2023-03-04 17:57:28,220 - mmseg - INFO - Iter [5550/80000]	lr: 1.500e-04, eta: 3:35:32, time: 0.172, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3230, decode.acc_seg: 87.6716, loss: 0.3230
+2023-03-04 17:57:36,822 - mmseg - INFO - Iter [5600/80000]	lr: 1.500e-04, eta: 3:35:22, time: 0.172, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3073, decode.acc_seg: 88.0834, loss: 0.3073
+2023-03-04 17:57:45,406 - mmseg - INFO - Iter [5650/80000]	lr: 1.500e-04, eta: 3:35:12, time: 0.172, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3175, decode.acc_seg: 87.7463, loss: 0.3175
+2023-03-04 17:57:56,548 - mmseg - INFO - Iter [5700/80000]	lr: 1.500e-04, eta: 3:35:35, time: 0.223, data_time: 0.052, memory: 19750, decode.loss_ce: 0.2968, decode.acc_seg: 88.3348, loss: 0.2968
+2023-03-04 17:58:04,980 - mmseg - INFO - Iter [5750/80000]	lr: 1.500e-04, eta: 3:35:23, time: 0.169, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2844, decode.acc_seg: 88.7980, loss: 0.2844
+2023-03-04 17:58:13,380 - mmseg - INFO - Iter [5800/80000]	lr: 1.500e-04, eta: 3:35:11, time: 0.168, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3040, decode.acc_seg: 88.1252, loss: 0.3040
+2023-03-04 17:58:21,652 - mmseg - INFO - Iter [5850/80000]	lr: 1.500e-04, eta: 3:34:56, time: 0.165, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3058, decode.acc_seg: 87.9768, loss: 0.3058
+2023-03-04 17:58:29,909 - mmseg - INFO - Iter [5900/80000]	lr: 1.500e-04, eta: 3:34:42, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2951, decode.acc_seg: 88.4661, loss: 0.2951
+2023-03-04 17:58:38,454 - mmseg - INFO - Iter [5950/80000]	lr: 1.500e-04, eta: 3:34:32, time: 0.171, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3126, decode.acc_seg: 87.9221, loss: 0.3126
+2023-03-04 17:58:46,946 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits.py
+2023-03-04 17:58:46,946 - mmseg - INFO - Iter [6000/80000]	lr: 1.500e-04, eta: 3:34:21, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2954, decode.acc_seg: 88.3508, loss: 0.2954
+2023-03-04 17:58:55,253 - mmseg - INFO - Iter [6050/80000]	lr: 1.500e-04, eta: 3:34:07, time: 0.166, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2843, decode.acc_seg: 88.9313, loss: 0.2843
+2023-03-04 17:59:03,696 - mmseg - INFO - Iter [6100/80000]	lr: 1.500e-04, eta: 3:33:56, time: 0.169, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3045, decode.acc_seg: 88.1910, loss: 0.3045
+2023-03-04 17:59:11,984 - mmseg - INFO - Iter [6150/80000]	lr: 1.500e-04, eta: 3:33:42, time: 0.166, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3019, decode.acc_seg: 88.2915, loss: 0.3019
+2023-03-04 17:59:20,487 - mmseg - INFO - Iter [6200/80000]	lr: 1.500e-04, eta: 3:33:31, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3036, decode.acc_seg: 88.2083, loss: 0.3036
+2023-03-04 17:59:28,642 - mmseg - INFO - Iter [6250/80000]	lr: 1.500e-04, eta: 3:33:16, time: 0.163, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3080, decode.acc_seg: 88.0490, loss: 0.3080
+2023-03-04 17:59:36,946 - mmseg - INFO - Iter [6300/80000]	lr: 1.500e-04, eta: 3:33:03, time: 0.166, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3082, decode.acc_seg: 88.2989, loss: 0.3082
+2023-03-04 17:59:47,840 - mmseg - INFO - Iter [6350/80000]	lr: 1.500e-04, eta: 3:33:20, time: 0.218, data_time: 0.055, memory: 19750, decode.loss_ce: 0.3088, decode.acc_seg: 87.9223, loss: 0.3088
+2023-03-04 17:59:56,731 - mmseg - INFO - Iter [6400/80000]	lr: 1.500e-04, eta: 3:33:14, time: 0.178, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3034, decode.acc_seg: 88.0836, loss: 0.3034
+2023-03-04 18:00:04,910 - mmseg - INFO - Iter [6450/80000]	lr: 1.500e-04, eta: 3:33:00, time: 0.164, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2816, decode.acc_seg: 88.8801, loss: 0.2816
+2023-03-04 18:00:13,484 - mmseg - INFO - Iter [6500/80000]	lr: 1.500e-04, eta: 3:32:50, time: 0.171, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2940, decode.acc_seg: 88.4933, loss: 0.2940
+2023-03-04 18:00:22,054 - mmseg - INFO - Iter [6550/80000]	lr: 1.500e-04, eta: 3:32:40, time: 0.171, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2955, decode.acc_seg: 88.5547, loss: 0.2955
+2023-03-04 18:00:30,224 - mmseg - INFO - Iter [6600/80000]	lr: 1.500e-04, eta: 3:32:25, time: 0.163, data_time: 0.007, memory: 19750, decode.loss_ce: 0.3210, decode.acc_seg: 87.7406, loss: 0.3210
+2023-03-04 18:00:38,952 - mmseg - INFO - Iter [6650/80000]	lr: 1.500e-04, eta: 3:32:17, time: 0.174, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3126, decode.acc_seg: 87.8520, loss: 0.3126
+2023-03-04 18:00:47,215 - mmseg - INFO - Iter [6700/80000]	lr: 1.500e-04, eta: 3:32:04, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2894, decode.acc_seg: 88.5809, loss: 0.2894
+2023-03-04 18:00:55,864 - mmseg - INFO - Iter [6750/80000]	lr: 1.500e-04, eta: 3:31:55, time: 0.173, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3133, decode.acc_seg: 88.0745, loss: 0.3133
+2023-03-04 18:01:04,260 - mmseg - INFO - Iter [6800/80000]	lr: 1.500e-04, eta: 3:31:43, time: 0.168, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3006, decode.acc_seg: 88.2473, loss: 0.3006
+2023-03-04 18:01:12,756 - mmseg - INFO - Iter [6850/80000]	lr: 1.500e-04, eta: 3:31:32, time: 0.170, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3017, decode.acc_seg: 88.3774, loss: 0.3017
+2023-03-04 18:01:21,145 - mmseg - INFO - Iter [6900/80000]	lr: 1.500e-04, eta: 3:31:21, time: 0.168, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2801, decode.acc_seg: 88.9936, loss: 0.2801
+2023-03-04 18:01:32,492 - mmseg - INFO - Iter [6950/80000]	lr: 1.500e-04, eta: 3:31:40, time: 0.227, data_time: 0.056, memory: 19750, decode.loss_ce: 0.2885, decode.acc_seg: 88.7909, loss: 0.2885
+2023-03-04 18:01:40,715 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits.py
+2023-03-04 18:01:40,715 - mmseg - INFO - Iter [7000/80000]	lr: 1.500e-04, eta: 3:31:26, time: 0.165, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2935, decode.acc_seg: 88.4865, loss: 0.2935
+2023-03-04 18:01:49,486 - mmseg - INFO - Iter [7050/80000]	lr: 1.500e-04, eta: 3:31:19, time: 0.175, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2886, decode.acc_seg: 88.4324, loss: 0.2886
+2023-03-04 18:01:57,962 - mmseg - INFO - Iter [7100/80000]	lr: 1.500e-04, eta: 3:31:08, time: 0.170, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2930, decode.acc_seg: 88.3188, loss: 0.2930
+2023-03-04 18:02:06,362 - mmseg - INFO - Iter [7150/80000]	lr: 1.500e-04, eta: 3:30:56, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2804, decode.acc_seg: 89.1287, loss: 0.2804
+2023-03-04 18:02:14,618 - mmseg - INFO - Iter [7200/80000]	lr: 1.500e-04, eta: 3:30:43, time: 0.165, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2918, decode.acc_seg: 88.7545, loss: 0.2918
+2023-03-04 18:02:23,037 - mmseg - INFO - Iter [7250/80000]	lr: 1.500e-04, eta: 3:30:32, time: 0.168, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2754, decode.acc_seg: 89.2113, loss: 0.2754
+2023-03-04 18:02:31,392 - mmseg - INFO - Iter [7300/80000]	lr: 1.500e-04, eta: 3:30:20, time: 0.167, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2873, decode.acc_seg: 88.7676, loss: 0.2873
+2023-03-04 18:02:39,909 - mmseg - INFO - Iter [7350/80000]	lr: 1.500e-04, eta: 3:30:09, time: 0.170, data_time: 0.006, memory: 19750, decode.loss_ce: 0.3013, decode.acc_seg: 88.4298, loss: 0.3013
+2023-03-04 18:02:48,533 - mmseg - INFO - Iter [7400/80000]	lr: 1.500e-04, eta: 3:30:00, time: 0.172, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2776, decode.acc_seg: 88.9940, loss: 0.2776
+2023-03-04 18:02:56,668 - mmseg - INFO - Iter [7450/80000]	lr: 1.500e-04, eta: 3:29:46, time: 0.163, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2907, decode.acc_seg: 88.7283, loss: 0.2907
+2023-03-04 18:03:05,131 - mmseg - INFO - Iter [7500/80000]	lr: 1.500e-04, eta: 3:29:36, time: 0.169, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2891, decode.acc_seg: 88.8243, loss: 0.2891
+2023-03-04 18:03:13,470 - mmseg - INFO - Iter [7550/80000]	lr: 1.500e-04, eta: 3:29:24, time: 0.167, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2683, decode.acc_seg: 89.1352, loss: 0.2683
+2023-03-04 18:03:24,692 - mmseg - INFO - Iter [7600/80000]	lr: 1.500e-04, eta: 3:29:39, time: 0.224, data_time: 0.058, memory: 19750, decode.loss_ce: 0.2865, decode.acc_seg: 88.8224, loss: 0.2865
+2023-03-04 18:03:33,074 - mmseg - INFO - Iter [7650/80000]	lr: 1.500e-04, eta: 3:29:28, time: 0.167, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2903, decode.acc_seg: 88.6846, loss: 0.2903
+2023-03-04 18:03:41,880 - mmseg - INFO - Iter [7700/80000]	lr: 1.500e-04, eta: 3:29:20, time: 0.176, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2759, decode.acc_seg: 88.9409, loss: 0.2759
+2023-03-04 18:03:49,958 - mmseg - INFO - Iter [7750/80000]	lr: 1.500e-04, eta: 3:29:06, time: 0.162, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2947, decode.acc_seg: 88.3407, loss: 0.2947
+2023-03-04 18:03:58,175 - mmseg - INFO - Iter [7800/80000]	lr: 1.500e-04, eta: 3:28:53, time: 0.164, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2945, decode.acc_seg: 88.5218, loss: 0.2945
+2023-03-04 18:04:06,888 - mmseg - INFO - Iter [7850/80000]	lr: 1.500e-04, eta: 3:28:44, time: 0.174, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2944, decode.acc_seg: 88.5306, loss: 0.2944
+2023-03-04 18:04:15,673 - mmseg - INFO - Iter [7900/80000]	lr: 1.500e-04, eta: 3:28:37, time: 0.176, data_time: 0.006, memory: 19750, decode.loss_ce: 0.2769, decode.acc_seg: 89.1110, loss: 0.2769
+2023-03-04 18:04:24,039 - mmseg - INFO - Iter [7950/80000]	lr: 1.500e-04, eta: 3:28:25, time: 0.167, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2829, decode.acc_seg: 88.8127, loss: 0.2829
+2023-03-04 18:04:32,378 - mmseg - INFO - Saving checkpoint at 8000 iterations
+2023-03-04 18:04:33,016 - mmseg - INFO - Exp name: ablation_segformer_mit_b2_segformer_head_unet_fc_single_step_ade_pretrained_freeze_embed_80k_ade20k151_logits.py
+2023-03-04 18:04:33,016 - mmseg - INFO - Iter [8000/80000]	lr: 1.500e-04, eta: 3:28:19, time: 0.180, data_time: 0.007, memory: 19750, decode.loss_ce: 0.2829, decode.acc_seg: 88.7836, loss: 0.2829