Spaces:

CYF200127
/

RxnIM

Sleeping

App Files Files Community

CYF200127 commited on Nov 20, 2024

Commit

092aa0d

verified ·

1 Parent(s): 3e1d9f3

Upload 12 files

Browse files

Files changed (12) hide show

rxn/model/added_tokens.json +79 -0
rxn/model/all_results.json +7 -0
rxn/model/cfg.py +112 -0
rxn/model/config.json +33 -0
rxn/model/generation_config.json +10 -0
rxn/model/pytorch_model.bin.index.json +873 -0
rxn/model/special_tokens_map.json +24 -0
rxn/model/tokenizer.model +3 -0
rxn/model/tokenizer_config.json +33 -0
rxn/model/train_results.json +7 -0
rxn/model/trainer_state.json +1345 -0
rxn/model/trainer_state.png +0 -0

rxn/model/added_tokens.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "<Age>": 32011,
+  "<Cnd/ed>": 32007,
+  "<Cnd/st>": 32006,
+  "<ID_10>": 32025,
+  "<ID_11>": 32026,
+  "<ID_12>": 32027,
+  "<ID_13>": 32028,
+  "<ID_14>": 32029,
+  "<ID_15>": 32030,
+  "<ID_16>": 32031,
+  "<ID_17>": 32032,
+  "<ID_18>": 32033,
+  "<ID_19>": 32034,
+  "<ID_1>": 32016,
+  "<ID_20>": 32035,
+  "<ID_21>": 32036,
+  "<ID_22>": 32037,
+  "<ID_23>": 32038,
+  "<ID_24>": 32039,
+  "<ID_25>": 32040,
+  "<ID_26>": 32041,
+  "<ID_27>": 32042,
+  "<ID_28>": 32043,
+  "<ID_29>": 32044,
+  "<ID_2>": 32017,
+  "<ID_30>": 32045,
+  "<ID_31>": 32046,
+  "<ID_32>": 32047,
+  "<ID_33>": 32048,
+  "<ID_34>": 32049,
+  "<ID_35>": 32050,
+  "<ID_36>": 32051,
+  "<ID_37>": 32052,
+  "<ID_38>": 32053,
+  "<ID_39>": 32054,
+  "<ID_3>": 32018,
+  "<ID_40>": 32055,
+  "<ID_41>": 32056,
+  "<ID_42>": 32057,
+  "<ID_43>": 32058,
+  "<ID_44>": 32059,
+  "<ID_45>": 32060,
+  "<ID_46>": 32061,
+  "<ID_47>": 32062,
+  "<ID_48>": 32063,
+  "<ID_49>": 32064,
+  "<ID_4>": 32019,
+  "<ID_50>": 32065,
+  "<ID_5>": 32020,
+  "<ID_6>": 32021,
+  "<ID_7>": 32022,
+  "<ID_8>": 32023,
+  "<ID_9>": 32024,
+  "<Obj>": 32015,
+  "<Prd/ed>": 32005,
+  "<Prd/st>": 32004,
+  "<Prd/st> ": 32069,
+  "<Rct/ed>": 32003,
+  "<Rct/st>": 32002,
+  "<Rxn/ed>": 32001,
+  "<Rxn/st>": 32000,
+  "<Sol>": 32010,
+  "<Str>": 32008,
+  "<Tem>": 32012,
+  "<Tme>": 32013,
+  "<Txt>": 32009,
+  "<Yld>": 32014,
+  "<im_end>": 32068,
+  "<im_patch>": 32066,
+  "<im_start>": 32067,
+  "[Age]": 32073,
+  "[Obj]": 32076,
+  "[Sol]": 32072,
+  "[Str]": 32070,
+  "[Tem]": 32074,
+  "[Txt]": 32071,
+  "[Yld]": 32075
+}

rxn/model/all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 50.0,
+    "train_loss": 0.13681490471417254,
+    "train_runtime": 4969.2412,
+    "train_samples_per_second": 13.865,
+    "train_steps_per_second": 0.443
+}

rxn/model/cfg.py ADDED Viewed

	@@ -0,0 +1,112 @@

+DEFAULT_TEST_DATASET = dict(
+    flickr=dict(
+        filename='./reactiondata/real_test.jsonl',
+        image_folder='./reaction_image',
+        template_file='./config/_base_/dataset/template/reaction.json',
+        type='FlickrDataset'),
+    reg=dict(
+        filename='./reactiondata/train_OCR.jsonl',
+        image_folder='./reaction_image_OCR',
+        template_file='./config/_base_/dataset/template/OCR.json',
+        type='REGDataset'))
+DEFAULT_TRAIN_DATASET = dict(
+    flickr=dict(
+        filename='./reactiondata/reaction_real_structed.jsonl',
+        image_folder='./reaction_image',
+        template_file='./config/_base_/dataset/template/reaction.json',
+        type='FlickrDataset'),
+    reg=dict(
+        filename='./reactiondata/train_OCR.jsonl',
+        image_folder='./reaction_image_OCR',
+        template_file='./config/_base_/dataset/template/OCR.json',
+        type='REGDataset'))
+data_args = dict(
+    collator_kwargs=dict(max_length=1024, padding=True),
+    compute_metric=None,
+    gen_kwargs=dict(max_new_tokens=1024, num_beams=1),
+    test=None,
+    train=dict(
+        cfgs=[
+            dict(
+                filename='./reactiondata/train_OCR.jsonl',
+                image_folder='./reaction_image_OCR',
+                template_file='./config/_base_/dataset/template/OCR.json',
+                type='REGDataset'),
+            dict(
+                filename='./reactiondata/reaction_real_structed.jsonl',
+                image_folder='./reaction_image',
+                template_file='./config/_base_/dataset/template/reaction.json',
+                type='FlickrDataset'),
+        ],
+        probabilities=[
+            0.0,
+            1,
+        ],
+        seed=None,
+        stopping_strategy='first_exhausted',
+        type='InterleaveDateset'),
+    validation=dict(
+        cfgs=[
+            dict(
+                filename='./reactiondata/real_test.jsonl',
+                image_folder='./reaction_image',
+                template_file='./config/_base_/dataset/template/reaction.json',
+                type='FlickrDataset'),
+        ],
+        type='ConcatDatasetWithShuffle'))
+model_args = dict(
+    cache_dir=None,
+    conv_args=dict(
+        conv_template='vicuna_v1.1',
+        tokenize_kwargs=dict(truncation_size=2048)),
+    freeze_backbone=False,
+    freeze_mm_mlp_adapter=False,
+    gen_kwargs_set_bos_token_id=True,
+    gen_kwargs_set_eos_token_id=True,
+    gen_kwargs_set_pad_token_id=True,
+    image_token_len=300,
+    mm_use_im_start_end=True,
+    mm_vision_select_layer=-2,
+    model_max_length=2048,
+    model_name_or_path='./exp/reaction_4.2.1',
+    pretrain_mm_mlp_adapter=None,
+    process_func_args=dict(
+        conv=dict(type='ShikraConvProcess'),
+        image=dict(type='ShikraImageProcessor'),
+        target=dict(type='BoxFormatProcess'),
+        text=dict(type='ShikraTextProcess')),
+    sep_image_conv_front=False,
+    target_processor=dict(boxes=dict(type='PlainBoxFormatter')),
+    tune_mm_mlp_adapter=False,
+    type='shikra',
+    version='v1',
+    vision_tower='SenseTime/deformable-detr')
+training_args = dict(
+    bf16=True,
+    dataloader_num_workers=4,
+    do_eval=False,
+    do_predict=False,
+    do_train=True,
+    evaluation_strategy='no',
+    fsdp='full_shard auto_wrap',
+    fsdp_transformer_layer_cls_to_wrap='LlamaDecoderLayer',
+    gradient_accumulation_steps=1,
+    gradient_checkpointing=True,
+    learning_rate=2e-05,
+    logging_steps=10,
+    lr_scheduler_type='cosine',
+    num_train_epochs=50,
+    output_dir='./exp/reaction_4.2.2-large',
+    overwrite_output_dir=False,
+    per_device_eval_batch_size=4,
+    per_device_train_batch_size=4,
+    predict_with_generate=True,
+    remove_unused_columns=False,
+    report_to='none',
+    save_steps=10000,
+    save_strategy='steps',
+    save_total_limit=1,
+    seed=42,
+    tf32=True,
+    warmup_ratio=0.03,
+    weight_decay=0.05)

rxn/model/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "./exp/reaction_4.2.1",
+  "architectures": [
+    "ShikraLlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "freeze_mm_mlp_adapter": false,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "mm_hidden_size": 256,
+  "mm_use_im_start_end": true,
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "SenseTime/deformable-detr",
+  "model_type": "shikra",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0.dev0",
+  "tune_mm_mlp_adapter": false,
+  "use_cache": false,
+  "use_mm_proj": true,
+  "vocab_size": 32077
+}

rxn/model/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "max_length": 4096,
+  "pad_token_id": 0,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.28.0.dev0"
+}

rxn/model/pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,873 @@

+{
+  "metadata": {
+    "total_size": 27120484136
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00003-of-00003.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00003.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "model.mm_projector.bias": "pytorch_model-00003-of-00003.bin",
+    "model.mm_projector.weight": "pytorch_model-00003-of-00003.bin",
+    "model.norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.downsample.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.downsample.1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.downsample.1.num_batches_tracked": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.downsample.1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.downsample.1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.0.downsample.1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.1.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer1.2.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.downsample.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.downsample.1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.downsample.1.num_batches_tracked": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.downsample.1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.downsample.1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.0.downsample.1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.1.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.2.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer2.3.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.downsample.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.downsample.1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.downsample.1.num_batches_tracked": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.downsample.1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.downsample.1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.0.downsample.1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.1.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.2.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.3.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.4.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer3.5.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.downsample.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.downsample.1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.downsample.1.num_batches_tracked": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.downsample.1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.downsample.1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.0.downsample.1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.1.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn1.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn1.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn2.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn2.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn3.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn3.running_mean": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn3.running_var": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.bn3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.conv1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.conv2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.backbone.conv_encoder.model.layer4.2.conv3.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.encoder_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.0.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.encoder_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.1.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.encoder_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.2.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.encoder_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.3.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.encoder_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.4.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.encoder_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn.k_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn.k_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn.out_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn.out_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn.q_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn.q_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn.v_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn.v_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.decoder.layers.5.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.0.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.1.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.2.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.3.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.4.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.fc1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.fc1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.fc2.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.fc2.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.final_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.final_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn.attention_weights.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn.attention_weights.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn.output_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn.output_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn.sampling_offsets.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn.sampling_offsets.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn.value_proj.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn.value_proj.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn_layer_norm.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.encoder.layers.5.self_attn_layer_norm.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.0.0.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.0.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.0.1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.0.1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.1.0.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.1.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.1.1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.1.1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.2.0.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.2.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.2.1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.2.1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.3.0.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.3.0.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.3.1.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.input_proj.3.1.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.level_embed": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.query_position_embeddings.weight": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.reference_points.bias": "pytorch_model-00003-of-00003.bin",
+    "model.vision_tower.0.reference_points.weight": "pytorch_model-00003-of-00003.bin"
+  }
+}

rxn/model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

rxn/model/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

rxn/model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": false,
+  "model_max_length": 2048,
+  "pad_token": null,
+  "padding_side": "right",
+  "special_tokens_map_file": "llama2-7b/special_tokens_map.json",
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

rxn/model/train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 50.0,
+    "train_loss": 0.13681490471417254,
+    "train_runtime": 4969.2412,
+    "train_samples_per_second": 13.865,
+    "train_steps_per_second": 0.443
+}

rxn/model/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1345 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 50.0,
+  "global_step": 2200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.23,
+      "learning_rate": 3.0303030303030305e-06,
+      "loss": 1.7297,
+      "step": 10
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 6.060606060606061e-06,
+      "loss": 0.9422,
+      "step": 20
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 9.090909090909091e-06,
+      "loss": 0.7053,
+      "step": 30
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.2121212121212122e-05,
+      "loss": 0.6722,
+      "step": 40
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.5151515151515153e-05,
+      "loss": 0.6335,
+      "step": 50
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.8181818181818182e-05,
+      "loss": 0.6203,
+      "step": 60
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.999982661974106e-05,
+      "loss": 0.6116,
+      "step": 70
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.9997876160873005e-05,
+      "loss": 0.6105,
+      "step": 80
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 1.9993758941929738e-05,
+      "loss": 0.5888,
+      "step": 90
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.9987475855203325e-05,
+      "loss": 0.5663,
+      "step": 100
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 1.997902826237712e-05,
+      "loss": 0.5533,
+      "step": 110
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 1.9968417994230628e-05,
+      "loss": 0.5662,
+      "step": 120
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 1.9955647350242765e-05,
+      "loss": 0.5717,
+      "step": 130
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 1.99407190980935e-05,
+      "loss": 0.5193,
+      "step": 140
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 1.9923636473064024e-05,
+      "loss": 0.4847,
+      "step": 150
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 1.990440317733561e-05,
+      "loss": 0.4733,
+      "step": 160
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 1.9883023379187267e-05,
+      "loss": 0.4801,
+      "step": 170
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 1.9859501712092374e-05,
+      "loss": 0.4299,
+      "step": 180
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 1.9833843273714506e-05,
+      "loss": 0.3846,
+      "step": 190
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 1.9806053624802667e-05,
+      "loss": 0.3733,
+      "step": 200
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 1.9776138787986137e-05,
+      "loss": 0.3646,
+      "step": 210
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 1.9744105246469264e-05,
+      "loss": 0.4011,
+      "step": 220
+    },
+    {
+      "epoch": 5.23,
+      "learning_rate": 1.9709959942626366e-05,
+      "loss": 0.3151,
+      "step": 230
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 1.9673710276497207e-05,
+      "loss": 0.2784,
+      "step": 240
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 1.9635364104183236e-05,
+      "loss": 0.3248,
+      "step": 250
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 1.9594929736144978e-05,
+      "loss": 0.3083,
+      "step": 260
+    },
+    {
+      "epoch": 6.14,
+      "learning_rate": 1.955241593540098e-05,
+      "loss": 0.2681,
+      "step": 270
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 1.9507831915628706e-05,
+      "loss": 0.2364,
+      "step": 280
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 1.9461187339167673e-05,
+      "loss": 0.2565,
+      "step": 290
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 1.9412492314925453e-05,
+      "loss": 0.2661,
+      "step": 300
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 1.9361757396186834e-05,
+      "loss": 0.2562,
+      "step": 310
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 1.9308993578326688e-05,
+      "loss": 0.2189,
+      "step": 320
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 1.9254212296427043e-05,
+      "loss": 0.1989,
+      "step": 330
+    },
+    {
+      "epoch": 7.73,
+      "learning_rate": 1.9197425422798832e-05,
+      "loss": 0.2321,
+      "step": 340
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 1.9138645264408917e-05,
+      "loss": 0.229,
+      "step": 350
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 1.9077884560212885e-05,
+      "loss": 0.1959,
+      "step": 360
+    },
+    {
+      "epoch": 8.41,
+      "learning_rate": 1.901515647839425e-05,
+      "loss": 0.1936,
+      "step": 370
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 1.8950474613510605e-05,
+      "loss": 0.1907,
+      "step": 380
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 1.8883852983547383e-05,
+      "loss": 0.1959,
+      "step": 390
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 1.8815306026879854e-05,
+      "loss": 0.1852,
+      "step": 400
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 1.8744848599144027e-05,
+      "loss": 0.1823,
+      "step": 410
+    },
+    {
+      "epoch": 9.55,
+      "learning_rate": 1.8672495970017067e-05,
+      "loss": 0.154,
+      "step": 420
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 1.859826381990806e-05,
+      "loss": 0.1764,
+      "step": 430
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1.8522168236559693e-05,
+      "loss": 0.1748,
+      "step": 440
+    },
+    {
+      "epoch": 10.23,
+      "learning_rate": 1.8444225711561713e-05,
+      "loss": 0.139,
+      "step": 450
+    },
+    {
+      "epoch": 10.45,
+      "learning_rate": 1.83644531367768e-05,
+      "loss": 0.1648,
+      "step": 460
+    },
+    {
+      "epoch": 10.68,
+      "learning_rate": 1.8282867800679774e-05,
+      "loss": 0.1677,
+      "step": 470
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 1.8199487384610758e-05,
+      "loss": 0.1728,
+      "step": 480
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 1.8114329958943272e-05,
+      "loss": 0.1436,
+      "step": 490
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 1.8027413979167968e-05,
+      "loss": 0.1336,
+      "step": 500
+    },
+    {
+      "epoch": 11.59,
+      "learning_rate": 1.7938758281892928e-05,
+      "loss": 0.1426,
+      "step": 510
+    },
+    {
+      "epoch": 11.82,
+      "learning_rate": 1.7848382080761343e-05,
+      "loss": 0.1725,
+      "step": 520
+    },
+    {
+      "epoch": 12.05,
+      "learning_rate": 1.775630496228752e-05,
+      "loss": 0.1362,
+      "step": 530
+    },
+    {
+      "epoch": 12.27,
+      "learning_rate": 1.766254688161202e-05,
+      "loss": 0.1287,
+      "step": 540
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 1.7567128158176955e-05,
+      "loss": 0.1219,
+      "step": 550
+    },
+    {
+      "epoch": 12.73,
+      "learning_rate": 1.7470069471322325e-05,
+      "loss": 0.1456,
+      "step": 560
+    },
+    {
+      "epoch": 12.95,
+      "learning_rate": 1.737139185580434e-05,
+      "loss": 0.1376,
+      "step": 570
+    },
+    {
+      "epoch": 13.18,
+      "learning_rate": 1.7271116697236717e-05,
+      "loss": 0.1209,
+      "step": 580
+    },
+    {
+      "epoch": 13.41,
+      "learning_rate": 1.7169265727455964e-05,
+      "loss": 0.1316,
+      "step": 590
+    },
+    {
+      "epoch": 13.64,
+      "learning_rate": 1.7065861019811598e-05,
+      "loss": 0.1296,
+      "step": 600
+    },
+    {
+      "epoch": 13.86,
+      "learning_rate": 1.6960924984382373e-05,
+      "loss": 0.1359,
+      "step": 610
+    },
+    {
+      "epoch": 14.09,
+      "learning_rate": 1.685448036311951e-05,
+      "loss": 0.1123,
+      "step": 620
+    },
+    {
+      "epoch": 14.32,
+      "learning_rate": 1.6746550224918032e-05,
+      "loss": 0.1227,
+      "step": 630
+    },
+    {
+      "epoch": 14.55,
+      "learning_rate": 1.663715796061722e-05,
+      "loss": 0.1282,
+      "step": 640
+    },
+    {
+      "epoch": 14.77,
+      "learning_rate": 1.6526327277931278e-05,
+      "loss": 0.1055,
+      "step": 650
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 1.6414082196311402e-05,
+      "loss": 0.1288,
+      "step": 660
+    },
+    {
+      "epoch": 15.23,
+      "learning_rate": 1.630044704174018e-05,
+      "loss": 0.1145,
+      "step": 670
+    },
+    {
+      "epoch": 15.45,
+      "learning_rate": 1.6185446441459652e-05,
+      "loss": 0.1158,
+      "step": 680
+    },
+    {
+      "epoch": 15.68,
+      "learning_rate": 1.6069105318634024e-05,
+      "loss": 0.1119,
+      "step": 690
+    },
+    {
+      "epoch": 15.91,
+      "learning_rate": 1.5951448886948286e-05,
+      "loss": 0.1119,
+      "step": 700
+    },
+    {
+      "epoch": 16.14,
+      "learning_rate": 1.5832502645143837e-05,
+      "loss": 0.0981,
+      "step": 710
+    },
+    {
+      "epoch": 16.36,
+      "learning_rate": 1.571229237149235e-05,
+      "loss": 0.1142,
+      "step": 720
+    },
+    {
+      "epoch": 16.59,
+      "learning_rate": 1.5590844118209055e-05,
+      "loss": 0.1054,
+      "step": 730
+    },
+    {
+      "epoch": 16.82,
+      "learning_rate": 1.5468184205806646e-05,
+      "loss": 0.1012,
+      "step": 740
+    },
+    {
+      "epoch": 17.05,
+      "learning_rate": 1.534433921739105e-05,
+      "loss": 0.1047,
+      "step": 750
+    },
+    {
+      "epoch": 17.27,
+      "learning_rate": 1.5219335992900282e-05,
+      "loss": 0.0992,
+      "step": 760
+    },
+    {
+      "epoch": 17.5,
+      "learning_rate": 1.5093201623287631e-05,
+      "loss": 0.1063,
+      "step": 770
+    },
+    {
+      "epoch": 17.73,
+      "learning_rate": 1.4965963444650465e-05,
+      "loss": 0.0863,
+      "step": 780
+    },
+    {
+      "epoch": 17.95,
+      "learning_rate": 1.4837649032305885e-05,
+      "loss": 0.0949,
+      "step": 790
+    },
+    {
+      "epoch": 18.18,
+      "learning_rate": 1.4708286194814565e-05,
+      "loss": 0.0829,
+      "step": 800
+    },
+    {
+      "epoch": 18.41,
+      "learning_rate": 1.4577902967953995e-05,
+      "loss": 0.0892,
+      "step": 810
+    },
+    {
+      "epoch": 18.64,
+      "learning_rate": 1.4446527608642538e-05,
+      "loss": 0.0972,
+      "step": 820
+    },
+    {
+      "epoch": 18.86,
+      "learning_rate": 1.4314188588815514e-05,
+      "loss": 0.0848,
+      "step": 830
+    },
+    {
+      "epoch": 19.09,
+      "learning_rate": 1.4180914589254716e-05,
+      "loss": 0.0849,
+      "step": 840
+    },
+    {
+      "epoch": 19.32,
+      "learning_rate": 1.4046734493372646e-05,
+      "loss": 0.0877,
+      "step": 850
+    },
+    {
+      "epoch": 19.55,
+      "learning_rate": 1.3911677380952853e-05,
+      "loss": 0.0877,
+      "step": 860
+    },
+    {
+      "epoch": 19.77,
+      "learning_rate": 1.3775772521847683e-05,
+      "loss": 0.0754,
+      "step": 870
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 1.3639049369634878e-05,
+      "loss": 0.0901,
+      "step": 880
+    },
+    {
+      "epoch": 20.23,
+      "learning_rate": 1.3501537555234323e-05,
+      "loss": 0.0826,
+      "step": 890
+    },
+    {
+      "epoch": 20.45,
+      "learning_rate": 1.3363266880486388e-05,
+      "loss": 0.0858,
+      "step": 900
+    },
+    {
+      "epoch": 20.68,
+      "learning_rate": 1.3224267311693186e-05,
+      "loss": 0.0791,
+      "step": 910
+    },
+    {
+      "epoch": 20.91,
+      "learning_rate": 1.308456897312425e-05,
+      "loss": 0.0756,
+      "step": 920
+    },
+    {
+      "epoch": 21.14,
+      "learning_rate": 1.2944202140487905e-05,
+      "loss": 0.0683,
+      "step": 930
+    },
+    {
+      "epoch": 21.36,
+      "learning_rate": 1.2803197234369878e-05,
+      "loss": 0.0806,
+      "step": 940
+    },
+    {
+      "epoch": 21.59,
+      "learning_rate": 1.2661584813640485e-05,
+      "loss": 0.0841,
+      "step": 950
+    },
+    {
+      "epoch": 21.82,
+      "learning_rate": 1.2519395568831839e-05,
+      "loss": 0.0917,
+      "step": 960
+    },
+    {
+      "epoch": 22.05,
+      "learning_rate": 1.2376660315486535e-05,
+      "loss": 0.0708,
+      "step": 970
+    },
+    {
+      "epoch": 22.27,
+      "learning_rate": 1.223340998747927e-05,
+      "loss": 0.0768,
+      "step": 980
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 1.2089675630312755e-05,
+      "loss": 0.0834,
+      "step": 990
+    },
+    {
+      "epoch": 22.73,
+      "learning_rate": 1.1945488394389479e-05,
+      "loss": 0.0769,
+      "step": 1000
+    },
+    {
+      "epoch": 22.95,
+      "learning_rate": 1.1800879528260761e-05,
+      "loss": 0.0751,
+      "step": 1010
+    },
+    {
+      "epoch": 23.18,
+      "learning_rate": 1.1655880371854454e-05,
+      "loss": 0.08,
+      "step": 1020
+    },
+    {
+      "epoch": 23.41,
+      "learning_rate": 1.1510522349682922e-05,
+      "loss": 0.0603,
+      "step": 1030
+    },
+    {
+      "epoch": 23.64,
+      "learning_rate": 1.1364836964032658e-05,
+      "loss": 0.0685,
+      "step": 1040
+    },
+    {
+      "epoch": 23.86,
+      "learning_rate": 1.1218855788137016e-05,
+      "loss": 0.0735,
+      "step": 1050
+    },
+    {
+      "epoch": 24.09,
+      "learning_rate": 1.107261045933363e-05,
+      "loss": 0.0615,
+      "step": 1060
+    },
+    {
+      "epoch": 24.32,
+      "learning_rate": 1.092613267220788e-05,
+      "loss": 0.0678,
+      "step": 1070
+    },
+    {
+      "epoch": 24.55,
+      "learning_rate": 1.0779454171723994e-05,
+      "loss": 0.0687,
+      "step": 1080
+    },
+    {
+      "epoch": 24.77,
+      "learning_rate": 1.0632606746345203e-05,
+      "loss": 0.0669,
+      "step": 1090
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 1.0485622221144485e-05,
+      "loss": 0.071,
+      "step": 1100
+    },
+    {
+      "epoch": 25.23,
+      "learning_rate": 1.0338532450907373e-05,
+      "loss": 0.0708,
+      "step": 1110
+    },
+    {
+      "epoch": 25.45,
+      "learning_rate": 1.0191369313228319e-05,
+      "loss": 0.0677,
+      "step": 1120
+    },
+    {
+      "epoch": 25.68,
+      "learning_rate": 1.0044164701602111e-05,
+      "loss": 0.0738,
+      "step": 1130
+    },
+    {
+      "epoch": 25.91,
+      "learning_rate": 9.896950518511863e-06,
+      "loss": 0.0753,
+      "step": 1140
+    },
+    {
+      "epoch": 26.14,
+      "learning_rate": 9.749758668515027e-06,
+      "loss": 0.0689,
+      "step": 1150
+    },
+    {
+      "epoch": 26.36,
+      "learning_rate": 9.602621051328998e-06,
+      "loss": 0.0688,
+      "step": 1160
+    },
+    {
+      "epoch": 26.59,
+      "learning_rate": 9.455569554917701e-06,
+      "loss": 0.0781,
+      "step": 1170
+    },
+    {
+      "epoch": 26.82,
+      "learning_rate": 9.308636048580813e-06,
+      "loss": 0.0635,
+      "step": 1180
+    },
+    {
+      "epoch": 27.05,
+      "learning_rate": 9.161852376046953e-06,
+      "loss": 0.068,
+      "step": 1190
+    },
+    {
+      "epoch": 27.27,
+      "learning_rate": 9.015250348572452e-06,
+      "loss": 0.0602,
+      "step": 1200
+    },
+    {
+      "epoch": 27.5,
+      "learning_rate": 8.868861738047158e-06,
+      "loss": 0.0502,
+      "step": 1210
+    },
+    {
+      "epoch": 27.73,
+      "learning_rate": 8.72271827010876e-06,
+      "loss": 0.0531,
+      "step": 1220
+    },
+    {
+      "epoch": 27.95,
+      "learning_rate": 8.576851617267151e-06,
+      "loss": 0.0613,
+      "step": 1230
+    },
+    {
+      "epoch": 28.18,
+      "learning_rate": 8.431293392040283e-06,
+      "loss": 0.0636,
+      "step": 1240
+    },
+    {
+      "epoch": 28.41,
+      "learning_rate": 8.286075140103058e-06,
+      "loss": 0.0618,
+      "step": 1250
+    },
+    {
+      "epoch": 28.64,
+      "learning_rate": 8.141228333450673e-06,
+      "loss": 0.0652,
+      "step": 1260
+    },
+    {
+      "epoch": 28.86,
+      "learning_rate": 7.99678436357794e-06,
+      "loss": 0.0742,
+      "step": 1270
+    },
+    {
+      "epoch": 29.09,
+      "learning_rate": 7.852774534676073e-06,
+      "loss": 0.0529,
+      "step": 1280
+    },
+    {
+      "epoch": 29.32,
+      "learning_rate": 7.709230056848356e-06,
+      "loss": 0.0441,
+      "step": 1290
+    },
+    {
+      "epoch": 29.55,
+      "learning_rate": 7.5661820393462605e-06,
+      "loss": 0.0575,
+      "step": 1300
+    },
+    {
+      "epoch": 29.77,
+      "learning_rate": 7.423661483827357e-06,
+      "loss": 0.0552,
+      "step": 1310
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 7.2816992776365714e-06,
+      "loss": 0.0518,
+      "step": 1320
+    },
+    {
+      "epoch": 30.23,
+      "learning_rate": 7.1403261871122466e-06,
+      "loss": 0.0631,
+      "step": 1330
+    },
+    {
+      "epoch": 30.45,
+      "learning_rate": 6.999572850918357e-06,
+      "loss": 0.0496,
+      "step": 1340
+    },
+    {
+      "epoch": 30.68,
+      "learning_rate": 6.859469773404471e-06,
+      "loss": 0.0575,
+      "step": 1350
+    },
+    {
+      "epoch": 30.91,
+      "learning_rate": 6.720047317994775e-06,
+      "loss": 0.0547,
+      "step": 1360
+    },
+    {
+      "epoch": 31.14,
+      "learning_rate": 6.581335700607632e-06,
+      "loss": 0.0537,
+      "step": 1370
+    },
+    {
+      "epoch": 31.36,
+      "learning_rate": 6.443364983107156e-06,
+      "loss": 0.0531,
+      "step": 1380
+    },
+    {
+      "epoch": 31.59,
+      "learning_rate": 6.306165066788121e-06,
+      "loss": 0.0525,
+      "step": 1390
+    },
+    {
+      "epoch": 31.82,
+      "learning_rate": 6.169765685895703e-06,
+      "loss": 0.0512,
+      "step": 1400
+    },
+    {
+      "epoch": 32.05,
+      "learning_rate": 6.034196401181414e-06,
+      "loss": 0.0506,
+      "step": 1410
+    },
+    {
+      "epoch": 32.27,
+      "learning_rate": 5.899486593496625e-06,
+      "loss": 0.0472,
+      "step": 1420
+    },
+    {
+      "epoch": 32.5,
+      "learning_rate": 5.765665457425102e-06,
+      "loss": 0.0538,
+      "step": 1430
+    },
+    {
+      "epoch": 32.73,
+      "learning_rate": 5.6327619949558806e-06,
+      "loss": 0.0565,
+      "step": 1440
+    },
+    {
+      "epoch": 32.95,
+      "learning_rate": 5.500805009197916e-06,
+      "loss": 0.042,
+      "step": 1450
+    },
+    {
+      "epoch": 33.18,
+      "learning_rate": 5.369823098137803e-06,
+      "loss": 0.04,
+      "step": 1460
+    },
+    {
+      "epoch": 33.41,
+      "learning_rate": 5.23984464844195e-06,
+      "loss": 0.0512,
+      "step": 1470
+    },
+    {
+      "epoch": 33.64,
+      "learning_rate": 5.1108978293045915e-06,
+      "loss": 0.0399,
+      "step": 1480
+    },
+    {
+      "epoch": 33.86,
+      "learning_rate": 4.983010586342876e-06,
+      "loss": 0.0493,
+      "step": 1490
+    },
+    {
+      "epoch": 34.09,
+      "learning_rate": 4.856210635540452e-06,
+      "loss": 0.0454,
+      "step": 1500
+    },
+    {
+      "epoch": 34.32,
+      "learning_rate": 4.730525457240796e-06,
+      "loss": 0.0414,
+      "step": 1510
+    },
+    {
+      "epoch": 34.55,
+      "learning_rate": 4.605982290191623e-06,
+      "loss": 0.045,
+      "step": 1520
+    },
+    {
+      "epoch": 34.77,
+      "learning_rate": 4.482608125641633e-06,
+      "loss": 0.0505,
+      "step": 1530
+    },
+    {
+      "epoch": 35.0,
+      "learning_rate": 4.360429701490935e-06,
+      "loss": 0.0483,
+      "step": 1540
+    },
+    {
+      "epoch": 35.23,
+      "learning_rate": 4.239473496496345e-06,
+      "loss": 0.0458,
+      "step": 1550
+    },
+    {
+      "epoch": 35.45,
+      "learning_rate": 4.119765724532843e-06,
+      "loss": 0.0391,
+      "step": 1560
+    },
+    {
+      "epoch": 35.68,
+      "learning_rate": 4.001332328912475e-06,
+      "loss": 0.0434,
+      "step": 1570
+    },
+    {
+      "epoch": 35.91,
+      "learning_rate": 3.884198976761846e-06,
+      "loss": 0.0516,
+      "step": 1580
+    },
+    {
+      "epoch": 36.14,
+      "learning_rate": 3.7683910534594957e-06,
+      "loss": 0.0438,
+      "step": 1590
+    },
+    {
+      "epoch": 36.36,
+      "learning_rate": 3.6539336571343177e-06,
+      "loss": 0.0424,
+      "step": 1600
+    },
+    {
+      "epoch": 36.59,
+      "learning_rate": 3.540851593226261e-06,
+      "loss": 0.0468,
+      "step": 1610
+    },
+    {
+      "epoch": 36.82,
+      "learning_rate": 3.429169369110422e-06,
+      "loss": 0.0413,
+      "step": 1620
+    },
+    {
+      "epoch": 37.05,
+      "learning_rate": 3.3189111887857773e-06,
+      "loss": 0.0479,
+      "step": 1630
+    },
+    {
+      "epoch": 37.27,
+      "learning_rate": 3.2101009476296306e-06,
+      "loss": 0.0402,
+      "step": 1640
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 3.1027622272189572e-06,
+      "loss": 0.0428,
+      "step": 1650
+    },
+    {
+      "epoch": 37.73,
+      "learning_rate": 2.996918290219769e-06,
+      "loss": 0.0394,
+      "step": 1660
+    },
+    {
+      "epoch": 37.95,
+      "learning_rate": 2.8925920753455625e-06,
+      "loss": 0.0359,
+      "step": 1670
+    },
+    {
+      "epoch": 38.18,
+      "learning_rate": 2.7898061923860153e-06,
+      "loss": 0.0404,
+      "step": 1680
+    },
+    {
+      "epoch": 38.41,
+      "learning_rate": 2.688582917306938e-06,
+      "loss": 0.0439,
+      "step": 1690
+    },
+    {
+      "epoch": 38.64,
+      "learning_rate": 2.5889441874225676e-06,
+      "loss": 0.0396,
+      "step": 1700
+    },
+    {
+      "epoch": 38.86,
+      "learning_rate": 2.4909115966412957e-06,
+      "loss": 0.0462,
+      "step": 1710
+    },
+    {
+      "epoch": 39.09,
+      "learning_rate": 2.3945063907857647e-06,
+      "loss": 0.0466,
+      "step": 1720
+    },
+    {
+      "epoch": 39.32,
+      "learning_rate": 2.299749462988451e-06,
+      "loss": 0.031,
+      "step": 1730
+    },
+    {
+      "epoch": 39.55,
+      "learning_rate": 2.2066613491636568e-06,
+      "loss": 0.0409,
+      "step": 1740
+    },
+    {
+      "epoch": 39.77,
+      "learning_rate": 2.115262223556912e-06,
+      "loss": 0.0449,
+      "step": 1750
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 2.025571894372794e-06,
+      "loss": 0.0373,
+      "step": 1760
+    },
+    {
+      "epoch": 40.23,
+      "learning_rate": 1.9376097994820286e-06,
+      "loss": 0.0422,
+      "step": 1770
+    },
+    {
+      "epoch": 40.45,
+      "learning_rate": 1.8513950022088966e-06,
+      "loss": 0.0508,
+      "step": 1780
+    },
+    {
+      "epoch": 40.68,
+      "learning_rate": 1.7669461871997817e-06,
+      "loss": 0.0424,
+      "step": 1790
+    },
+    {
+      "epoch": 40.91,
+      "learning_rate": 1.6842816563737875e-06,
+      "loss": 0.0403,
+      "step": 1800
+    },
+    {
+      "epoch": 41.14,
+      "learning_rate": 1.603419324956328e-06,
+      "loss": 0.0419,
+      "step": 1810
+    },
+    {
+      "epoch": 41.36,
+      "learning_rate": 1.5243767175964818e-06,
+      "loss": 0.0334,
+      "step": 1820
+    },
+    {
+      "epoch": 41.59,
+      "learning_rate": 1.4471709645690336e-06,
+      "loss": 0.0304,
+      "step": 1830
+    },
+    {
+      "epoch": 41.82,
+      "learning_rate": 1.3718187980619557e-06,
+      "loss": 0.0413,
+      "step": 1840
+    },
+    {
+      "epoch": 42.05,
+      "learning_rate": 1.298336548550172e-06,
+      "loss": 0.0423,
+      "step": 1850
+    },
+    {
+      "epoch": 42.27,
+      "learning_rate": 1.226740141256395e-06,
+      "loss": 0.0378,
+      "step": 1860
+    },
+    {
+      "epoch": 42.5,
+      "learning_rate": 1.1570450926997657e-06,
+      "loss": 0.0316,
+      "step": 1870
+    },
+    {
+      "epoch": 42.73,
+      "learning_rate": 1.0892665073330932e-06,
+      "loss": 0.0366,
+      "step": 1880
+    },
+    {
+      "epoch": 42.95,
+      "learning_rate": 1.023419074269384e-06,
+      "loss": 0.0335,
+      "step": 1890
+    },
+    {
+      "epoch": 43.18,
+      "learning_rate": 9.595170640983786e-07,
+      "loss": 0.0352,
+      "step": 1900
+    },
+    {
+      "epoch": 43.41,
+      "learning_rate": 8.975743257938186e-07,
+      "loss": 0.0399,
+      "step": 1910
+    },
+    {
+      "epoch": 43.64,
+      "learning_rate": 8.37604283712048e-07,
+      "loss": 0.0344,
+      "step": 1920
+    },
+    {
+      "epoch": 43.86,
+      "learning_rate": 7.796199346826727e-07,
+      "loss": 0.04,
+      "step": 1930
+    },
+    {
+      "epoch": 44.09,
+      "learning_rate": 7.236338451918634e-07,
+      "loss": 0.0355,
+      "step": 1940
+    },
+    {
+      "epoch": 44.32,
+      "learning_rate": 6.696581486589071e-07,
+      "loss": 0.0363,
+      "step": 1950
+    },
+    {
+      "epoch": 44.55,
+      "learning_rate": 6.177045428066397e-07,
+      "loss": 0.0266,
+      "step": 1960
+    },
+    {
+      "epoch": 44.77,
+      "learning_rate": 5.677842871262895e-07,
+      "loss": 0.0303,
+      "step": 1970
+    },
+    {
+      "epoch": 45.0,
+      "learning_rate": 5.199082004372958e-07,
+      "loss": 0.0318,
+      "step": 1980
+    },
+    {
+      "epoch": 45.23,
+      "learning_rate": 4.7408665854263067e-07,
+      "loss": 0.0297,
+      "step": 1990
+    },
+    {
+      "epoch": 45.45,
+      "learning_rate": 4.3032959198013646e-07,
+      "loss": 0.0346,
+      "step": 2000
+    },
+    {
+      "epoch": 45.68,
+      "learning_rate": 3.8864648387036074e-07,
+      "loss": 0.0359,
+      "step": 2010
+    },
+    {
+      "epoch": 45.91,
+      "learning_rate": 3.490463678613487e-07,
+      "loss": 0.0348,
+      "step": 2020
+    },
+    {
+      "epoch": 46.14,
+      "learning_rate": 3.1153782617086126e-07,
+      "loss": 0.0387,
+      "step": 2030
+    },
+    {
+      "epoch": 46.36,
+      "learning_rate": 2.761289877264139e-07,
+      "loss": 0.0304,
+      "step": 2040
+    },
+    {
+      "epoch": 46.59,
+      "learning_rate": 2.4282752640355846e-07,
+      "loss": 0.0337,
+      "step": 2050
+    },
+    {
+      "epoch": 46.82,
+      "learning_rate": 2.1164065936278732e-07,
+      "loss": 0.0432,
+      "step": 2060
+    },
+    {
+      "epoch": 47.05,
+      "learning_rate": 1.8257514548541632e-07,
+      "loss": 0.0298,
+      "step": 2070
+    },
+    {
+      "epoch": 47.27,
+      "learning_rate": 1.5563728390878496e-07,
+      "loss": 0.0322,
+      "step": 2080
+    },
+    {
+      "epoch": 47.5,
+      "learning_rate": 1.30832912661093e-07,
+      "loss": 0.0305,
+      "step": 2090
+    },
+    {
+      "epoch": 47.73,
+      "learning_rate": 1.0816740739617471e-07,
+      "loss": 0.0333,
+      "step": 2100
+    },
+    {
+      "epoch": 47.95,
+      "learning_rate": 8.764568022847198e-08,
+      "loss": 0.0293,
+      "step": 2110
+    },
+    {
+      "epoch": 48.18,
+      "learning_rate": 6.92721786684769e-08,
+      "loss": 0.0428,
+      "step": 2120
+    },
+    {
+      "epoch": 48.41,
+      "learning_rate": 5.305088465885067e-08,
+      "loss": 0.0363,
+      "step": 2130
+    },
+    {
+      "epoch": 48.64,
+      "learning_rate": 3.898531371145597e-08,
+      "loss": 0.0329,
+      "step": 2140
+    },
+    {
+      "epoch": 48.86,
+      "learning_rate": 2.7078514145459924e-08,
+      "loss": 0.0308,
+      "step": 2150
+    },
+    {
+      "epoch": 49.09,
+      "learning_rate": 1.7333066426706845e-08,
+      "loss": 0.0318,
+      "step": 2160
+    },
+    {
+      "epoch": 49.32,
+      "learning_rate": 9.75108260846569e-09,
+      "loss": 0.03,
+      "step": 2170
+    },
+    {
+      "epoch": 49.55,
+      "learning_rate": 4.334205873705033e-09,
+      "loss": 0.0302,
+      "step": 2180
+    },
+    {
+      "epoch": 49.77,
+      "learning_rate": 1.0836101789768462e-09,
+      "loss": 0.0264,
+      "step": 2190
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 0.0,
+      "loss": 0.0382,
+      "step": 2200
+    },
+    {
+      "epoch": 50.0,
+      "step": 2200,
+      "total_flos": 3.745171436910674e+17,
+      "train_loss": 0.13681490471417254,
+      "train_runtime": 4969.2412,
+      "train_samples_per_second": 13.865,
+      "train_steps_per_second": 0.443
+    }
+  ],
+  "max_steps": 2200,
+  "num_train_epochs": 50,
+  "total_flos": 3.745171436910674e+17,
+  "trial_name": null,
+  "trial_params": null
+}

rxn/model/trainer_state.png ADDED Viewed