Model save

Browse files

Files changed (10) hide show

README.md +59 -0
config.json +53 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +981 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer_config.json +214 -0
trainer_state.json +0 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,59 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: state-spaces/mamba2-2.7b
+tags:
+- generated_from_trainer
+model-index:
+- name: video-ma2mba-3.1b-clip
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# video-ma2mba-3.1b-clip
+This model is a fine-tuned version of [state-spaces/mamba2-2.7b](https://huggingface.co/state-spaces/mamba2-2.7b) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 4e-05
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.95) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.2
+- num_epochs: 2.0
+### Training results
+### Framework versions
+- Transformers 4.44.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.16.1
+- Tokenizers 0.19.1

config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "_name_or_path": "state-spaces/mamba2-2.7b",
+  "add_faster_video": false,
+  "add_time_instruction": false,
+  "architectures": [
+    "LlavaMambaForCausalLM"
+  ],
+  "attn_cfg": {},
+  "attn_layer_idx": [],
+  "d_intermediate": 0,
+  "d_model": 2560,
+  "faster_token_stride": 10,
+  "force_sample": false,
+  "fused_add_norm": true,
+  "image_aspect_ratio": "square",
+  "image_crop_resolution": null,
+  "image_grid_pinpoints": null,
+  "image_split_resolution": null,
+  "label_top_k": 5,
+  "mm_hidden_size": 1024,
+  "mm_newline_position": "grid",
+  "mm_patch_merge_type": "flat",
+  "mm_projector_lr": null,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_spatial_pool_mode": "bilinear",
+  "mm_spatial_pool_stride": null,
+  "mm_tunable_parts": "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "openai/clip-vit-large-patch14",
+  "mm_vision_tower_lr": 4e-06,
+  "model_type": "llava_mamba",
+  "n_layer": 64,
+  "pad_vocab_size_multiple": 16,
+  "pos_skipping_range": 4096,
+  "residual_in_fp32": true,
+  "rms_norm": true,
+  "ssm_cfg": {
+    "layer": "Mamba2"
+  },
+  "tie_embeddings": true,
+  "tokenizer_model_max_length": 1048576,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.2",
+  "use_cache": true,
+  "use_mm_proj": true,
+  "use_pos_skipping": false,
+  "vision_tower_pretrained": null,
+  "vocab_size": 50277
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d4430a5c514e4e12ad7e7d126078ba0aaa5cd03ed0831c4887246a74388b13d
+size 4976871936

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d872b1d158bf9575e1f4f36c17ad2897735eb33c9034040aae49c03885a44ea4
+size 1310647288

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,981 @@

+{
+  "metadata": {
+    "total_size": 6287393792
+  },
+  "weight_map": {
+    "backbone.embedding.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.0.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.1.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.10.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.11.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.12.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.13.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.14.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.15.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.16.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.17.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.18.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.19.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.2.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.20.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.21.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.22.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.23.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.24.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.25.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.26.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.27.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.28.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.29.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.3.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.30.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.31.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.32.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.33.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.34.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.35.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.36.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.37.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.38.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.39.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.4.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.40.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.41.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.42.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.43.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.44.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.45.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.46.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.47.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.48.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.49.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.5.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.50.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.51.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.52.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.53.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.54.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.55.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.56.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.57.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.58.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.58.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.58.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.58.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.58.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.58.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.58.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.58.mixer.out_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.58.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.59.mixer.A_log": "model-00002-of-00002.safetensors",
+    "backbone.layers.59.mixer.D": "model-00002-of-00002.safetensors",
+    "backbone.layers.59.mixer.conv1d.bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.59.mixer.conv1d.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.59.mixer.dt_bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.59.mixer.in_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.59.mixer.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.59.mixer.out_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.59.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.6.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.6.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.6.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.6.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.6.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.6.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.6.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.6.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.6.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.60.mixer.A_log": "model-00002-of-00002.safetensors",
+    "backbone.layers.60.mixer.D": "model-00002-of-00002.safetensors",
+    "backbone.layers.60.mixer.conv1d.bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.60.mixer.conv1d.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.60.mixer.dt_bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.60.mixer.in_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.60.mixer.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.60.mixer.out_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.60.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.mixer.A_log": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.mixer.D": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.mixer.conv1d.bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.mixer.conv1d.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.mixer.dt_bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.mixer.in_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.mixer.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.mixer.out_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.61.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.mixer.A_log": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.mixer.D": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.mixer.conv1d.bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.mixer.conv1d.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.mixer.dt_bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.mixer.in_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.mixer.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.mixer.out_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.62.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.mixer.A_log": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.mixer.D": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.mixer.conv1d.bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.mixer.conv1d.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.mixer.dt_bias": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.mixer.in_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.mixer.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.mixer.out_proj.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.63.norm.weight": "model-00002-of-00002.safetensors",
+    "backbone.layers.7.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.7.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.7.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.7.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.7.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.7.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.7.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.7.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.7.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.8.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.mixer.A_log": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.mixer.D": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.mixer.conv1d.bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.mixer.conv1d.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.mixer.dt_bias": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.mixer.in_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.mixer.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.mixer.out_proj.weight": "model-00001-of-00002.safetensors",
+    "backbone.layers.9.norm.weight": "model-00001-of-00002.safetensors",
+    "backbone.norm_f.weight": "model-00002-of-00002.safetensors",
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "mm_model.mm_projector.0.bias": "model-00002-of-00002.safetensors",
+    "mm_model.mm_projector.0.weight": "model-00002-of-00002.safetensors",
+    "mm_model.mm_projector.2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.mm_projector.2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.embeddings.class_embedding": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.embeddings.position_embedding.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.post_layernorm.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.post_layernorm.weight": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.pre_layrnorm.bias": "model-00002-of-00002.safetensors",
+    "mm_model.vision_tower.vision_tower.vision_model.pre_layrnorm.weight": "model-00002-of-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|padding|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,214 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1048576,
+  "pad_token": "<|padding|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c96d5933bc2ac3ee90be1f900722c69fda9e21240c1cc2032b817c2eccfb4b9
+size 7096