Upload MllamaForCausalLM

Browse files

Files changed (10) hide show

config.json +1 -1
model-00001-of-00008.safetensors +2 -2
model-00002-of-00008.safetensors +2 -2
model-00003-of-00008.safetensors +2 -2
model-00004-of-00008.safetensors +2 -2
model-00005-of-00008.safetensors +2 -2
model-00006-of-00008.safetensors +2 -2
model-00007-of-00008.safetensors +2 -2
model-00008-of-00008.safetensors +2 -2
model.safetensors.index.json +110 -110

config.json CHANGED Viewed

@@ -38,5 +38,5 @@
   "torch_dtype": "float32",
   "transformers_version": "4.45.2",
   "use_cache": true,
-  "vocab_size": 128257
 }

   "torch_dtype": "float32",
   "transformers_version": "4.45.2",
   "use_cache": true,
+  "vocab_size": 51868
 }

model-00001-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bde7afd4ba15082421019362e80997bae4d20150b0a6196cfd82cd475a1f2cc9
-size 4886500512

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f6a627fdd24cd25838cf054ae392a4734696bd582a63073e22580f2ae5e8f60
+size 4977137944

model-00002-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03a19a2573e7c827d01e42e814ab8b91c19f12b0661969cc926038afb09d8f22
-size 4832008928

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e192b8eb2c04f2b649a6911d9cb948d98e1367198098f93dc7d5a177dccd25f
+size 4999814552

model-00003-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bae5faddb113d7637c7a6adb70da821554fda3f359f52067db7d103986f3b5c3
-size 4999798088

 version https://git-lfs.github.com/spec/v1
+oid sha256:708d4413c6a4487e7ef0e869ab2f705714ba440dd6359ee3c46eb27c909550e1
+size 4999814600

model-00004-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:112df2b7cebda00a941e9ea288cfd65b181d4cd4cd809ac7594c8b404fa9a160
-size 4999814600

 version https://git-lfs.github.com/spec/v1
+oid sha256:42b2160d24b8c9aef3e5ee63fb9d3ca9473980ed691cb263e62ebc2a7b862332
+size 4832008968

model-00005-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15b0f48c3c03cdf2b94959383ccf6513e69020230243065f036110ed9bd138eb
-size 4832008968

 version https://git-lfs.github.com/spec/v1
+oid sha256:80b3eeb954da9f52b7e1e13511b6d1cadf559eb51c088041181d5e71e758da4c
+size 4999814592

model-00006-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15fb95f1fd07d3ab2799ef64b019aff71c9f2f558f18c4a0d0c2bbcb7e458cd1
-size 4999814592

 version https://git-lfs.github.com/spec/v1
+oid sha256:358b440e787e6c58174c7a8e21d6903d9a3c1e74371314f94a90e871519fc8f8
+size 4999832552

model-00007-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35316e26ce47cf3248e70bf79f6f644ee478463d793a8ac6557602b765958ac9
-size 4999814600

 version https://git-lfs.github.com/spec/v1
+oid sha256:a774aff2e5c4df794b60d34c02394017475e2c872e8ccb1f7f28d92e1ed0d084
+size 4832008976

model-00008-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df4db01e76b394d9fa3bb4c91555aa8eed077b50997a30053678c0ea00f4a77d
-size 4550955256

 version https://git-lfs.github.com/spec/v1
+oid sha256:163864c5c1c8e804ceb8f0d86cc74a694ada89e2d5e511b1f2ef6937f3b8beeb
+size 1957168600

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 39100670016
   },
   "weight_map": {
     "lm_head.weight": "model-00008-of-00008.safetensors",
@@ -25,13 +25,13 @@
     "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00008.safetensors",
     "model.layers.10.input_layernorm.weight": "model-00003-of-00008.safetensors",
     "model.layers.10.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.10.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00003-of-00008.safetensors",
     "model.layers.11.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
@@ -63,33 +63,33 @@
     "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.13.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00004-of-00008.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
     "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00004-of-00008.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.input_layernorm.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.17.input_layernorm.weight": "model-00004-of-00008.safetensors",
     "model.layers.17.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
@@ -130,24 +130,24 @@
     "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00008.safetensors",
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00008.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00008.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00005-of-00008.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
     "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00005-of-00008.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00005-of-00008.safetensors",
     "model.layers.22.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
@@ -179,33 +179,33 @@
     "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00006-of-00008.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
     "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00006-of-00008.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00006-of-00008.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.27.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.28.cross_attn.k_norm.weight": "model-00006-of-00008.safetensors",
     "model.layers.28.cross_attn.k_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.28.cross_attn.o_proj.weight": "model-00006-of-00008.safetensors",
@@ -237,10 +237,10 @@
     "model.layers.3.cross_attn_attn_gate": "model-00001-of-00008.safetensors",
     "model.layers.3.cross_attn_mlp_gate": "model-00001-of-00008.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00008.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
     "model.layers.30.input_layernorm.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
@@ -250,33 +250,33 @@
     "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00007-of-00008.safetensors",
-    "model.layers.31.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.31.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.31.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
     "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
-    "model.layers.32.input_layernorm.weight": "model-00007-of-00008.safetensors",
-    "model.layers.32.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.32.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.32.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.32.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
-    "model.layers.32.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.32.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.32.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.32.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.33.cross_attn.k_norm.weight": "model-00007-of-00008.safetensors",
-    "model.layers.33.cross_attn.k_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.33.cross_attn.o_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.33.cross_attn.q_norm.weight": "model-00007-of-00008.safetensors",
-    "model.layers.33.cross_attn.q_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.33.cross_attn.v_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.33.cross_attn_attn_gate": "model-00007-of-00008.safetensors",
-    "model.layers.33.cross_attn_mlp_gate": "model-00007-of-00008.safetensors",
-    "model.layers.33.input_layernorm.weight": "model-00007-of-00008.safetensors",
     "model.layers.33.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.33.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.33.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
@@ -308,27 +308,27 @@
     "model.layers.36.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.36.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.36.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.37.input_layernorm.weight": "model-00008-of-00008.safetensors",
-    "model.layers.37.mlp.down_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.37.mlp.gate_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.37.mlp.up_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.37.post_attention_layernorm.weight": "model-00008-of-00008.safetensors",
     "model.layers.37.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.37.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.37.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.37.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
-    "model.layers.38.cross_attn.k_norm.weight": "model-00008-of-00008.safetensors",
-    "model.layers.38.cross_attn.k_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.38.cross_attn.o_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.38.cross_attn.q_norm.weight": "model-00008-of-00008.safetensors",
-    "model.layers.38.cross_attn.q_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.38.cross_attn.v_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.38.cross_attn_attn_gate": "model-00008-of-00008.safetensors",
-    "model.layers.38.cross_attn_mlp_gate": "model-00008-of-00008.safetensors",
-    "model.layers.38.input_layernorm.weight": "model-00008-of-00008.safetensors",
     "model.layers.38.mlp.down_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.38.mlp.gate_proj.weight": "model-00008-of-00008.safetensors",
-    "model.layers.38.mlp.up_proj.weight": "model-00008-of-00008.safetensors",
     "model.layers.38.post_attention_layernorm.weight": "model-00008-of-00008.safetensors",
     "model.layers.39.input_layernorm.weight": "model-00008-of-00008.safetensors",
     "model.layers.39.mlp.down_proj.weight": "model-00008-of-00008.safetensors",
@@ -341,13 +341,13 @@
     "model.layers.39.self_attn.v_proj.weight": "model-00008-of-00008.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00002-of-00008.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.5.input_layernorm.weight": "model-00002-of-00008.safetensors",
     "model.layers.5.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
@@ -384,19 +384,19 @@
     "model.layers.8.cross_attn_attn_gate": "model-00002-of-00008.safetensors",
     "model.layers.8.cross_attn_mlp_gate": "model-00002-of-00008.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00002-of-00008.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.8.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
     "model.norm.weight": "model-00008-of-00008.safetensors"
   }
 }

 {
   "metadata": {
+    "total_size": 36597555264
   },
   "weight_map": {
     "lm_head.weight": "model-00008-of-00008.safetensors",
     "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00008.safetensors",
     "model.layers.10.input_layernorm.weight": "model-00003-of-00008.safetensors",
     "model.layers.10.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.10.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00003-of-00008.safetensors",
     "model.layers.11.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.13.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
     "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.16.input_layernorm.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00008.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00008.safetensors",
     "model.layers.17.input_layernorm.weight": "model-00004-of-00008.safetensors",
     "model.layers.17.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00008.safetensors",
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00008.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00008.safetensors",
     "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00005-of-00008.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00008.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00008.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00005-of-00008.safetensors",
     "model.layers.22.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00006-of-00008.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.27.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00008.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00008.safetensors",
     "model.layers.28.cross_attn.k_norm.weight": "model-00006-of-00008.safetensors",
     "model.layers.28.cross_attn.k_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.28.cross_attn.o_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.3.cross_attn_attn_gate": "model-00001-of-00008.safetensors",
     "model.layers.3.cross_attn_mlp_gate": "model-00001-of-00008.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00008.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00008.safetensors",
     "model.layers.30.input_layernorm.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
     "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
     "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.cross_attn.k_norm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.cross_attn.k_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.cross_attn.o_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.cross_attn.q_norm.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.cross_attn.q_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.cross_attn.v_proj.weight": "model-00006-of-00008.safetensors",
+    "model.layers.33.cross_attn_attn_gate": "model-00006-of-00008.safetensors",
+    "model.layers.33.cross_attn_mlp_gate": "model-00006-of-00008.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00006-of-00008.safetensors",
     "model.layers.33.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.33.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.33.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.36.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.36.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.36.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00007-of-00008.safetensors",
     "model.layers.37.self_attn.k_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.37.self_attn.o_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.37.self_attn.q_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.37.self_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.cross_attn.k_norm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.cross_attn.k_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.cross_attn.o_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.cross_attn.q_norm.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.cross_attn.q_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.cross_attn.v_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.cross_attn_attn_gate": "model-00007-of-00008.safetensors",
+    "model.layers.38.cross_attn_mlp_gate": "model-00007-of-00008.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00007-of-00008.safetensors",
     "model.layers.38.mlp.down_proj.weight": "model-00008-of-00008.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00007-of-00008.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00007-of-00008.safetensors",
     "model.layers.38.post_attention_layernorm.weight": "model-00008-of-00008.safetensors",
     "model.layers.39.input_layernorm.weight": "model-00008-of-00008.safetensors",
     "model.layers.39.mlp.down_proj.weight": "model-00008-of-00008.safetensors",
     "model.layers.39.self_attn.v_proj.weight": "model-00008-of-00008.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00002-of-00008.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00008.safetensors",
     "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00008.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00008.safetensors",
     "model.layers.5.input_layernorm.weight": "model-00002-of-00008.safetensors",
     "model.layers.5.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.8.cross_attn_attn_gate": "model-00002-of-00008.safetensors",
     "model.layers.8.cross_attn_mlp_gate": "model-00002-of-00008.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
     "model.layers.8.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00008.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00008.safetensors",
     "model.norm.weight": "model-00008-of-00008.safetensors"
   }
 }