bol20162021 commited on May 25, 2023

Commit

3b0ac8e

1 Parent(s): 34d4335

Upload folder using huggingface_hub (#2)

- c1aa5e558b2661504ccbf83398a6bfc09c9a6b2e93d6c4628885d9adb1abf9b0 (6f77566afb3bd84939420a6a72af3887193323db)
- c2f9dfb4298681d31a12b0a803b210f3d35cfc6959f6af1e907efbb3a5343a9d (6b634bcbafecb156e64b45482ae2c73366f428d2)
- 96c9f4f9eb91892142683f467e256c0abfcc5f22c11d0ac69e4050dbf40ebefc (9d05206203101d6c560d0ddefd7b1c489f68c50b)
- f34abfa4176269e3169fe4ce67d2a7bfb998779517b124adccc08928b37bf726 (f7ad8eebef4c0fe20218c5745e045618b0481f02)
- 7415d9e41bc5468cb4390dbccce50b540ae3ea7309fed575b7b84b8a234eca6b (805f4d75076b58c5fc769d2d7546755cd1f088bc)
- ddf8697d26b854ab2f1a4537a3ade65ee774b192ad1b124ef3e7bfd15dd74ce3 (e4f486f8fc116f7f7061dc15b71d7105f9698c28)
- 4e9c129425bafcf80b1cf6495182f51bc8b5889cc9baa9cdb10707d51eb40e4b (0f7648d90696cf89611dea179e28aace478b8748)
- fb001862f59a56063b2db2995eaf3cef78c644b4cb74c9d1a473f43096c8ea23 (797069a120e88cbfaa475ba582a98d97684e8e9e)
- 25b24f35d6c0f8064af558dd66d1c9eb205de1eca75b45fcf861ac81d1f6c604 (197060f90c15deb53998369803212e7265772b73)
- daa927a3a13f76a47893b9cd58b83aa903ab327ecf0d09bc80e3da90f3c7d0f0 (50cba38ca06da8c85dba904c0f54a3a889f05327)
- 7a52e6a6bac3ecbad97a60723cd271fff787b61509dedf5c808ddb707c21deee (84403fc0aa426f3d033e8569b1d94389e397b8c9)
- 3ecf9470cc96ce7d306b80b6d5118f048161979fa35f612037525e5e7839e550 (dde37330cfd0951c525eb6c1a5a2729a0c4322ab)
- bba6680665283c8756679f559c4fd82666572165dfcc37babb28e24ed23869aa (58708f0d98b95cab1a82659e1915e5a71818f348)
- 16cc9aa8fe537208a3a14f16c49037e4256cd1c384d3a5d075c4a2e78f6699b9 (f9f64d84fd519f967f3b037acb3c9342c54b0a78)
- e52443de962faefc723fbeb20d634b65c0c1b21483a9597996eb17453d6ae260 (281b1ba179f12a7433e4b6a3d5aa5bf1dd4aa2a1)

Files changed (20) hide show

config.json +24 -0
generation_config.json +7 -0
pytorch_model-00001-of-00014.bin +3 -0
pytorch_model-00002-of-00014.bin +3 -0
pytorch_model-00003-of-00014.bin +3 -0
pytorch_model-00004-of-00014.bin +3 -0
pytorch_model-00005-of-00014.bin +3 -0
pytorch_model-00006-of-00014.bin +3 -0
pytorch_model-00007-of-00014.bin +3 -0
pytorch_model-00008-of-00014.bin +3 -0
pytorch_model-00009-of-00014.bin +3 -0
pytorch_model-00010-of-00014.bin +3 -0
pytorch_model-00011-of-00014.bin +3 -0
pytorch_model-00012-of-00014.bin +3 -0
pytorch_model-00013-of-00014.bin +3 -0
pytorch_model-00014-of-00014.bin +3 -0
pytorch_model.bin.index.json +610 -0
special_tokens_map.json +23 -0
tokenizer.model +3 -0
tokenizer_config.json +33 -0

config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_name_or_path": "sambanovasystems/LLaMA-30B-toolbench",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 6656,
+  "initializer_range": 0.02,
+  "intermediate_size": 17920,
+  "max_position_embeddings": 2048,
+  "max_sequence_length": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 52,
+  "num_hidden_layers": 60,
+  "pad_token_id": 0,
+  "rms_norm_eps": 1e-06,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.0"
+}

pytorch_model-00001-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee40aaaaa537eabc8edfd7264f32c3759fb24620e926c1811be00c864b545f1b
+size 9944399515

pytorch_model-00002-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:325d9f95a01e9a3922fdbbee254fff9d58b38629be9325c545c7ed02b05a21d5
+size 9692217267

pytorch_model-00003-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:753682a8336b12884e51b987082fbdb5f3651c240ad28c9680b3e749def35236
+size 9746797807

pytorch_model-00004-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:303c10ae13777600aac71f857a408e8e549c785e79f030c7e3f9a28dd19a45d5
+size 9992163381

pytorch_model-00005-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd061cd37f603169e875337c20a14e3d46609a19e88e05b7daa7d3cbd4f0df31
+size 9746743895

pytorch_model-00006-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:588279fc2406c614f4e41bc3e64b44746e37c5ea6db1867797968adb7e24b5cb
+size 9869480291

pytorch_model-00007-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a28e676b5d066aa5de4c3ae476ee1d52014b145deb1cb8a42b85065223993e6f
+size 9869426913

pytorch_model-00008-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b017055afdbc1a585889315e81e6c31017ba4c065e92bdf93cb87ed7cc21b78
+size 9746797807

pytorch_model-00009-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7baa5d6fee88d6b4773baf6d68be8e054eb07fcba364c40f13fc33d27ec3e6ee
+size 9992163381

pytorch_model-00010-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3142af2bd2931a5769658990ced31d8d5d1d544fe8a68448d483291b0057adb8
+size 9746743895

pytorch_model-00011-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b26e67d393f7d48f7521af73ba785b1cb13d54ca403081d1be8c57c7fe1c959
+size 9869480291

pytorch_model-00012-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa3b20d11da6176a4150323755b885ea812ef8240e317b1f6a0dda2848c74030
+size 9869426913

pytorch_model-00013-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70528696b79ff7c29261a7012b3a24661c27c5a536f88b8f051e7e8dac528274
+size 9746797807

pytorch_model-00014-of-00014.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c7a2c276bebcfbddace97d7d4b7418124ed656cd7102ae99cecc021663013a7
+size 2283356880

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,610 @@

+{
+  "metadata": {
+    "total_size": 130115789824
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00014-of-00014.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00014.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00014.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00014.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00014.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00014.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00014.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00014.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00014.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00014.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00014.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00004-of-00014.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00014.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00014.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00014.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00014.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00014.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00014.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00005-of-00014.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00014.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00014.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00014.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00014.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00006-of-00014.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00014.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00014.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00014.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00014.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00014.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00014.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00007-of-00014.bin",
+    "model.layers.32.input_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00014.bin",
+    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.input_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00014.bin",
+    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.input_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00014.bin",
+    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.input_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00014.bin",
+    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.36.input_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.36.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00014.bin",
+    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00008-of-00014.bin",
+    "model.layers.37.input_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00014.bin",
+    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.input_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00014.bin",
+    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.input_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00014.bin",
+    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00014.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00014.bin",
+    "model.layers.40.input_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.mlp.down_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.mlp.gate_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.mlp.up_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.post_attention_layernorm.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.self_attn.k_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.self_attn.o_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.self_attn.q_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00014.bin",
+    "model.layers.40.self_attn.v_proj.weight": "pytorch_model-00009-of-00014.bin",
+    "model.layers.41.input_layernorm.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.mlp.down_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.mlp.gate_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.mlp.up_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.post_attention_layernorm.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.self_attn.k_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.self_attn.o_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.self_attn.q_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00014.bin",
+    "model.layers.41.self_attn.v_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.input_layernorm.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.mlp.down_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.mlp.gate_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.mlp.up_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.post_attention_layernorm.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.self_attn.k_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.self_attn.o_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.self_attn.q_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00014.bin",
+    "model.layers.42.self_attn.v_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.input_layernorm.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.mlp.down_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.mlp.gate_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.mlp.up_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.post_attention_layernorm.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.self_attn.k_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.self_attn.o_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.self_attn.q_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00014.bin",
+    "model.layers.43.self_attn.v_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.input_layernorm.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.mlp.down_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.mlp.gate_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.mlp.up_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.post_attention_layernorm.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.self_attn.k_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.self_attn.o_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.self_attn.q_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00014.bin",
+    "model.layers.44.self_attn.v_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.45.input_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.45.mlp.down_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.45.mlp.gate_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.45.mlp.up_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.45.post_attention_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.45.self_attn.k_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.45.self_attn.o_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.45.self_attn.q_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.45.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00014.bin",
+    "model.layers.45.self_attn.v_proj.weight": "pytorch_model-00010-of-00014.bin",
+    "model.layers.46.input_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.mlp.down_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.mlp.gate_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.mlp.up_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.post_attention_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.self_attn.k_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.self_attn.o_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.self_attn.q_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.self_attn.rotary_emb.inv_freq": "pytorch_model-00011-of-00014.bin",
+    "model.layers.46.self_attn.v_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.input_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.mlp.down_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.mlp.gate_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.mlp.up_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.post_attention_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.self_attn.k_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.self_attn.o_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.self_attn.q_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.self_attn.rotary_emb.inv_freq": "pytorch_model-00011-of-00014.bin",
+    "model.layers.47.self_attn.v_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.input_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.mlp.down_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.mlp.gate_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.mlp.up_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.post_attention_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.self_attn.k_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.self_attn.o_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.self_attn.q_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.self_attn.rotary_emb.inv_freq": "pytorch_model-00011-of-00014.bin",
+    "model.layers.48.self_attn.v_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.input_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.mlp.down_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.mlp.gate_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.mlp.up_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.post_attention_layernorm.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.self_attn.k_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.self_attn.o_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.self_attn.q_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.self_attn.rotary_emb.inv_freq": "pytorch_model-00011-of-00014.bin",
+    "model.layers.49.self_attn.v_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00014.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.50.input_layernorm.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.50.mlp.down_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.50.mlp.gate_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.50.mlp.up_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.50.post_attention_layernorm.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.50.self_attn.k_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.50.self_attn.o_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.50.self_attn.q_proj.weight": "pytorch_model-00011-of-00014.bin",
+    "model.layers.50.self_attn.rotary_emb.inv_freq": "pytorch_model-00012-of-00014.bin",
+    "model.layers.50.self_attn.v_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.input_layernorm.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.mlp.down_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.mlp.gate_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.mlp.up_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.post_attention_layernorm.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.self_attn.k_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.self_attn.o_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.self_attn.q_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.self_attn.rotary_emb.inv_freq": "pytorch_model-00012-of-00014.bin",
+    "model.layers.51.self_attn.v_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.input_layernorm.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.mlp.down_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.mlp.gate_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.mlp.up_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.post_attention_layernorm.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.self_attn.k_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.self_attn.o_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.self_attn.q_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.self_attn.rotary_emb.inv_freq": "pytorch_model-00012-of-00014.bin",
+    "model.layers.52.self_attn.v_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.input_layernorm.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.mlp.down_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.mlp.gate_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.mlp.up_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.post_attention_layernorm.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.self_attn.k_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.self_attn.o_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.self_attn.q_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.self_attn.rotary_emb.inv_freq": "pytorch_model-00012-of-00014.bin",
+    "model.layers.53.self_attn.v_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.54.input_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.54.mlp.down_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.54.mlp.gate_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.54.mlp.up_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.54.post_attention_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.54.self_attn.k_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.54.self_attn.o_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.54.self_attn.q_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.54.self_attn.rotary_emb.inv_freq": "pytorch_model-00012-of-00014.bin",
+    "model.layers.54.self_attn.v_proj.weight": "pytorch_model-00012-of-00014.bin",
+    "model.layers.55.input_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.mlp.down_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.mlp.gate_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.mlp.up_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.post_attention_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.self_attn.k_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.self_attn.o_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.self_attn.q_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.self_attn.rotary_emb.inv_freq": "pytorch_model-00013-of-00014.bin",
+    "model.layers.55.self_attn.v_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.input_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.mlp.down_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.mlp.gate_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.mlp.up_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.post_attention_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.self_attn.k_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.self_attn.o_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.self_attn.q_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.self_attn.rotary_emb.inv_freq": "pytorch_model-00013-of-00014.bin",
+    "model.layers.56.self_attn.v_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.input_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.mlp.down_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.mlp.gate_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.mlp.up_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.post_attention_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.self_attn.k_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.self_attn.o_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.self_attn.q_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.self_attn.rotary_emb.inv_freq": "pytorch_model-00013-of-00014.bin",
+    "model.layers.57.self_attn.v_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.input_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.mlp.down_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.mlp.gate_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.mlp.up_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.post_attention_layernorm.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.self_attn.k_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.self_attn.o_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.self_attn.q_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.self_attn.rotary_emb.inv_freq": "pytorch_model-00013-of-00014.bin",
+    "model.layers.58.self_attn.v_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.59.input_layernorm.weight": "pytorch_model-00014-of-00014.bin",
+    "model.layers.59.mlp.down_proj.weight": "pytorch_model-00014-of-00014.bin",
+    "model.layers.59.mlp.gate_proj.weight": "pytorch_model-00014-of-00014.bin",
+    "model.layers.59.mlp.up_proj.weight": "pytorch_model-00014-of-00014.bin",
+    "model.layers.59.post_attention_layernorm.weight": "pytorch_model-00014-of-00014.bin",
+    "model.layers.59.self_attn.k_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.59.self_attn.o_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.59.self_attn.q_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.59.self_attn.rotary_emb.inv_freq": "pytorch_model-00013-of-00014.bin",
+    "model.layers.59.self_attn.v_proj.weight": "pytorch_model-00013-of-00014.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00014.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00014.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00014.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00002-of-00014.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00014.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00003-of-00014.bin",
+    "model.norm.weight": "pytorch_model-00014-of-00014.bin"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 2048,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}