concedo commited on Jun 9, 2023

Commit

88808d8

•

1 Parent(s): 3985cb4

Upload folder using huggingface_hub (#1)

- 51a836289f08c33994e715916ac5262f4800b86e627334e03b3f7ad4e0cea262 (049a8198ce90a2a4261edf1c1f78e763ffcadb95)
- aa10d7b76be876ed76e64c56702eb6135d886eee8d633542438f3e62b8c15c92 (e2620749b9709bfd1a21e9d86fa51a36ad4f4c9e)
- cc5262aa59829b435282d8d3d034285f70654c7b68fc65a797a0853d80b18950 (b7feb1d42b6b8c66b6193eb4ae3eda2165821abb)
- d236d2c71bca0a3cce3f4b52f05ab19817b1444b2a278a0122c20d81298099cf (d74d3a4b795ee7680647a49d9debb492fa14306c)
- 4c97efa4dc3ec763cc0ac66e6caaa0bc8d614e07fb6bcc2ce12c75ef72e1e878 (0eadff741cd0c9a6a2ceeebd9976b5654f607068)
- 6e4d8228e50a4d32d34027ccae9f4d95341fbd64e4b261be0e74833e1c811da7 (0258a6b1728a52fd7824649b4dd38d7d03406239)
- 31d170075c3a913f2b4425bcc639e867f0fa1a7358f331709de3ac991484863c (b1a0fb6576c7c65bce6d32d3f7f5d4c195008623)
- bedeeb3eff2a33ca0b0d37a0243a52be2b31cbf599ada75220beec7c2ff3edba (c10b0c30bc03a56c3b949f3796af12107587dbc4)
- 094af9a8d9061f589e3f110287dc494a76bd0c18840d05e44bb7db22fb983f4f (0be35bbb5cb1dc6973a302bacbecba5fd688b9a6)
- 8db1ce45dd6e4633c79ac4095fc45176ccfa29b701283156745cacd03d6ead63 (1caab848a350add7e12a643af5f1b31cbfae72ae)
- 223f1c1c2a1b683ecc5a9dd5708abba2e1ad6227e60c5b70d86ae5944bec4fef (f433ad9eb781c2bf0a9af1947c0541b3d3ac7592)
- 19fb9e7060e58466809b71e77cf3e81f03d4b3dff2690a32b2a8f4a645f0f5a6 (2fb05e66cffd54fa02c8d083b67d97d91717199c)
- 778939dbdaf94f9a59d50bc571883635de03b49d5352cd5047a548cbb4fd5bfa (ebb837f57c8b3aa286a5c2b3d7d518f44ac3dd27)
- 130b83fbf229f7debd9b528842b9fc92e2efd4c37f42f1d59e21b1365e3dacf9 (4162c7519e5d209feab869566fcfd82fde382a81)
- 1891e179ab6203ede2b7a91d80e0c835688b831c5ae50c6c6c50b9b3ded487fd (d626422f34a92086db8720ef15a8a324b16d457b)
- 49c5f5f2f8f385e782b92bfbeaccbfb1021d8d4dade9a42e74ddaa437bb7f875 (730dccbde31f43d642eef9febf6f5aa2d7dc1172)

Files changed (22) hide show

added_tokens.json +3 -0
config.json +24 -0
generation_config.json +7 -0
ggml/ggml-model-q4_0.bin +3 -0
ggml/ggml-model-q4_1.bin +3 -0
ggml/ggml-model-q5_0.bin +3 -0
ggml/ggml-model-q5_1.bin +3 -0
pytorch_model-00001-of-00011.bin +3 -0
pytorch_model-00002-of-00011.bin +3 -0
pytorch_model-00003-of-00011.bin +3 -0
pytorch_model-00004-of-00011.bin +3 -0
pytorch_model-00005-of-00011.bin +3 -0
pytorch_model-00006-of-00011.bin +3 -0
pytorch_model-00007-of-00011.bin +3 -0
pytorch_model-00008-of-00011.bin +3 -0
pytorch_model-00009-of-00011.bin +3 -0
pytorch_model-00010-of-00011.bin +3 -0
pytorch_model-00011-of-00011.bin +3 -0
pytorch_model.bin.index.json +610 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +34 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_name_or_path": "/home/mixer/concedo/wizlm",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 6656,
+  "initializer_range": 0.02,
+  "intermediate_size": 17920,
+  "max_position_embeddings": 2048,
+  "max_sequence_length": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 52,
+  "num_hidden_layers": 60,
+  "pad_token_id": 0,
+  "rms_norm_eps": 1e-06,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.29.0",
+  "use_cache": true,
+  "vocab_size": 32001
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.0"
+}

ggml/ggml-model-q4_0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a3b5e5f9fa0dc4f0295a304e2ef69237cde98fc32c0419e6b4b95cfd8b30689
+size 18300774080

ggml/ggml-model-q4_1.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:725639e443a3c2923b135fa78c3423d097fa973bc876dff1ee653f984c2562b0
+size 20333783552

ggml/ggml-model-q5_0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:878407093d067f482fa3cee2c2dd398339f59aac183c3b37e7c900f21a4c101a
+size 22366793024

ggml/ggml-model-q5_1.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31fc98846f22e1d46c1317563e960f3f056f378c8640811568b8a06ac9e0562c
+size 24399802496

pytorch_model-00001-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ae78039b406699b7557d1c79606571f7544d51ae299e812bc8d0702e2b86045
+size 6130928659

pytorch_model-00002-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7f0a5f09b87e73952e73375db4806d79dbd489cdfd370b34ccc40ba9b7c316d
+size 6243401877

pytorch_model-00003-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f676b9aeddf59c6eb1f280645819f365c935c7cf31dade768145a837e22a6b41
+size 6243402511

pytorch_model-00004-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f0f7d21748dceef35fbf814e2c52b130e008dad6abc7403b557b20b959cc57c
+size 6182033817

pytorch_model-00005-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f16a33cba8e4a6e910c3f762ea5e86b3464b3ae1df06aace30a8691d74290122
+size 6182061117

pytorch_model-00006-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:529032b0eb688108e1615781e75ee0c60d2f3d66584932848bce029b5905c3b6
+size 6182061165

pytorch_model-00007-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1c8f441b2f6c0f1c71f318ae33f52eceae0bae738b094c40fde7b5c35a8e852
+size 6243401941

pytorch_model-00008-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb25aef4d49b1a1a8eb9614bc63786e84a21d65ace845097fc49e1194bf61f37
+size 6243402511

pytorch_model-00009-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b2140dadcef94c2b9f4626da1b98336d69e9548e8166e030dff0fef51ac3dcc
+size 6182033817

pytorch_model-00010-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fc40ddeee232a62c27a8067d0ac639a0812bff8b50d1b5e67caaad9ef89626d
+size 6182061117

pytorch_model-00011-of-00011.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c8c14ebd5cc0f90b205996e4d1dacb9557e6fa5a1300089f4719b0e453ae5de
+size 3043345443

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,610 @@

+{
+  "metadata": {
+    "total_size": 65057929216
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00011-of-00011.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00011.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00011.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00011.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00011.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00011.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00011.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00011.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00011.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00011.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00003-of-00011.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00011.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00011.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00011.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00011.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00011.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00011.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00011.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00004-of-00011.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00011.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00011.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00011.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00011.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00011.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00011.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00005-of-00011.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00011.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00011.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00011.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00011.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.input_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00011.bin",
+    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.input_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00011.bin",
+    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.34.input_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.34.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00011.bin",
+    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00006-of-00011.bin",
+    "model.layers.35.input_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00011.bin",
+    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.input_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00011.bin",
+    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.input_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00011.bin",
+    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.input_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00011.bin",
+    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.input_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.self_attn.rotary_emb.inv_freq": "pytorch_model-00007-of-00011.bin",
+    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00011.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.40.input_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.40.mlp.down_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.40.mlp.gate_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.40.mlp.up_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.40.post_attention_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.40.self_attn.k_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.40.self_attn.o_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.40.self_attn.q_proj.weight": "pytorch_model-00007-of-00011.bin",
+    "model.layers.40.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00011.bin",
+    "model.layers.40.self_attn.v_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.input_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.mlp.down_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.mlp.gate_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.mlp.up_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.post_attention_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.self_attn.k_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.self_attn.o_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.self_attn.q_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00011.bin",
+    "model.layers.41.self_attn.v_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.input_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.mlp.down_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.mlp.gate_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.mlp.up_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.post_attention_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.self_attn.k_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.self_attn.o_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.self_attn.q_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00011.bin",
+    "model.layers.42.self_attn.v_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.input_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.mlp.down_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.mlp.gate_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.mlp.up_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.post_attention_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.self_attn.k_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.self_attn.o_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.self_attn.q_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00011.bin",
+    "model.layers.43.self_attn.v_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.input_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.mlp.down_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.mlp.gate_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.mlp.up_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.post_attention_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.self_attn.k_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.self_attn.o_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.self_attn.q_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00011.bin",
+    "model.layers.44.self_attn.v_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.input_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.mlp.down_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.mlp.gate_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.mlp.up_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.post_attention_layernorm.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.self_attn.k_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.self_attn.o_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.self_attn.q_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.self_attn.rotary_emb.inv_freq": "pytorch_model-00008-of-00011.bin",
+    "model.layers.45.self_attn.v_proj.weight": "pytorch_model-00008-of-00011.bin",
+    "model.layers.46.input_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.mlp.down_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.mlp.gate_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.mlp.up_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.post_attention_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.self_attn.k_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.self_attn.o_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.self_attn.q_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00011.bin",
+    "model.layers.46.self_attn.v_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.input_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.mlp.down_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.mlp.gate_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.mlp.up_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.post_attention_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.self_attn.k_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.self_attn.o_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.self_attn.q_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00011.bin",
+    "model.layers.47.self_attn.v_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.input_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.mlp.down_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.mlp.gate_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.mlp.up_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.post_attention_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.self_attn.k_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.self_attn.o_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.self_attn.q_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00011.bin",
+    "model.layers.48.self_attn.v_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.input_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.mlp.down_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.mlp.gate_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.mlp.up_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.post_attention_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.self_attn.k_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.self_attn.o_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.self_attn.q_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00011.bin",
+    "model.layers.49.self_attn.v_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00011.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00011.bin",
+    "model.layers.50.input_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.mlp.down_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.mlp.gate_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.mlp.up_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.post_attention_layernorm.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.self_attn.k_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.self_attn.o_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.self_attn.q_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00011.bin",
+    "model.layers.50.self_attn.v_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.51.input_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.51.mlp.down_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.51.mlp.gate_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.51.mlp.up_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.51.post_attention_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.51.self_attn.k_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.51.self_attn.o_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.51.self_attn.q_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.51.self_attn.rotary_emb.inv_freq": "pytorch_model-00009-of-00011.bin",
+    "model.layers.51.self_attn.v_proj.weight": "pytorch_model-00009-of-00011.bin",
+    "model.layers.52.input_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.mlp.down_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.mlp.gate_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.mlp.up_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.post_attention_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.self_attn.k_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.self_attn.o_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.self_attn.q_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00011.bin",
+    "model.layers.52.self_attn.v_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.input_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.mlp.down_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.mlp.gate_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.mlp.up_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.post_attention_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.self_attn.k_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.self_attn.o_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.self_attn.q_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00011.bin",
+    "model.layers.53.self_attn.v_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.input_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.mlp.down_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.mlp.gate_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.mlp.up_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.post_attention_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.self_attn.k_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.self_attn.o_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.self_attn.q_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00011.bin",
+    "model.layers.54.self_attn.v_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.input_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.mlp.down_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.mlp.gate_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.mlp.up_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.post_attention_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.self_attn.k_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.self_attn.o_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.self_attn.q_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00011.bin",
+    "model.layers.55.self_attn.v_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.input_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.mlp.down_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.mlp.gate_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.mlp.up_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.post_attention_layernorm.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.self_attn.k_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.self_attn.o_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.self_attn.q_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00011.bin",
+    "model.layers.56.self_attn.v_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.57.input_layernorm.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.57.mlp.down_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.57.mlp.gate_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.57.mlp.up_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.57.post_attention_layernorm.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.57.self_attn.k_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.57.self_attn.o_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.57.self_attn.q_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.57.self_attn.rotary_emb.inv_freq": "pytorch_model-00010-of-00011.bin",
+    "model.layers.57.self_attn.v_proj.weight": "pytorch_model-00010-of-00011.bin",
+    "model.layers.58.input_layernorm.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.mlp.down_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.mlp.gate_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.mlp.up_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.post_attention_layernorm.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.self_attn.k_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.self_attn.o_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.self_attn.q_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.self_attn.rotary_emb.inv_freq": "pytorch_model-00011-of-00011.bin",
+    "model.layers.58.self_attn.v_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.input_layernorm.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.mlp.down_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.mlp.gate_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.mlp.up_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.post_attention_layernorm.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.self_attn.k_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.self_attn.o_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.self_attn.q_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.self_attn.rotary_emb.inv_freq": "pytorch_model-00011-of-00011.bin",
+    "model.layers.59.self_attn.v_proj.weight": "pytorch_model-00011-of-00011.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00011.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00011.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00011.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00011.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00002-of-00011.bin",
+    "model.norm.weight": "pytorch_model-00011-of-00011.bin"
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 2048,
+  "pad_token": null,
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}