FrostAura commited on Aug 20, 2022

Commit

0eee5f4

•

1 Parent(s): 2201472

[DEV]: Initial commit of base model prior to fine-tuning.

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

merges.txt +0 -0
pytorch_model-00001-of-00046.bin +3 -0
pytorch_model-00002-of-00046.bin +3 -0
pytorch_model-00003-of-00046.bin +3 -0
pytorch_model-00004-of-00046.bin +3 -0
pytorch_model-00005-of-00046.bin +3 -0
pytorch_model-00006-of-00046.bin +3 -0
pytorch_model-00007-of-00046.bin +3 -0
pytorch_model-00008-of-00046.bin +3 -0
pytorch_model-00009-of-00046.bin +3 -0
pytorch_model-00010-of-00046.bin +3 -0
pytorch_model-00011-of-00046.bin +3 -0
pytorch_model-00012-of-00046.bin +3 -0
pytorch_model-00013-of-00046.bin +3 -0
pytorch_model-00014-of-00046.bin +3 -0
pytorch_model-00015-of-00046.bin +3 -0
pytorch_model-00016-of-00046.bin +3 -0
pytorch_model-00017-of-00046.bin +3 -0
pytorch_model-00018-of-00046.bin +3 -0
pytorch_model-00019-of-00046.bin +3 -0
pytorch_model-00020-of-00046.bin +3 -0
pytorch_model-00021-of-00046.bin +3 -0
pytorch_model-00022-of-00046.bin +3 -0
pytorch_model-00023-of-00046.bin +3 -0
pytorch_model-00024-of-00046.bin +3 -0
pytorch_model-00025-of-00046.bin +3 -0
pytorch_model-00026-of-00046.bin +3 -0
pytorch_model-00027-of-00046.bin +3 -0
pytorch_model-00028-of-00046.bin +3 -0
pytorch_model-00029-of-00046.bin +3 -0
pytorch_model-00030-of-00046.bin +3 -0
pytorch_model-00031-of-00046.bin +3 -0
pytorch_model-00032-of-00046.bin +3 -0
pytorch_model-00033-of-00046.bin +3 -0
pytorch_model-00034-of-00046.bin +3 -0
pytorch_model-00035-of-00046.bin +3 -0
pytorch_model-00036-of-00046.bin +3 -0
pytorch_model-00037-of-00046.bin +3 -0
pytorch_model-00038-of-00046.bin +3 -0
pytorch_model-00039-of-00046.bin +3 -0
pytorch_model-00040-of-00046.bin +3 -0
pytorch_model-00041-of-00046.bin +3 -0
pytorch_model-00042-of-00046.bin +3 -0
pytorch_model-00043-of-00046.bin +3 -0
pytorch_model-00044-of-00046.bin +3 -0
pytorch_model-00045-of-00046.bin +3 -0
pytorch_model-00046-of-00046.bin +3 -0
pytorch_model.bin.index.json +671 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model-00001-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91a6926dd4e27c801194ab9b697e6b739d4312cbd7d081ee020f5ca75607743c
+size 925994625

pytorch_model-00002-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a96a36c8efc68a1d6c5de03b8c78625422edbf3a0b3d7c88650a8cd409ebbd73
+size 910328184

pytorch_model-00003-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:582e2bbbbd7c8b91de2c8fe2b292610e6b5a74966a7e2398645a38dbda2ed71f
+size 910328184

pytorch_model-00004-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dad2df6d880f4a64ee2c530c0b51c6be4600f2463fa69d06d668b18904e3d5a3
+size 910328184

pytorch_model-00005-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2dd1111e7f207d4a7720a8723cf5d2c2dabb77e509a57ce41a28ee630b0e8353
+size 910328184

pytorch_model-00006-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7de215cb446cb678dc7e4e7df5b18cc16b79fdf08e41a2738491ff9cc57e37a
+size 910328184

pytorch_model-00007-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53b30b05245b1ad580dd2d304a760fd93bb80cd6e67e3e497b0140abb23c8f84
+size 910328184

pytorch_model-00008-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4b0850c82bc82ada8e092e7bd9a782737391faa8a844c32f1d206c9d5cc1665
+size 910328184

pytorch_model-00009-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19b9c1d811efc0361c8607bd3a52f0474478b5871bbf70746af8dc8cc7b7569d
+size 910328184

pytorch_model-00010-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:343cfe1a395d55c148034e13cb3a0470baa68e4d0711412a2d6ad22574e2e9ea
+size 910328184

pytorch_model-00011-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:089530ad755e6ec58b10d4a977b960bff4ade4346c0b0b9ebf2063cde42af0fd
+size 910328184

pytorch_model-00012-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7040b3aadd06bfc8b4175f8273d86f22a8eb7c7b1a5cd9991c2678290b610a36
+size 910328184

pytorch_model-00013-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50d7a789188146fc4368c0f4b1574dd7933ec8cc4ecb809aebca90a70c0fca91
+size 910328184

pytorch_model-00014-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ba306de96a20abccb2e99048614debd63557228c3f9787ca7d6cc445397a9c2
+size 910328184

pytorch_model-00015-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5105b09e42b2eacaf1985ce37811913dca02446169cff6ece20cbf8cd6803a78
+size 910328184

pytorch_model-00016-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41c5345d12c491aede73bd79dcda8093badddd1ab393413de1be377aed044c34
+size 910328184

pytorch_model-00017-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73a3f74f1e0ce412f6b06c172b068fd9dcefbfdff60a1e3242d1a56a58441e8a
+size 910328184

pytorch_model-00018-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c17a90b84c957246da45835e6b88cc496430e24af18f74d5219cebfb6ca89bf5
+size 910328184

pytorch_model-00019-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce0eab7c8271f3b267eb84cc90d0e6667a40060fc5c751f0bbe7edd2c2f1e32f
+size 910328184

pytorch_model-00020-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a3e63161295d36203577c2226e217dffdbf3bbbb99f883ff64e11e7b2cb1fb9
+size 910328184

pytorch_model-00021-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:260f41230c97ce26e787650aa225cc65d381b4e17485cbf6e2cef31e99d0f2dc
+size 910328184

pytorch_model-00022-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43392e9228f83d32455920c0517f3f288049340236fc9cb7d660f61de0705d6d
+size 910328184

pytorch_model-00023-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11fb9cefd82632103450852c85eef713d9dfdd0c14451c84a909e3b335db5ddc
+size 910328184

pytorch_model-00024-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ff5af200c2682206e7076337820a576ad125f97cad398513c73c0febac61eb7
+size 910328184

pytorch_model-00025-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e38d80739d11771d6d2ac50574f5c7c5a980da47dd204ff320af548e3305aed3
+size 910328184

pytorch_model-00026-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ead5458cf979a9e311e1d1187605caa0d630b39f2bce616f1a7e43b70a565915
+size 910328184

pytorch_model-00027-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34cfb1757f7e4fbc933fe56d442f297fe64763ee95576da09e1a9e6718e7de22
+size 910328184

pytorch_model-00028-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4090aa141fb5d6a00cefc15d5f55cee135db352ebcca1ce6829da65acdefacbc
+size 910328184

pytorch_model-00029-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55b81d9a2491ff2054b2e502207e96009308259b25da2efab9e3073ae3fef9fb
+size 910328184

pytorch_model-00030-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eaab6b1b9b16640dedca882c7eba8a3991a769462fc267215499241bc48d3732
+size 910328184

pytorch_model-00031-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ad862519bb27c0417b0ee46b9ffa47a7b7c219034a254881e054cc79b7d3b2a
+size 910328184

pytorch_model-00032-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23752ed93b429d111dc4d75759731887cddb9f1a6717190778e22f37d6c1ef8d
+size 910328184

pytorch_model-00033-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d0842b355f997dc12d5c9c90297936919ed2b1223fd8fd5f00afbfcd28db979
+size 910328184

pytorch_model-00034-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7275a1541dd2a22297f878bdb5dff0cd41c327e61445e8ba6fd7f4b8ed51b6f9
+size 910328184

pytorch_model-00035-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7b1e3ead65e8867953b00685531c42b3968fb317eb21286a4489f2d33c9424f
+size 910328184

pytorch_model-00036-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92801ef5b1dd5f959f94b79233c461343319bd7fd881cc5d1642cd97675352b4
+size 910328184

pytorch_model-00037-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:080b0ab69fdc85af7f0fac13bf89d402980ee1e93812545e6ec85253040fc9ea
+size 910328184

pytorch_model-00038-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:603b045908ca1044109a3c13da7ce8f9f633a015b7717adc2ca72db186beb58e
+size 910328184

pytorch_model-00039-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9823f13162ca5b21532930863497d82a79788a2842c77d0538a36b8d86ec9573
+size 910328184

pytorch_model-00040-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a231cae597ce6e732429e9f589d2b1face5755df083b999eb2688481757cb4af
+size 910328184

pytorch_model-00041-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc909def52bbd51a6b6bb34f29bad67383a5ce0a5947a2fc26a9afcf5f705471
+size 910328184

pytorch_model-00042-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ac94d1b42f8ffd9b34121a797dc8371e405d3b4bbc1ad8003560da82a13205a
+size 910328184

pytorch_model-00043-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36259a4252eae0d31d14513bb6b1e9e408aa416abda2347f397b333ae4ee0a41
+size 910328184

pytorch_model-00044-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2c40045b5342d2e4643cea8b7db300f529064df796a08f38b4b7df08ca67f96
+size 910328184

pytorch_model-00045-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7baf394716643e2873b74cc823f39cc563ad1cdaa918b4b91cc7f1b42d7b68b
+size 604067735

pytorch_model-00046-of-00046.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:925dc7a0c53a3487686cea905b52f2117d14fb3ff18e8fe1b544895a9c69fce4
+size 619709163

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,671 @@

+{
+  "metadata": {
+    "total_size": 41293685880
+  },
+  "weight_map": {
+    "embed_out.weight": "pytorch_model-00046-of-00046.bin",
+    "gpt_neox.embed_in.weight": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.final_layer_norm.bias": "pytorch_model-00045-of-00046.bin",
+    "gpt_neox.final_layer_norm.weight": "pytorch_model-00045-of-00046.bin",
+    "gpt_neox.layers.0.attention.bias": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.attention.dense.bias": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.attention.dense.weight": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.attention.masked_bias": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.attention.query_key_value.bias": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.attention.query_key_value.weight": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.attention.rotary_emb.inv_freq": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.input_layernorm.bias": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.bias": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.weight": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.bias": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.weight": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.0.post_attention_layernorm.bias": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00046.bin",
+    "gpt_neox.layers.1.attention.bias": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.attention.dense.bias": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.attention.dense.weight": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.attention.masked_bias": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.attention.query_key_value.bias": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.attention.query_key_value.weight": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.attention.rotary_emb.inv_freq": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.input_layernorm.bias": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.input_layernorm.weight": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.bias": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.weight": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.bias": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.weight": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.1.post_attention_layernorm.bias": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.1.post_attention_layernorm.weight": "pytorch_model-00002-of-00046.bin",
+    "gpt_neox.layers.10.attention.bias": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.attention.dense.bias": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.attention.dense.weight": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.attention.masked_bias": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.attention.query_key_value.bias": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.attention.query_key_value.weight": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.attention.rotary_emb.inv_freq": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.input_layernorm.bias": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.input_layernorm.weight": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.bias": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.weight": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.bias": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.weight": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.10.post_attention_layernorm.bias": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.10.post_attention_layernorm.weight": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.11.attention.bias": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.attention.dense.bias": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.attention.dense.weight": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.attention.masked_bias": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.attention.query_key_value.bias": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.attention.query_key_value.weight": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.attention.rotary_emb.inv_freq": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.input_layernorm.bias": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.input_layernorm.weight": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.bias": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.weight": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.bias": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.weight": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.11.post_attention_layernorm.bias": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.11.post_attention_layernorm.weight": "pytorch_model-00012-of-00046.bin",
+    "gpt_neox.layers.12.attention.bias": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.attention.dense.bias": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.attention.dense.weight": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.attention.masked_bias": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.attention.query_key_value.bias": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.attention.query_key_value.weight": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.attention.rotary_emb.inv_freq": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.input_layernorm.bias": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.input_layernorm.weight": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.bias": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.weight": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.bias": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.weight": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.12.post_attention_layernorm.bias": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.12.post_attention_layernorm.weight": "pytorch_model-00013-of-00046.bin",
+    "gpt_neox.layers.13.attention.bias": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.attention.dense.bias": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.attention.dense.weight": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.attention.masked_bias": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.attention.query_key_value.bias": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.attention.query_key_value.weight": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.attention.rotary_emb.inv_freq": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.input_layernorm.bias": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.input_layernorm.weight": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.bias": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.weight": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.bias": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.weight": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.13.post_attention_layernorm.bias": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.13.post_attention_layernorm.weight": "pytorch_model-00014-of-00046.bin",
+    "gpt_neox.layers.14.attention.bias": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.attention.dense.bias": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.attention.dense.weight": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.attention.masked_bias": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.attention.query_key_value.bias": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.attention.query_key_value.weight": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.attention.rotary_emb.inv_freq": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.input_layernorm.bias": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.input_layernorm.weight": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.weight": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.weight": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.14.post_attention_layernorm.bias": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.14.post_attention_layernorm.weight": "pytorch_model-00015-of-00046.bin",
+    "gpt_neox.layers.15.attention.bias": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.attention.dense.bias": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.attention.dense.weight": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.attention.masked_bias": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.attention.query_key_value.bias": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.attention.query_key_value.weight": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.attention.rotary_emb.inv_freq": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.input_layernorm.bias": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.input_layernorm.weight": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.weight": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.weight": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.15.post_attention_layernorm.bias": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.15.post_attention_layernorm.weight": "pytorch_model-00016-of-00046.bin",
+    "gpt_neox.layers.16.attention.bias": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.attention.dense.bias": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.attention.dense.weight": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.attention.masked_bias": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.attention.query_key_value.bias": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.attention.query_key_value.weight": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.attention.rotary_emb.inv_freq": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.input_layernorm.bias": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.input_layernorm.weight": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.bias": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.weight": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.bias": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.weight": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.16.post_attention_layernorm.bias": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.16.post_attention_layernorm.weight": "pytorch_model-00017-of-00046.bin",
+    "gpt_neox.layers.17.attention.bias": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.attention.dense.bias": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.attention.dense.weight": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.attention.masked_bias": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.attention.query_key_value.bias": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.attention.query_key_value.weight": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.attention.rotary_emb.inv_freq": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.input_layernorm.bias": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.input_layernorm.weight": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.bias": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.weight": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.bias": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.weight": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.17.post_attention_layernorm.bias": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.17.post_attention_layernorm.weight": "pytorch_model-00018-of-00046.bin",
+    "gpt_neox.layers.18.attention.bias": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.attention.dense.bias": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.attention.dense.weight": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.attention.masked_bias": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.attention.query_key_value.bias": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.attention.query_key_value.weight": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.attention.rotary_emb.inv_freq": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.input_layernorm.bias": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.input_layernorm.weight": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.bias": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.weight": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.bias": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.weight": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.18.post_attention_layernorm.bias": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.18.post_attention_layernorm.weight": "pytorch_model-00019-of-00046.bin",
+    "gpt_neox.layers.19.attention.bias": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.attention.dense.bias": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.attention.dense.weight": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.attention.masked_bias": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.attention.query_key_value.bias": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.attention.query_key_value.weight": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.attention.rotary_emb.inv_freq": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.input_layernorm.bias": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.input_layernorm.weight": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.bias": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.weight": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.bias": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.weight": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.19.post_attention_layernorm.bias": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.19.post_attention_layernorm.weight": "pytorch_model-00020-of-00046.bin",
+    "gpt_neox.layers.2.attention.bias": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.attention.dense.bias": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.attention.dense.weight": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.attention.masked_bias": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.attention.query_key_value.bias": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.attention.query_key_value.weight": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.attention.rotary_emb.inv_freq": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.input_layernorm.bias": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.input_layernorm.weight": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.bias": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.weight": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.bias": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.weight": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.2.post_attention_layernorm.bias": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.2.post_attention_layernorm.weight": "pytorch_model-00003-of-00046.bin",
+    "gpt_neox.layers.20.attention.bias": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.attention.dense.bias": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.attention.dense.weight": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.attention.masked_bias": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.attention.query_key_value.bias": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.attention.query_key_value.weight": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.attention.rotary_emb.inv_freq": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.input_layernorm.bias": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.input_layernorm.weight": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.bias": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.weight": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.bias": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.weight": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.20.post_attention_layernorm.bias": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.20.post_attention_layernorm.weight": "pytorch_model-00021-of-00046.bin",
+    "gpt_neox.layers.21.attention.bias": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.attention.dense.bias": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.attention.dense.weight": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.attention.masked_bias": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.attention.query_key_value.bias": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.attention.query_key_value.weight": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.attention.rotary_emb.inv_freq": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.input_layernorm.bias": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.input_layernorm.weight": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.bias": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.weight": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.bias": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.weight": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.21.post_attention_layernorm.bias": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.21.post_attention_layernorm.weight": "pytorch_model-00022-of-00046.bin",
+    "gpt_neox.layers.22.attention.bias": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.attention.dense.bias": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.attention.dense.weight": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.attention.masked_bias": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.attention.query_key_value.bias": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.attention.query_key_value.weight": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.attention.rotary_emb.inv_freq": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.input_layernorm.bias": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.input_layernorm.weight": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.bias": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.weight": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.bias": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.weight": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.22.post_attention_layernorm.bias": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.22.post_attention_layernorm.weight": "pytorch_model-00023-of-00046.bin",
+    "gpt_neox.layers.23.attention.bias": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.attention.dense.bias": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.attention.dense.weight": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.attention.masked_bias": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.attention.query_key_value.bias": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.attention.query_key_value.weight": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.attention.rotary_emb.inv_freq": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.input_layernorm.bias": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.input_layernorm.weight": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.bias": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.weight": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.bias": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.weight": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.23.post_attention_layernorm.bias": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.23.post_attention_layernorm.weight": "pytorch_model-00024-of-00046.bin",
+    "gpt_neox.layers.24.attention.bias": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.attention.dense.bias": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.attention.dense.weight": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.attention.masked_bias": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.attention.query_key_value.bias": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.attention.query_key_value.weight": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.attention.rotary_emb.inv_freq": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.input_layernorm.bias": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.input_layernorm.weight": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.bias": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.weight": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.bias": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.weight": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.24.post_attention_layernorm.bias": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.24.post_attention_layernorm.weight": "pytorch_model-00025-of-00046.bin",
+    "gpt_neox.layers.25.attention.bias": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.attention.dense.bias": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.attention.dense.weight": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.attention.masked_bias": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.attention.query_key_value.bias": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.attention.query_key_value.weight": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.attention.rotary_emb.inv_freq": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.input_layernorm.bias": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.input_layernorm.weight": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.bias": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.weight": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.bias": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.weight": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.25.post_attention_layernorm.bias": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.25.post_attention_layernorm.weight": "pytorch_model-00026-of-00046.bin",
+    "gpt_neox.layers.26.attention.bias": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.attention.dense.bias": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.attention.dense.weight": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.attention.masked_bias": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.attention.query_key_value.bias": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.attention.query_key_value.weight": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.attention.rotary_emb.inv_freq": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.input_layernorm.bias": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.input_layernorm.weight": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.bias": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.weight": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.bias": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.weight": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.26.post_attention_layernorm.bias": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.26.post_attention_layernorm.weight": "pytorch_model-00027-of-00046.bin",
+    "gpt_neox.layers.27.attention.bias": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.attention.dense.bias": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.attention.dense.weight": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.attention.masked_bias": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.attention.query_key_value.bias": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.attention.query_key_value.weight": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.attention.rotary_emb.inv_freq": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.input_layernorm.bias": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.input_layernorm.weight": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.bias": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.weight": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.bias": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.weight": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.27.post_attention_layernorm.bias": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.27.post_attention_layernorm.weight": "pytorch_model-00028-of-00046.bin",
+    "gpt_neox.layers.28.attention.bias": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.attention.dense.bias": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.attention.dense.weight": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.attention.masked_bias": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.attention.query_key_value.bias": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.attention.query_key_value.weight": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.attention.rotary_emb.inv_freq": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.input_layernorm.bias": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.input_layernorm.weight": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.bias": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.weight": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.bias": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.weight": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.28.post_attention_layernorm.bias": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.28.post_attention_layernorm.weight": "pytorch_model-00029-of-00046.bin",
+    "gpt_neox.layers.29.attention.bias": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.attention.dense.bias": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.attention.dense.weight": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.attention.masked_bias": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.attention.query_key_value.bias": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.attention.query_key_value.weight": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.attention.rotary_emb.inv_freq": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.input_layernorm.bias": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.input_layernorm.weight": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.bias": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.weight": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.bias": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.weight": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.29.post_attention_layernorm.bias": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.29.post_attention_layernorm.weight": "pytorch_model-00030-of-00046.bin",
+    "gpt_neox.layers.3.attention.bias": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.attention.dense.bias": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.attention.dense.weight": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.attention.masked_bias": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.attention.query_key_value.bias": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.attention.query_key_value.weight": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.attention.rotary_emb.inv_freq": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.input_layernorm.bias": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.input_layernorm.weight": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.bias": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.weight": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.bias": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.weight": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.3.post_attention_layernorm.bias": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.3.post_attention_layernorm.weight": "pytorch_model-00004-of-00046.bin",
+    "gpt_neox.layers.30.attention.bias": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.attention.dense.bias": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.attention.dense.weight": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.attention.masked_bias": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.attention.query_key_value.bias": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.attention.query_key_value.weight": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.attention.rotary_emb.inv_freq": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.input_layernorm.bias": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.input_layernorm.weight": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.bias": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.weight": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.bias": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.weight": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.30.post_attention_layernorm.bias": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.30.post_attention_layernorm.weight": "pytorch_model-00031-of-00046.bin",
+    "gpt_neox.layers.31.attention.bias": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.attention.dense.bias": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.attention.dense.weight": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.attention.masked_bias": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.attention.query_key_value.bias": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.attention.query_key_value.weight": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.attention.rotary_emb.inv_freq": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.input_layernorm.bias": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.input_layernorm.weight": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.bias": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.weight": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.bias": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.weight": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.31.post_attention_layernorm.bias": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.31.post_attention_layernorm.weight": "pytorch_model-00032-of-00046.bin",
+    "gpt_neox.layers.32.attention.bias": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.attention.dense.bias": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.attention.dense.weight": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.attention.masked_bias": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.attention.query_key_value.bias": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.attention.query_key_value.weight": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.attention.rotary_emb.inv_freq": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.input_layernorm.bias": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.input_layernorm.weight": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.bias": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.weight": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.bias": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.weight": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.32.post_attention_layernorm.bias": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.32.post_attention_layernorm.weight": "pytorch_model-00033-of-00046.bin",
+    "gpt_neox.layers.33.attention.bias": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.attention.dense.bias": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.attention.dense.weight": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.attention.masked_bias": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.attention.query_key_value.bias": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.attention.query_key_value.weight": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.attention.rotary_emb.inv_freq": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.input_layernorm.bias": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.input_layernorm.weight": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.bias": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.weight": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.bias": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.weight": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.33.post_attention_layernorm.bias": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.33.post_attention_layernorm.weight": "pytorch_model-00034-of-00046.bin",
+    "gpt_neox.layers.34.attention.bias": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.attention.dense.bias": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.attention.dense.weight": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.attention.masked_bias": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.attention.query_key_value.bias": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.attention.query_key_value.weight": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.attention.rotary_emb.inv_freq": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.input_layernorm.bias": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.input_layernorm.weight": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.mlp.dense_4h_to_h.bias": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.34.mlp.dense_4h_to_h.weight": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.34.mlp.dense_h_to_4h.bias": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.34.mlp.dense_h_to_4h.weight": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.34.post_attention_layernorm.bias": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.34.post_attention_layernorm.weight": "pytorch_model-00035-of-00046.bin",
+    "gpt_neox.layers.35.attention.bias": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.attention.dense.bias": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.attention.dense.weight": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.attention.masked_bias": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.attention.query_key_value.bias": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.attention.query_key_value.weight": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.attention.rotary_emb.inv_freq": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.input_layernorm.bias": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.input_layernorm.weight": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.mlp.dense_4h_to_h.bias": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.35.mlp.dense_4h_to_h.weight": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.35.mlp.dense_h_to_4h.bias": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.35.mlp.dense_h_to_4h.weight": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.35.post_attention_layernorm.bias": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.35.post_attention_layernorm.weight": "pytorch_model-00036-of-00046.bin",
+    "gpt_neox.layers.36.attention.bias": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.attention.dense.bias": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.attention.dense.weight": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.attention.masked_bias": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.attention.query_key_value.bias": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.attention.query_key_value.weight": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.attention.rotary_emb.inv_freq": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.input_layernorm.bias": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.input_layernorm.weight": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.mlp.dense_4h_to_h.bias": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.36.mlp.dense_4h_to_h.weight": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.36.mlp.dense_h_to_4h.bias": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.36.mlp.dense_h_to_4h.weight": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.36.post_attention_layernorm.bias": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.36.post_attention_layernorm.weight": "pytorch_model-00037-of-00046.bin",
+    "gpt_neox.layers.37.attention.bias": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.attention.dense.bias": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.attention.dense.weight": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.attention.masked_bias": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.attention.query_key_value.bias": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.attention.query_key_value.weight": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.attention.rotary_emb.inv_freq": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.input_layernorm.bias": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.input_layernorm.weight": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.mlp.dense_4h_to_h.bias": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.37.mlp.dense_4h_to_h.weight": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.37.mlp.dense_h_to_4h.bias": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.37.mlp.dense_h_to_4h.weight": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.37.post_attention_layernorm.bias": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.37.post_attention_layernorm.weight": "pytorch_model-00038-of-00046.bin",
+    "gpt_neox.layers.38.attention.bias": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.attention.dense.bias": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.attention.dense.weight": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.attention.masked_bias": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.attention.query_key_value.bias": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.attention.query_key_value.weight": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.attention.rotary_emb.inv_freq": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.input_layernorm.bias": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.input_layernorm.weight": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.mlp.dense_4h_to_h.bias": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.38.mlp.dense_4h_to_h.weight": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.38.mlp.dense_h_to_4h.bias": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.38.mlp.dense_h_to_4h.weight": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.38.post_attention_layernorm.bias": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.38.post_attention_layernorm.weight": "pytorch_model-00039-of-00046.bin",
+    "gpt_neox.layers.39.attention.bias": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.attention.dense.bias": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.attention.dense.weight": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.attention.masked_bias": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.attention.query_key_value.bias": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.attention.query_key_value.weight": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.attention.rotary_emb.inv_freq": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.input_layernorm.bias": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.input_layernorm.weight": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.mlp.dense_4h_to_h.bias": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.39.mlp.dense_4h_to_h.weight": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.39.mlp.dense_h_to_4h.bias": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.39.mlp.dense_h_to_4h.weight": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.39.post_attention_layernorm.bias": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.39.post_attention_layernorm.weight": "pytorch_model-00040-of-00046.bin",
+    "gpt_neox.layers.4.attention.bias": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.attention.dense.bias": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.attention.dense.weight": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.attention.masked_bias": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.attention.query_key_value.bias": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.attention.query_key_value.weight": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.attention.rotary_emb.inv_freq": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.input_layernorm.bias": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.input_layernorm.weight": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.bias": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.weight": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.bias": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.weight": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.4.post_attention_layernorm.bias": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.4.post_attention_layernorm.weight": "pytorch_model-00005-of-00046.bin",
+    "gpt_neox.layers.40.attention.bias": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.attention.dense.bias": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.attention.dense.weight": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.attention.masked_bias": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.attention.query_key_value.bias": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.attention.query_key_value.weight": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.attention.rotary_emb.inv_freq": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.input_layernorm.bias": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.input_layernorm.weight": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.mlp.dense_4h_to_h.bias": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.40.mlp.dense_4h_to_h.weight": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.40.mlp.dense_h_to_4h.bias": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.40.mlp.dense_h_to_4h.weight": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.40.post_attention_layernorm.bias": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.40.post_attention_layernorm.weight": "pytorch_model-00041-of-00046.bin",
+    "gpt_neox.layers.41.attention.bias": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.attention.dense.bias": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.attention.dense.weight": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.attention.masked_bias": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.attention.query_key_value.bias": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.attention.query_key_value.weight": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.attention.rotary_emb.inv_freq": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.input_layernorm.bias": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.input_layernorm.weight": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.mlp.dense_4h_to_h.bias": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.41.mlp.dense_4h_to_h.weight": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.41.mlp.dense_h_to_4h.bias": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.41.mlp.dense_h_to_4h.weight": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.41.post_attention_layernorm.bias": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.41.post_attention_layernorm.weight": "pytorch_model-00042-of-00046.bin",
+    "gpt_neox.layers.42.attention.bias": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.attention.dense.bias": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.attention.dense.weight": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.attention.masked_bias": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.attention.query_key_value.bias": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.attention.query_key_value.weight": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.attention.rotary_emb.inv_freq": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.input_layernorm.bias": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.input_layernorm.weight": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.mlp.dense_4h_to_h.bias": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.42.mlp.dense_4h_to_h.weight": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.42.mlp.dense_h_to_4h.bias": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.42.mlp.dense_h_to_4h.weight": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.42.post_attention_layernorm.bias": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.42.post_attention_layernorm.weight": "pytorch_model-00043-of-00046.bin",
+    "gpt_neox.layers.43.attention.bias": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.attention.dense.bias": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.attention.dense.weight": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.attention.masked_bias": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.attention.query_key_value.bias": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.attention.query_key_value.weight": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.attention.rotary_emb.inv_freq": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.input_layernorm.bias": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.input_layernorm.weight": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.mlp.dense_4h_to_h.bias": "pytorch_model-00045-of-00046.bin",
+    "gpt_neox.layers.43.mlp.dense_4h_to_h.weight": "pytorch_model-00045-of-00046.bin",
+    "gpt_neox.layers.43.mlp.dense_h_to_4h.bias": "pytorch_model-00045-of-00046.bin",
+    "gpt_neox.layers.43.mlp.dense_h_to_4h.weight": "pytorch_model-00045-of-00046.bin",
+    "gpt_neox.layers.43.post_attention_layernorm.bias": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.43.post_attention_layernorm.weight": "pytorch_model-00044-of-00046.bin",
+    "gpt_neox.layers.5.attention.bias": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.attention.dense.bias": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.attention.dense.weight": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.attention.masked_bias": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.attention.query_key_value.bias": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.attention.query_key_value.weight": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.attention.rotary_emb.inv_freq": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.input_layernorm.bias": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.input_layernorm.weight": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.bias": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.weight": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.bias": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.weight": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.5.post_attention_layernorm.bias": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.5.post_attention_layernorm.weight": "pytorch_model-00006-of-00046.bin",
+    "gpt_neox.layers.6.attention.bias": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.attention.dense.bias": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.attention.dense.weight": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.attention.masked_bias": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.attention.query_key_value.bias": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.attention.query_key_value.weight": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.attention.rotary_emb.inv_freq": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.input_layernorm.bias": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.input_layernorm.weight": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.bias": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.weight": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.bias": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.weight": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.6.post_attention_layernorm.bias": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.6.post_attention_layernorm.weight": "pytorch_model-00007-of-00046.bin",
+    "gpt_neox.layers.7.attention.bias": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.attention.dense.bias": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.attention.dense.weight": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.attention.masked_bias": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.attention.query_key_value.bias": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.attention.query_key_value.weight": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.attention.rotary_emb.inv_freq": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.input_layernorm.bias": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.input_layernorm.weight": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.bias": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.weight": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.bias": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.weight": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.7.post_attention_layernorm.bias": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.7.post_attention_layernorm.weight": "pytorch_model-00008-of-00046.bin",
+    "gpt_neox.layers.8.attention.bias": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.attention.dense.bias": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.attention.dense.weight": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.attention.masked_bias": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.attention.query_key_value.bias": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.attention.query_key_value.weight": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.attention.rotary_emb.inv_freq": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.input_layernorm.bias": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.input_layernorm.weight": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.bias": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.weight": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.bias": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.weight": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.8.post_attention_layernorm.bias": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.8.post_attention_layernorm.weight": "pytorch_model-00009-of-00046.bin",
+    "gpt_neox.layers.9.attention.bias": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.attention.dense.bias": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.attention.dense.weight": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.attention.masked_bias": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.attention.query_key_value.bias": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.attention.query_key_value.weight": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.attention.rotary_emb.inv_freq": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.input_layernorm.bias": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.input_layernorm.weight": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.bias": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.weight": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.bias": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.weight": "pytorch_model-00011-of-00046.bin",
+    "gpt_neox.layers.9.post_attention_layernorm.bias": "pytorch_model-00010-of-00046.bin",
+    "gpt_neox.layers.9.post_attention_layernorm.weight": "pytorch_model-00010-of-00046.bin"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "unk_token": "<\|endoftext\|>"}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff