Initial Upload

Browse files

Files changed (10) hide show

README.md +81 -3
config.json +60 -0
generation_config.json +6 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +731 -0
quantization_config.json +28 -0
special_tokens_map.json +23 -0
tokenizer.json +0 -0
tokenizer_config.json +215 -0

README.md CHANGED Viewed

@@ -1,3 +1,81 @@
----
-license: apache-2.0
----

+---
+language:
+- en
+tags:
+- pytorch
+- causal-lm
+- pythia
+- autoround
+- intel-autoround
+- intel
+- autoawq
+- awq
+- woq
+license: apache-2.0
+model_name: Pythia 12b deduped
+base_model: EleutherAI/pythia-12b-deduped
+inference: false
+model_creator: EleutherAI
+datasets:
+- EleutherAI/pile
+pipeline_tag: text-generation
+prompt_template: '{prompt}
+  '
+quantized_by: fbaldassarri
+---
+## Model Information
+Quantized version of [EleutherAI/pythia-12b-deduped](https://huggingface.co/EleutherAI/pythia-12b-deduped) using torch.float32 for quantization tuning.
+- 4 bits (INT4)
+- group size = 128
+- Asymmetrical Quantization
+- Method AutoAWQ
+Quantization framework: [Intel AutoRound](https://github.com/intel/auto-round) v0.4.3
+Note: this INT4 version of pythia-12b-deduped has been quantized to run inference through CPU.
+## Replication Recipe
+### Step 1 Install Requirements
+I suggest to install requirements into a dedicated python-virtualenv or a conda enviroment.
+```
+wget https://github.com/intel/auto-round/archive/refs/tags/v0.4.3.tar.gz
+tar -xvzf v0.4.3.tar.gz
+cd auto-round-0.4.3
+pip install -r requirements-cpu.txt --upgrade
+```
+### Step 2 Build Intel AutoRound wheel from sources
+```
+pip install -vvv --no-build-isolation -e .[cpu]
+```
+### Step 3 Script for Quantization
+```
+  from transformers import AutoModelForCausalLM, AutoTokenizer
+  model_name = "EleutherAI/pythia-12b-deduped"
+  model = AutoModelForCausalLM.from_pretrained(model_name)
+  tokenizer = AutoTokenizer.from_pretrained(model_name)
+  from auto_round import AutoRound
+  bits, group_size, sym = 4, 128, False
+  autoround = AutoRound(model, tokenizer, nsamples=128, iters=200, seqlen=512, batch_size=4, bits=bits, group_size=group_size, sym=sym)
+  autoround.quantize()
+  output_dir = "./AutoRound/EleutherAI_pythia-12b-deduped-autoawq-int4-gs128-asym"
+  autoround.save_quantized(output_dir, format='auto_awq', inplace=True)
+```
+## License
+[Apache 2.0 License](https://choosealicense.com/licenses/apache-2.0/)
+## Disclaimer
+This quantized model comes with no warranty. It has been developed only for research purposes.

config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "EleutherAI/pythia-12b-deduped",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 20480,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 36,
+  "partial_rotary_factor": 0.25,
+  "quantization_config": {
+    "amp": false,
+    "autoround_version": "0.4.3",
+    "batch_size": 4,
+    "bits": 4,
+    "data_type": "int",
+    "dataset": "NeelNanda/pile-10k",
+    "enable_minmax_tuning": true,
+    "enable_norm_bias_tuning": false,
+    "enable_quanted_input": true,
+    "gradient_accumulate_steps": 1,
+    "group_size": 128,
+    "iters": 200,
+    "low_gpu_mem_usage": false,
+    "lr": 0.005,
+    "minmax_lr": 0.005,
+    "modules_to_not_convert": [
+      "embed_out"
+    ],
+    "nsamples": 128,
+    "quant_method": "awq",
+    "scale_dtype": "torch.float16",
+    "seqlen": 512,
+    "sym": false,
+    "to_quant_block_names": null,
+    "version": "gemm",
+    "zero_point": true
+  },
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
+  "use_cache": true,
+  "use_parallel_residual": true,
+  "vocab_size": 50688
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.47.1"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68fdda2926aefd2ed37bb623a7795c4221fe05cb87a50552f38540e09a38c4b1
+size 4964737520

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a123a12295d35778eb5ae94a945b1a00a69eb9cfb441c5d504d27f8c8197519b
+size 3001331624

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,731 @@

+{
+  "metadata": {
+    "total_size": 7965982720
+  },
+  "weight_map": {
+    "embed_out.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.embed_in.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.24.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.attention.dense.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.attention.dense.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.attention.dense.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.attention.dense.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.attention.query_key_value.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.attention.query_key_value.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.attention.query_key_value.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.attention.query_key_value.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.input_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.mlp.dense_4h_to_h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.mlp.dense_4h_to_h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.mlp.dense_4h_to_h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.mlp.dense_4h_to_h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.mlp.dense_h_to_4h.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.mlp.dense_h_to_4h.qweight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.mlp.dense_h_to_4h.qzeros": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.mlp.dense_h_to_4h.scales": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.post_attention_layernorm.bias": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}

quantization_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "bits": 4,
+  "group_size": 128,
+  "sym": false,
+  "data_type": "int",
+  "enable_quanted_input": true,
+  "enable_minmax_tuning": true,
+  "seqlen": 512,
+  "batch_size": 4,
+  "scale_dtype": "torch.float16",
+  "lr": 0.005,
+  "minmax_lr": 0.005,
+  "gradient_accumulate_steps": 1,
+  "iters": 200,
+  "amp": false,
+  "nsamples": 128,
+  "low_gpu_mem_usage": false,
+  "to_quant_block_names": null,
+  "enable_norm_bias_tuning": false,
+  "dataset": "NeelNanda/pile-10k",
+  "autoround_version": "0.4.3",
+  "quant_method": "awq",
+  "zero_point": true,
+  "version": "gemm",
+  "modules_to_not_convert": [
+    "embed_out"
+  ]
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,215 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
+}