Initial Commit

Browse files

Files changed (13) hide show

.gitignore.md +1 -0
LICENSE.md +12 -0
README.md +96 -3
config.json +50 -0
generation_config.json +6 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +691 -0
quantize_config.json +18 -0
special_tokens_map.json +23 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +43 -0

.gitignore.md ADDED Viewed

	@@ -0,0 +1 @@


1	+ .DS_Store

LICENSE.md ADDED Viewed

	@@ -0,0 +1,12 @@

+iGenius
+Copyright (c) 2024, iGenius S.p.A.
+MIT License
+È concessa l'autorizzazione, gratuitamente, a chiunque di ottenere una copia di Modello Italia e dei file di documentazione associati, di utilizzare Modello Italia senza restrizioni, inclusi senza limitazione i diritti di utilizzare, copiare, modificare, unire, pubblicare, distribuire, concedere in sublicenza e/o vendere copie di Modello Italia, e di consentire alle persone a cui Modello Italia è fornito di farlo, nelle condizioni seguenti:
+Il presente avviso di copyright e il presente avviso di autorizzazione saranno inclusi in tutte le copie o parti sostanziali di Modello Italia.
+IL MODELLO VIENE FORNITO "COSÌ COM'È", SENZA GARANZIE DI ALCUN TIPO, ESPRESSE O IMPLICITE, INCLUSO MA NON LIMITATO A GARANZIE DI COMMERCIABILITÀ, IDONEITÀ PER UN PARTICOLARE SCOPO E NON VIOLAZIONE. IN NESSUN CASO GLI AUTORI O I TITOLARI DEL COPYRIGHT SARANNO RESPONSABILI PER QUALSIASI RICHIESTA, DANNO O ALTRA RESPONSABILITÀ, IN CASO DI AZIONE DI CONTRATTO, TORTO O ALTRIMENTI, DERIVANTE DA, FUORI O IN CONNESSIONE CON IL SOFTWARE O L'USO O ALTRI AFFARI NEL SOFTWARE.

README.md CHANGED Viewed

@@ -1,3 +1,96 @@
----
-license: mit
----

+---
+license: mit
+language:
+- it
+---
+# Model Card for Modello Italia 9B
+This an UNOFFICIAL conversion/quantization of the OFFICIAL model checkpoint of *"Modello Italia 9B"*, Large Language Model (LLM) developed by [iGenius](https://it.igenius.ai/) in collaboration with [CINECA](https://www.cineca.it/).
+* More information about Modello Italia: [click here](https://it.igenius.ai/language-models).
+This model has been quantized in INT4, group-size 128, and optimized for inferencing on cpu.
+## 🚨 Disclaimers
+* This is an UNOFFICIAL quantization of the OFFICIAL model checkpoint released by iGenius.
+* This model is based also on the conversion made by [Sapienza NLP, Sapienza University of Rome](https://huggingface.co/sapienzanlp).
+* The original model was developed using LitGPT, therefore, the weights need to be converted before they can be used with Hugging Face transformers.
+## 🚨 Terms and Conditions
+* **Note:** By using this model, you accept the iGenius' [**terms and conditions**](https://secure.igenius.ai/legal/italia_terms_and_conditions.pdf).
+## 🚨 Reproducibility
+This model has been quantized using Intel [auto-round](https://github.com/intel/auto-round), based on [SignRound technique](https://arxiv.org/pdf/2309.05516v4).
+```python3 ./examples/language-modeling/main.py \
+--model_name  ./models/sapienzanlp_modello-italia-9b \
+--device 0 \
+--group_size 128 \
+--bits 4 \
+--iters 1000 \
+--deployment_device 'cpu' \
+--output_dir "./models/sapienzanlp_modello-italia-9b-int4" \
+--train_bs 1 \
+--gradient_accumulate_steps 8
+```
+## 🚨 Biases and Risks
+From the terms and conditions of iGenius for Modello Italia:
+> Modello Italia è concepito per essere utilizzato da tutti e per adattarsi a una vasta gamma di casi
+  d'uso. È stato progettato con l'obiettivo di essere accessibile a persone provenienti da
+  background, esperienze e prospettive diverse. Modello Italia si rivolge agli utenti e alle loro
+  esigenze senza inserire giudizi superflui o normative, riconoscendo al contempo che anche
+  contenuti potenzialmente problematici in determinati contesti possono avere scopi validi in altri.
+  Il rispetto per la dignità e l'autonomia di tutti gli utenti, specialmente in termini di libertà di
+  pensiero ed espressione, è un pilastro fondamentale del suo design. Tuttavia, essendo una nuova
+  tecnologia, Modello Italia comporta rischi legati al suo utilizzo. I test condotti finora sono stati
+  eseguiti in italiano e non hanno potuto coprire tutte le possibili situazioni. Pertanto, come per
+  tutti gli LLM, non è possibile prevedere in anticipo gli output di Modello Italia e il modello
+  potrebbe in alcuni casi generare risposte imprecise, tendenziose o altre risposte discutibili. Prima
+  di utilizzare Modello Italia in qualsiasi contesto, gli sviluppatori sono fortemente incoraggiati a
+  eseguire test di sicurezza e adattamento specifici per le loro applicazioni.
+We are aware of the biases and potential problematic/toxic content that current pretrained large language models exhibit: more specifically, as probabilistic models of (Italian and English) languages, they reflect and amplify the biases of their training data.
+For more information about this issue, please refer to our survey paper:
+* [Biases in Large Language Models: Origins, Inventory, and Discussion](https://dl.acm.org/doi/full/10.1145/3597307)
+## Model architecture
+* The model architecture is **based on GPT-NeoX**.
+## Results
+**Modello Italia 9B INT4 group-size 128 cpu-optimized** has not been evaluated on standard benchmarks yet.
+If you would like to contribute with your evaluation, please feel free to submit a pull request.
+## How to use Modello Italia with Hugging Face transformers
+```python
+import torch
+import transformers as tr
+device = "cuda" if torch.cuda.is_available() else "cpu"
+tokenizer = tr.AutoTokenizer.from_pretrained("sapienzanlp/modello-italia-9b-bf16")
+model = tr.AutoModelForCausalLM.from_pretrained(
+  "sapienzanlp/modello-italia-9b-bf16",
+  device_map=device,
+  torch_dtype=torch.bfloat16
+)
+MY_SYSTEM_PROMPT_SHORT = (
+  "Tu sei Modello Italia, un modello di linguaggio naturale addestrato da iGenius."
+)
+prompt = "Ciao, chi sei?"
+messages = [
+  {"role": "system", "content": MY_SYSTEM_PROMPT_SHORT},
+  {"role": "user", "content": prompt},
+]
+tokenized_chat = tokenizer.apply_chat_template(
+  messages, tokenize=True, add_generation_prompt=True, return_tensors="pt"
+).to(device)
+out = model.generate(
+  tokenized_chat,
+  max_new_tokens=200,
+  do_sample=False
+)
+```

config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "_name_or_path": "./models/sapienzanlp_modello-italia-9b",
+  "architectures": [
+    "GPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "attention_probs_dropout_prob": 0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu_fast",
+  "hidden_dropout": 0.0,
+  "hidden_dropout_prob": 0,
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 12800,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 4096,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 34,
+  "quantization_config": {
+    "bits": 4,
+    "compute_dtype": null,
+    "damp_percent": 0.01,
+    "desc_act": false,
+    "enable_minmax_tuning": true,
+    "enable_quanted_input": true,
+    "group_size": 128,
+    "iters": 1000,
+    "lr": 0.001,
+    "minmax_lr": 0.001,
+    "model_file_base_name": "model",
+    "model_name_or_path": null,
+    "quant_method": "gptq",
+    "scale_dtype": "fp16",
+    "sym": false,
+    "true_sequential": false
+  },
+  "rope_scaling": null,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.4,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.41.0",
+  "use_cache": true,
+  "use_parallel_residual": true,
+  "vocab_size": 50176
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.41.0"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d2f89cebfe7084f5f5290a707e0752fb11b420b6a872f02a1b964b8dcb2a8c2
+size 4685383120

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1be9eb5046ec6942953e98338107d6c6260f5b9d8541f2bf5a14bd56645e5a9d
+size 513802368

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,691 @@

+{
+  "metadata": {
+    "total_size": 5199104000
+  },
+  "weight_map": {
+    "embed_out.weight": "model-00002-of-00002.safetensors",
+    "gpt_neox.embed_in.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.25.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.26.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.27.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.28.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.29.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.30.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.31.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.32.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.33.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.qweight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.qzeros": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.scales": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors"
+  }
+}

quantize_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "bits": 4,
+  "compute_dtype": null,
+  "damp_percent": 0.01,
+  "desc_act": false,
+  "enable_minmax_tuning": true,
+  "enable_quanted_input": true,
+  "group_size": 128,
+  "iters": 1000,
+  "lr": 0.001,
+  "minmax_lr": 0.001,
+  "model_file_base_name": "model",
+  "model_name_or_path": null,
+  "quant_method": "gptq",
+  "scale_dtype": "fp16",
+  "sym": false,
+  "true_sequential": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd74bea2ba620d87e0a2127d9a21196b862a5cc7942ba4638eb2159bbab3340c
+size 1090536

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}