auto_round format

Browse files

Signed-off-by: Zhang, Weiwei1 <weiwei1.zhang@intel.com>

Files changed (5) hide show

config.json +4 -6
model-00001-of-00004.safetensors +2 -2
model-00002-of-00004.safetensors +2 -2
model.safetensors.index.json +1 -121
quantize_config.json → quantization_config.json +3 -5

config.json CHANGED Viewed

@@ -45,12 +45,11 @@
   "quantization_config": {
     "amp": true,
     "autoround_version": "0.4.2.dev",
     "batch_size": 8,
     "bits": 4,
-    "block_name_to_quantize": "transformer.encoder.layers",
-    "damp_percent": 0.01,
     "data_type": "int",
-    "desc_act": false,
     "enable_minmax_tuning": true,
     "enable_norm_bias_tuning": false,
     "enable_quanted_input": true,
@@ -61,12 +60,11 @@
     "lr": 0.001,
     "minmax_lr": 0.001,
     "nsamples": 512,
-    "quant_method": "gptq",
     "scale_dtype": "torch.float16",
     "seqlen": 2048,
     "sym": true,
-    "to_quant_block_names": "transformer.encoder.layers",
-    "true_sequential": false
   },
   "rmsnorm": true,
   "rope_ratio": 1,

   "quantization_config": {
     "amp": true,
     "autoround_version": "0.4.2.dev",
+    "backend": "auto_round:gptq:exllamav2",
     "batch_size": 8,
     "bits": 4,
     "data_type": "int",
+    "dataset": "NeelNanda/pile-10k",
     "enable_minmax_tuning": true,
     "enable_norm_bias_tuning": false,
     "enable_quanted_input": true,
     "lr": 0.001,
     "minmax_lr": 0.001,
     "nsamples": 512,
+    "quant_method": "intel/auto-round",
     "scale_dtype": "torch.float16",
     "seqlen": 2048,
     "sym": true,
+    "to_quant_block_names": "transformer.encoder.layers"
   },
   "rmsnorm": true,
   "rope_ratio": 1,

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62829b26f86cde3129ce4012e21dd67e0259bc05131c3a463b1dfb854f680949
-size 4975739040

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7c295fef9b3f7fd900bdf38512c4a1a05621e85a3123de63d2dbb2ad4139b40
+size 4973226600

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94f8b1740de71c38f3d7968e6c29191dbe7231dcafb898d6fbc16348efe2a203
-size 4984273648

 version https://git-lfs.github.com/spec/v1
+oid sha256:50d9300df8c11f3332a3bec54fbe5f3da7d2a51cd76152a5d4a89229d6b20fcc
+size 4983924232

model.safetensors.index.json CHANGED Viewed

@@ -1,23 +1,20 @@
 {
   "metadata": {
-    "total_size": 15742098496
   },
   "weight_map": {
     "transformer.embedding.word_embeddings.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.final_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.0.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.0.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.0.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -28,18 +25,15 @@
     "transformer.encoder.layers.0.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.1.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.1.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.1.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -50,18 +44,15 @@
     "transformer.encoder.layers.1.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.10.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.10.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.10.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -72,18 +63,15 @@
     "transformer.encoder.layers.10.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.11.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.11.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.11.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -94,18 +82,15 @@
     "transformer.encoder.layers.11.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.12.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.12.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.12.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -116,18 +101,15 @@
     "transformer.encoder.layers.12.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.13.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.13.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.13.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -138,18 +120,15 @@
     "transformer.encoder.layers.13.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.14.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.14.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.14.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -160,18 +139,15 @@
     "transformer.encoder.layers.14.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.15.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.15.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.15.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -182,18 +158,15 @@
     "transformer.encoder.layers.15.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.16.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.16.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.16.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -204,18 +177,15 @@
     "transformer.encoder.layers.16.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.17.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.17.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.17.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -226,18 +196,15 @@
     "transformer.encoder.layers.17.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.18.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.18.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.18.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -248,18 +215,15 @@
     "transformer.encoder.layers.18.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.19.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.19.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.19.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -270,18 +234,15 @@
     "transformer.encoder.layers.19.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.2.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.2.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.2.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -292,18 +253,15 @@
     "transformer.encoder.layers.2.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.20.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.20.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.20.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -314,18 +272,15 @@
     "transformer.encoder.layers.20.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.21.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.21.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.21.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -336,18 +291,15 @@
     "transformer.encoder.layers.21.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.22.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.22.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.22.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -358,18 +310,15 @@
     "transformer.encoder.layers.22.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.23.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.23.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.23.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -380,18 +329,15 @@
     "transformer.encoder.layers.23.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.24.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.24.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.24.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -402,18 +348,15 @@
     "transformer.encoder.layers.24.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.25.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.25.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.25.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -424,18 +367,15 @@
     "transformer.encoder.layers.25.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.26.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.26.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.26.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -446,18 +386,15 @@
     "transformer.encoder.layers.26.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.27.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.27.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.27.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -468,18 +405,15 @@
     "transformer.encoder.layers.27.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.28.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.28.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.28.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -490,18 +424,15 @@
     "transformer.encoder.layers.28.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.29.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.29.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.29.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -512,18 +443,15 @@
     "transformer.encoder.layers.29.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.3.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.3.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.3.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -534,18 +462,15 @@
     "transformer.encoder.layers.3.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.30.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.30.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.30.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -556,18 +481,15 @@
     "transformer.encoder.layers.30.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.31.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.31.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.31.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -578,18 +500,15 @@
     "transformer.encoder.layers.31.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.32.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.32.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.32.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -600,18 +519,15 @@
     "transformer.encoder.layers.32.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.33.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.33.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.33.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -622,18 +538,15 @@
     "transformer.encoder.layers.33.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.34.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.34.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.34.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -644,18 +557,15 @@
     "transformer.encoder.layers.34.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.35.mlp.dense_4h_to_h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.35.mlp.dense_h_to_4h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.35.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -666,18 +576,15 @@
     "transformer.encoder.layers.35.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.36.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.36.mlp.dense_4h_to_h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.36.mlp.dense_h_to_4h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.36.self_attention.dense.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.dense.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.dense.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.dense.qzeros": "model-00002-of-00004.safetensors",
@@ -688,18 +595,15 @@
     "transformer.encoder.layers.36.self_attention.query_key_value.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.query_key_value.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.37.mlp.dense_4h_to_h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.37.mlp.dense_h_to_4h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.37.self_attention.dense.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.dense.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.dense.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.dense.qzeros": "model-00002-of-00004.safetensors",
@@ -710,18 +614,15 @@
     "transformer.encoder.layers.37.self_attention.query_key_value.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.query_key_value.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.38.mlp.dense_4h_to_h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.38.mlp.dense_h_to_4h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.38.self_attention.dense.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.dense.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.dense.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.dense.qzeros": "model-00002-of-00004.safetensors",
@@ -732,18 +633,15 @@
     "transformer.encoder.layers.38.self_attention.query_key_value.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.query_key_value.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.39.mlp.dense_4h_to_h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.39.mlp.dense_h_to_4h.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "transformer.encoder.layers.39.self_attention.dense.bias": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.dense.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.dense.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.dense.qzeros": "model-00002-of-00004.safetensors",
@@ -754,18 +652,15 @@
     "transformer.encoder.layers.39.self_attention.query_key_value.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.query_key_value.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.4.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.4.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.4.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -776,18 +671,15 @@
     "transformer.encoder.layers.4.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.5.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.5.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.5.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -798,18 +690,15 @@
     "transformer.encoder.layers.5.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.6.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.6.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.6.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -820,18 +709,15 @@
     "transformer.encoder.layers.6.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.7.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.7.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.7.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -842,18 +728,15 @@
     "transformer.encoder.layers.7.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.8.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.8.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.8.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
@@ -864,18 +747,15 @@
     "transformer.encoder.layers.8.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.9.mlp.dense_4h_to_h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.9.mlp.dense_h_to_4h.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "transformer.encoder.layers.9.self_attention.dense.bias": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",

 {
   "metadata": {
+    "total_size": 15739251776
   },
   "weight_map": {
     "transformer.embedding.word_embeddings.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.final_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.0.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.1.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.10.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.11.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.12.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.13.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.14.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.15.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.16.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.17.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.18.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.19.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.2.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.20.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.21.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.22.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.23.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.24.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.25.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.26.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.27.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.28.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.29.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.3.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.30.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.31.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.32.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.33.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.34.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.35.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.35.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.36.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.dense.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.dense.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.dense.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.query_key_value.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.36.self_attention.query_key_value.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.dense.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.dense.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.dense.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.query_key_value.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.37.self_attention.query_key_value.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.dense.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.dense.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.dense.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.query_key_value.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.38.self_attention.query_key_value.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_4h_to_h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_4h_to_h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_4h_to_h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_4h_to_h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_h_to_4h.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_h_to_4h.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_h_to_4h.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.mlp.dense_h_to_4h.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.dense.g_idx": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.dense.qweight": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.dense.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.query_key_value.qzeros": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.39.self_attention.query_key_value.scales": "model-00002-of-00004.safetensors",
     "transformer.encoder.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.4.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.5.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.6.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.7.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.query_key_value.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.8.self_attention.query_key_value.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_4h_to_h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_4h_to_h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_4h_to_h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_4h_to_h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_h_to_4h.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_h_to_4h.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_h_to_4h.qzeros": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.mlp.dense_h_to_4h.scales": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.self_attention.dense.g_idx": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.self_attention.dense.qweight": "model-00001-of-00004.safetensors",
     "transformer.encoder.layers.9.self_attention.dense.qzeros": "model-00001-of-00004.safetensors",

quantize_config.json → quantization_config.json RENAMED Viewed

@@ -17,10 +17,8 @@
   "low_gpu_mem_usage": false,
   "to_quant_block_names": "transformer.encoder.layers",
   "enable_norm_bias_tuning": false,
   "autoround_version": "0.4.2.dev",
-  "block_name_to_quantize": "transformer.encoder.layers",
-  "quant_method": "gptq",
-  "desc_act": false,
-  "true_sequential": false,
-  "damp_percent": 0.01
 }

   "low_gpu_mem_usage": false,
   "to_quant_block_names": "transformer.encoder.layers",
   "enable_norm_bias_tuning": false,
+  "dataset": "NeelNanda/pile-10k",
   "autoround_version": "0.4.2.dev",
+  "quant_method": "intel/auto-round",
+  "backend": "auto_round:gptq:exllamav2"
 }