Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

config.json +1 -1
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +29 -29
tokenizer.json +1 -6

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "rope_theta": 1000000.0,
   "sliding_window": null,
   "tie_word_embeddings": true,
-  "torch_dtype": "float32",
   "transformers_version": "4.44.0",
   "use_cache": false,
   "use_sliding_window": false,

   "rope_theta": 1000000.0,
   "sliding_window": null,
   "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
   "transformers_version": "4.44.0",
   "use_cache": false,
   "use_sliding_window": false,

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34eb00fa0644fb1e53827256ff290d1e0f220d894d74bb33fbd4e883766ced5a
-size 4996670464

 version https://git-lfs.github.com/spec/v1
+oid sha256:861c2ec5ce8f32ebb9be60a0d113a088b8bcc2ddbea4cd94f84d3826c9931b1c
+size 2377258952

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efbcfe665bf0fbc742beb0bf7b7bb878ed0eb561a5bda0af0281f96728aa66e5
-size 1178224960

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2473ba39dcd5aa702746fc6fde5d532e3a7c59319c9f511d0e70701883219fd
+size 710208072

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 6174857216
   },
   "weight_map": {
     "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
@@ -160,11 +160,11 @@
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -174,87 +174,87 @@
     "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 5707995136
   },
   "weight_map": {
     "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 512,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {