Snowflake
/

snowflake-arctic-instruct

@@ -2,52 +2,15 @@
   "architectures": [
     "ArcticForCausalLM"
   ],
-  "attention_dropout": 0,
   "auto_map": {
     "AutoConfig": "configuration_arctic.ArcticConfig",
     "AutoModel": "modeling_arctic.ArcticModel",
     "AutoModelForCausalLM": "modeling_arctic.ArcticForCausalLM",
     "AutoModelForSequenceClassification": "modeling_arctic.ArcticForSequenceClassification"
   },
   "bos_token_id": 31998,
   "enable_expert_tensor_parallelism": false,
-  "enc_index": [
-    0,
-    1,
-    2,
-    3,
-    4,
-    5,
-    6,
-    7,
-    8,
-    9,
-    10,
-    11,
-    12,
-    13,
-    14,
-    15,
-    16,
-    17,
-    18,
-    19,
-    20,
-    21,
-    22,
-    23,
-    24,
-    25,
-    26,
-    27,
-    28,
-    29,
-    30,
-    31,
-    32,
-    33,
-    34
-  ],
   "eos_token_id": 31999,
   "hidden_act": "silu",
   "hidden_size": 7168,
@@ -64,7 +27,7 @@
   "num_attention_heads": 56,
   "num_experts_per_tok": 2,
   "num_hidden_layers": 35,
-  "num_key_value_heads": 56,
   "num_local_experts": 128,
   "parallel_attn_mlp_res": true,
   "quantization": null,
@@ -74,7 +37,7 @@
   "sliding_window": null,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.39.0.dev0",
   "use_cache": true,
   "use_residual": true,
   "vocab_size": 32000

   "architectures": [
     "ArcticForCausalLM"
   ],
   "auto_map": {
     "AutoConfig": "configuration_arctic.ArcticConfig",
     "AutoModel": "modeling_arctic.ArcticModel",
     "AutoModelForCausalLM": "modeling_arctic.ArcticForCausalLM",
     "AutoModelForSequenceClassification": "modeling_arctic.ArcticForSequenceClassification"
   },
+  "attention_dropout": 0,
   "bos_token_id": 31998,
   "enable_expert_tensor_parallelism": false,
   "eos_token_id": 31999,
   "hidden_act": "silu",
   "hidden_size": 7168,
   "num_attention_heads": 56,
   "num_experts_per_tok": 2,
   "num_hidden_layers": 35,
+  "num_key_value_heads": 8,
   "num_local_experts": 128,
   "parallel_attn_mlp_res": true,
   "quantization": null,
   "sliding_window": null,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0.dev0",
   "use_cache": true,
   "use_residual": true,
   "vocab_size": 32000