Qwen
/

Qwen-72B

@@ -2,20 +2,20 @@
   "architectures": [
     "QWenLMHeadModel"
   ],
-  "attn_dropout_prob": 0.1,
   "auto_map": {
     "AutoConfig": "configuration_qwen.QWenConfig",
     "AutoModelForCausalLM": "modeling_qwen.QWenLMHeadModel"
   },
-  "bf16": true,
-  "emb_dropout_prob": 0.1,
   "fp16": false,
   "fp32": false,
   "hidden_size": 8192,
   "initializer_range": 0.02,
   "intermediate_size": 49152,
   "kv_channels": 128,
-  "layer_norm_epsilon": 1e-05,
   "max_position_embeddings": 8192,
   "model_type": "qwen",
   "no_bias": true,
@@ -23,22 +23,17 @@
   "num_hidden_layers": 80,
   "onnx_safe": null,
   "padded_vocab_size": 152064,
-  "params_dtype": "torch.bfloat16",
   "rope_theta": 1000000,
   "rotary_emb_base": 1000000,
   "rotary_pct": 1.0,
   "scale_attn_weights": true,
   "seq_length": 8192,
-  "softmax_in_fp32": false,
   "tie_word_embeddings": false,
   "tokenizer_type": "QWenTokenizer",
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.29.2",
   "use_cache": true,
-  "use_cache_kernel": false,
-  "use_cache_quantization": false,
   "use_dynamic_ntk": false,
-  "use_flash_attn": false,
   "use_logn_attn": false,
   "vocab_size": 152064
-}

   "architectures": [
     "QWenLMHeadModel"
   ],
+  "attn_dropout_prob": 0.0,
   "auto_map": {
     "AutoConfig": "configuration_qwen.QWenConfig",
     "AutoModelForCausalLM": "modeling_qwen.QWenLMHeadModel"
   },
+  "bf16": false,
+  "emb_dropout_prob": 0.0,
   "fp16": false,
   "fp32": false,
   "hidden_size": 8192,
   "initializer_range": 0.02,
   "intermediate_size": 49152,
   "kv_channels": 128,
+  "layer_norm_epsilon": 1e-06,
   "max_position_embeddings": 8192,
   "model_type": "qwen",
   "no_bias": true,
   "num_hidden_layers": 80,
   "onnx_safe": null,
   "padded_vocab_size": 152064,
   "rope_theta": 1000000,
   "rotary_emb_base": 1000000,
   "rotary_pct": 1.0,
   "scale_attn_weights": true,
   "seq_length": 8192,
   "tie_word_embeddings": false,
   "tokenizer_type": "QWenTokenizer",
+  "transformers_version": "4.32.0",
   "use_cache": true,
   "use_dynamic_ntk": false,
+  "use_flash_attn": "auto",
   "use_logn_attn": false,
   "vocab_size": 152064
+}