Tele-AI
/

telechat-7B-int8

Text Generation

Model card Files Files and versions Community

liuxz0801 commited on Jan 10

Commit

0b4ef71

•

1 Parent(s): a9469e8

更新配置文件

Files changed (2) hide show

config.json +4 -6
modeling_telechat.py +1 -2

config.json CHANGED Viewed

@@ -4,7 +4,7 @@
   "architectures": [
     "TelechatForCausalLM"
   ],
-  "attention_dropout": 0.0,
   "attention_softmax_in_fp32": true,
   "auto_map": {
     "AutoConfig": "configuration_telechat.TelechatConfig",
@@ -16,25 +16,23 @@
   "eos_token_id": 2,
   "ffn_hidden_size": 12288,
   "flash_attn": true,
-  "hidden_dropout": 0.0,
   "hidden_size": 4096,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "logn": false,
   "masked_softmax_fusion": true,
   "model_type": "telechat",
   "n_head": 32,
   "n_inner": null,
   "n_layer": 30,
-  "offset_alibi": 100,
   "pad_token_id": 3,
-  "pretraining_tp": 2,
-  "seq_length": 8192,
   "skip_bias_add": true,
   "skip_bias_add_qkv": false,
   "slow_but_exact": false,
   "torch_dtype": "float16",
-  "training_seqlen": 4096,
   "transformers_version": "4.30.0",
   "unk_token_id": 0,
   "use_cache": true,

   "architectures": [
     "TelechatForCausalLM"
   ],
+  "attention_dropout": 0.1,
   "attention_softmax_in_fp32": true,
   "auto_map": {
     "AutoConfig": "configuration_telechat.TelechatConfig",
   "eos_token_id": 2,
   "ffn_hidden_size": 12288,
   "flash_attn": true,
+  "hidden_dropout": 0.1,
   "hidden_size": 4096,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "logn": false,
+  "seq_length": 8192,
   "masked_softmax_fusion": true,
   "model_type": "telechat",
   "n_head": 32,
   "n_inner": null,
   "n_layer": 30,
   "pad_token_id": 3,
   "skip_bias_add": true,
   "skip_bias_add_qkv": false,
   "slow_but_exact": false,
   "torch_dtype": "float16",
+  "training_seqlen": 8192,
   "transformers_version": "4.30.0",
   "unk_token_id": 0,
   "use_cache": true,

modeling_telechat.py CHANGED Viewed

@@ -105,8 +105,7 @@ class RotaryEmbedding(torch.nn.Module):
         return ntk_alpha
     def forward(self, x, seq_dim=0, seq_len=None):
-        if seq_len is None:
-            seq_len = x.shape[seq_dim]
         seq_len = max(seq_len, self.config.training_seqlen)
         ntk_alpha = self.get_ntk_alpha(seq_len)
         self.mscale = float(self.get_mscale(seq_len / self.config.training_seqlen))

         return ntk_alpha
     def forward(self, x, seq_dim=0, seq_len=None):
+        seq_len = x.shape[seq_dim]
         seq_len = max(seq_len, self.config.training_seqlen)
         ntk_alpha = self.get_ntk_alpha(seq_len)
         self.mscale = float(self.get_mscale(seq_len / self.config.training_seqlen))