THUDM
/

chatglm-6b-int4

Inference Endpoints

Model card Files Files and versions Community

zxdu20 commited on Apr 7, 2023

Commit

5fc46d2

•

1 Parent(s): bfb1a8f

Fix embedding quantization

Files changed (1) hide show

modeling_chatglm.py +10 -5

modeling_chatglm.py CHANGED Viewed

@@ -1408,6 +1408,11 @@ class ChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):
         self.transformer = quantize(self.transformer, bits, use_quantization_cache=use_quantization_cache, empty_init=empty_init, **kwargs)
         if quantize_embeddings:
             logger.info("Applying quantization to embeddings")
             self.transformer.word_embeddings = QuantizedEmbedding(
@@ -1415,11 +1420,11 @@ class ChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):
                 weight_tensor=self.transformer.word_embeddings.weight.to(self.device),
                 num_embeddings=self.transformer.word_embeddings.num_embeddings,
                 embedding_dim=self.transformer.word_embeddings.embedding_dim,
-                dtype=torch.half,
-                empty_init=True,
                 device=self.transformer.word_embeddings.weight.device,
             )
-            self.lm_head =  QuantizedLinear(
                 weight_bit_width=bits,
                 weight_tensor=self.lm_head.weight.to(self.device),
                 bias_tensor=None,
@@ -1428,8 +1433,8 @@ class ChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):
                 bias=False,
                 quantized_weight=self.transformer.word_embeddings.weight,
                 quantized_weight_scale=self.transformer.word_embeddings.weight_scale,
-                dtype=torch.half,
-                empty_init=True,
                 device=self.lm_head.weight.device,
             )

         self.transformer = quantize(self.transformer, bits, use_quantization_cache=use_quantization_cache, empty_init=empty_init, **kwargs)
+        if self.device == torch.device("cpu"):
+            dtype = torch.float32
+        else:
+            dtype = torch.half
         if quantize_embeddings:
             logger.info("Applying quantization to embeddings")
             self.transformer.word_embeddings = QuantizedEmbedding(
                 weight_tensor=self.transformer.word_embeddings.weight.to(self.device),
                 num_embeddings=self.transformer.word_embeddings.num_embeddings,
                 embedding_dim=self.transformer.word_embeddings.embedding_dim,
+                dtype=dtype,
+                empty_init=empty_init,
                 device=self.transformer.word_embeddings.weight.device,
             )
+            self.lm_head = QuantizedLinear(
                 weight_bit_width=bits,
                 weight_tensor=self.lm_head.weight.to(self.device),
                 bias_tensor=None,
                 bias=False,
                 quantized_weight=self.transformer.word_embeddings.weight,
                 quantized_weight_scale=self.transformer.word_embeddings.weight_scale,
+                dtype=dtype,
+                empty_init=empty_init,
                 device=self.lm_head.weight.device,
             )