neuralmagic
/

granite-3.1-8b-instruct-quantized.w8a8

Text Generation

Inference Endpoints

8-bit precision

compressed-tensors

Model card Files Files and versions Community

nm-research commited on 14 days ago

Commit

9b7d485

·

verified ·

1 Parent(s): 29ef852

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -74,10 +74,10 @@ python quantize.py --model_path ibm-granite/granite-3.1-8b-instruct --quant_path
 ```python
 from datasets import load_dataset
-from transformers import AutoTokenizer
 from llmcompressor.modifiers.quantization import GPTQModifier
 from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
-from llmcompressor.transformers import SparseAutoModelForCausalLM, oneshot, apply
 import argparse
 from compressed_tensors.quantization import QuantizationScheme, QuantizationArgs, QuantizationType, QuantizationStrategy
@@ -90,7 +90,7 @@ parser.add_argument('--dampening_frac', type=float, default=0.1)
 parser.add_argument('--observer', type=str, default="minmax")
 args = parser.parse_args()
-model = SparseAutoModelForCausalLM.from_pretrained(
     args.model_path,
     device_map="auto",
     torch_dtype="auto",

 ```python
 from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForCausalLM
 from llmcompressor.modifiers.quantization import GPTQModifier
 from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
+from llmcompressor.transformers import oneshot, apply
 import argparse
 from compressed_tensors.quantization import QuantizationScheme, QuantizationArgs, QuantizationType, QuantizationStrategy
 parser.add_argument('--observer', type=str, default="minmax")
 args = parser.parse_args()
+model = AutoModelForCausalLM.from_pretrained(
     args.model_path,
     device_map="auto",
     torch_dtype="auto",