Intel
/

t5-small-xsum-int8-dynamic-inc

Text2Text Generation

Intel® Neural Compressor

neural-compressor

PostTrainingDynamic

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

t5-small-xsum-int8-dynamic-inc / README.md

lvkaokao's picture

add model card.

8858d8a over 2 years ago

|

1.07 kB

	---
	license: apache-2.0
	tags:
	- int8
	- Intel® Neural Compressor
	- PostTrainingStatic
	datasets:
	- mnli
	metrics:
	- accuracy
	---

	# INT8 T5 small finetuned on XSum

	### Post-training dynamic quantization

	This is an INT8 PyTorch model quantized with [Intel® Neural Compressor](https://github.com/intel/neural-compressor).

	The original fp32 model comes from the fine-tuned model [adasnew/t5-small-xsum](https://huggingface.co/adasnew/t5-small-xsum).

	The calibration dataloader is the train dataloader. The default calibration sampling size 100 isn't divisible exactly by batch size 8, so the real sampling size is 104.

	The linear modules lm.head, fall back to fp32 for less than 1% relative accuracy loss.

	### Evaluation result

	\| \|INT8\|FP32\|
	\|---\|:---:\|:---:\|
	\| Accuracy (eval-rouge1) \| 29.9008 \|29.9592\|
	\| Model size \|154M\|242M\|

	### Load with Intel® Neural Compressor:

	```python
	from neural_compressor.utils.load_huggingface import OptimizedModel
	int8_model = OptimizedModel.from_pretrained(
	'Intel/roberta-base-squad2-int8-static',
	)
	```