lgraz
/

mixtral-offloading

Text Generation

text-generation-inference

Inference Endpoints

8-bit precision

Model card Files Files and versions Community

lavawolfiee commited on Dec 30, 2023

Commit

3d47c83

·

1 Parent(s): 55e801c

Update README.md

Files changed (1) hide show

README.md +3 -1

README.md CHANGED Viewed

@@ -10,4 +10,6 @@ library_name: transformers
 tags:
 - mixtral
 - text-generation-inference
----

 tags:
 - mixtral
 - text-generation-inference
+---
+Attention quantization: HQQ 4-bit, groupsize 64, compress zero, compress scale with groupsize 256 \
+Experts quantization: HQQ 2-bit, groupsize 16, compress zero, compress scale with groupsize 128