请问这个加速版本还支持原版模型的quantize接口吗,4bit和8bit量化
#11
by
goldenteethCN
- opened
或者有考虑直接放出加速版本的4bit或8bit模型吗
@goldenteethCN 我们已经更新了新的加速版本,移除了之前 TensorRT 的加速版本。 新的加速版本在源码级做了较多优化,性能,易用性和显卡适配性都更好。可以更新使用。 对于量化上目前我们咱未支持,后续会根据需求再看是否对其进行操作。
@goldenteethCN 新版支持 int8 模式,详见 readme. 但是我们未做过 int4 的比对,可能存在精度差异。
vanewu
changed discussion status to
closed