请问这个加速版本还支持原版模型的quantize接口吗,4bit和8bit量化

#11
by goldenteethCN - opened

或者有考虑直接放出加速版本的4bit或8bit模型吗

Tencent Music Entertainment Lyra Lab org

@vanewu 看看这个问题

Tencent Music Entertainment Lyra Lab org

@goldenteethCN 我们已经更新了新的加速版本,移除了之前 TensorRT 的加速版本。 新的加速版本在源码级做了较多优化,性能,易用性和显卡适配性都更好。可以更新使用。 对于量化上目前我们咱未支持,后续会根据需求再看是否对其进行操作。

Tencent Music Entertainment Lyra Lab org

@goldenteethCN 新版支持 int8 模式,详见 readme. 但是我们未做过 int4 的比对,可能存在精度差异。

vanewu changed discussion status to closed

Sign up or log in to comment