请教一下推理使用Multi-Query Attention 是需要在训练的时候就要使用Multi-Query Attention训练么

#21
by zhuhai123 - opened

请教一下推理使用Multi-Query Attention 是需要在训练的时候就要使用Multi-Query Attention训练么

还是说用普通的Attention训练出来的模型,也可以经过一些操作直接使用Multi-Query Attention

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org
zxdu20 changed discussion status to closed

Sign up or log in to comment