请教一下推理使用Multi-Query Attention 是需要在训练的时候就要使用Multi-Query Attention训练么
#21
by
zhuhai123
- opened
请教一下推理使用Multi-Query Attention 是需要在训练的时候就要使用Multi-Query Attention训练么
还是说用普通的Attention训练出来的模型,也可以经过一些操作直接使用Multi-Query Attention
zxdu20
changed discussion status to
closed