$英伟达(NVDA)$提高硬件利用效率。在主流Transformer 网络结构中，多头注意力机制Muli-HeadAtt...

作者：财经众谈

发布于:2024-05-29 15:28

Android

转发：0

回复：0

喜欢：0

$英伟达(NVDA)$
提高硬件利用效率。在主流Transformer 网络结构中，多头注意力机制Muli-HeadAttenion(MHA)是重要的织成部分。为了大幅简化无效重复计算，一般采用缓存MHA 中Key 和Value 的方法(KV Cache)米优化推理任务效率。但随着输入上下文窗口长度的增加，传统MHA 中的KV Cache 数据量会大幅增长，给推理任务访存制造了瓶颈。