啥年代了。，flash attention mem cache 这些机制早就让复杂度不是n^2 了、 mamba 工业界...

作者：周小小kan

发布于:2024-03-26 09:43

iPhone

转发：0

回复：2

喜欢：0

啥年代了。，flash attention mem cache这些机制早就让复杂度不是n^2 了、 mamba 工业界就没太多人关注，这里是生态的问题除非他好的太多太多不然大家不会打破原先已经有东西

引用：

2024-03-26 09:32

人工智能的底层算法，基本上全部依赖 transformer算法。
但transformer的注意力机制，导致其规模和复杂性的比例，大概是二次方的关系。随着规模越来越大，要求的算力是规模的平方。这也是 $英伟达(NVDA)$ 有多少算力都不够用的原因。
好消息是学术界发明了一个新的mamba模型，在长序列...

全部讨论

夜雨听风投资

04-20 11:08

是的，感觉应该mamba模型还是不够好，所以大家还是在用transformer。

迎风飞扬呀

03-26 09:47

总会有人想超车，会有人用的