发布于: iPhone转发:0回复:2喜欢:0
啥年代了。,flash attention mem cache这些机制早就让复杂度不是n^2 了、 mamba 工业界就没太多人关注, 这里是生态的问题 除非他好的太多太多 不然大家不会打破原先已经有东西
引用:
2024-03-26 09:32
人工智能的底层算法,基本上全部依赖 transformer算法。
但transformer的注意力机制,导致其规模和复杂性的比例,大概是 二次方的关系。 随着规模越来越大,要求的算力是 规模的平方。 这也是 $英伟达(NVDA)$ 有多少算力都不够用的原因。
好消息是学术界发明了一个新的mamba模型,在长序列...

全部讨论

是的,感觉应该mamba模型还是不够好,所以大家还是在用transformer。

03-26 09:47

总会有人想超车,会有人用的