但transformer的注意力机制,导致其规模和复杂性的比例,大概是 二次方的关系。 随着规模越来越大,要求的算力是 规模的平方。 这也是 $英伟达(NVDA)$ 有多少算力都不够用的原因。好消息是学术界发明了一个新的mamba模型,在长序列...
是的,感觉应该mamba模型还是不够好,所以大家还是在用transformer。
总会有人想超车,会有人用的