发布于: Android转发:0回复:1喜欢:0
很明显新不新无所谓,关键是优化
引用:
2024-02-20 18:29
$北京君正(SZ300223)$ 分歧好大。SRAM不是新技术,别人也没说是新技术。核心是,为啥大模型没有杀手应用,抛开训练不谈,推理现在的成本也还是太高了。为毛会高?因为大模型时代下现有的算力芯片在算力方面,存储方面有严重的技术制约,带宽需求就是计算换空间,空间换计算的把戏。如果groq确实如...

全部讨论

02-20 22:34

所以,芯片半导体啥的必须降智,说多了大部分人听不懂。这玩意儿比较复杂,大模型的attention机制这里几个能理解明白?参数在显存中怎么存的?推理的时候需要计算哪些步骤?显存不够了,多卡并行推理的pp,tp是怎么切分应用显存和带宽的?为啥这样可以把显存连起来?sram在lpu里面到底起了什么作用?llama 70b推理到180多个tokens每秒意味着什么?为什么open ai要自己做算力卡?深入点讨论嘛。不要要么就明天涨停,要么就贴个朋友圈“专家图”计算半天号称lpu的整体成本是h200的十几倍,Jonathan Ross看着有这么傻吗?