很明显新不新无所谓，关键是优化

作者：釹倌児璐

发布于:2024-02-20 22:04

Android

转发：0

回复：1

喜欢：0

很明显新不新无所谓，关键是优化

引用：

2024-02-20 18:29

$北京君正(SZ300223)$ 分歧好大。SRAM不是新技术，别人也没说是新技术。核心是，为啥大模型没有杀手应用，抛开训练不谈，推理现在的成本也还是太高了。为毛会高？因为大模型时代下现有的算力芯片在算力方面，存储方面有严重的技术制约，带宽需求就是计算换空间，空间换计算的把戏。如果groq确实如...

全部讨论

arkker

02-20 22:34

所以，芯片半导体啥的必须降智，说多了大部分人听不懂。这玩意儿比较复杂，大模型的attention机制这里几个能理解明白？参数在显存中怎么存的？推理的时候需要计算哪些步骤？显存不够了，多卡并行推理的pp，tp是怎么切分应用显存和带宽的？为啥这样可以把显存连起来？sram在lpu里面到底起了什么作用？llama 70b推理到180多个tokens每秒意味着什么？为什么open ai要自己做算力卡？深入点讨论嘛。不要要么就明天涨停，要么就贴个朋友圈“专家图”计算半天号称lpu的整体成本是h200的十几倍，Jonathan Ross看着有这么傻吗？