飞机上读了点干货,重新思考了下铜缆(蹭个今天a股热度),3月份写这一代的精髓就在NVL 72,背后的实质是什么?
斗胆瞎说一句,铜缆就好比一年前的HBM。
说到这里一定懵了,完全不沾边。或者这么说,HBM解决了访存带宽最高性价比,铜缆解决了片间互联最高性价比。
为什么没用sram没用dram,而是hbm,是因为在memory hierarchy中找到了成本、带宽、容量权衡中的最优解
为什么选择铜,也是在成本、带宽、紧耦合域最大化中,选择了一个最优解
而这二者都在局部实现了最优的带宽成本,也就是最优的推理成本。
譬如SRAM,譬如硅光,某个性能指标近乎完美的东西,放在系统里,一定有他的缺点。因为最终交付的是一个商品,要考虑成本、可靠性、产能可获得性等等等等。最终一定会走向那个更好的解决方案吗?也不一定,现在这变化速度,只能走一步看0.5步。
说到这儿,未来的推理需要什么样的infra,cha同学星球写了一篇低延迟推理需要什么样infra的详细解读,我就不贴了。但想说,超大模型、三位数expert MoE、超长上下文推理,又需要什么样的infra呢?
欢迎来探讨和指教
注意:以上讨论不构成投资建议,某个板块已经翻倍了,高位,请注意风险!