回复@菜农看股: 你的问题关乎于数据中心规模化不同增长层级的二阶导。凡事都要tradeoff，做取舍。直观的说，现在的处...

作者：翻番

发布于:2024-04-28 00:33 修改于: 2024-04-28 00:43

雪球

转发：1

回复：5

喜欢：7

回复@菜农看股: 你的问题关乎于数据中心规模化不同增长层级的二阶导。凡事都要tradeoff，做取舍。直观的说，现在的处境就是芯片内晶体管已经足够密了，制程虽还会提升，但越来越慢。为了进一步加速，计算之间还必须得越来越密越来越近才行，既然无法有效的在芯片内更近，那就芯片外更近。基于这个思路，实际上有两条线三个规模化层级：
第一个层级：以芯片尺寸划线，小于芯片尺寸的技术进步就交给台积电吧；
第二个层级：再以机柜划线，小于机柜尺度且大于芯片尺寸，对于英伟达就是NVL72，是nvlink所及的范围，对于AMD恐怕就是IF这个IP开放的范围，也正是我们讨论的重点，也是铜连接具备比较优势的区段；
第三个层级：大于机柜尺度，是更多GPU加速机柜通过IB/超以太的互联部分，当然也属于数据中心规模化的范畴里，光连接当然不会缺席。
个人认为机柜层级（也就是上述第二层级）规模化的强度和速度会快于其下和其上两个层级，所谓二阶导最大，因为在这一层级规模化效率最高。英伟达会往这个狭小空间里塞更多计算和存储，扩更大的连接，而在没有更好连接方案之前，铜连接是此前没有的增量。 //@菜农看股:回复@翻番:这篇文章有关用铜线的叙述没有阐明它的限制，GB200 NV72开用200Gbps的Serdes, 传输距离限制在1-2米，柜内的铜链接只能在限制的范围里，million GPU 链接不用光只是臆想。是，能用铜用铜，即便用光，能用模块用模块，但密度和规模，必定推动光进和CPO集成。

引用：

2024-04-13 21:27

注：作为近期小节，本文主旨大抵来源于雪球网友们讨论，并启发收束于一篇雄文（评论附链接）。
现实背景：chatgpt引爆gen-AI，LLM成为通向AGI的可能。越早摘得AGI果实的玩家获得越大奖励，军备竞赛开始。根据scaling law，玩家们无止境渴求加速计算算力。易得：
1、更大的角度上，持续而规...

全部讨论

菜农看股

04-28 04:28

谢谢你的回复，你的三个层级的概述非常到点子。AI引发的通讯互联，最大的变化是从传统的spine tree 结构，通过两三个hops的互通，到点到点的直接互联。第三级的柜子间的互联，在100G以下的，还是有不少铜连接的。第二级机柜内的互联一直是用铜线的。NVL72能在200G仍然用铜线，铜进，我在今年OFC 上能现场感到光学界的失望。一是打破了高频一定要用光的预测，另外72个柜内GPU间点到点的铜互联网，会减小第三级光互联的增长率。但我的观点，铜线在NVL72 的增量是对铜线等级的提升和绝对量的增加，但据说用了两英里长铜线也说明铜线的限制。想象一下，若是NVL144,144个GPU点到点的直连，增量是平方级的，估计机柜连重量也承受不起，尽管铜线便宜，没有额外耗电，最低的时延。所以，今年OFC感到失望同时，整个会展还是因为AI而兴奋，点到点互联的要求，在第三级的光需求已经促进了光模块指数级的需求，旭创和新易盛的最近季报就能显示。同时，光集成和CPO,哪个大厂不在研究，Nvidia和AMD，哪个不在看第二级柜子内芯片间的光互联，只是什么时候的问题。
另外我觉得液冷和气冷的解决方案也和铜和光的选择有些类似。Arista的Andy去年的OCP会上，花了大幅篇幅谈论cooling, 说到将来系统的大小和功能会取决于如何把芯片散热，液冷绝对是必经之路。但是现时还是能air cooling,不会用到液冷，成本、系统复杂度多会有考量。
上周四TSMC 在2024 North American Technology Symposium上也谈到了他们对于你概括的第一级和第二级的规划，增大芯片尺寸和支持光的CPO. 网页链接

帕迪沙阿

04-28 15:49

投资机柜的变化，您认为aph这个标的如何，目前高的话可以拍到50%营收增量，毛利率高于传统业务，还不算asic体系的铜需求。

你比我胖

04-28 07:41

人工智能