发布于: Android转发:0回复:7喜欢:0
回复@翻番: 这篇文章有关用铜线的叙述没有阐明它的限制,GB200 NV72开用200Gbps的Serdes, 传输距离限制在1-2米,柜内的铜链接只能在限制的范围里,million GPU 链接不用光只是臆想。是,能用铜用铜,即便用光,能用模块用模块,但密度和规模,必定推动光进和CPO集成。//@翻番:回复@翻番:附这篇非常具有启发性的分析文章,解惑了我与各位小伙伴讨论中的一些关键问题,特予分享。The Data Center is the New Compute Unit: Nvidia's Vision for System-Level Scaling:网页链接
引用:
2024-04-13 21:27
注:作为近期小节,本文主旨大抵来源于雪球网友们讨论,并启发收束于一篇雄文(评论附链接)。
现实背景:chatgpt引爆gen-AI,LLM成为通向AGI的可能。越早摘得AGI果实的玩家获得越大奖励,军备竞赛开始。根据scaling law,玩家们无止境渴求加速计算算力。易得:
1、更大的角度上,持续而规...

全部讨论

你的问题关乎于数据中心规模化不同增长层级的二阶导。凡事都要tradeoff,做取舍。直观的说,现在的处境就是芯片内晶体管已经足够密了,制程虽还会提升,但越来越慢。为了进一步加速,计算之间还必须得越来越密越来越近才行,既然无法有效的在芯片内更近,那就芯片外更近。基于这个思路,实际上有两条线三个规模化层级:
第一个层级:以芯片尺寸划线,小于芯片尺寸的技术进步就交给台积电吧;
第二个层级:再以机柜划线,小于机柜尺度且大于芯片尺寸,对于英伟达就是NVL72,是nvlink所及的范围,对于AMD恐怕就是IF这个IP开放的范围,也正是我们讨论的重点,也是铜连接具备比较优势的区段;
第三个层级:大于机柜尺度,是更多GPU加速机柜通过IB/超以太的互联部分,当然也属于数据中心规模化的范畴里,光连接当然不会缺席。
个人认为机柜层级(也就是上述第二层级)规模化的强度和速度会快于其下和其上两个层级,所谓二阶导最大,因为在这一层级规模化效率最高。英伟达会往这个狭小空间里塞更多计算和存储,扩更大的连接,而在没有更好连接方案之前,铜连接是此前没有的增量。