AI算力基建:NVL72 单Rack集群,铜缆vs光纤的量化分析

发布于: 修改于: 雪球转发:1回复:26喜欢:38

DGX GB200 NVL72 的基础数据

英伟达的GB200 NVL72的长大图如下:

抽象成架构图如下:

基础数据:

铜缆互联成本和功耗

Copper Cable的成本数据,完全可以参考OSFP112 800G DAC模块的数据,典型的销售价格如下:

全球龙头Amphenol的数据是$320/meter,不过其它二、三线厂家的价格大多数在$200~250之间。

所以,做一个保守的折中,OSFP112 800G DAC的模块为$260一支,去掉2*$10=$20的连接头, 16对差分屏蔽线的成本为$240/米,平均 $15/pair.米。

在NVL72中,Copper cable的长度为2米, 则$30/pair,两端连接器的成本为2*10=$20,所以,每一对差分屏蔽线含两端连接器的成本为 $50。224G铜缆含两端连接器的成本预计$120/2米。

光纤互联的成本和功耗

2024年底800G多模光模块价格在$450/支以内,假设DSP的成本占比$100,那么800G LPO多模光模块做到$300以内没有任何困难。当前的800G多模光模块的功耗大概14w左右,其中DSP占6w,所以LPO为8w。光纤组网的成本测算如下:

对比

1、光纤组网的成本优势十分突出:从量化分析看,光纤组网($453.6k) vs 铜缆组网($622.1k,必须用224G才可实现NVL72), 成本少$168.5k,少27%。随着规模上量,光模块至少10%的年降,而铜缆几乎没有年降的可能,所以随着时间推移,光纤组网的成本优势只会扩大。

2、光纤组网的功耗问题很突出:按照英伟达披露的数据,NVL72系统的总功率为120kw。假设采用800G多模光模块组网,将增加1296(optical数量)*14(功耗)*1.2(能源效率系数) = 21.772kw,那么系统增加18.2%的功耗

3、LPO光模块成熟后,将大大缓解功耗问题:如果采用800G LPO多模光模块,将增加 10.4kw,系统只增加8.7%的功耗

结论

1、英伟达DGX GH200 NVL72 单Rack集群系统首发采用铜缆互联路线,核心原因是LPO光模块未成熟,不可获得,同时光纤组网功耗大,而非成本原因

2、OSFP 800G LPO光模块成熟后,NVL72 单Rack集群系统采用光纤组网更有性价比。下一步OSFP 1.6T LPO光模块将进一步提高集成度。NVLink大(576)、小(36/72)集群互联统一到光纤后,有利于归一化组网配置,简化供应链管理

3、随着GPT5等超大模型上市,NVL72这类大规模NVLink系统在推理市场,将带来30x的性价比提升,成为刚需。

4、LPO光模块将降低厂家的毛利和净利润率,但带来9x(NVL72)~18x(NVL576)的NVLink新增市场,量的增长显著高于利润率的下降,预计将给光模块行业带来 4.5~9x的新蛋糕

5、核心风险:

一、LPO光模块成熟的时间;

二、LPO光模块功耗降低的程度;

$上证指数(SH000001)$ $中际旭创(SZ300308)$ $沃尔核材(SZ002130)$

精彩讨论

闷得而蜜03-31 22:29

最近沃尔核材、博威合金等涨得不错,但不能说股票涨了,产业逻辑就是一定成立,这是两码事,还是要打开来,系统分析。至少到目前为止,我分析出来的结论都还是认为铜缆不是好的解决方案。$沃尔核材(SZ002130)$ $博威合金(SH601137)$

21hope04-01 22:40

LPO光模块将降低厂家的毛利和净利润率,但带来9x(NVL72)~18x(NVL576)的NVLink新增市场,量的增长显著高于利润率的下降,预计将给光模块行业带来 4.5~9x的新蛋糕!
核心风险:
一、LPO光模块成熟的时间;
二、LPO光模块功耗降低的程度;
作者:闷得而蜜
中际旭创

闷得而蜜03-31 21:39

LPO->硅光->CPO,这条路线也符合技术迭代演进的原则。
铜就是一个临时方案,无法面向未来积累,纯浪费。

全部讨论

最近沃尔核材、博威合金等涨得不错,但不能说股票涨了,产业逻辑就是一定成立,这是两码事,还是要打开来,系统分析。至少到目前为止,我分析出来的结论都还是认为铜缆不是好的解决方案。$沃尔核材(SZ002130)$ $博威合金(SH601137)$

03-31 21:39

LPO->硅光->CPO,这条路线也符合技术迭代演进的原则。
铜就是一个临时方案,无法面向未来积累,纯浪费。

03-31 22:40

我看好多人吹MT插芯,至尚科技

04-01 09:37

NVSwitch的连接头似乎不是每根线一个连接头的,是一捆线束(如36根线)共用一个连接头,类似网线。

04-01 22:40

LPO光模块将降低厂家的毛利和净利润率,但带来9x(NVL72)~18x(NVL576)的NVLink新增市场,量的增长显著高于利润率的下降,预计将给光模块行业带来 4.5~9x的新蛋糕!
核心风险:
一、LPO光模块成熟的时间;
二、LPO光模块功耗降低的程度;
作者:闷得而蜜
中际旭创

03-31 21:56

另外一个考虑因素: 下一代芯片平台X100发布后,NVLink集群会继续扩大,带宽也同步翻倍。而铜缆在224G再往上的成本,几乎是10x级别的增加,根本没有可能性。所以,对云服务商来说,为了短短1、2年的窗口,费力去单独开一条线,搞一套供应链,以后的配件更换、运维怎么办?
从生命周期来看,铜缆的问题越来越多

03-31 22:03

再补充一点,全球Serdes能力最强的是博通,他刚刚demo了2米的224G serdes。
但是呢,NVL72的 Serdes不一样,ASCI->封装->PCB->连接器->铜缆->连接器->PCB->封装->ASCI,很明显,链路很长,两次穿越连接器,并且链路上的各种异种材料,最终都会把压力给到连接器和铜缆,这些都要求更高品质的材料,都没有考虑这些成本。按照理想化在建模。

04-01 21:06

不知道现在每一次技术迭代能够维持多长时间。

英伟达,博通,拓维信息也搞铜互联怎么说?

04-01 18:09