继续讨论GB200网络架构

发布于: 雪球转发:2回复:22喜欢:39

GB200网络架构的问题从周二一直研究到周五,各种猜想分歧很大,原因也很明显,NV留了一个盲点,要么方案他们内部也没确定好,要么还有新东西等后面发布。今天仔细梳理了过去一周的所有信息,大概有了眉目。

首先,让我们回到GTC之前被广泛流传的那份Taiwan报告(后来线下肉身见到了报告原机构的taiwan兄弟,他们也没想到流传这么广....),鉴于其准确度几乎99%,特意回去看了下报告中对NVL72网络部分的描述:

这就是GTC上发布的NVL72,上面写的清清楚楚,这一款是“Non-scalable”,不可扩展。原因也很简单,18个GPU tray:9个NVLink Switch tray,也就是72 GPU:18 NVS ASIC芯片。72张GPU 1.8TB/s双向互联总带宽需求是72*1.8=129.6TB,18个NVS ASIC也就提供了18*7.2TB=129.6TB(就是这么配的),意味着负责把72张GPU全部互联的所谓下行带宽已经占满了这9个NVS tray的全部端口,根本没有留出上行带宽。那怎么办呢?报告中提供了NV另一种方案——2个36

而且写的清清楚楚,这款是“scalable”的NVS,因为单rack内的GPU:NVS ASIC比例降低了一半,36:18,下行负载和上行负载各占一半。报告中描述如下:

这两个36机柜是“back to back”背对背

每个NVS tray一半端口连接背板,一半端口连接18个OSFP(扩展端口)

rack to rack用的啥?LACC Linear Active Copper Cables(但要特别注意,这里仅仅可以明确是2个36机柜之间用铜;更多rack的互联,OSFP理论上可铜可光,且LACC的距离限制估计比较难满足最远rack之间的连接,大概率还是光)

这就很清楚了。要扩展,就用36卡的机柜。既可以用LACC连接隔壁rack的交换机,扩展为一个72卡的NVL72。也可以继续扩展更多rack,比如大家关心的576卡,一共16个小rack(8个大rack),但这就需要再加一层NVS 网络了(类似GH200),每个rack的L1 NVS端口一半上行连接到L2(前提是无阻塞上行)。但到这里,分歧来了。你会听到有人说类似GH200 1:9,有人说第二层直接走back end网络也就是IB,那就是1:2.5/3.5等等。当然,也出现了另一种最为激进的理论,就是576卡(8 72 rack或 16个36 rack)之间全部或者一半用了full mesh,直接走铜...这个似乎过于激进...因为首先1)在rack距离进一步压缩之前,这可以说是挑战铜的物理极限了...(如果是真的我给NV跪了)。2) blackwell这一代的理念就是尽量向前兼容供应链,你说72内用了这么多铜已经invovle了新供应商,用更多,似乎供应链也不太支持。

分歧的核心在哪儿呢?首先,NVLink覆盖的是超节点(专业名词叫HB,high-bandwidth Domain),而IB覆盖的是超节点之上的网络扩展。这一代NVLink选址范围domain,也就是HB Domain在36-576之间。每个客户选择将NVLink domain做到多大,或者用NVlink实现全互联的颗粒度多大,产生了本质区别。比如HB颗粒度我选择72,那好,非常省钱,NVL72之上直接走IB,只需要1层铜NVL+IB; 但比如我HB颗粒度打满到576,那好,巨贵,2层NVL+IB(和GH200一样的1:9)。你会问,为什么HB不定144、288。因为这代交换机tray端口144,按照全互联端口充分利用的角度,144*144*2/18(18是GPU NVlink ports)=576。继续拆解上述问题:

1. 成本问题。也是上代GH200的痛点。将NVlink寻址范围做到256,用了2层网络1:9,代价是256个卡对应2304个800G(还没算IB哦),即250万美金光模块,对应单卡成本就增加了1万美金,也就是GPU成本的50%....哪个客户愿意买?因此这代NVL72实现了上代GH200 256卡一样的算力且NVLINK全连接,但打掉了1:9的光模块!直接降低了组网成本。前提是你的HB颗粒度选择定在72。如果你在训练超大模型(10万亿参数)或超大模型推理,那好,有可能这个客户会选择HB domain定在576,那你就要接受5184个1.6T光模块即1244万美金,对应单卡成本增加2万美金,也就是GPU成本的60%....

2. 需求问题:小模型训练、微调、推理,当然1EFlops的NVL72就解决了,不在我们讨论范围。我们更关心的是未来的前沿模型超大集群训练和推理,到底HB domain或者NVL domain应该如何选?这个关键问题,恰好一位HW网络大神给了我一份非常重要的paper(已传星球),你说巧不巧...这是Meta和MIT一起搞的研究,结论就是超节点GH200做到256就够了,再往上边际效果快速降低。此外IB网络需要1层其实也就够了。

但这个研究有个问题,其考虑的最大模型就是1万亿参数,显然没考虑未来即将出现的10万亿甚至几十万亿参数模型。虽然不清楚,但似乎可以线性外推,随着模型参数*10,是否意味着最优HB domain也需要*10。那可能意味着的确目前的NVL72做HB对现有模型完全足够,但未来模型真不一定够用...

3. 供给问题。和问题2对上了,还是那份tw报告,从中窥探到NVLink寻址范围会到2000+,继续用之前计算方法,假设下一步NVS tray继续double 成4颗die,端口乘以2,那么2层NVL全互联的最优节点是多少?288*288/2/18=2304。数不一定对,因为下一代端口数、NVLink ports数都可能略微不同。意味着英伟达基于自己对最前沿模型(比如OpenAI)的洞察,HB Domain还会上升....

4. 另一个供给问题。芯片还会继续压缩,下一代X100比如4颗die的chiplet,意味着目前576卡的算力,很有可能下一代也只需要76卡..什么意思?又全给塞到一个机柜里,又可以用一层NVL铜了...(当然这需要交换机ASIC等等要一起翻倍)

因此,这个问题是一个复杂函数,多个反向因子,相互影响。还没考虑越来越快的serdes迭代速度、模型迭代速度、推理复杂度急速提升、硅光/CPO/LPO等其他技术加速.....想到这我脑子已经炸了,下次再继续写,只求老黄在ComputeX上给出更多答案....

文中paper、报告已上传星球(毕竟GTC开完了...我就传了吧)

精彩讨论

一路向北50503-24 06:14

$罗博特科(SZ300757)$
读了两遍,觉得铜还是光前进道路上的一段插曲。
利好硅光啊,因为他能解决目前的问题。铜:传输距离短,物理极限顶。光模块成本高,耗能大。硅光才是方向。拿住吧。图片转自庭长。

全部讨论

$罗博特科(SZ300757)$
读了两遍,觉得铜还是光前进道路上的一段插曲。
利好硅光啊,因为他能解决目前的问题。铜:传输距离短,物理极限顶。光模块成本高,耗能大。硅光才是方向。拿住吧。图片转自庭长。

感觉铜的增量特别大,今年估计会出大牛股。

03-24 17:49

A股有基本面的就是立讯啊,鼎通科技之类的也就是蹭个概念。

03-23 22:58

铜缆目前的技术水平4-5米应该是极限了,而且比较硬走线不是很方便,估计最多相邻机柜互联。不过这也是不小的变化,估计这个题材还能折腾一阵子。网络大厂本来都有DAC铜缆,便宜又好用。

03-23 22:30

数量的增速放缓,性能的迭代加速,直至无法满足而变革。bath铜和光,现阶段不存在谁进谁退,面临的问题是共性的。由于光迭代的路径清晰,铜迭代有物理极限,会回到光;最终还是光进的幅度大一些,用什么方式实现取决于产业链平衡吧

03-25 09:03

主线分析很透彻
去年的会议召开后,基本定调了今年的大方向。就像23年的数字中国一样,围绕着科技炒作了一年。
今年的主线是以科技创新带动现代化产业体系,意味着还是科技类,也提出了新质生产力这一新名词,总体分为以下方向
传媒游戏类(数据要素 AIGC Sora 短剧 kimi)
通信类(6G CPO 数据中心 工业互联网)
计算机类(多模态 算力 鸿蒙 信创)
消费电子类(AR/VR/MR 存储芯片 PCB HBM)
汽车类(无人驾驶 智能座舱 汽配)
机器人类(工业4.0 新型工业化 机器视觉 减速器 高端装备)
医药类(CRO 医疗器械 减肥药 中药 医美)
军工类(低空经济 航天航空)
国改类(高股息)
国改+以上8大板块是加分项,算是暗线
上半年看超跌,主线板块基本都是超跌,双双共振

一看就是专家牛人

真专业,给牛人点赞点赞

按这个NVL72不可扩展2xNVL36可扩展的意思,实际上大部分云厂商批量采购后大体架构跟GH200还是一样的吧?GH200就是32 GPU可扩展系统,所以光模块比例并不低啊。全铜不可扩展的系统没多少人会买吧?下一阶段升级怎么办?

03-24 20:47

就是用富士康下的港股恒腾科技06088,猜谜语猜毛线,炒到天上人家也不用你一根