发布于: 雪球转发:0回复:0喜欢:0

GTC可能发布什么?

三款产品B100、B200、GB200(发布/量产时间有先后,是否GTC全端出来不确定,有明确答案的欢迎后台或星球交流),B100沿用N4P,B200可能会升级N3,除此之外,B200还有网卡升级、软件升级、可能也有HBM升级(是否能赶上HBM4取决于产业进度,但鉴于上JEDEC的标准放宽,似乎产业诉求就是HBM4要快)。GB200作为c to c grace hopper架构,以及强大的系统设计,可能会成为“大杀器”

价格上,B100/B200会在3-3.5万美金之间。看到了一个非常激进的价格(B100 3万,B200 3.5万 ),果真如此的话,性价比是显著提升(价格提升了35%-50%,但性能是4倍以上)。GB200(1CPU+2GB100 GPU)会在7万美金上下,而整个GB200 NVL72的价格会在300万美金(GB200 250万美金+NVS 13万美金+其他)

大家最关心的GB200 L1网络还是电连接,与GH200类似(图不贴了,机架设计GH200 NVL32基本相同)。B100/B200 沿用之前PCIe HGX方案,但之后会推出B200 NVL版本,会升级到与GB200一样的机架设计。

网卡CX7升级CX8,400Gb/s到800Gb/s,但可能B100之后才会ready

NVlink4升级NVlink5,112G Serdes升级224,450GB/s/dir到900GB/s/dir,双向900GB/s到1800GB/s,是否B100就上不确定,但更大发挥其价值的肯定是明年的c2c GB200。最最关键的是寻址范围从256提升至2500,意味着单cluster通过两层网络(一层电+一层光)scale的上限从之前的256一下子拔高到2500 GPUs。注意,这意味着不需要IB单靠NVLinkSwitch就实现了千卡集群互联。从下图可以看出,这个最大的意义可能就是AI Inference,推理速度相比过去不是几倍的提升,将是数量级的提升。

之前AWS使用了NVL32参考设计,到了GB200会升级到NVL 72,用一层NVLink电连接就可实现72GPU互联。而参考之前NVL32相比PCIe方案的性能提升倍数,对模型训练是1.7x、推理是2x、推荐引擎是8x

机架设计上,B100/B200会沿用H100老架构,而到了明年的B200 NVL72,会和GB200在机架和网络设计上实现统一。

GB200机架多种方案,或者单rack直接放满18个tray,也就是72GPU;或者为了追求更快推出速度,单rack 9个tray 32GPU,然后2个rack通过Linear ACC互联(电)

单rack会有9个NV Switch tray,每个tray 2张 NVS chip。每个NV switch tray下行对应rack背板(72张GPU),上行连接18个1.6Tbps的光模块,也就是72GPU对应2*9*18=324 光模块,比例1:4.5(这只是L1),加上第二层就是1:9(直到2500卡)。但要注意这是GB200 NVL,在此之前的B100/B200 PCIe版本可能沿用800Gbps。

但不管哪种方案,一个tray放4个GPU,功耗密度都是大幅上升。所有chip(GPU/CPU/网卡/NVS)使用冷板,剩余部件风冷。单个GB200(2GPU+1CPU)对应冷板价值量4*400=1600美金,CM、AVC等。加上整个rack manifold 1万3美金等其他,意味着单个GPU对应的散热成本从3DVC方案的100美金per GPU,提升到2000多美金 per GPU(仅限于GB200方案,B100与B200不确定)

CPU比例:HGX CPU:GPU 2:8;GH200 2:2; B100/B200 与HGX保持一样; GB200 会变成1:2 (1 grace CPU+2 GPU)。但注意这里的CPU核心数不见得减少。

HBM:192GB HBM3E,访存带宽可能是H100的两倍以上

TDP:B100/200/GB200分别为700W、1000W、1200W

其他待发布产品:今年除了网卡CX8、还有IB下一代Quantum 3,明年可能会有Grace CPU下一代、DPU BlueField3的下一代