发布于: 修改于: Android转发:2回复:23喜欢:10
帮你扫盲系列,dgx和800g光模块互联,这个互联需要更多的交换机,也就是有更多的800g的口
举个简单例子 这个集群 包含了 计算网络 存储网络
都需要 大量的 交换机
哎算了扫盲 写上些数据
根据NVIDIA参考设计,在128台DGX H100服务器组成的集群中,计算网络只需要使 用到两层交换机,两层交换机均使用Mellanox QM9700型号交换机。集群中每32台DGX H100构成一个SU,每个SU中有8台Leaf交换机。在SU中每个 DGX H100都需要与8台Leaf交换机有连接,由于每个服务器只有4个用于计算网络 连接的800G OSFP端口,在每个端口接800G光模块后,通过拓展端口将1个OSFP 端口拓展为2个QSFP端口,实现每台DGX H100与8个Leaf交换机的连接。在服务器 端需使用800G光模块,服务器端的800G光模块需求量为4*32*4(第一个4:每个服 务器有4个800G OSFP端口;32:每个SU中有32台服务器;第二个4:集群中有4个 SU)
在Leaf交换机的下行端口需使用400G光模块,需求量为32*8*4(32:每个Leaf交换 机有32个下行端口用于连接32台服务器;8:每个SU中有8台Leaf交换机;4:集群 中有4个SU) Leaf交换机的上行端口使用800G光模块,需求量为16*8*4(16:每个Leaf交换机有 16个上行端口用于连接16台Spine交换机;8:每个SU中有8台Leaf交换机;4:集群中有4个SU) Spine交换机的下行端口使用800G光模块,需求量为32*16(32:每个Spine交换机 有32个下行端口用于连接32台Leaf交换机;16:集群中有16台Spine交换机)。基于以上测算,在该服务器集群中,计算网络应用到的800G光模块数量为1536,应 用到的400G光模块数量为1024。每台DGX H100对应12个800G光模块、7.3个400G 光模块;即每颗H100对应1.5个800G光模块、0.9个400G光模块。
(二)存储网络(Storage Fabric)
在DGX H100服务器集群中,存储网络的连接主要通过400G/200G光模块/光纤。由 于网络中Leaf交换机与存储设备的连接所需的光模块/线缆数量有一定变化性。因此 我们基于以下假设对存储网络中端口/光模块的需求数量进行测算:根据NVIDIA白皮 书信息,在128台DGX H100服务器组成的集群中,存储网络共需要使用16台 QM9700交换机,我们假设每台DGX H100端的2个存储网络端口、每台交换机端的 64个400G端口均配有光模块,即不考虑部分冗余端口未配有交换机、同时未考虑 UFM和存储设备端的光模块需求。基于以上假设我们测算得系统中共需要 128*2+16*64,即1280颗400G光模块,即每台服务器对应10颗400G光模块,每颗 GPU对应约1.25颗400G光模块。
(三)DGX H100 服务器集群中光模块/光芯片数量需求测算
我们只考虑DGX H100服务器集群中计算网络和存储 网络对光模块的需求。测算得在DGX H100集群中,每颗H100对应1.5个800G光模块和2.15颗400G光模块 需求,每颗H100对应约20颗100G光芯片需求。
集群越大 存储网络和 计算网路 的 交换机 需求要高,要用的光模块会越多。看图就明白了,
$中际旭创(SZ300308)$ $赛力斯(SH601127)$ $浪潮信息(SZ000977)$

全部讨论

那是不是更利好天孚通信

2023-11-15 08:53

扫盲

2023-11-15 08:52

辛苦了

2023-11-14 08:26

老哥,这个公众号叫啥啊,想去关注一波

2023-11-14 07:25

辛苦了