英伟达逻辑挖掘-最强预期差:网络交换机平台

发布于: 雪球转发:1回复:6喜欢:11

先看下英伟达 2024 年 3 月 18 日 发布的网络交换机平台:

NVIDIA Quantum-X800 InfiniBand Platform:

NVIDIA Quantum-X800平台是下一代NVIDIA Quantum InfiniBand,提供高达800Gb/s的端到端连接性,超低延迟,专为训练和部署万亿参数规模的AI模型而构建。

平台核心是NVIDIA Quantum-X800 Q3400 InfiniBand交换机,支持2倍的更快速度和5倍的更高可扩展性,用于AI计算织物。

Q3400-RA 4U交换机是首个采用每通道200Gb/s串行/解串器(SerDes)技术的交换机,显著提升网络性能和带宽。它包括144个800Gb/s端口分布在72个八通道小型可插拔(OSFP)笼中,以及一个专用管理端口,用于NVIDIA UFM®(统一织物管理器)连接。

Q3400交换机支持高达10,368个网络接口卡(NIC)的连接,保持最低延迟和最大的作业局部性。

NVIDIA Spectrum-X800 Ethernet Platform:

NVIDIA Spectrum-X800是Spectrum-X技术的下一代,也是世界上首个端到端、为生成式AI云和企业优化的AI-优化以太网平台。

该平台包括NVIDIA Spectrum-X800 SN5600 800Gb/s以太网交换机和NVIDIA® BlueField SuperNIC™,为使用基于标准的以太网构建多租户、超大规模AI云提供最佳解决方案。

SN5600交换机具有64个800G八通道小型可插拔(OSFP)端口和51.2Tb/s的交换容量,是目前生产中聚合带宽最高的ASIC以太网交换机。

BlueField-3 SuperNIC是为超大规模AI工作负载设计的高级网络加速器,优化了网络密集型、大规模并行计算,加速了GPU服务器之间的RoCE网络连接,并提供了峰值AI工作负载效率。

简而言之:

NV推出的网络平台是全球首批提供高达800Gb/s端到端吞吐量的解决方案,这种高速的网络连接能力对于计算和AI工作负载至关重要,随着AI和机器学习技术的快速发展,数据中心对于高速数据处理和传输的需求日益增长。NVIDIA Quantum-X800 InfiniBand网络和NVIDIA Spectrum™-X800以太网络提供的800Gb/s吞吐量,能够满足大规模AI训练和推理任务的需求。这种高速网络可以显著减少数据传输的延迟,提高计算效率,从而加速AI模型的训练和部署过程。

NVIDIA的网络平台能够提供足够的带宽和低延迟,这对于 高性能计算(HPC)至关重要。通过采用这些高速网络平台,可以更高效地处理复杂的计算任务,从而提高效率,这是未来的趋势!!

再看下5月23日,昨天的业绩报,老黄说了啥:

网络收入第一次单独拆出来 老黄:我们致力于3 条网络链路, 从用于单计算域的 NVLink到 InfiniBand , 再到以太网网络计算结构。非常清晰,NVlink目前负责高带宽域scale-up,而IB负责scale-out,但NVlink在逐渐继续向外走。同时IB是AI factory,以太网络是AI cloud,最终形成的计算网络,不仅为AI和HPC应用提供了前所未有的网络性能,而且也预示着数据中心网络的未来,老黄准备两者都吃 ,这需要大量的网络交换机,菲菱科思在高端网络交换机有一定优势,并且ODM模式在和nv合作有潜在优势。

业绩会上提到:以太网络贡献几十亿美金收入,Spectrum-X正在与多家客户进行量产, 其中包括一个10万GPU的大型集群。预计 Spectrum-X 将在一年内跃升为价值数十亿美元的产品线,Spectrum未来空间一点不比IB小,前面几年训练阶段IB独领风骚,进入大规模推理部署RDMA更被普遍接受。而英伟达反而成为目前AI Cloud 以太网络设备第一大需求厂商,对高端网络交换机需求也会持续增长。

引用数据:

完成一个AI模型(比如GPT3语言模型)训练所要求的百亿亿次浮点计算要求,需要众多计算服务器组成一个集群协同才能完成。然而所有的AI训练集群都存在性能天花板。当到达天花板时,即便再增加服务器节点,也不能使集群的性能再进一步提升,甚至有可能会下降。这是因为集群内部存在计算协同,当网络有丢包时,增大了因协同等待而产生的时间等开销,使算力持续下降。

实验统计,0.1%的丢包会引起算力损失50%。因此,要提升算力,首先要构建一个0丢包的数据中心网络

菲菱科思

菲菱科思在网络交换机领域拥有多年的研发经验,持续加强研发投入和技术积累,形成了覆盖全产品线的基于多种方案的交换机及路由器产品。产品线丰富,包括百兆/千兆/万兆交换机、电口/光口交换机、无管理/管理交换机等,能够满足不同终端客户在各种场合的应用需求。高端产品开发能力,菲菱科思具备100G/400G(国内行业最高带宽)、大容量交换机的开发能力,成功研发了高背带容量插卡式核心交换机的业务板、核心板,以及数据中心交换机。

NV的 Quantum-X800 InfiniBand 网络和 Spectrum™-X800 以太网络平台,以其高达 800Gb/s 的端到端吞吐量,显著提升了计算和 AI 工作负载的网络性能。这一技术进步不仅为数据中心带来了新的性能高度,也为相关产业链上的企业提供了新的增长机会。

相信国内云计算厂商也会奋力追赶。

$菲菱科思(SZ301191)$ 菲菱科思目前主要的客源包含新华三、小米、神州数码等国内外知名网络设备品牌商,菲菱科思以ODM模式为主,与客户合作程度深入,参与品牌商供应链的程度也逐渐加深,保障了公司取得产品订单的份额,并且成熟的ODM和强劲的研发能力,让后续代工NV部分以太网交换机成为可能,并且国内云厂商也会在算力满足后,搭建一样吞吐的以太网平台,让网络吞吐和算力呈现双螺旋上升,如果没有高吞吐,集群和集群之间就是孤岛,即使并联上,没有强力的交换机,网络吞吐的损耗可以折半算力,这就是实实在在的痛点,也是菲菱科思未来增长关键点。

参考文献

NVIDIA 官方网站和新闻发布

菲菱科思公司年报和技术白皮书

数据中心行业市场分析报告

华为超融合数据中心网络0丢包以太网,助力算力100%释放:

网页链接

网页链接

网页链接

网页链接

全部讨论

05-24 00:35

菲是代工的,大部分是低端的。给英伟达代工想多了,美国一堆网络设备大厂,思科、dell、juniper、博科。。。

05-24 11:11

再也不能相信小作文了,下周止损。

去年10月以来越走越低……有点可能,也不至于走成这样

烽火通信算吗

财报会议NV大反转拥抱以太网,并将其作为下一个重要增长引擎(这与我们最近产业了解的情况一致,NV已经开始对渠道商做以太网培训)
对于国内而言,以太网更是不二选择了,国产算力的内部占比结构预计也会有变化。NV将网络端视为下一个重要增长引擎,交换机产业的确建议重视。