英伟达的野望 - 深度分析 [财报前送给大家的大礼]

发布于: 雪球转发:1回复:4喜欢:27

分析英伟达的文章很多。本文旨在从不同的角度分析英伟达。

一、英伟达的产品线及世界观

英伟达在GTC 2024发布了一系列的产品, 让我逐步来分析英伟达策略是什么样的。

1.1 产品线

这是单个Blackwell GPU。

当把 2 GPU + 1 CPU 组合在一起,就是GB200超级芯片。

2个GB200超级芯片,放在一张板卡上构成 Blackwell节点

36个Blackwell节点(包含72个GPU),通过NVlink连接在一起,成为一台DGX NVL72服务器。

服务器的背面用铜线连接(省了DSP)。如果用DSP,会增加15%功耗。除了英伟达之外,业界唯一可以能做这件事的人就是Broadcom

英伟达并没有停止在单台服务器, 而是提供了互联技术:

NV-Link: 通信协议,用于把GPU连在一起,比PCI-E接口更快。

NVSwitch Chip:采用NVLink协议的专用芯片,把一台服务器内部GPU连接在一起。

NVLink Network:多台Server的GPU连起来(专门针对GPU的连接)。

infini-band: 把data-center的多台server连起来。此为通用接口,连接例如存储,网卡等设备。

有了这些技术之后,英伟达进一步把多台DGX NVL72服务器连接在一起, 构成数据中心(Data Center)。

这么大的集群要跑几十天不出错概率约等于0。因而,数据中心的集群必须有检查错误和纠正错误的能力。

因而,英伟达内建了RAS 引擎 — Blackwell 支持的 GPU 包含一个专用引擎,可实现可靠性、可用性和可服务性。此外,Blackwell 架构还增加了芯片级功能,利用基于人工智能的预防性维护来运行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间并提高大规模人工智能部署的弹性,使其能够连续运行数周甚至数月,并降低运营成本。(这个也是竞争对手没有的)

1.2 系统集成带来的好处

单台 NVL72服务器:22倍训练速度提升,45倍推理速度提升。

NVL72集群:训练GPT-MoE-1.8T模型 ,与前一代的Hopper系统比,用了1/4的能量(更少的GPU)

集群推理速度:

Blackwell集群(绿色线)比Hopper集群(蓝色)有30倍的推理速度提升。另外,紫色线是增加单个芯片HBM内存带来的增益。(X轴为单个用户的推理速度、Y轴是单个GPU输出的Tokens速度。因为要优化多个如图所示的并行计算,所以x和y会相互制约。)

英伟达,已经不是优化单个GPU,而是优化整个集群。一方面,摩尔定律在单个芯片上触及上限。另一方面,在系统优化级别上,性能提升仍然有效。英伟达卖的是训练的推理速度成倍的提升。 虽然单颗芯片的售价会下降,但英伟达卖系统的能力提升。换句话说,英伟达的护城河扩展到各种连接技术(NV-Link, Infini-Band),以及系统级优化。并且在此方面,远远领先于Intel, AMDBroadcom和其他竞争对手。也是在这个层面上,英伟达和HyperScaler(云厂商, Google, MS等)会产生利益冲突,因为云提供的服务将无法差异化。

1.3 英伟的世界观

生成式AI毫无疑问地会统治一切。生成式AI先是“压缩”现实,然后就可以“生成”现实。换句话说,计算已经从确定性计算过渡到了概率计算。

为什么要“压缩”和“生成”现实?成本更低。这种便宜体现在用软件设计芯片成本更低(和流片相比),体现在数字工厂里面优化、布局比实际制造要便宜,体现在数字孪生的世界里尝试各种可能性。

同时,英伟达提供了一切:

DGX服务器:训练模型;

OVX服务器:数字孪生simulate世界;

AGX机器人系统:从真实世界里得到反馈,输入给数字孪生世界。

三者相辅相成、构成了闭环的英伟达的统治世界。

1.4 新摩尔定律

数据中心已经成为新的计算单位。在这一新视角下,整个机架就像是一块芯片,而这样的认识为我们提供了一个全新的角度来提升性能和效率。现在,让我们从数据中心的角度重新审视摩尔定律。

摩尔定律建立在一个简单的观察基础上,即缩小晶体管将耗用更少的电力,并且由于电子物理上不必走那么远,你将获得更多的性能。这就是为什么几十年来摩尔定律都是关于将晶体管的物理空间减半的原因。但近年来,我们已达到了缩小更小芯片的经济限制,因此我们遇到了一些渐近线。这就是广泛传颂的摩尔定律的终结。制造更小的芯片变得更加困难。

但在底部适用的东西(将比特移动得更近)也适用于顶部。将电子移动得更远需要时间和更多能量,而将所有的数据、电力和逻辑靠得更近,就会浪费更少的能量。这个问题在纳米尺度上和机架尺度上都是相同的,将电缆和逻辑靠近会带来系统性能的提升。这个问题适用于所有网络。只要没有地理成本,通过将事物靠近可以实现规模经济。

那么,解决方案是什么呢?我们不仅要考虑在芯片内部将电子靠近,也应该在机架内部实现这一点。这正是Nvidia正在努力实现的。

将数据中心想象为一块巨大的芯片,其实就是一种将内存和逻辑晶体管为问题服务的高级封装方式。相比多芯片的片上系统,每块GPU板就像是芯片中的一个“瓷砖”。通过铜质连接,并尽可能地紧密排列,从而实现更高的性能和更快的速度。

在数据中心作为一个超大芯片的场景下,你会希望以最经济的方式将尽可能多的组件打包在一起。封装方式有多种选择,最接近的是芯片对芯片封装,接着是封装上的高带宽存储(HBM)、通过被动铜的NVLink以及拓展到Infini-band或以太网。

对于Nvidia来说,这意味着在考虑NVLink之前,尽可能多地增加HBM3中的内存,然后尽量在NVLink内部进行更多的计算,甚至在考虑扩展到网络之前就这样做。换言之,通过以太网连接数百万个加速器可能是浪费的,但在短距离连接节点上通过被动铜连接这些加速器则是经济且高效的。Nvidia正在追求通过被动铜进行尽可能多的扩展,直到需要使用光学技术为止。这将是成本最低、性能最高的解决方案。

这是摩尔定律的新定义;你现在看到的是新的计算单位。目标是提高这个机架的能力,将尽可能多的芯片集成到一个机架中。这无疑是扩展的最经济、最节能的方式。更少的空间、更低的能耗、更高的性能——这些都是摩尔定律的体现,尽管名字变了。欢迎来到新的系统级扩展时代。

二、面临的竞争

英伟达:从Blackwell开始,不止是卖GPU,而是卖data center。因而,和hyper-scaler的“云”有了微妙的竞争关系。

Google:由于多年布局, 从TPU到云,到大模型,垂直集成了一切。Google肯定是个决赛玩家,但目前被公司管理、政治正确所限制。

微软:垂直集成了模型和‘云’,目前在开发自己的加速卡。

Meta:垂直集成了模型和‘云’,没有自己硬件。

Amazon:没有模型,没有卡,只有“云”。

由于“云计算”公司的盈利模型从CPU迁移到GPU,如果他们都从英伟达购买芯片,那么他们无法差异化,整个产业链的价值会更多的转移到GPU上面。因而,云计算公司寻求了垂直集成的方式来竞争。任何人和英伟达竞争,需要一个集成的系统。

2.1 第一种未来可能性 :产业链价值都在GPU

很明显,英伟达的路线就是这个。目前看,完美实施。未来取决于每年英伟达是否能够持续的推出碾压级别的data center产品。推出新产品速度、性能是关键。英伟达的梦想是,其他竞争对手无法在推出新产品性能和速度上追上。

2.2 第二种未来可能性 :价值在垂直集成

云计算公司(垂直集成)。

历史上,CPU是标准品,将CPU组成集群之后,上面运行的软件才是“竞争优势”(分布式计算、分布式存储,多个server互联)。现在英伟达的芯片显然破坏了这个商业模型。因为所有的训练和推理都是英伟达的,云计算公司无法差异化。

如果云计算公司要继续保持的话:要么GPU变成标准品(AMD,或者自研),要么云计算垂直集成大模型。

云计算公司的梦想是,利用其巨大的购买力和聚合商的垄断利润来缓慢地部署他们的解决方案。虽然第一代产品很艰难,但随着迭代设计芯片的大量资源以帮助云计算公司获胜,后续几代产品有所改善。同时,半导体生态系统的其余部分也帮助他们抵抗英伟达Broadcom提供互联的解决方案)。在这个未来,大模型的利润似乎会崩溃到基础设施上,而拥有一整套基础设施和模型利润是最有意义的。这就是超大规模企业获胜的地方。

2.3 会出现哪种未来?

中短期来看(2025Q2之前): GPU集群性能距离极限还很远,而且竞争对手远远追不上英伟达, 此阶段NV应该是孤独求败。此阶段应该是英伟达股票收益最丰厚的时期。

长期来看, 云计算必然要做自己的芯片。假设他们芯片以及集群可以追上NV的性能的话,意味着这方面所有人都一样,那么,

如果大模型只有 OpenAI一个赢家, 那么大模型和芯片软硬件集成会带来更大的优势, 微软应该是最大赢家。如果大模型多个模型提供相似的推理能力, 英伟达应该是最大赢家。如果大模型构架不是Transformer构架,那也只能出现在英伟达Cuda的平台(才有这样的空间去搜索和实验)。

2.4 历史回顾

GPU最初是不可编程的,而是专为图形处理而设计的芯片。2001年,Nvidia在其GPU中引入了可编程着色器,标志着GPU可编程性的开始。这一特性引起了学术研究人员的关注,他们认识到在图形渲染中使用的并行性类似于科学计算中所需的并行性,例如求解偏微分方程。这些研究人员利用GPU的早期可编程性支持了超越常规图形处理的并行处理任务。

2003年,来自Nvidia的斯坦福大学博士生Ian Buck领导开发了Brook流式语言,这使得在GPU上编写通用应用程序变得更容易。毕业后,Ian加入了Nvidia并创建了计算统一设备架构(CUDA),该架构于2006年发布,并开启了在Nvidia GPU上进行通用计算的时代。这些GPU获得了通用GPU(GPGPUs)的称号。

Nvidia的平台策略在其2012年年报中被总结如下:

NVIDIA CUDA是一个通用的并行计算架构,利用NVIDIA GPU中的并行计算引擎解决许多复杂的计算问题,所需时间仅为CPU所需时间的一小部分。我们正在与全球的开发者合作,他们采用并为CUDA架构编写了应用程序,使用各种高级编程语言,然后在我们的GPU上以显著的执行速度运行。开发者能够加速从分子动力学到图像处理、医学图像重建和衍生品建模用于金融风险分析的算法。我们还与全球的大学合作,教授使用CUDA的并行编程,以及与许多PC或OEM合作,为其客户提供配备Tesla的高性能计算解决方案 \[Tesla是Nvidia GPU的名称\]。我们还直接向像美国橡树岭国家实验室和中国天津的国家超级计算中心这样的超级计算中心销售。研究人员使用CUDA加速他们的发现时间,许多热门的现成软件包现在都加速了CUDA。

这些是平台努力的艰难初期。平台拥有真正问题和有趣解决方案的客户,但没有明显的产品市场契合。处于这种位置的公司通常会尝试支持每一个进来的客户用例,而优先级往往是混合的,取决于谁愿意支付最多以及哪个标志在网站的“客户故事”页面上看起来最吸引人。“这些赌注中的每一个都有其价值,但哪一个将提供明显更高的回报还不清楚”让我想起了早期风险投资的动态。早期投资者投资于成百上千的有价值的初创公司,希望其中一些会发财。Nvidia的平台策略类似。他们押注了各种行业,希望有些东西能够成功。一开始,任何特定领域的价值规模都不清楚。(竞争对手无法在广度上和英伟达匹配,因为无法同时投资这么多领域)

Nvidia 提供了一个全面的开发工具包 - 包括编译器、驱动程序和 API - 使优化算法在 GPU 上并行执行的任务变得简单。随着时间的推移,Nvidia 扩大了平台的覆盖范围,针对各种领域提供了软件开发套件,并通过重大的核心库和领域特定的优化 加深 了其能力。

Nvidia 软件生态系统的广泛深入构成了 CUDA 护城河论点的基础。支持者认为,任何竞争对手都需要大量的人力来赶上 Nvidia 的领先优势——毕竟,他们从 2006 年开始这一旅程,并雇佣了数千工程师致力于加固这个护城河。

但是,目前市场已经探明,深度学习是第一个提供超额回报的领域。在未来十年中,基于深度学习的生成式AI将为硬件行业提供比其他高性能计算领域高几个数量级的预期价值。生成式AI是将销售大量芯片,以实现规模经济的用例。

然而,有趣的是,通过找到产品市场契合,Nvidia揭示了竞争对手的攻击点。

竞争对手可以通过使他们的硬件尽可能快速/便宜/节能地运行基于深度学习的生成式AI模型来构建越过护城河的桥梁,并吸引Nvidia的客户。他们将押注所有软件工程师的时间来编写支持生成式AI用例的代码,并使开发者尽可能轻松地进行切换。

三、潜在风险


来自云计算公司的竞争;

GPU集群性能提升到达S曲线顶部,客户没有升级欲望;

硬件、云计算、大模型三者之间价值链重塑;

#雪球星计划# $英伟达(NVDA)$ $NVDA每日2倍做多ETF(NVDL)$ $每日NVDA 1倍做空(NVDD)$@今日话题

全部讨论

更利好光模块

05-22 21:29

05-22 21:20

$英伟达(NVDA)$ 一起迎接财报日吧