gen-AI时代向规模化演进的投资机会

发布于: 雪球转发:6回复:55喜欢:53

注:作为近期小节,本文主旨大抵来源于雪球网友们讨论,并启发收束于一篇雄文(评论附链接)。

现实背景:chatgpt引爆gen-AI,LLM成为通向AGI的可能。越早摘得AGI果实的玩家获得越大奖励,军备竞赛开始。根据scaling law,玩家们无止境渴求加速计算算力。易得:

1、更大的角度上,持续而规模巨大的加速计算算力需求,让训练LLM的主战场只能集中于数据中心/云端,换言之,这是一场关乎【数据中心】的军备竞赛。

2、稍具体的角度上,加速计算需求猛增,而芯片摩尔定律失速,二者之间矛盾凸显。单芯片加速算力不足,又鉴于LLM对存算带宽的迫切要求,GPU厂已在通过chiplet/增大带宽等各种办法来应对需求,下一步如何系统级规划集群架构成为关键。

有鉴于此,先看英伟达的解。水会往压力更小的那个方向流,技术也如此。即不同于PC时代开启的芯片摩尔定律,由于工艺制程更难产,这一轮对算力单元的规模化落脚点就是机柜,在这次GTC上,NVL72是变化开始也是未来方向;该尺度上将在系统级延续摩尔定律。机柜这个粒度就是将计算单元的空间缩放控制在IB/以太网之前(对于英伟达就是nvlink能到哪里),最大化带宽性价比,背后的规律就是计算单元离得越近数据传输速度越快,且通信成本也越小。

芯片以上,机柜以下,将成为数据中心算力规模化的核心战场。为了在狭小的空间塞进更多的计算,除了芯片上要卷先进封装,卷chiplet,卷更多hbm(hbm很贵但单位带宽价格趋近于0),NVL72中的18个服务器机箱36张板72块B200已完全延申到背板nvlink通信,并采用了更廉价的铜连接,单位空间功率内卷也使得液冷等散热模式不可或缺。

结论部分。可据以上分析来寻找投资机会。

1、比如解决方案提供商视角上的启发,英伟达大概率会领导这条系统级摩尔定律路线,建立行标形成标准/技术护城河,护城河的壁垒程度决定了替代方案的空间(英伟达方案里存在大量私有技术,AMD的开放产业联盟/网络合作商,以及国内自主可控的潜在独立生态,去跟英伟达这条路线可能性很大,能不能跟上就看替代方案的效率)。英伟达更像x86规模化时期的英特尔,而不像互联网泡沫前后的思科(因为思科的产品即网络设备在技术纵深向上的规模化空间不够大,所以能被竞争者如hw轻松吃掉市场份额)。需要注意的是,英伟达系统级规模化虽刚刚上路,但已如此市值,后续还有多少空间?类比英特尔始于上世纪90年代终至2015年左右的tick-tock,即便在规模化后期即tick-tock时期(10nm制程受阻以前,约2007-2017年间),英特尔规模化联盟(英特尔/微软等标的)仍能跑赢市场(纳指),但同期x86软硬件基础设施之上的应用级或替代线的谷歌苹果均远远跑赢市场。类比结果就是,现在gen-AI不存在如同x86时期互联网/移动互联网等下游明确的应用级标的,英伟达很可能尚处于前段规模化时期,此阶段是规模化议价强势方,而在市场培育到一定阶段时,可再寻找更佳标的以获得超越市场的投资收益。

2、供应商/合作方视角,如果英伟达系统级摩尔定律能够持续数代,这里有许多价值流向的机会(注意,在当前阶段下述都是量的机会,毛利也在被英伟达吸血)。从芯片到机柜逐级来看: (1)hbm不嫌多,单位带宽零成本可谓堆得越多越合适; (2)先进封装将大有可为,这是晶圆厂的蓝海; (3)光通信失宠,铜缆重装上阵,计算都挨得这么近了,以后会更密更近,铜连接忽然顺眼了,便宜又好用,这是反直觉的增量; (4)散热技术如液冷时代到来,机柜单位功率只会继续增加,系统级的散热工程无比重要; (5)还有一个潜在的问题领域,即IB/以太网这块恐怕并不是好选择,亦即此级的网络设备,还有资本重点关注的光通信/光芯片/光模块很可能并不是此轮规模化的外延部。

3、其他视角,主要是数据中心的买方,比如CSP等,由于它们还往往附着推动gen-AI应用突破的交叉业务,与本文逻辑关系不够直接,不赘述。

风险/免责:当前通向AGI路线证伪则以上逻辑恐将失效,规模化进程中如有关键技术突破另当别论。

精彩讨论

翻番04-27 15:19

客气了。巨头们的季报还没完全披露完,但目前都提高了资本支出,这个没啥新观点就不赘言了。在此刻反复再强调的几点,大多也都是老生常谈了。
如果在这个节点再拿英伟达和思科比不是蠢就是坏,英伟达更像90年代进入规模化的x86阵营(英特尔&微软),从B系列开始,英伟达进入以数据中心为计算单元的规模化进程,大概率形成越来越宽的护城河。可以翻看那几年对标企业的财报,英特尔毛利率在50-60%,微软毛利率在80%+,而当下的英伟达是一个系统化集合体,制霸产业链关键环节,生态位优于当年英特尔/微软单一企业,议价能力当下虽处于当年硬件企业英特尔和软件企业微软的中间状态,这还是因为下游相比当年x86面对的环境更强势一些。除了相似点,也有不同点,英伟达相比x86阵营规模化早期,面对的主要是2B用户,这些巨头们财务状况良好,资本支出越来越多,好的一方面是规模化会有充足的收入/研发资金保障(不会过早寅吃卯粮),挑战是一旦规模化不如预期巨头们也会自己下场(需要与谷歌这种跑通全栈的自研体系继续比拳头)。
在应用方面,虽然目前从巨头财报中看到AI已经在优化盈利结构,但当前的盈利才哪到哪,AI的终极应用定然不会是类copilot这么初步而单一的形态。x86奠定的PC浪潮最终通向了互联网革命,市场培育了十多年漫长的时光,才缔造了亚马逊/谷歌/meta等应用巨头,取得盈利的节奏又各自不同,比如亚马逊是比较晚近才赚钱。当前我们在经历AI市场培育的早期,巨头们的乐观情绪在支出上得以初步体现,市场渗透率或技术成熟度必须要达到一定标准后,才有条件去聊应用形态和盈利,如果经常性怀疑下游不盈利而质疑产业,那对这些产业玩家的魄力也太没有信心了点。
再说一下竞争格局,英伟达这条线比较容易看懂,我的观点从去年年中起未变,它是现阶段赌AI最好的标的,产业化最易成功,是可以all in级的标的。AMD作为复制英伟达体系的标的,尚存在难以估量的不确定性,但就像苏妈所说,快速发展的蓝海不存在护城河;极难的境遇也因人而不同,赌AMD需要极强韧性——对信息的挖掘能力、个人风险承受能力和为投资失败做的准备,从产业角度我目前看不大清,需要跟踪再看,先看这次财报苏妈怎么说,谋定而后动。另一条线就是以谷歌TPU为代表的巨企自研,以产业角度看其自身市场小于通用化整体市场TAM,至少在这个阶段英伟达线具备更佳的产业确定性。即便像谷歌这种自己业务梭哈自研的巨企,谷歌云仍是两条腿走路,也在为英伟达贡献研发经费,毕竟在面对一个快速增长的市场时,谷歌身体是诚实的。
最后,一旦明确英伟达规模化投资思路,也可以顺着去找有一定价值汲取能力的供应商&合作方定向优化投资结构(鉴于英伟达全产业链一时无两的议价能力,这里的机会仍是以量为主的预期差),并在战略上关注下游应用动向(现阶段太过风投化,还是战略性关注即可或搞ETF),将极大可能就是未来的AI投资的主线。

翻番04-28 00:33

你的问题关乎于数据中心规模化不同增长层级的二阶导。凡事都要tradeoff,做取舍。直观的说,现在的处境就是芯片内晶体管已经足够密了,制程虽还会提升,但越来越慢。为了进一步加速,计算之间还必须得越来越密越来越近才行,既然无法有效的在芯片内更近,那就芯片外更近。基于这个思路,实际上有两条线三个规模化层级:
第一个层级:以芯片尺寸划线,小于芯片尺寸的技术进步就交给台积电吧;
第二个层级:再以机柜划线,小于机柜尺度且大于芯片尺寸,对于英伟达就是NVL72,是nvlink所及的范围,对于AMD恐怕就是IF这个IP开放的范围,也正是我们讨论的重点,也是铜连接具备比较优势的区段;
第三个层级:大于机柜尺度,是更多GPU加速机柜通过IB/超以太的互联部分,当然也属于数据中心规模化的范畴里,光连接当然不会缺席。
个人认为机柜层级(也就是上述第二层级)规模化的强度和速度会快于其下和其上两个层级,所谓二阶导最大,因为在这一层级规模化效率最高。英伟达会往这个狭小空间里塞更多计算和存储,扩更大的连接,而在没有更好连接方案之前,铜连接是此前没有的增量。

翻番04-13 22:11

上世纪90年代到互联网泡沫破裂前,英特尔是大幅跑赢指数的。互联网泡沫破裂之后英特尔陷入数年滞涨,后续重拾升势的tick-tock时期也仅仅是持平市场。所以我的本意是,如果英伟达能够类比英特尔规模化的前段,也很可能会录得比较理想的收益。这里可资比较的相似点是,互联网泡沫之前x86联盟是议价强势方,互联网泡沫破裂反而是互联网巨头寡头化的开始,谷歌/amazon/facebook等应用级技术寡头逐步抢掉了x86的增长,后续演进为云化时代微软归来,而苹果接棒则完全变了天,在后半段x86逐渐不再是议价强势方,就是因为下游掌控了价值来源。你看,英伟达现在也有点英特尔/微软当年一时无两的模样,下游因市场早期内卷或应用尚未做大而没有足够议价能力。

菜农看股04-28 04:28

谢谢你的回复,你的三个层级的概述非常到点子。AI引发的通讯互联,最大的变化是从传统的spine tree 结构,通过两三个hops的互通,到点到点的直接互联。第三级的柜子间的互联,在100G以下的,还是有不少铜连接的。第二级机柜内的互联一直是用铜线的。NVL72能在200G仍然用铜线,铜进,我在今年OFC 上能现场感到光学界的失望。一是打破了高频一定要用光的预测,另外72个柜内GPU间点到点的铜互联网,会减小第三级光互联的增长率。但我的观点,铜线在NVL72 的增量是对铜线等级的提升和绝对量的增加,但据说用了两英里长铜线也说明铜线的限制。想象一下,若是NVL144,144个GPU点到点的直连,增量是平方级的,估计机柜连重量也承受不起,尽管铜线便宜,没有额外耗电,最低的时延。所以,今年OFC感到失望同时,整个会展还是因为AI而兴奋,点到点互联的要求,在第三级的光需求已经促进了光模块指数级的需求,旭创和新易盛的最近季报就能显示。同时,光集成和CPO,哪个大厂不在研究,Nvidia和AMD,哪个不在看第二级柜子内芯片间的光互联,只是什么时候的问题。
另外我觉得液冷和气冷的解决方案也和铜和光的选择有些类似。Arista的Andy去年的OCP会上,花了大幅篇幅谈论cooling, 说到将来系统的大小和功能会取决于如何把芯片散热,液冷绝对是必经之路。但是现时还是能air cooling,不会用到液冷,成本、系统复杂度多会有考量。
上周四TSMC 在2024 North American Technology Symposium上也谈到了他们对于你概括的第一级和第二级的规划,增大芯片尺寸和支持光的CPO. 网页链接

翻番04-27 16:06

看你ai训练的标准是啥,如果剑指agi,那我不认为未来ai训练会是小公司的战场,即便如openai这样的创业企业,背后也必须要有金融资本和产业大佬微软这样的巨企支援。大环境下长期仍是巨头玩家的战场,nvda想要赢得巨头的青睐,系统级规模化是唯一路线,只要你性价比足够牛,巨头是不得不向TCO低头的。
从这一轮巨头们的季报能看出,即便到了历史性产业变革的关键期,它们大多还都是非常在意财务指标的,比如谷歌如何大幅砍成本,比如微软在加大资本开支的同时还得告诉投资者利润率只会下降1个百分点,也就是如老马和小扎才会任性一点,赌瘾大一些,创始人企业不会被二级市场绑得那么狠(相对而言)。说这些,只是为了说明,英伟达只有在规模化一路走到黑,快于竞争者,巨头们才不得不选它。当年GPU是如何在x86主板上生存下来的?当年不可一世的英特尔咋都无法剜掉它或把它变成一个指令集?无非是GPU迭代更快性能提升更高,规模化速度快于你CPU,逼你身体诚实不得不留我;当前无非也是如此而已。

全部讨论

@翻番 最近各大头部企业发布季报,N和A也都震盪整調整了許多,对于今后的走勢,請赐教,謝謝你

附这篇非常具有启发性的分析文章,解惑了我与各位小伙伴讨论中的一些关键问题,特予分享。The Data Center is the New Compute Unit: Nvidia's Vision for System-Level Scaling:网页链接

算力的竞争已经在尺度到单个计算中心,那tsla所谓让所有车主成为分布式算力租赁提供者,不就是一个笑话了么?更别提其中的算力同步、数据同步需要的带宽需求

04-13 21:49

如果按博主所说英伟达目前类比处于X86规模化英特尔前期,因为目对应的软件类公司还不明显,那么鉴于英伟达目前的市值。预期应该也只是跑赢纳指这么简单,那如果在现价建仓英伟达其实是不是并没有更大的股价空间,仅是跑赢纳指这种预期,那么现在想建仓英伟达做长线的话是否可行

04-13 21:38

光通信这个观点的理由是什么?

04-14 10:34

我之前看了NVIDIA的新一代架构,然后新结构机箱方面我买了戴尔科技和超微电脑,液冷买的维谛技术,铜链接买的安费诺,AI芯片制造买的上游的ASML和下游的TSMC,还有提供材料的应用技术,提供谷歌配套的博通。此外我还买了发电厂股票vistra。

04-16 17:45

翻番老兄,hbm很贵但单位带宽价格趋近于0,可以具体说一下吗?

04-13 23:05

我的简单理解是,在某个阶段nvda由于市值的缘故跑赢大盘没问题,但是想和以前一样猛拉不现实。反而自身产业链中如美光和vrt这种由于未来巨大的放量需求确定性更大(更像周期股),这段时间如果能把握住这种股超额收益反而很大。

04-13 22:15

已經在倒車接人了,把握住機會