【华泰通信】Marvell AI day启示:高速光通信前景依旧广阔

发布于: iPhone转发:2回复:2喜欢:9

🔥Marvell(MRVL US)于北京时间昨晚举办AI day投资者交流会,其中公司执行副总裁Loi Nguyen在演讲中提到,随着未来GPU集群规模迈向10万张以上,所需交换网络或达到5层(当前为3层),对应GPU与光模块的配比提升至1:5,引发市场关注。我们的思考如下:

首先,AI训练网络以无阻塞胖树架构为主,其网络层数由GPU集群规模决定。以NV下一代IB交换机为例,若端口数量为72个,则2/3/4层网络下,可以互联的GPU数量分别达到约0.25万/9万/335万张;若端口为144个,则分别约1万/74万/5374万张。光模块配比方面,若考虑到L1层网络也使用光模块,则2/3/4层网络下,对应GPU与光模块配比分别为1:2/1:3/1:4。

目前北美云厂商最大的GPU训练集群规模不超过5万节点,即3层网络可以满足需要;而博通在3月底召开的AI投资者交流日中提到,其正在为客户未来潜在的100万级别节点集群所需的网络基础设施做准备,说明集群节点数量仍有很大扩张空间。届时可能会进一步增加网络层数,或采用新型网络架构(蜻蜓架构/Dragonfly等),以满足集群互联需求,有望带来广阔的高速光模块需求。

投资建议:我们此前强调,AI训练网络属于后端网络(区别于云计算时代的前端网络),由此催生了大量高速光模块需求,光通信的角色逐渐从“连接”变为了“计算的一部分”。

建议关注【核心标的】:中际旭创天孚通信新易盛

【MPO/MT插芯】标的:太辰光致尚科技

$新易盛(SZ300502)$ $天孚通信(SZ300394)$ $中际旭创(SZ300308)$

Marvell(MRVL)AI DAY核心要点

------------------------

AI加速计算:公司预计数据中心加速计算基础设施市场规模将从2023年的210亿美元增长到2028年的750亿美元(CAGR为29%)。公司积极布局加速计算基础设施领域,AI加速计算相关收入已从FY2023的2亿美元增长至FY2024的5.5亿美元,预计AI加速计算相关收入将在FY2025和FY2026分别超过15亿美元和25亿美元。公司长期目标位在2028年获取约20%的市场份额。

定制芯片业务:公司拥有业界领先的芯片设计平台,包括先进封装、多芯片互连、DSP/光学等关键技术,可提供CPU、AI加速器、安全、网卡/DPU等多种定制芯片。目前公司已和美国4大运营商中的3家建立了AI芯片合作关系。公司预计加速计算定制芯片市场规模将从2023年的66亿美元增长到2028年的429亿美元(CAGR为45%)。

交换机芯片业务:51.2T交换芯片预计将于2024年夏季量产,公司预计交换机芯片市场将从2023年的61亿美元增长到2028年的120亿美元(CAGR为15%),其中AI交换芯片的增速或将更高。

数据中心互联业务:公司拥有从200G到1.6T及以上的全系列光互连解决方案,覆盖数据中心内部及数据中心互连。在AI等新兴应用的驱动下,数据中心互连速率将加速升级,数据中心互连市场规模将从2023年的43亿美元增长到2028年的139亿美元(CAGR为27%)。

====================================

Q&A

在当前和未来的人工智能领域,各行各业的价值是如何体现的?马维尔公司在这一领域的定位和前景如何?

当前和未来的人工智能(AI)技术不仅仅局限于改善聊天机器人或搜索体验,它正在改变我们的生活和工作方式。企业利用AI转变了他们识别和管理风险、与客户互动以及加快新产品上市时间的方式。在工程、制造、金融服务、医疗保健等行业,每天都有新的用例出现,这些是我们以前无法想象的能力。据麦肯锡的分享,这些创新每年将解锁大约4.4万亿美元的经济价值。此外,我从多个行业对话中收集到的见解表明,预测的数字可能更加雄心勃勃。我最近与世界上最大公司之一的首席战略官进行了讨论,他认为这个数字接近20万亿美元的潜在价值捕获,而且是在一个更长的时间内实现的。投资界的许多人也提到了相当大或者更大的数字。因此,未来10年的技术投资周期中,数据中心的资本支出(CapEx)是合理的。我们认为这是一个非常真实的机会,马维尔公司在技术领域的定位非常有利,可以充分利用这一机遇。我们相信,这个机遇与个人电脑、互联网或云计算的出现一样重要。今天,我和我的团队将向您展示,在未来的数据中心投资周期中,如何大量流向半导体公司。我们相信,除了一家公司外,马维尔公司将比任何其他公司更多地受益于AI领域的支出。

目前人工智能(AI)领域的投资热点是什么?Marvell在这方面的表现如何?

当前,投资者们都在寻找下一个人工智能投资的最佳去处。Marvell就是这样一个焦点。去年,Marvell在AI相关收入方面已经显现出显著增长,达到了超过5.5亿美元,占公司总收入的大约10%,这几乎是前一年3%收入的三倍。去年的5.5亿美元收入几乎全部来自于连接性业务,包括光学和一些交换业务。预计今年这部分业务的收入将近乎翻倍。此外,如果加上定制硅业务,我们预计今年的AI收入将再次近乎翻三倍,超过15亿美元,其中大约三分之二来自连接性业务,三分之一来自定制计算。如果按照这15亿美元的预测,结合市场共识估计,AI将占到Marvell今年总收入的近30%。我们预计,明年AI收入将有望达到25亿美元的稳健基础情景,如果市场增长速度超出预期,收入还会有上升空间。目前来说,对于未来收入的具体分配比例还为时尚早,我们还没有准备好给出确切的预测,但我们会在途中不断更新信息。需要澄清的是,我们所展示的预估中,定制硅业务的绝大部分收入将来自AI。而对于我们的PAM4 DSP芯片组和DCI收入,我们只计算了特定于AI的收入。今天您所看到的数据仅代表AI收入。其余收入将体现在云基础设施中,当我开始讨论Marvell在更大范围数据中心机遇时,您将看到这些数字的流动。

Marvell在加速计算和加速基础设施领域的地位如何?

加速计算为AI和其他突破性应用提供了所需的非凡计算能力,而这些应用如果没有加速计算是不可能存在的。然而,人们可能没有意识到,如果没有支持它的底层加速基础设施,加速计算将无法实现。不仅是单个计算机的能力,而是整个数据中心内充满计算机,通过庞大的数据基础设施连接起来,才使这成为可能。实际上,围绕计算的连接组织需要大量的移动、存储和处理数据,以保持这些系统的运行。Marvell专注于构建加速计算的基础设施,我们称之为加速基础设施。从2017年1月我们制定的使命声明来看,Marvell的目标是成为世界上纯粹的芯片公司,移动、存储、处理和保护世界的数据。我们的策略已经被证明是非常稳健的,七年来我们的使命声明没有改变,对于加速基础设施时代来说,它变得更加相关。数据基础设施的基础支柱是计算、连接和存储。我们的安全和存储业务将受益于AI,这些是整个数据中心市场的标准产品。过去几年,我们在这些产品类别中建立了领先的特许经营权。今天,我们已经定位为半导体行业加速基础设施的领导者。因为加速基础设施是数据基础设施最强大和技术上最先进的形式。AI是世界上见过的最渴望数据的应用。因此,我们的旅程引领我们来到这里,我们建立了这家公司来应对这个非凡的机遇。今天,我们将聚焦于数据中心的机遇,AI在这里达到了一个关键的转折点。AI基础设施可以广泛分为计算、连接和存储三个领域。如我所述,存储在AI和所有其他类型的云中都是通用的,所以今天我们不会深入探讨。但它是Marvell的核心业务,我们在这里拥有领导地位。接下来是互连,在这里我们提供世界领先的物理层连接解决方案,独立于网络层或计算层。在交换层,Marvell提供世界领先的以太网交换平台。您将听到,这些AI数据中心内部实际上有多个不同的网络,以太网在这些网络中的许多网络中是首选。它作为世界上最广泛接受的互操作网络层脱颖而出。至于计算,SPU指的是GPU、CPU和DPU,这是这些密集数据处理任务所需的所有计算。在这里,Marvell专注于构建定制解决方案。这些大型云公司的架构完全不同,他们实际上设计和构建了自己的数据中心,这些数据中心针对他们自己的应用进行了特定领域的优化。因此,今天的每个超大规模数据中心都在构建或计划构建自己的计算硅片,用于部分工作负载,而Marvell是这些客户的理想合作伙伴。

Marvell在加速计算基础设施中的连接技术方面有哪些创新和优化?

Marvell在加速计算基础设施的连接技术方面进行了一系列创新和优化。每个连接都有特定的带宽、距离和功耗要求,Marvell针对各种类型的连接提供了优化解决方案。随着加速器数量的增加,需要连接的端口数量也随之增长。同时,加速器的性能不断提升,对带宽的需求也在增加,这就要求端口速度更快,以保持数据的高效处理。因此,Marvell不仅在计算(Compute)方面进行创新,还同步在连接(Connectivity)领域进行创新,以应对加速计算基础设施中连接框架的指数级增长需求。

Marvell在以太网交换领域的地位如何?其产品发展有何新进展?

Marvell在以太网交换领域拥有业界领先的地位,其云交换产品组合名为TeraLynx,这是通过收购Innovium公司而来的。Marvell整合了自身的交换团队和Innovium的团队,显著增加了对TeraLynx的资源投入,并加速了产品路线图的发展,以把握面前的人工智能(AI)机遇。目前,Marvell已经在12.8T代产品上实现了大规模生产,并且新的51.2T产品即将投入生产。这款新产品采用了5纳米技术,相较于12.8T代的16纳米技术,实现了技术的飞跃。同时,Marvell从第三方SerDes转向了自家最先进的SerDes,实现了I/O带宽的翻倍和晶体管数量的四倍增长。这款产品已经获得了极好的市场反响,Marvell正在扩大这一业务,以在数据中心交换市场取得成功。

Marvell在定制硅片方面的战略和市场表现如何?

从2018年Marvell投资者日分享的未来数据中心计算愿景开始,Marvell就专注于数据处理单元(DPUs)、安全性、网络卸载、基于ARM的CPU和AI等领域。2019年,Marvell将这些产品推向市场,并获得了积极的反馈,确认了其战略的正确性。然而,客户普遍反馈,长期来看,他们将定制硅片作为优先事项。因此,Marvell收购了Avera,并进行了一系列其他有机投资。到了2021年投资者日,Marvell展示了其云优化硅片战略和平台,并概述了一系列设计胜利,预计在2025财年到2026财年,这些设计胜利将增长至每年约8亿美元的收入。目前,Marvell即将在今年年底达到这一收入水平,并预计明年将超过这一目标。定制硅片的市场机会广阔,目前加速计算用于AI的应用非常火热,推动了大部分的销量和收入。此外,还有其他重要的定制计算应用,每个大型超大规模公司都在以某种方式开展这些应用的工作,Marvell与每个客户都有战略性的合作。因此,目前在所有这些客户中都有大量的设计活动正在进行。

目前在定制硅领域,最大的机遇是什么?Marvell公司在这方面取得了哪些进展?

当前定制硅领域最大的机遇在于人工智能(AI)计算硅片本身。Marvell公司已经在这一领域取得了显著的进展,我们之前分享过,已经为两个不同的客户赢得了两个芯片插槽(sockets)。第一个插槽是为一家美国超大规模数据中心(hyperscaler)客户设计的AI训练加速器,该客户正在其AI集群和系统中使用这款芯片,并且增长速度非常快。我们在这个产品的合作、团队协作、设计和质量认证上取得了巨大成功,我为团队在这一努力上取得的成就感到非常自豪。此外,作为同一开发过程的一部分,我们计划在明年推出AI推理加速器。因此,我们对这个特定项目有多年的可见度,并且预计在下一代产品中收入也将持续增长。第二个客户设计的是为另一家美国超大规模数据中心客户设计的ARM CPU,这将部署在他们的通用云计算平台以及内部AI基础设施中。这两个插槽,即AI训练加速器和ARM CPU,目前都已经投入生产,并且预计今年将为公司带来收入。

Marvell公司如何支持大量的设计项目,以及在研发方面的投入情况如何?

Marvell公司是一家纯粹的数据基础设施公司,我们每年的研发(R&D)支出约为15亿美元。实际上,我们的研发投入比这个数字还要大,因为我们从客户那里获得了用于这些定制项目的非经常性工程收入(NRE)资金。我们将这部分资金在Marvell中作为研发费用的抵消,并不将其计入顶线收入。因此,我们所有的研发投入都只用于数据基础设施应用。与我们最大的同行相比,我们在这个机会所讨论的研发概况方面非常有竞争力,与他们处于同一水平。与我们规模较小、不那么成熟的同行相比,这是无法比拟的。这对我们的客户来说非常重要,因为他们希望知道他们的关键合作伙伴是否有足够的研发规模和长期对这个市场的承诺。在这个领域,我们与任何主要的半导体公司一样有规模。

Marvell公司如何在市场中保持竞争力,并利用其技术优势?

Marvell公司为了在市场中保持竞争力,投资了大量的知识产权(IP)和技术能力。我们的团队在近年来非常深思熟虑地构建了我们的技术平台,我们已经组建了一个在行业中无与伦比的基础设施技术强团队。Marvell正在构建世界上一些最复杂的数字产品,包括一些业界最大的芯片。为了在这个行业中蓬勃发展,我们还需要使用领先的工艺节点。基于我们5纳米和3纳米产品组合的成功,我们现在正在积极投资2纳米技术。我们的SerDes技术是世界级的,这就是为什么今天每一个超大规模数据中心运营商都依赖它。而且,我们的优势不仅仅在于IP,我们还拥有业界领先的封装技术、电光技术和模拟能力。我们专注于满足客户对低功耗设计、无缝互操作性等需求。能够匹敌Marvell技术资产和能力的公司非常少。我们进行这些巨大的投资,是因为我们相信这是几十年来半导体行业中最大的机遇。

数据中心资本支出(CapEx)的市场规模有多大,Marvell公司在其中扮演什么角色?

去年,总的数据中心资本支出约为2,600亿美元。当然,其中一部分是建筑和基础设施的投资。如果剔除这部分,基础设施设备的总可寻址市场(TAM)约为1970亿美元。如果进一步细分到半导体,这个数字是1,200亿美元。Marvell公司不参与模拟和存储器领域,所以如果进一步将1,200亿美元细分到我们参与的核心半导体TAM,排除模拟和存储器后,去年的市场机会是820亿美元,并且增长非常快。再进一步细分这820亿美元,我们讨论的Marvell涉及的类别中,计算是最大的部分,达到680亿美元。互连去年是40亿美元,交换是60亿美元。

目前数据中心市场的总体规模和预期增长情况如何?

当前数据中心市场的总体规模约为680亿美元,其中一般用途计算市场占26亿美元,加速计算市场占42亿美元。预计到2028年,整个市场将增长至2000亿美元,复合年增长率(CAGR)为24%。在加速计算领域,特别是定制加速计算部分,预计将会有显著增长。去年,定制加速计算的市场规模已经达到了66亿美元,占总可寻址市场(TAM)的16%。如果定制计算保持相同的市场份额,到2028年,这一部分的市场机会将增长至270亿美元。然而,我们预计定制计算在未来几年将会增加市场份额,因为大多数超大规模数据中心运营商才刚刚开始布局。我们估计到2028年,定制计算将占市场的25%,这将使得市场机会增长至约430亿美元。因此,根据不同的假设,定制计算市场的年复合增长率将在30%至45%之间。在任何一种情况下,到2028年,定制计算市场的规模都将与一般用途计算市场相当或更大。

Marvell在数据中心市场中的总体机会是怎样的?

Marvell在数据中心市场中的总体机会非常巨大。从存储市场来看,去年该市场规模为60亿美元,预计将以7%的复合年增长率增长。在互联市场,增长速度非常快,复合年增长率为27%,预计从40亿美元增长至2028年的140亿美元。交换市场从60亿美元增长至120亿美元,年增长率为15%。将这些数字与我之前提到的430亿美元的加速计算市场机会相加,我们预计到2028年Marvell在数据中心的总可寻址市场将达到750亿美元,整体复合年增长率接近30%。这为Marvell提供了巨大的增长机会。

Marvell在增长其市场份额方面有哪些计划?

Marvell计划在各个市场类别中积极增长其业务。在加速计算领域,我们有明确的视野,基于之前提到的设计胜利,我们预计将显著增加市场份额。在交换市场,尽管我们目前在该市场的份额相对较小,但我们正在进行大量投资并获得了不少吸引力。在互联市场,我们已经处于领导地位,我们的基本情景假设是我们将维持我们目前的领导份额。在存储市场,我们也计划维持我们的市场份额。综合这些因素,Marvell的目标是在长期内将我们的市场份额从10%翻倍至20%。在未来五年内,我们面临的市场有望增长3到4倍,同时我们的市场份额也有望翻倍,这在如此巨大的市场中是非常罕见的机会。

当前人工智能技术发展的速度如何?光学互连技术在其中扮演了什么角色?

当前人工智能技术的发展速度非常快,我们观察到其发展速度每两年翻一番。光学互连技术在其中扮演了至关重要的角色,因为它是唯一能够提供足够带宽和覆盖范围以连接数百、数千甚至数万台服务器的技术,这对于整个数据中心的互联至关重要。例如,去年GPT-3在使用大约2000个光学互连的1K集群上进行了训练。而今天,GPT-4正在一个规模是前者25倍的25K集群上进行训练,这需要大约75,000个光学互连。我们预见到不久的将来,将会有100K集群问世,这可能需要五层交换技术,大约500,000个光学互连。甚至有人正在讨论百万级别的集群,尽管难以想象,但这已经是目前人们讨论的数字,这样的集群可能需要高达百万个光学互连。

光学互连在不同规模的AI集群中的应用情况如何?

光学互连的应用随着AI集群规模的增大而增加。在小型集群中,例如128节点的集群,可以通过一层交换实现一对一的连接。中型集群,如1K节点的集群,将需要两层交换,即二对一的连接。而我们目前所知的大型集群,如25K节点的集群,则需要三层交换,即三对一的连接。未来,随着集群规模的进一步扩大,我们可能会看到五对一甚至十对一的连接比例。因此,无论从哪个角度看,光学互连的增长速度都将超过AI集群中加速器的增长速度。

AI训练和推理在光学互连需求上有何不同?

在AI训练领域,大型模型训练需要尽可能大的集群,这些集群在全球范围内数量较少,例如25K、50K、100K甚至百万级别的集群。而在AI推理方面,所需的机器规模取决于具体的应用场景和不同的行业需求,规模各异,但需要在全球范围内部署大量的推理机器以实现AI的商业化。总体来看,无论是训练还是推理,都将推动大量光学互连的需求。

未来数据中心的发展趋势是怎样的?微软在日本的投资有何意义?

未来几年内,全球将有2万亿美元投入新的基础设施建设,以支持AI技术的发展。目前全球约有6,000个数据中心,它们主要分布在富裕国家和人口密集的国家。随着时间的推移,这笔投资将更加全球化分布。AI服务器的功耗是普通服务器的10倍,因此新的数据中心需要能够提供大量电力。目前典型的数据中心功率为32兆瓦,而现在人们正在建设功率达到1吉瓦的数据中心。除了电力需求外,隐私法律、国家安全和主权问题也要求AI集群必须留在国境内。因此,我们将看到在现有地点以及目前尚无数据中心的新地点建设更多的数据中心。例如,微软最近宣布将在未来两年内投资29亿美元在日本建设最大的AI数据中心,这将是微软在日本的最大投资。这表明,尽管日本已有许多数据中心,但现有的数据中心无法满足AI技术的需求。这只是一个例证,未来我们将听到更多类似的投资消息。这2万亿美元的投资将带来更多的数据中心、更广泛的地理分布,并推动大量数据中心内部和数据中心之间的互连需求,这正是Marvell公司目前服务的市场。

请您介绍一下人工智能(AI)服务器在数据中心中的连接方式以及Marvell在这些连接中扮演的角色?

在数据中心中,AI服务器通过几种不同的网络进行连接。首先,我们有计算织物(compute fabric),这是一种高带宽的连接方式,用于连接服务器内部的多个加速器。这些连接通常是基于铜材质的短距离连接,使用的协议包括NVLink、Infinity Fabric和PCIe。目前,Marvell并不参与这种基于铜材质的计算织物市场。接下来是后端网络(back-end network),它用于将AI服务器与数据中心内的数千台其他服务器连接起来。每个加速器都有自己的网络接口卡(NIC),通过NIC连接到模块,进而实现与交换机和其他AI服务器的连接。后端网络主要使用InfiniBand或以太网(Ethernet)协议,并且连接通常是基于光纤的。Marvell在这一领域处于领导地位。最后是前端网络(front-end network),它负责将数据输入输出AI服务器。AI服务器内部的每个CPU都有自己的NIC卡,每个NIC卡连接到自己的光模块,通过这种方式,AI服务器与数据中心的其余部分、存储和其他交换机等连接。前端网络始终使用基于光纤的以太网。在数据中心的后端,我们可以看到成千上万的AI服务器通过两层交换机连接在一起,所有这些连接都是光纤的。Marvell在前端网络和数据中心互联(DCI)网络中也扮演着重要角色,其中DCI网络是用于连接不同数据中心的长达100公里的链路。

Marvell在硅光子市场的地位如何?

Marvell在硅光子市场中扮演着重要角色。在光模块的每一端,我们都可以找到数字信号处理器(DSP)、横向电流放大器(TIA)和驱动器。最近,我们还将增加一个新的芯片——硅光子芯片,以扩展我们的产品组合。去年,市场上有关于DSP是否必要的讨论,但在今年的光纤通信会议(OFC)上,美国最大的超大规模数据中心提供商明确表示他们需要DSP。在单个集群中,有成百上千的光互连,这进一步证明了DSP的重要性。Marvell在这个领域的地位非常显著,我们在DSP市场中发挥着巨大作用。

Marvell公司在加速基础设施的四个网络领域的战略布局是怎样的?

Marvell公司在加速基础设施的四个网络领域——线性可插拔光学模块(LPO)、互连技术、交换技术以及AI服务器——都有明确的战略布局。首先,公司认为LPO技术由于缺乏遥测、诊断和互操作性等功能,被认为是一种倒退。因此,Marvell公司更加专注于发展其互连技术,即Marvell Interconnect,这是一个由公司高级副总裁和总经理Achyut Shah领导的业务。其次,通过收购Innovium公司,Marvell获得了一系列尾部线交换技术,这有助于公司在市场上增加份额,这一部分将由同事Nick进一步介绍。最后,在AI服务器领域,Marvell不生产通用硅产品,而是专注于定制计算。这意味着服务器内的所有模块都可以成为Marvell的可寻址市场(TAM)。据介绍,定制计算是Marvell未来几年内可寻址的最大市场。Marvell目前正致力于开拓的市场机会将在未来几年内增长至750亿美元的巨大市场规模。

Marvell的互连技术在市场上的地位如何?Achyut Shah在这方面有哪些贡献?

Marvell的互连技术在市场上处于领先地位,这得益于Achyut Shah领导下的团队。Achyut Shah在加入Marvell之前,在Maxim Integrated工作了超过25年,曾担任云和数据中心业务单元的总经理,负责优化数据中心内的电源和光学产品的硅解决方案。2020年,他加入Marvell,负责物理互连业务单元,并在Inphi公司并购后,负责将Inphi的光学DSP团队与Marvell业务单元整合,形成了现在的Marvell互连业务。在他的领导下,Marvell的互连技术团队汇集了行业领先的专家,他们在模拟、数字、混合信号、DSP算法、固件和软件等多个领域拥有专业知识,共同为客户提供跨多个世代的最佳解决方案。

Marvell的互连技术是如何满足客户对带宽需求的?

Marvell的互连技术通过提供高性能的光学模块来满足客户对带宽的不断增长的需求。这些光学模块包括数字信号处理器(DSP)、跨阻放大器(TIA)和激光驱动器等多个组件。DSP的初始用途是确保信号能够无误地从一端传输到另一端,但它还有两个重要的用途:规模和可靠性。在大规模数据中心集群部署时,可能涉及数以万计、数以百万计的单元,这些单元需要在不同的位置、不同的数据中心、连接不同的端点、使用不同类型的光学器件,并且存在大量的制造变异性。DSP确保在这种大规模部署中,无需手动微调每个链接,所有单元都能即插即用,按需正常工作。这种技术支持了从数据中心内部的前端和后端网络(通常距离小于2公里,使用PAM调制信号方案)到离开数据中心的远距离互连(距离可达数百公里甚至数千公里,使用更复杂的相干信号方案)的各种应用。

数字信号处理器(DSP)在数据中心网络中扮演了哪些关键角色?请详细说明其在提升网络可靠性方面的作用,并描述其技术演进和市场前景。

数字信号处理器(DSP)在数据中心网络中的关键角色主要体现在两个方面:一是提升网络的可靠性,二是作为网络核心技术的持续演进和市场前景的推动力。在提升网络可靠性方面,DSP的作用至关重要。当客户在大规模集群上运行庞大的语言模型时,这些数据集可能需要数周甚至数月的时间来处理。在此期间,如果任何一个链路即使短暂中断,都可能导致整个作业崩溃,从而造成数周或数月工作的损失,以及巨大的收入和利润损失。因此,DSP内置了智能诊断、遥测和系统级智能,能够检查链路质量并在必要时增加余量,确保链路的稳定运行。它还能够检测并预警潜在的灾难性故障,使客户能够及时切换到冗余链路,确保作业不会中断。技术演进方面,DSP背后有一套非常复杂的底层技术。目前,我们正在7纳米工艺节点上出货,5纳米工艺节点将于今年投入生产。我们正在积极开发3纳米工艺节点的DSP,并已经在投资2纳米工艺节点,以应对未来的需求。此外,我们还拥有高频率的硅锗BiCMOS工艺来创建高频模拟部件,如横向阻抗放大器(TIA)和激光驱动器。在未来的产品代中,我们还需要将这些高频元件与尖端数字技术结合起来。所有这些都需要广泛的工程专长和领导力来开发这一完整的解决方案平台。市场前景方面,Marvell在数据中心网络的光链路领域拥有多代技术领先优势。十年前,Inphi创造了世界上第一个PAM DSP,这是一个200吉比特的产品,拥有四个50吉比特的通道。Marvell也是第一个创造了每通道100吉比特、总计400吉比特光模块的公司。随后,我们将该技术扩展到800吉比特,这一技术在过去一年推动了AI革命的发展。去年,我们在OFC上宣布了世界上第一个每通道200吉比特的1.6太比特产品。就在几周前,世界领先的AI基础设施公司宣布,他们的下一代解决方案需要1.6太比特的互连。Marvell已经开发出了这样的产品。目前,我们的1.6太比特解决方案正在多家客户处进行认证,并预计将在今年年底前在多家客户处投入生产。随着AI在数据中心的比重越来越大,对更高速度的需求也在加速。传统的数据中心网络从100吉比特NRZ开始,经过200吉比特和400吉比特PAM的发展,每个周期大约为四年。但在800吉比特和1.6太比特的发展中,我们看到这些周期已经从四年缩短到两年。我们预见这一趋势将继续,我们已经在与客户紧密合作,以在未来几年内实现3.2太比特PAM代的发展,并且已经在进行高级研发,再次与客户紧密合作,开发未来的6.4太比特技术。这为我们提供了显著的市场增长,因为不仅集群规模在增长,从数千到数万甚至数十万的GPU和XPU,而且每次都需要通过更快的速度连接,Marvell在每次升级中都能获得更高的硅含量。

当前市场增长的驱动因素是什么?为什么快速上市对客户而言至关重要?

当前市场的快速增长不仅是由销售单位的增加推动的,还得益于更高的速度和更丰富的内容,这为总可用市场(TAM)提供了强劲的助力。快速上市之所以至关重要,是因为对于我们的客户来说,时间是最宝贵的资源。随着大型语言模型参数数量的激增,如果客户坚持使用上一代网络和基础设施,运行新模型所需的时间将使得项目经济上不可行,可能需要数月甚至更长时间。因此,他们必须跟上语言模型规模的增长,这就需要他们每隔几年就对基础设施、计算能力和连接性进行升级。客户的焦点始终是尽快迁移到能够使得总拥有成本(TCO)最优化的最快和最好的产品。市场上有些解决方案可能提供了一些边际效益,但客户没有时间去验证这些方案,因为即使在接下来的六个月内能节省一小部分TCO,如果他们不能迅速在未来一到两年内迁移到下一代产品,这些节省将会消失。部署这些产品并不简单,需要将最先进的互连技术与最新一代的计算元素、张量处理单元(TPU)、图形处理单元(GPU)、交换机和网络接口卡(NIC)结合起来,创建一个整体系统,这个过程需要数月的验证时间。如果你已经采用了两年的产品更新周期,并且已经花费了四到五个月的时间来验证一代产品,你就没有时间回头再去验证第二代产品,因为你已经在向更快的产品迁移了。这就是这些解决方案非常难以替代的原因。对于Marvell来说,随着这些集群规模和速度的持续增长,这将为公司带来显著的增长前景。

Marvell如何利用其在光学领域的PAM IP技术开拓新市场?

Marvell不仅在光学领域拥有巨大的机遇,而且还可以利用我们在光学领域开发并领先的PAM IP技术,开辟全新的市场和机遇。我们可以将这项技术应用于活跃电缆的数字信号处理器(DSP)。虽然我们讨论了光学技术的广泛应用,但在数据中心内部的短距离内,比如机架内几米的距离,仍然使用铜缆。在传统网络中,例如从网络接口卡(NIC)到机架顶部交换机(TOR)的连接距离为3到4米,目前使用的是被动铜缆。随着速度的提升和传输距离的减少,需要更多的这类铜缆。但目前,许多铜缆都是被动的,没有集成半导体内容。随着速度从每通道50吉比特提升到100吉比特,物理定律导致的损耗增加,同时数据中心密度的增加也导致客户希望在机架中安装更多的互连设备,这显著提高了机架面板的密度。因此,我们需要使用更细的铜缆,而铜缆越细,损耗就越大。当速度翻倍,损耗增加,铜缆变细,损耗也增加时,50吉比特到100吉比特的链接就无法通过被动铜缆实现。机架的尺寸是固定的,距离是确定的,为了跨越这个距离,我们需要使用带有DSP的活跃电缆。活跃电缆(AEC)已经存在了几年,但之前主要用于特定的小众应用。但随着每通道速度达到50吉比特和100吉比特,使用场景将大幅增加。因此,客户需要一个能够提供灵活性和容量的生态系统,以便在多个代际中将所有这些铜互连从被动转变为活跃。Marvell不仅在创建这些DSP,还在创建一个完整的生态系统,类似于我们在光学领域所做的,以支持数据中心内数百万个链接使用AEC。在光学领域,我们有多个模块合作伙伴与我们的终端客户合作,我们在AEC领域也在做同样的事情。我们正在与所有这些合作伙伴合作,使用Marvell的DSP技术创建AEC,并且目前正在多个终端客户处进行验证和生产。因此,我们预计这些基于PAM DSP的AEC将为Marvell开辟另一个价值十亿美元的TAM,我们已经开始向多个客户发货。数据中心内部在光学方面有显著的增长机会,而在铜缆方面也有新兴的机会。此外,在数据中心之间的长距离链接方面,Marvell也在DCI平台上拥有多代产品的领导地位。

Marvell在数据中心光模块市场的战略布局是如何的?请详细介绍其产品技术和市场表现。

Marvell在数据中心光模块市场的战略布局注重技术的复杂性和产品的完整性。在数据中心内部,我们面临着数百万的单元和链接,我们销售的是硅片、横向电流放大器(TIAs)、驱动器和数字信号处理器(DSPs)。然而,尽管市场在单位数量上较小,但我们所面对的技术却要复杂得多。Marvell拥有所有必要的硅片元件,包括TIAs、驱动器、DSPs,我们还自行研发了硅光子技术。将这些组件集成到一个小型光模块中,实现所需的远距离传输,同时满足空间和功率限制,是一个极其复杂的过程。在市场上,Marvell是第一个能够在可插拔光模块中实现相干数据中心互联(DCI)链接的公司。在我们之前,市场上只有体积庞大、耗能巨大的传输设备。我们首次在100吉比特(gig)级别创造了这个市场,并将其扩展到400吉比特的DCI可插拔相干解决方案。在过去的一年左右的时间里,随着人工智能(AI)对带宽需求的不断扩大,这一解决方案带来了显著的增长。去年,我们还是全球首个宣布800吉比特可插拔DCI相干模块的公司,这一技术已在今年早些时候的光纤通信会议(OFC)上展示,并已经可以提供。我们预见这些解决方案将沿着两个方向实现增长。首先,当前市场将持续增长,我们即将开始发货的120公里可插拔相干模块将在400吉比特的基础上增长,并逐步过渡到800吉比特。随着数据中心数量的增加以及数据中心间带宽的提升,我们预计单位数量将随着速度的提高而增加,这将有助于我们将现有市场的服务可及市场(SAM)规模翻倍。此外,我们还开辟了一个全新的市场。目前市面上的产品最多只能实现120公里的传输距离,而对于更远的数百公里甚至1,000公里的距离,客户仍需使用耗能大、成本高的大型设备。Marvell开发出了新技术——概率星座整形(PCS),使得这些可插拔模块的传输距离从100公里延伸到1,000公里。我们的客户将重复几年前对较短DCI链接所做的改变,随着这些800吉比特链接速度的提升,他们将去除网络设备,转而使用可插拔硅片,这为Marvell打开了另一个价值数十亿美元的市场。在AI互联技术不断发展的同时,有时需要全新的互联技术。目前的AI网络正在推动对一种全新类型的互联技术的需求。考虑到当前的集群规模已经从数千个GPU增长到数十万个,未来可能会发展到数百万甚至一百万计算集群。为了创建今天所需的扁平、低延迟网络,需要巨大的物理距离。这就需要建造比现在更大的数据中心,或者将一个物理建筑分割成同一校园内的多个建筑,从逻辑上看它们就像一个数据中心。因此,这些更大集群所需的链接距离从不到2公里增加到大约10到20公里。我们需要一种既具有相干技术的距离特性,又能从总拥有成本(TCO)、延迟和功率的角度为客户提供与PAM链接相似体验的互联技术。Marvell在这两项技术上都处于领先地位,是目前唯一拥有这两项技术的公司。我们正在与客户合作,为他们未来几代的需求,打造这些大型集群。今年下半年,我们将提供世界上首个数据中心内部相干产品的样品。Marvell提供了一个完整的互联产品组合,是唯一能够为客户提供这一系列产品的公司。我们的产品线涵盖了PAM、相干技术的结合、DSPs、TIAs、驱动器和硅光子技术。我们为客户提供从200吉比特到1.6太比特及以上,从1米链接到1,000公里及更远距离的完整平台和解决方案。在AI领域快速发展的今天,我们的客户正在寻找拥有广泛技术、专业知识和规模的合作伙伴,以帮助他们实施所有这些网络。几年前Marvell与Inphi的合并,为我们提供了这样的技术基础、专业知识和规模。因此,凭借所有这些增长向量,我们预计Marvell在数据中心和光学领域的显著增长、长距离DCI和AECs的新市场、短距离DCI链接的增长以及新的互联技术的出现,将使我们去年大约35亿美元的市场机会,在未来五年内增长到超过110亿美元。

请您介绍一下硅光子技术的基本概念及其在光模块制造中的应用现状。

硅光子技术,简而言之,就是用于光学的集成电路。传统的光学模块制造依赖于分立元件,这些元件主要在小型的铟磷工厂中生产,难以实现规模化生产。目前,数据中心之间的光互连主要还是使用这些分立组件。几年前,市场上存在多种不同类型的激光器,包括LED、像素、直调激光器(DML)等。然而,随着单激光器速率提升至200Gbps,目前商业上可行的只剩下电吸收调制激光器(EML)。EML激光器成本较高,且其产能限制是影响数据中心光互连规模化的一个因素。硅光子技术不使用高速EML激光器,而是采用连续波(CW)激光器,这种激光器类似于灯泡,能够发出恒定的光线,制造更简单,成本低廉,且供应商众多。硅光子芯片集成了高速调制器、激光器、高速探测器等功能,能够在硅片上操控光线。硅光子技术的一个优势是它可以在大容量CMOS工厂中,使用200毫米或300毫米的晶圆进行生产,因此随着产量的增加,硅光子技术的成本有望大幅降低。

硅光子技术在数据中心光互连领域的应用前景如何?

硅光子技术目前是一个非常热门的领域。在过去的10年中,我们已经证明了硅光子技术可以被制造、规模化,并且在连接数据中心的直流互连(DCI)网络中的关键应用中使用。随着人工智能(AI)对高带宽和规模化的需求不断增长,我们相信现在是将硅光子技术引入数据中心并彻底改变光互连制造方式的时候。与使用EML激光器的分立元件方案相比,硅光子技术提供了集成解决方案。例如,在1.6T光模块中,传统方案需要8个激光器,而硅光子芯片可以通过共享一个激光器至4个通道,因此只需要两个激光器。这意味着更低的成本、更少的激光器数量和更高的集成度,从而带来更高的可靠性和更好的规模化能力。历史上,当市场和客户对某项技术有巨大需求时,集成方案总是能够胜出。

Marvell在硅光子技术方面有哪些最新的进展?

两周前,Marvell在OFC大会上宣布并现场演示了我们称之为3D硅光子(SiPho)引擎的技术。这是一个高度集成的光学硅光子电路,包含32个传输和接收通道,每个通道的电和光速率均为200Gbps。这是首次展示的每通道200Gbps的6.4Tbps硅光子技术。该设备集成了数百个芯片上的组件,所有这些组件在使用分立解决方案时都是必需的。我们还使用了先进的3D集成技术,将瞬态针放大器和调制驱动器集成在同一设备上。设计是模块化的,可以从1.6T扩展到3.2T、4.8T甚至6.4T。我们展示了目前最高带宽光模块带宽的四倍。随着带宽的增加,硅光子芯片的成本迅速下降,因为成本是按比特成本计算的。当带宽翻倍时,芯片成本并不会翻倍,因此硅光子的成本随着规模的扩大而迅速降低。

请介绍一下3D硅光引擎技术在光互连领域的应用情况以及未来的发展前景。

3D硅光引擎技术是我们开发的一个技术平台,它在光互连领域有多个应用场景。最直接的短期应用是将3D硅光引擎集成到可插拔模块中。目前,可插拔光学模块因其支持行业规模化而受到客户的青睐,预计将在未来许多年继续保持这一趋势。以现有的离散解决方案为例,像QSS PDD这样的小型模块最多能集成8个光通道。而采用我们的3D硅光引擎技术,可以实现16通道、32通道,甚至通过缩小芯片尺寸达到64通道。硅光子技术的发展将使得可插拔光学模块能够在未来多年继续规模化发展。此外,硅光子技术在共包装光学模块方面也有着潜在的应用。十年前,当我们在Inphi开始研究硅光子技术时,我们认为共包装光学模块才是真正的应用方向。当时的观点是,在400G速率下,可插拔光学模块无法满足需求,必须使用共包装光学模块。但后来我们意识到可插拔光学模块仍有很长的发展空间,因此我们暂停了共包装项目。尽管共包装光学模块经历了多次迭代,但它仍然存在。在Marvell,我们拥有实现硅光子技术的基础能力,而且我们的3D硅光引擎目前已经能够实现每通道200G的速率,这比市场上其他公司的100G速率要高。我们认为在每通道100G的速率下,并不需要硅光子技术,因为可插拔光学模块已经足够好,市场已经出货了数百万个这样的模块。第三个应用领域是将光集成电路与人工智能加速器结合。我们正在构建定制计算能力,而这些AI加速器的带宽需求正在迅速增长,每一代产品的带宽几乎翻倍。目前,这些加速器主要通过铜质传输线路连接计算网络,尽管铜线成本低廉且性能可靠,但随着带宽需求的增加,未来可能需要更高的带宽和更远的传输距离,这时光学技术就显得尤为重要。我们的技术目前每比特提供200G的速率,这是其他提供100G速率技术的两倍带宽密度。因此,我们的3D硅光引擎是一个关键的构建模块,它将推动AI领域光学技术的规模化发展。从市场规模来看,根据Achyut的介绍,到2028年,互连市场的总可市场规模(TAM)将达到111亿美元。硅光子技术将在此基础上增加30亿美元的市场规模。这一点让我非常兴奋,因为它预示着硅光子技术将在数据中心内部广泛应用,并在人工智能和光学技术的崛起中发挥重要作用。

全部讨论

04-13 08:28

光模块

04-13 07:31

光通信