OFC更新

发布于: 修改于: 雪球转发:2回复:7喜欢:4

(欢迎从上篇文章的精装房回到毛坯)

Ayar Labs CEO昨天在OFC上的采访:

如果想最终改变计算行业,就需要实现电IO 到光学 IO的巨大的提升。我们目前的代工厂是Global Foundry和Intel,GF负责制造,Intel负责封装。去年我们出货了几万颗,未来的目标是每月几千万支的产能(注意是远期目标)。我们每个chiplet产品包括1个supernova激光器+光 IO芯片TeraPHY。目前计算卡间的电IO到了单通道800Gb,而我们的光IO是每个chiplet实现4Tb,如果客户使用8个chiplet就是32Tb/s4TB,也就是目前NVlink的2倍多,感觉是在和电IO赛跑,毕竟博通已经展示了serdes的roadmap也在加速,1年1迭代)。且我们路线图未来是要从单chiplet 4Tb继续翻倍到8、16、32Tb/s。此外电缆的缺点就是距离限制,而我们光IO实现了10-100米直接光纤连接,也就是机柜内,甚至数据中心内机柜间。而且赋予了架构设计的更大灵活性,比如计算模组和存储模组之间的距离可以放的更远,过去必须在2米内,有了光IO可以更灵活更远距离的走线分布。关于光IO的应用,会在2026年kicking up(起步),28年之前会看到“huge step大进步”。关于竞争,我们相比于对手是遥遥领先目前是唯一一个实现了小规模量产和出货的,已经是商品ready状态。

OFC后Marvel上涨,citi花旗评论:

使用铜缆还是光缆的讨论一直困扰着MRVL和COHR(原来美股也一样...)然而,OFC上的反馈大多数对光学供应商们更为积极。我们将Marvell放进“30天催化剂观察名单”,这个报告引来了大量投资者反馈,3月8日季报电话会后,投资者普遍悲观,主要源于企业网络/运营商等非AI业务疲软,以及GTC期间对如NVLink Switch等基于铜缆进而对光学的担忧,股票表现不佳,这让MRVL相对于AI同行的估值有18%的折扣。但目前GTC和OFC的举办,加上即将具备的4月11日的AI day,可能会是股价催化剂。此外,我们在OFC总结中指出,光学DSP价值量稳定,没有大规模使用LPO/CPO的迹象我们预计Marvell将在AI投资者日讨论预计到2027年将达到400亿美元的定制ASIC市场空间,并讨论包括AWS Trainium 2(5nm)/基于Arm的CPU在内的定制ASIC的上量。尤其值得注意的是,像NVDA、AVGO和AMD都在各自的AI日前后有所上涨,MRVL在最近回调之后,可能也有类似的上涨动力。

Coherent(Finisar)的评论:与MRVL在OFC第一天发表的评论类似,COHR估计,上周在GTC上宣布的新的NVLink Switch并没有改变架构,GPU到GPU的连接一直是铜缆,而光学连接则是将GPU连接到交换层NVDA的业务发展副总裁Craig Thompson指出,Grace-Blackwell将使用铜缆进行扩展(GPU到GPU的连接),并使用光学技术扩展到最多32,000个GPU(444个机架)。这表明每个GPU的光学带宽将增加一倍,从H100 GPUs的400G增加到GB200的800G。这些评论让我们感到安心,因为尽管有铜缆的创新,AI集群内的光学内容似乎保持不变。COHR重申其800G的销售额在12月季度增长了100%以上,达到1亿美元。管理层预计即使1.6T产品在2024年下半年上市,其800G光学产品仍将继续增长。COHR预计到2024年下半年,销售额将增长3倍,达到4.5亿美元。

康宁的评论:康宁管理层指出,尽管英伟达新的铜背板技术中增加了铜缆含量,但这并不影响光纤含量,因为预计短距离GPU到GPU的连接仍将使用铜缆,而光纤将主导到交换机架的长距离连接

MS对OFC的总结:

对800G/1.6T的需求保持乐观,LITE指出到2028年IDC光学市场约有160亿美元市场空间(约30%的复合年增长率)。短期内上行空间围绕800G(LITE指出2Q24光模块市场收入的75%来自800G,COHR表示1.6T的时间表应该很快预计在2H24/1H25开始发货。更远距离如ZR,竞争加剧,客户寻求降低成本(降低50%到90%不等)

随着数据中心的速度和带宽需求随着AI增加,架构未来的方向是光学和电子更紧密地结合。虽然CPO可能是最佳的长期解决方案,但在包装、可靠性和可行性方面仍存在挑战,需要在未来几年内解决。因此,多数厂商认为某种形式的LPO将是中间过程。然而,思科等也指出LPO存在互操作性上的挑战,像LRO这样的半解决方案的可能性。

思科在OFC上的分析对话,其中对硅光的经济价值思考:

光通信的一个经济模型,影响了我们的决策,也影响了我们的很多投资,那就是交换机的端口成本与光学成本之间的关系。在10G时,光学成本约占整个BOM成本的 10%,而端口+ASIC成本约占 90%。到了100G,这一比例接近 50%,原因是ASIC所提供的带宽容量capacity已经大大提高。我15 年前来到思科,当时我们的交换机是40G带宽容量,如今我们单个ASIC就提供50T带宽。从 40G到 50T的扩展,极大地节省了端口的单位比特成本。但光学成本的下降速度没有那么快,因为光学不仅仅是硅,还有各种元器件、分立器件、DSP 、激光器,这是一个复杂得多的组件。其结果是,光学元件在总成本中所占比例越来越大。因此在100G时,光学元件约占成本的 50%,而在 400G和 800G时,光学元件接近总成本的 70%。这影响了我们对光学投资的思考。因此在过去十年时间里,我们进行了一系列收购,尤其是硅光,比如Acacia,当然我们意识到可能会蚕食一部分光学业务,在经济上对客户来说是一个很好的答案,它简化了网络。

最后是贾扬清大佬的新采访,受益匪浅(from腾讯科技):

AI计算与“云计算”有很大的不同,云计算主要服务于互联网时代的需求,关注资源的池化和虚拟化,在这种虚拟环境下把利用率做上去,或者说超卖。互联网的主要需求是处理各种网页、图片、视频等,分发给用户,让“数据流转(Moving Data Around)起来。云服务关注数据处理的弹性,和便捷性。AI计算更关注以下几点:一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接。因为机器本身的故障率并不高,没有过度复杂的调度和机器级别的容灾。今天的AI计算 ,性能和规模是第一位的,传统云服务能力是第二位的。

英伟达的Super POD,与最早的高性能计算机HPC非常相似,长的也很像(这一点最近感受越来越深刻)这就意味着,我们又从“数据流转”的需求,回归到了“巨量运算”的需求。

通用大模型性能固然很出色,但是在实际应用中,使用中小型开源模型,并用特定数据微调,最终达到的效果可能更好。成本:一台GPU服务器就可以提供支撑的7B、13B模型通过微调,性价比可能比直接使用闭源大模型高10倍以上。在北美,很多企业都是先用闭源大模型来做实验(比如OpenAI的模型)。实验规模大概在几百个million(百万token),成本大概为几千美元。一旦数据飞轮运转起来,再把已有数据存下来,用较小的开源模型微调自己的模型。现在这已经变成了相对比较标准的模式。半年之前我非常强烈地相信开源模型能非常迅速追赶上闭源模型,然而半年之后,我认为开源模型和闭源模型之间会继续保持一个非常合理的差距

个人认为英伟达在接下来的3~5年当中,依然还会是AI硬件提供商中绝对的领头羊,它的市场占有率不会低于80%。但今天需要写最底层的模型的人越来越少,越来越多的需求是微调开源模型。能够跑Llama、能够跑 Mistral,就能满足大概80%的需求。

去年硬件需求的突然暴涨,整个供应链都没反应过来,等待时间很长。最近我们观察到的一个现象是供应链没有那么紧张了,我个人判断有一部分以前因为焦虑而提前囤货的供应商,觉得现在要开始收回成本了。之前供不应求的紧张状态会逐渐变好,但是也不会变成愁卖的状态。

(文中citi ms报告已上传知识星球)

全部讨论

质朴的金条小巫婆03-29 13:09

$云计算50ETF(SH516630)$ 这基涨幅真猛啊。

让时间改变一切03-29 13:07

短期行情也验证资金对算力概股颇为关注,云计算50ETF涨幅经常领跑全市场ETF欸。

自然的回报小草地03-29 13:04

算力已经算是A股最近一年多的热门概念了吧,人工智能及算力概念股常常作为焦点引爆A股行情。

爱吃菠萝的菠萝西03-28 21:44

重点是不是这个激光器?

万物周03-28 19:48

萝卜

银河故事03-28 19:35

感谢大佬分享。

Frank_X03-28 19:25

谢谢分享。