$云计算50ETF(SH516630)$ 这基涨幅真猛啊。
对康宁的评论:康宁管理层指出,尽管英伟达新的铜背板技术中增加了铜缆含量,但这并不影响光纤含量,因为预计短距离GPU到GPU的连接仍将使用铜缆,而光纤将主导到交换机架的长距离连接。
MS对OFC的总结:
对800G/1.6T的需求保持乐观,LITE指出到2028年IDC光学市场约有160亿美元市场空间(约30%的复合年增长率)。短期内上行空间围绕800G(LITE指出2Q24光模块市场收入的75%来自800G,COHR表示1.6T的时间表应该很快预计在2H24/1H25开始发货。更远距离如ZR,竞争加剧,客户寻求降低成本(降低50%到90%不等)
随着数据中心的速度和带宽需求随着AI增加,架构未来的方向是光学和电子更紧密地结合。虽然CPO可能是最佳的长期解决方案,但在包装、可靠性和可行性方面仍存在挑战,需要在未来几年内解决。因此,多数厂商认为某种形式的LPO将是中间过程。然而,思科等也指出LPO存在互操作性上的挑战,像LRO这样的半解决方案的可能性。
思科在OFC上的分析对话,其中对硅光的经济价值思考:
光通信的一个经济模型,影响了我们的决策,也影响了我们的很多投资,那就是交换机的端口成本与光学成本之间的关系。在10G时,光学成本约占整个BOM成本的 10%,而端口+ASIC成本约占 90%。到了100G,这一比例接近 50%,原因是ASIC所提供的带宽容量capacity已经大大提高。我15 年前来到思科,当时我们的交换机是40G带宽容量,如今我们单个ASIC就提供50T带宽。从 40G到 50T的扩展,极大地节省了端口的单位比特成本。但光学成本的下降速度没有那么快,因为光学不仅仅是硅,还有各种元器件、分立器件、DSP 、激光器,这是一个复杂得多的组件。其结果是,光学元件在总成本中所占比例越来越大。因此在100G时,光学元件约占成本的 50%,而在 400G和 800G时,光学元件接近总成本的 70%。这影响了我们对光学投资的思考。因此在过去十年时间里,我们进行了一系列收购,尤其是硅光,比如Acacia,当然我们意识到可能会蚕食一部分光学业务,在经济上对客户来说是一个很好的答案,它简化了网络。
最后是贾扬清大佬的新采访,受益匪浅(from腾讯科技):
AI计算与“云计算”有很大的不同,云计算主要服务于互联网时代的需求,关注资源的池化和虚拟化,在这种虚拟环境下把利用率做上去,或者说超卖。互联网的主要需求是处理各种网页、图片、视频等,分发给用户,让“数据流转(Moving Data Around)起来。云服务关注数据处理的弹性,和便捷性。AI计算更关注以下几点:一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求。需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接。因为机器本身的故障率并不高,没有过度复杂的调度和机器级别的容灾。今天的AI计算 ,性能和规模是第一位的,传统云服务能力是第二位的。
英伟达的Super POD,与最早的高性能计算机HPC非常相似,长的也很像(这一点最近感受越来越深刻)这就意味着,我们又从“数据流转”的需求,回归到了“巨量运算”的需求。
通用大模型性能固然很出色,但是在实际应用中,使用中小型开源模型,并用特定数据微调,最终达到的效果可能更好。成本:一台GPU服务器就可以提供支撑的7B、13B模型通过微调,性价比可能比直接使用闭源大模型高10倍以上。在北美,很多企业都是先用闭源大模型来做实验(比如OpenAI的模型)。实验规模大概在几百个million(百万token),成本大概为几千美元。一旦数据飞轮运转起来,再把已有数据存下来,用较小的开源模型微调自己的模型。现在这已经变成了相对比较标准的模式。半年之前我非常强烈地相信开源模型能非常迅速追赶上闭源模型,然而半年之后,我认为开源模型和闭源模型之间会继续保持一个非常合理的差距
个人认为英伟达在接下来的3~5年当中,依然还会是AI硬件提供商中绝对的领头羊,它的市场占有率不会低于80%。但今天需要写最底层的模型的人越来越少,越来越多的需求是微调开源模型。能够跑Llama、能够跑 Mistral,就能满足大概80%的需求。
去年硬件需求的突然暴涨,整个供应链都没反应过来,等待时间很长。最近我们观察到的一个现象是供应链没有那么紧张了,我个人判断有一部分以前因为焦虑而提前囤货的供应商,觉得现在要开始收回成本了。之前供不应求的紧张状态会逐渐变好,但是也不会变成愁卖的状态。
(文中citi ms报告已上传知识星球)