人工智能全行业分析之算力上游

发布于: 雪球转发:0回复:15喜欢:4

在中旬的时候,发过一篇转载,是陈晓红院士团队写的:我国算力服务体系构建及路径研究,有兴趣的可以戳下面的链接去学习一下

转载:陈晓红院士团队:我国算力服务体系构建及路径研究

原文根据整个人工智能全行业,分成了五部分

算力资源层:是指由大量单核CPU、GPU和FPGA等算力基础设备组成,这一层的目标是提供基础的硬件设施支持,以满足各种计算需求。这些设备具有不同的性能、功耗和成本特点,可以根据不同的应用场景和算法需求进行灵活的组合和配置。

算力融合层:由算力资源层提供的多种算力形态,结合算力网实现跨区域跨层级的云、边、端算力高速互联和数据传输,形成大规模分布式算力资源池。各算力资源池通过算力网连接形成互联互通的算力有机体,汇聚和共享算力、数据和应用资源,为不同场景和需求的算力服务提供了强大的支撑。

算力运营层:其职能是用尽各种手段保证算网业务系统的稳定性、可用性、安全性,打通算力封装、算力并网和算力接口等环节,形成行业统一标准,打造“一站式”算力运营平台,使其具备定价、交易、结算和维护等职能,形成闭环自动化的智能运营模式,实现跨厂商、跨地域、跨应用一体化智慧化运维。

算力服务层:算力服务层的作用是为算法提供资源,使其能够应对不同的需求和挑战。算力服务层的核心是数据,数据为算法提供支撑,使其能够处理复杂问题和多元场景;而算法则为数据提供技术支撑,使其能够产生有价值的信息和知识。算力服务层可以根据算法的特点和目标,动态分配和调整资源,以达到最佳的性能和效果。算力服务层是一种创新的技术,为数据和算法之间建立了一个高效、灵活、可扩展的桥梁。

算力应用层:让算力像“自来水”一样普及供给,代表着人类社会向数字化、智能化转型迈出了坚实步伐。这一举措不仅可以显著提升终端应用的响应速度和服务体验,更为各行各业发展提供了有力的基础保障

资源—融合—运营—服务—应用

我个人的理解是这样的,按照行业,上中下游,应该分成三个

上游:算力产出

中游:算力服务

下游:算力应用

我的理解是这样的

上游:就是一个算力产出,通过算力服务器(不管你是GPU也好,ASIC也好),最终是算力产出,目的就是提供算力,使得算力能最大化的供给,这是上游应该做的

中游:就是一个算力服务,即算力租赁,AIDC(新的名次 AI IDC)算力中心,通过购买服务器,购买服务,购买软件,购买各种各样的配件,使得能够将算力服务给下游应用端

下游:就是一个算力应用,即中游AIDC的算力,转换成应用,服务B端企事业单位或者是C端个人用户,这是下游应用

我不知道这样分类对不对,这是我个人的一个理解

那么今天,我们就来分析一下,人工智能的上游

首先,大家得有一个思路需要转变,只要是能提高算力,或者让算力损耗减少到最少,不管你是硬件还是软件,都是属于上游,不单单卖铲子的,软件也算!

我们先看硬件,硬件其实就是算力服务器里面的那些:GPU,ASIC,HBM,NVLINK,chiplet,PCIE,PCB,等等等等,这些名词,这些硬件的升级,能真真实实的提升算力

我们再看软件,简要说一下,只要能提升算力的软件,包括算法上的优化软件,都是属于上游软件,这个软件,不是下游应用软件,而是上游的算力优化软件

前阶段,有一波朋友,去了AIDC调研,发现了一个国内普遍存在的问题:大家都知道,目前咱们国内拿不到NVID的卡和服务器,很难很难,那么,咱们国内和北美,存在一个比较大的差异就是,打个比方 OPEN AI 可能一个机房,万卡服务器,这万卡服务器,都是H100,那国内呢?国内现在一个机房,各种品牌,各种架构的服务器都有,即便好不容易拿回来的A100和H100,也存在架构不同,A100是Ampere架构,H100是Hopper架构,品牌不同,有些H100是超微服务器,有些H100是戴尔服务器,有些A100是新华三服务器,每个品牌的服务器,用的主板都不一样。这些杂牌军服务器组合在一起,有英伟达的,有华为的,甚至还有海光啊,寒武纪的。。。。。

那么问题就来, 这些服务器在组网以后,发现性能下降的厉害

打个比方,100台 8U 版本的H100服务器,每台应该是16P算力,那么100台应该是1600P算力对吧

但是目前的情况是

128台小型集群,组网以后性能下降大概30%

1024台中型集群,组网以后性能大概下降50%

万卡大型集群,组网以后性能下降到只剩30%

这组网性能大幅下降的主要原因就是组网以后,没有一款软件去组网调优,去匹配各种架构,各种品牌的GPU,这种算力损耗,其实是相当巨大的

只要能解决目前国内杂牌军的组网性能下降的软件,这都是上游,因为他是能提升组网算力,

说一句中游的算力服务,即算力租赁,其实也有软件,这个软件是用来统计流量,实时根据算力需求选择服务器开关机,等等等,这个软件,是不能提升算力的,所以这是中游的软件,完全不一样,不要混淆概念,不能提升算力的,都不是上游!

而光模块,交换机,其实都是中游配件。。。。。

那么,我们来结合农尚环境的产业链布局,来仔细的分析一下,我写的会详细,因为我反反复复听了1月底的电话会议,不下十几遍,逐词逐句去扣,去理解,其实那天电话会议,对于战略和产品线的规划,说的异常清晰

第一步:把购买回来的算力服务器,以租赁的方式派发到各个AIDC算力服务中心去

注解:这一步,是不赚什么钱的,因为是为了后面的铺路,这和中贝通信,莲华健康,等拿了算力服务器自己搭建算力中心的理念是完全不一样的,农尚环境不搞重资产,反复强调,不搞重资产,算力中心是重资产,农尚不会去搞,只是简单的拿到的算力服务器以租赁的方式派发到各个AIDC算力中心

第二步:用软件帮助AIDC 系统整合,给AIDC算力中心通过软件系统整合优化,(主要是算力调度和算法应用带来的优化)

注解:这一步,是公司未来的目标主营营收,不是算力租赁,这块业务是软件组网,前面分析的很清楚,国内算力中心杂牌军,组网以后性能下降,公司旨在通过软件优化组网,主要就是算力调度优化,在训练端,每台服务器,不打架,性能发挥最强

第三步:通过软件给AIDC组网优化以后,再去主推公司的自主推理端服务器

注解:最后一步,也是未来最大的看点,完全自主的推理端服务器,这是未来的发展方向,因为给算力中心调优组网完成以后,算力中心可以发挥最大化的性能,可以开始跑训练端大模型了,当跑完数据,生成大模型以后,下一步就是需要推理服务器,推理服务器的需求量大家已经看到了,上周KIMI连续宕机,扩容5次,还是不够用,最后上周五紧急租赁了农尚环境的54台超微服务器,推理服务器的需求,在2024年下半年,会急速爆发性增长!

最后总结一段话:首先我能拿到服务器,我可以不赚钱的帮你们算力中心去拿,这不是我的主业,我也不靠这算力服务器赚钱,其次,我会帮你测试组网,调试,调优,软件服务,帮你数据中心性能达到最大化,帮你每一台服务器发挥最大的算力,最后,算力中心完成大模型的生成以后,我有完全自主可控的推理端服务器,供你算力中心选择

这,就是当天电话会议,对于公司战略规划和产品线规划的说辞

基于行业来分析,其实,都是属于行业上游,因为这三部曲,都是围绕算力来做文章,至于公司战略规划和产品线的规划,能不能成功,这只能交给时间去验证,每个人都有自己的想法,这个不能强求,仁者见仁智者见智吧

$农尚环境(SZ300536)$

全部讨论

03-25 23:27

基于1月底电话会议,把农尚环境基于人工智能的产业链规划和产品线规划,都给大家详细解释了,供大家参考$农尚环境(SZ300536)$

英伟达使用铜缆的原因是己经有高速传播芯片问世,此芯片可以使用铜缆!这就意味着不需要大量的光纤和光模块!按目前算将减少80%的光纤光模块!
国内分析师不知道是真的不了解这个,还是故意避向不见?

03-25 23:38

先等这54台后续的消息能否落地

03-26 00:04

通透了,我原来以为租赁是主要经济亮点,感谢解惑!

03-26 09:52

这两天洗的有点狠

03-26 09:27

你好,重返兄,有没有1月底电话会议的录音,我也想仔细听听,可否方便私传,感谢!

比老板还清楚的投资者