智算中心，紧跟这拨大行情！

作者：IT特大号

发布于:2024-03-20 19:23

雪球

转发：0

回复：0

喜欢：5

咱们圈里现在有个共识，今年最大的行情，可能就是「智算中心」！

为什么呢？

先看政策层面，「新质生产力」首次写入政府工作报告，「人工智能+」行动全面开启…，还有国资委召开的“AI赋能产业焕新”专题会，提出：加快建设一批智能算力中心！

光这几个热词，就让每个IT人自豪感满满，只因和我们“强相关、紧耦合”！

再看需求层面，AIGC和大模型的风起云涌，传统数据中心、算力中心明显对大模型的“胃口”估计不足，引发了智能算力的大缺口。

必须要有算力更强、能效比更高、更匹配大模型训练和推理特点的新型智算中心，才能Hold住这波需求。

所以，在这样一个大背景、大风口之下，我们今天就来聊聊「智算中心」建设。

2023年全国新建智算中心项目超过100个，预算基本都是上亿。

9.4亿，陕西安康智算中心；5 亿，粤港澳大湾区智能中心；5.1亿，南京智算中；2.9亿，青岛智算中心；2.3亿，杭州图灵智算中心；1.88亿，江西新余智算中心…

如果想介入一个智算中心项目，就得搞清楚最基本的上下游关系，那就是↓

这三方可能是同一人，也可能是独立角色，也可能是融合角色

▎有自建自销的，像运营商移动电信联通，互联网大厂BAT等

▎有自建自用的，像一些金融、科研机构

▎也有是地方政府投资建设，政府是产权方，后期运营和销售由外面第三方企业操盘

...

智算中心的建设，一般分为四层↓

第1层：IDC基础设施层，主要是物理基础，包括服务器硬件、电力等

第2层：云原生基础设施层，通过虚拟化、调度等技术，构建海量AI计算资源池

第3层：大模型开发平台层，提供一系列大模型开发的工具和服务

第4层：行业应用层，这是智算中心的终极使命，落地“人工智能+”行动

难点1：是否确保先进性

一个智算中心项目上马，技术先进性，必然是第一位。

宏观层面，决策者会提出要求↓

细节层面，执行的人会考量更多，比如↓

难点2：前后期投入太大

前期投入大、很多项目动不动都是上亿预算。

也难怪，智算中心都是用GPU堆起来的。

后期运营成本高，智算中心是个“电老虎”，如果不考虑能效比，那电费账单会让人发抖。

难点3：国产化能否“真替真用”？

目前新建的所有智算中心，几乎都要求国产化有一定配比。

那么，国产化软硬件能不能扛活？是个很现实的难点。

最近，我看到业界一份专业且完整的落地方案，源自京东云智算中心。

这个方案经历了大规模实战验证，颇具性价比。其中有几个核心技术点，我摘录提炼了一下，供大家参考↓

阿尔法，是京东云推出智能算力模块，用于快速搭建底层设施，

这东西有点儿意思。

第1点：单机柜功率密度，颠覆性提升，同样机柜大小，算力更强！

阿尔法全面兼容GPU、CPU服务器，单机柜算力密度从20kW~100kW，可按需部署。

第2点：两种制冷方式可选，风冷和液冷，超级节能。

空调能耗降低30%，PUE制冷因子可降低至0.1以内。

第3点：建设速度快，可45天全部搞定。

因为这家伙是模块化的，部署起来就像搭积木。

目前，新建的深圳前海深港人工智能算力中心，也是珠三角目前投资规模最大、算力最高的智能计算中心，在一期中就采用了“阿尔法”智能算力模块。

云舰，可谓智算中心算力调度的“魂儿”。

在智算中心中，如何提高计算资源的利用率，至关重要，效率上去了，成本才能下来。

云舰有两大降本增效本领↓

第1点：离在线混部技术，智算中心用户能少买一大批服务器。允许在同一集群上同时部署延迟不敏感的离线计算任务和延迟敏感的在线服务。

总之，坚决不让服务器“摸鱼”，极大提高GPU和CPU的使用率。

第2点：vGPU功能，榨干每颗GPU算力。

在不增加物理GPU服务器的情况下，通过GPU算力池化支持更多应用场景并发处理。

这种功能对智算中心相当重要，可以极大提升GPU的平均利用率（最高超过90%），降低大模型推理和其他GPU密集型任务的成本。

智算中心处理的是海量数据，这些数据不仅需要存储，还需要频繁访问和处理。

所以，针对智算中心的数据存储和数据处理，京东云也拿出来点干货。

第1点：京东云云海分布式存储系统。具有千万级IOPS高性能读写能力、低于100微秒的时延。

对于智算中心处理大规模数据集、实时数据分析和大模型训练等任务至关重要。此外，还能满足大模型存储需求。

第2点：大模型向量数据库服务(Vearch)，支持百亿级向量数据的高性能检索。

将检索延时降低至毫秒级，可用性高达99.99%，在大模型预训练场景下，推理成本可降低80%。

建设智算中心的终极目标，是让智算中心去承载一个个行业AI应用，实现「人工智能+」的目标。

为此，京东云提供了「言犀AI开发平台」。

这是一个低门槛、高性价比的AI应用孵化平台，简化了AI项目的复杂度，提高大模型算法和AI原生应用开发效率。

第1点：让AI应用开发，低门槛易上手，开箱即用。言犀内置多款热门的大模型、数据集、AI框架，随时取用。

第2点：支持一站式快速跑通，验证项目可信性。

言犀提供一站式AI开发工具，数据准备→模型开发→模型训练→模型部署→应用构建，并与京东云多款计算、存储产品无缝集成。

如果你有一个“AI+”的点子，很快就能验证靠谱不靠谱。

在今年两会上，全国政协委员、京东集团技术委员会主席、京东云事业部总裁曹鹏在提案中建议：通过政策鼓励国产化GPU适配国产的算力调度软件，建设自主可控的智算基础，加快实现国产化“真替真用”。

尤其GPU是智算的关键一环，被“卡脖子”的大背景下，一方面需要国产GPU硬件顶上去，另一方面，软件侧要做到最大化的协同和调优。

而国产化这件事，京东云一直在干，而且始终是奔着“真替真用”去的。

不仅通过各种优化和协同，让国产化软硬件扬长避短，更能“扛活儿”。更是在自家的关键生产业务中，大量落地使用，持续优化、动态升级改造。

从AI智算模块到AI算力调度，从智算数据处理到AI应用开发，再加上国产化真替真用，京东云这套智算中心方案，由点到面，非常应景地Hold住了智算中心建设的大部分痛点。

可以预见，未来几年，智算中心的新建、改造、升级项目会井喷式出现。

这类大项目，涉及投、建、营方方面面，规模大，需求多，并非任何单一厂商能够独立完成，需要全产业链通力合作。

So，广大ITer们，速速支棱起来吧，抓住这波行情！