比智算更猛的，是异构智算！

作者：IT特大号

发布于:2024-04-26 10:00

雪球

转发：0

回复：0

喜欢：0

大模型的火爆，彻底带火了智算中心建设和升级。

现在稍有点规模的企业级客户，都想着让自家的数据中心或者机房，能贴上“智算”的标签。

毕竟，有了智算这个基本盘，后续大模型落地，无论训练、调优、推理，都能“搂住底浆”了。

而在这个建设过程当中，大家最热衷于搞的，是「异构智算」。

为啥？

因为「异构智算」可以更好地适应不同客户的IT基础设施现状，让他们多快好省地搭上智算快车，开启大模型“训调推”之旅~

我们先来讲讲，到底啥是「异构智算」

在构建算力集群的时候，所有的算力卡不仅品牌一致，连具体的型号系列也完全相同，这属于完全意义的“绝对同构”。

这种配置，适合不差钱且抢货能力强的顶流客户，一出手就是上万片。

如果把这个方案变通一下，A厂或者B厂自家相近系列的GPU，各自组成集群，但A厂和B厂之间不掺和。

虽然没那么理想，但也可以算作一种“同构智算”。

一般来讲，同构环境相对来讲更容易搭建和管理，不要考虑那么多兼容性、稳定性问题。

可是，在实际情况中，甲方为了成本、利旧升级、供应链等多种原因，往往需要把希望把多家的GPU混合使用，共同扛活。

我把这种情况，称为「异构智算1.0」

GPU算力卡的异构，可以很好地平衡建设成本，缓解供货不足的问题，让企业尽快拥有智算能力。

不过，还有很多企业不满足，他们希望不仅是GPU加速卡异构，还希望GPU和CPU异构，更灵活地适应各种训练、调优、推理负载。

甚至，CPU还是多种型号、不同指令集的（X86、ARM），各种规格掺和在一起，一旦搞不好，就是大型甩锅现场。

我把这种情况，称为「异构智算2.0」

目前来看，业界已经有供应商能够支持这样的方案，允许多样性算力混合编队（不同类型的GPU/加速卡，不同指令集的CPU）。

大家求同存异，团结起来，一起把锅背好↓

你以为这样就是终极方案了吗？不！

最近又出现了一种新需求：能不能把之前建设的HPC超算中心跟现在的智算中心融合一下，让超算干点智算的事儿，让智算也帮超算扛点活儿？

以前，大家都觉得没必要，因为智算和超算的工作负载有很大区别。

智算主要关注海量数据处理和模型训练，要进行大量的矩阵运算，侧重并行能力，对数据精度要求不高（单精度甚至半精度就够用）。

而超算属于计算密集型任务，需要大规模的数值计算和复杂的数据通信，对数据精度要求很高（通常需要双精度）。

但现在，随着两者硬件的趋同，算力卡短缺的智算领域萌生了“借鸡下蛋”的诉求，希望在HPC集群空闲时，共享GPU节点。

与此同时，大模型越来越牛，让AI for Science的需求日渐迫切，科研任务也需要智算加持一下。

So，「超智融合」的需求，突然变得紧迫起来~

于是，这就来到了“终极”异构智算方案↓

不仅是多种GPU、CPU异构，还要实现智算集群和超算集群的异构。

是不是有点难搞？but，真有人搞出来了。

就在上周，联想在TechWorld2024上，隆重发布「联想万全异构智算平台」。

通过一套“万全”，完全覆盖各种异构场景，为 AI 2.0时代提供高效、稳定的算力支持，实现高度自动化的AI全流程开发，提升应用部署速度，降低业务成本。

联想万全异构智算平台，都有哪些玄机？

先来看看联想万全异构智算平台的整体架构吧↓

在算力基础设施层，联想实现了各种协议和硬件的异构支持：

其中，计算同时支持海外和国产芯片（CPU、GPU、NPU、FPGA等），网络通信支持IB、RoCE以及各种私有协议，存储则实现了对各种主流并行文件系统、对象存储的兼容。

夯实这个异构底层之后，在上层，联想拿出了5大“绝技”，从不同层面帮助用户解决实际问题。

❶ AI与HPC集群超级调度器

前面讲了半天异构智算、超智融合，这其中用到的一项核心能力，就是AI与HPC集群超级调度器。

智算集群与HPC集群的调度方式完全不同，前者通常基于K8S，而后者基于Slurm。

而联想超级调度器则可以完美操控这两套体系，切换AI和HPC的调度沟通，实现全局监控任务和动态共享资源。

这样，搞智算训推时，AI集群可以“借用”超算集群的空闲GPU节点，HPC业务也可以利用大模型技术来探索AI4S创新。

你可能觉得「超智融合」的需求很小众？对别人可能是这样，但对联想的客户来说却不一样。

联想是HPC TOP500份额十二连冠，拥有大量的高端超算客户。所以，联想深入场景实践，才能理解超智融合需求，并且搞定超智异构难题。

❷ 算力匹配魔方

基于海量的硬件评测和AI算子算法集成工作，联想构建了AI场景、算法、集群硬件三者匹配关系的「算力魔方知识库」。

基于这个“算力魔方”，可以标识AI场景、算法、集群配置这三者的匹配关系。

针对不同场景，实现全自动规划和调度。

实际使用时，用户只需输入场景和数据，即可自动加载最优算法和调度最佳集群配置。

❸ GPU内核态虚拟化

在AI推理和中小训练场景，为了避免大马拉小车，都会采用vGPU来扛活。

但业界通常在OS用户态对GPU进行虚拟化，算力损耗高达20%。

本次发布的万全异构平台，搭载了联想研究院开发的GPU内核态虚拟化算法。

对算力和显存的实现精准隔离（误差＜3%），并在GPU驱动层完成资源调度，vGPU切分的颗粒度精细到1%。

❹ 联想集合通信算法库

在大规模智算集群中，如果网络通信慢，就会造成GPU闲置“摸鱼”，从而浪费昂贵的算力资源。

联想万全异构智算平台能自动感知集群网络拓扑，并选择和采用经联想增强的集合通信算法，使数据传输在最佳路径，提升吞吐，降低时延。

千卡规模集群下，网络通信效率提升超10%，集群规模越大，提升越显著。

❺ AI断点续训技术

AI训练不怕断，就怕恢复时间长。

联想拿出了三招来改进断点续训效率，将恢复时间缩短到分钟级。

首先，针对故障特征来进行数据做多级备份，大幅精简备份数据量，同时令备份数据从最佳路径被提取。

第二，对大量AI训练故障进行特征采样，开发了预测AI训练故障的模型。

最后，联想万全异构智算平台集成了端到端的监控手段，对AI故障的抓取能够做到万无一失。

好了，读到这儿，你明白异构智算方案为啥会火了吧？因为不仅需求旺盛，而且业界的顶流玩家深度入局了。

作为“终极”异构智算方案，联想万全异构智算平台是 AI2.0时代一款神器，正在助力广大用户突破算效瓶颈，构筑智算基石。