为什么懂行用户都选择CPU做AI推理?

发布于: 雪球转发:1回复:1喜欢:0

这个世界拼的是“认知”!

比如,AI火了这么多年,很多人还是有个惯性认知:通用算力,CPU好使;搞AI、搞智算,CPU不灵!

这个观点可谓大错特错!

事情的真相是,一个AI工程通常都分为两个阶段的:训练阶段和推理阶段,这俩阶段对算力的要求,天差地别。

对于大多数企业级客户来讲,在通常情况下,很少训练,甚至不训练。

直接买一个标准的大模型或小模型回家,就像买标准软件一样,不需要训练,或者只是微调参数而已。

AI训练只是“一锤子买卖”,而AI推理直接贯穿业务全流程,是一种高频且长期的存在,业务运转的每分每秒都要发生。

所以,懂行的客户会选择CPU来承担日常的AI推理工作。

只因为CPU的特性,完美契合推理需求。

好了,对齐基本的认知之后,我们再来详细探讨下,在AI推理业务中,应该如何选择CPU,才能取得最大收益↓

要求1:能满足高速计算和低延迟?

推理过程需要高速读取和处理输入数据(如图像、视频、语音等),这要求CPU需具备高效数据吞吐能力和高速计算能力。

另一方面,对一些需要实时响应的应用(如自动驾驶等),需要在毫秒级别甚至更多时间完成推理过程,那么低延迟至关重要。

要求2:是否已做了AI方面的优化?

比如,是否支持多种深度学习框架?是否有统一推理前端,不用担心底层硬件兼容问题?是否支持各种加速指令集?...

要求3:TCO如何?能不能Hold住预算?

AI推理的吞吐量是否够大,综合TCO是否更好,成本是否更低?在相同的功耗下,是否能满足吞吐量的要求?

大家关注的问题,我都一一摆出来了,接下来就是捋捋业界有什么样的CPU能够搞定这些需求↓

选来选去,自然是AMD EPYC 处理器

EPYC系列处理器是AMD推出的面向服务器和高性能计算(HPC)市场的CPU,在各大数据中心里,非常常见,大家都太熟了。

目前,AMD EPYC处理器已经“进化”到了第四代。

今天,就拿第四代的代表作—96 Core AMD EPYC 9654 CPU为例,讲讲为什么A厂的CPU在AI推理场景如此“能打”。

我们会从硬件、软件、成本、使用习惯、兼容性等几个方面来逐个拆解,带你深入了解这款AMD出品的AI推理神器↓

❶更多的核数,最多到128核,让AI推理算力满格

核数越多,通常意味着算力越强。

AMD EPYC 9654拥有超强96核,还有更夸张的,AMD EPYC 9754(bergamo ),拥有128核。

想象一下,这么多分身一起扛活,多带劲。

所以,AMD EPYC的搬砖能力(数据处理能力)相当牛掰,相对核数少的处理器,碾压优势很明显。

在AI推理时,96核CPU可以同时处理来自成千上万个源的数据推理请求,具备「高并发」能力和「低延迟」本领。

激发多核潜能,依赖于强大的CPU核心架构进行高效调度。

AMD采用了最新的ZEN 4核心技术架构,时钟速率提升14%,单核能力提升高达37%,每时钟周期执行指令数提升15%-24%。

这就好比,单个“小弟”能力更强,而且指挥每个“小弟”的效率又更高,那么组团打怪的本领自然提升了一大截。

如此一来,AMD EPYC就体现出更优的能效比,也就意味着更好的TCO。

比别人小弟多,小弟又个个超能打,而整体饭量(功耗)却不大,这样,同一台服务器可以承载更大的任务量。

❷更快的I/O,加速AI推理速度

前面讲的是“搬砖人多,搬砖劲儿大”,但搬砖还涉及到路程↓

“正经”点儿说就是:在AI推理中,CPU需要与存储、网络以及其他硬件设备频繁交换数据,这要考量的就是CPU的I/O能力。

而单颗AMD EPYC 9654支持PCIe Gen 5 × 128,相当于大大拓宽了“高速路”,整成双向八车道。

这样,I/O吞吐就不会成为AI推理的瓶颈。

❸ 更快的内存,提升AI推理吞吐量

在执行AI推理任务时,内存的传输速率也是非常重要的指标。

AMD EPYC 9654支持最新一代的DDR5内存技术,单颗EPYC 9654处理器支持12个通道,遥遥领先。DDR5具备更高的数据传输速率,且每个DIMM的双通道设计,可以进一步提高内存访问效率,让“搬砖”延迟大大降低。

❹ 支持各种AI优化指令集,更加原生地支撑AI推理任务

支持 AVX-512指令扩展:可以让CPU一次处理更多数据,允许更宽的向量操作。

这对加速AI推理中大量的矩阵和向量计算非常有用,可以显著提高执行卷积和矩阵乘法的速度。

提供VNNI组件:VNNI是一种特定的技术,专门用于加速AI计算。

VNNI则相当于改进了装卸货物的方法,让整个过程更有效率,这样在AI推理时,能够更快地得出结果。

▌支持BF16数据类型:BF16是一种数据格式,用于深度学习或者其他AI计算,可以减少计算资源开销,同时保持足够的数值精度。

好比一种新的数据“打包”方法,在AI推理时,可在不牺牲结果质量的情况下加快推理速度。

为了能够帮助用户更容易地部署和执行深度学习模型的推理任务,AMD EPYC CPU还做了一系列的软件优化↓

❶ 提供机器学习图形编译器

能够识别和处理不同机器学习框架(TensorFlow、PyTorch、MXNet等)构建的模型和算法,开发者无需担心底层硬件的兼容性问题。

❷ 提供AMD优化的 CPU 库(AOCL)

AOCL涵盖了一组针对“Zen”核心架构优化的多个数值库,每个库都针对特定类型的计算任务进行了优化。

AOCL最腻害的地方,是能显著提高应用程序的计算速度。

❸ ZenDNN

这是AMD推出的一个优化的AI原语库,可以显著提高深度学习模型在这些处理器上的推理效率和性能。

ZenDNN非常适合大量数据和复杂计算的推理任务,比如:实时视频分析,进而监测交通流量、识别可疑行为等。

❹ Zen Software Studio

AMD专为其Zen架构处理器设计的一套软件开发套件,用于支持高性能计算应用,如气候模拟、生物信息学分析等,提高大数据和复杂模型处理效率。

搞AI推理,更是小菜一碟。

❺ 兼容Windows和Linux上运行的软件

这种跨平台的兼容性让开发者省了不少事,不仅方便顺手,还不用担心任何性能损失。

说到兼容性,还有一点也很重要。

AMD EPYC处理器,完美兼容目前各种主流的CPU AI库,比如OneDNN和OpenVINO,还可以在不同的AI框架和库之间无缝切换。

企业开发者无需担心兼容性问题,确保了各种应用和解决方案的高效执行。

❶ 性价比更高:可利旧、可升级、可焕新

用户可以利旧原有CPU服务器,通过升级来获得性能提升。也可以购买基于AMD EPYC处理器的新服务器,其性价比相当感人。

❷ 更低的TCO成本:高能效比,永续服务

AI训练可能是“一顿操作猛如虎”,但AI推理任务一旦部署到生产环境,就是一个长期的投入,运维成本、能耗等都必须考虑周全。

AMD EPYC处理器能以较低的能耗完成高效的推理任务。

当然,还有最后一点,也是非常重要↓

跟各种偏门异构加速方案相比,x86 CPU服务器,大家太熟悉啦~

熟悉的架构、熟悉的界面、熟悉的环境、熟悉的运维...,这种熟悉,降低了技术门槛,降低了投入成本,也增强了掌控力!

所以,懂行、精明用户在AI推理时,当然是选择老朋友—AMD EPYC处理器!

全部讨论

03-29 09:54

推理