绿了算力,红了AI

发布于: 雪球转发:0回复:0喜欢:1

为什么算力必须“带点绿”?

文|陈俊一

编辑 | 王辉

题图|midjourney

现在的算力中心,太费电了!

有数据统计,2022年全年,全国数据中心耗电量达到2700亿千瓦时,占全社会用电量约3%。预计2024年全国数据中心的耗电量将在3400亿至3600亿度之间,到2025年可能增长至4000亿至4400亿度。

算力的比拼,不仅是芯片的比拼,更是电力的比拼。未来的国家竞争力,不仅在算力,同样也看电力供应水平。

而绿色算力的问题也随之而来——如果风电光伏有足够多的可使用电力,数据中心的高耗能问题是否就不重要了?如何理解绿色算力,到底是一种节能的技术应用,还是一套节能的复杂系统,重点到底在算力,还是在电力,还是在更多外围技术上?

算力中心太费电,人类大脑“不费钱”

数据中心运行有高低功率之分,运算任务重功率就会更高。

不过,数据中心只要开机就会一直耗电,虽然重度运行时耗电更好,比如ChatGPT的算力中心,用户数越多、提问的次数越多,就会消耗更多的电力,但好在还有足够多的用户来“分摊”这个电费。所以不能单看耗电量增多就认为数据中心不够绿,还要看数据中心耗费的电力,是否真的用在各行各业中去了。

国内目前大批量建设的算力中心,如果没有足够多的用户使用,或者运行使用率不够高,那24小时运行的电费又如何负担?

在讨论绿色算力之前,不妨再讨论一个题外话:人类大脑在放空时和深度思考时,“功率”有变化吗?

科学家研究发现,深度思考时,大脑的功率相比放空发呆时,功率竟然不会有大的变化。

那么为什么,深度认知工作之后,人会疲惫呢?

其实,这种疲惫不是因为功率变大消耗了更多能量,而主要是大脑的深度思考过程也和电脑运行一样,会产生“废热”,需要处理。

法国科学家马蒂亚斯·佩西廖内 (Mathias Pessiglione) 研究就发现,长时间的高强度认知工作会导致有毒物质谷氨酸在前额叶皮层中积聚,谷氨酸的积累会使前额叶皮层难以进一步激活,再进行高强度的认知活动就会变得更加困难。

用算力服务器比喻的话,就是CPU烧热了,需要休息一会散热。

但这个比喻依然不够精准,CPU与GPU在高使用率下功率相比低使用率时,功率会增长10倍不止,并带动散热等其他部分耗电的大增,与之相比,人类大脑真的才是世界上最绿色的“算力中心”了。

据科学家估算,大脑运行功率大约为15瓦左右。大脑一天的能耗,转化为电能也就相当于约0.36度电。人类大脑堪称效率最高的计算机

而智能化水平距离人类仍有距离的ChatGPT,据估测每天要消耗超过50万千瓦时的电力,以响应用户的约2亿个请求。从推理到训练,到处都是耗电大户,比如GPT-3单次训练耗电量就高达1287兆瓦时(1兆瓦时=1000千瓦时)。

AI应用,太耗电了!

不过,换个角度看,ChatGPT可以被几亿人使用,怎么可以和一个人的大脑相比?如果将其每天50万千瓦时的电力消耗除以2亿次的回复请求,那么每次回复仅需要耗费0.0025度电,40次回复才消耗一度电。看起来,似乎也不算高?

但AI应用的耗电量,不能用动辄几亿次的回复数作为分母,去做一个刻意缩小耗电量的“除法”。

哪怕单次回复的功率与能耗再低,ChatGPT总的耗电量并不能因此减少。ChatGPT的运行,依赖超过3万块英伟达A100 GPU,一块 A100功率 400W,那么就是至少1.2万千瓦的总运行功率。这只是保守估测,按照每天50万千瓦时耗电量,总运行功率在2万千瓦以上。

而这样的大语言模型,并不只是ChatGPT一家,中国有“百模大战”,至少上百家大小模型存在对算力的强需求。此外传统的算力需求也在增长,这依赖无数个数据中心、算力枢纽的24小时连续运行,而电力成本已经占数据中心运营总成本的60%-70%,且大量的电力用在散热等非IT运算部分。

虽然大脑作为脑力劳动的功率变化不大,但人类体力活动功率是存在很大的浮动区间的。人类日常步行的平均功率,大约是100瓦;极速奔跑时,普通人可以达到500瓦左右的功率,而1千瓦基本就是普通人的极限功率了,能够比日常功率提高10倍,但持续时间很短。

只有非常强壮的运动员才能拥有超过1千瓦的功率,比如篮球明星、百米短跑运动员、摔跤运动员、举重运动员等。

可以做一个简单计算,以格鲁吉亚运动员塔拉哈德泽在2022年东京奥运会创下的男子109公斤体重以上级223公斤抓举世界记录为例。塔拉哈德泽身高1.98米,粗估其223公斤的抓举世界记录抬升高度为2.3米,抬升时间为1秒,则瞬时功率(瞬时功率=力×速度)大约为5千瓦左右(223kg×9.8m/s2×2.3m/s=5020.42W)。

人类中的最强壮者,最大也就这么点功率——5千瓦。而人类脑力,更是只有15瓦左右,哪怕在高速“运转”思考之时也不会剧烈变化,堪称最绿色的算力。

回到绿色算力这个主题,CPU与GPU显然不能简单类比人类大脑,毕竟大脑通过神经元之间的电化学信号传递信息和执行计算任务,本来就只需要非常微弱的“电化学”能就可以实现。硅芯片电压电流过低是启动不了的,而以机架为单位的数据中心,耗能更是恐怖。

据统计,截至2023年底,全国在用数据中心机架总规模超过810万标准机架,算力总规模达到230EFLOPS。

据 Uptime Institute 数据,2020 年全球数据中心平均单机架功率为 8.4千瓦/机架;《上海市数据中心建设导则(2021版)》建议平均机架设计功率不低于6千瓦。数据中心单个机架的平均功率,还在随着算力需求继续上升,而功率密度越高,对散热的要求也越高,进一步提高散热系统的功率。

人剧烈运动之后需要休息,算力中心的处理器、显卡过热之后也会变慢也需要休息,只有足够充分的散热能力,才能让算力中心持续迸发出超强的算力;而增强散热又需要增加更多功耗。

中国还在建设更多拥有大规模机架的数据中心,据中金测算,预计到2025年,我国数据中心能耗总量将突破4000亿千瓦时。建设绿色算力,在减碳零碳目标下,自然成为一件迫在眉睫的事情。

用上绿色电力算不算绿色算力?

关于绿色算力,其实有很多概念还需要辨析。

绿色算力在美国也有与之对应的概念,如Green Computing、Green IT、Sustainable IT等。

“绿色计算”、“绿色IT”在美国提出很早。美国环境保护署 (EPA) 于 1992 年在美国推出能源之星计划以促进和认可能源效率,并创造了“绿色计算”( Green Computing)一词,其后随着Green IT、Sustainable IT等概念的提出,基本也是并行使用,等同于绿色算力的内涵。

那么,绿色算力中,数据中心和算力中心又有什么区别呢?

数据中心和算力中心基本是同义词,数据中心一词用得更早,而算力中心则是近两年开始广泛使用。

从简单的机房到复杂的数据中心,再到更为专注的算力中心,概念的演化也反映了产业结构的变革。算力中心不仅提供传统数据中心的数据存储和计算服务,还提供高性能计算、AI训练和推理等服务。数据中心也包括算力服务,而算力中心一般更强调算力,存储服务不是重心,两者其实是同一个概念随着产业发展,变得并行使用,各有侧重。

据测算,一个算力在1000PFLOPS、采用国产芯片的算力中心,用电功率在8000kW到16000kW之间,如取10000kW计算,24小时连续运转的算力中心单日用电量就是24万千瓦时,一年用电量就是8760万千瓦时。

而这些用电量中,真正用于IT系统的可能只有45%左右,而散热系统、电源系统等其他部分耗电比例在一半以上。

绿色算力的第一步,就是降低PUE值。

PUE值也即电能利用效率(Power UsageEffectiveness,PUE),是数据中心消耗的所有能源与IT负载使用的能源之比,PUE值越低,说明数据中心用于IT设备以外的能耗越低、越节能。PUE之外,还有水资源利用效率(Water Usage Effectiveness,WUE)、碳利用效率(Carbon Usage Effectiveness, CUE)、基础设施利用效率(Infrastructure Usage Effectiveness,IUE),面积使用效率(Space Usage Effectiveness,SUE)等指标用于衡量数据中心的的绿色水平。

降低PUE值,一靠环境,二靠技术,比如液冷技术来提高散热效率,降低能耗。

环境上,如青海等寒冷地区,如深海等寒冷位置,都是建设算力中心的“风水宝地”。

据了解,中国电信(国家)数字青海绿色大数据中心的机房内PUE值可以做到1.13以下,因为青海高海拔、高纬度,气候冷凉、干燥,极利于算力机房的散热。

此外,2023年,青海清洁能源装机突破5100万千瓦,也有足够多的绿电可以用于算力中心。

问题来了,如何把更多绿电用到算力中心?因为算力中心需要24小时运转,而光伏夜晚不发电,风电发电也有波动。

在降低PUE值之外,还有更多方向来建设绿色算力,比如通过数据中心虚拟化,让老架构的数据中心可以支持新的应用程序,同时使用更少的电力、物理空间和运维人员,延长没有扩展空间的旧数据中心的寿命。而且,这种算力虚拟化可以使多个操作系统同时在单台物理服务器上运行,能够将服务器CPU平均占用率提高10%-30%,有效节能20%-50%。

再比如使用绿色电力。

使用绿电与降低PUE值没有直接关系,但一方面,提高可再生能源利用比重也可以降低数据中心的电费支出,提高经营利润;另一方面,数据中心通过需求响应临时性增加(填谷)负荷,消纳可再生能源电力消纳,还可以获得可再生能源消纳补贴。

问题又来了。

PUE值最多也就只能降低到1,此后进一步优化能耗、降低碳排放,基本只能依赖绿色电力。那么,绿色算力问题,不就变成了绿色电力问题了吗?

绿色算力不止绿电

数据中心等领域近几年的电力消费增速,远超GDP增速;可以预测,未来数据中心的绿电消费增速也会超过化石能源发电的增速。但绿色算力的内涵当然不止于使用绿色电力。

绿色电力之外,绿色算力还要考虑节省土地占用、配合储能系统降低碳排放、节省水资源、废弃物降低与处理、全生命周期硬件回收等。在东数西算国家工程背景下,绿色算力还可以考虑如何与西部生态系统修复相结合,如何利用西部可再生能源与储能资源丰富的条件,用峰谷电价差、参与调峰调频以降低成本、赚取额外利润等诸多方面。

绿色算力是一个系统工程,涉及底层芯片、服务器厂家、系统集成商、云服务、电力系统、储能企业、超算运营商等多种企业主体。联想、浪潮、曙光、超剧变、新华三等企业也都在押注绿色算力,从服务器基础部件到整机系统到整个数据中心,从液冷到余热回收等综合技术,从降低能耗到提升服务器计算效率等不同方向都在发力。

从液冷技术、系统化的能效优化到使用更多绿色电力,都是绿色算力的关键组成部分。但仅仅依靠这些技术,并不是算力建设的最终目的。算力首先要好用,不能只绿不用。最近几年,很多地方都在建设智算中心,但如果只是降低了碳排放,但智算中心没有在市场中得到用户认可,那反而失去了算力建设的本意。

算力不仅要变绿,更要被市场充分所用。

一个国家真实的算力,不是单纯的各地所有数据中心的算力相加。还需要将分散的算力相连成网络,共享聚合各种算力,从而为用户供给无限的通用算力,形成全国一体化算力体系。

2023年12月,国家发展改革委、国家数据局等部门联合印发的《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》,就着眼于通用算力、智能算力、超级算力一体化布局,东中西部算力一体化协同,提出算力与绿色电力一体化融合等五个“一体化”,旨在从战略上加快综合算力基础设施体系和全国一体化算力网建设。

绿色算力未来还要将建设全国一体化算力网时的低碳考量囊括进去,在更高带宽、更低时延中去进一步丰富绿色算力的内涵。

那么未来,会不会随着全国一体化算力网、算力总量的指数级提升,反过来给绿色算力带来全新的变化?比如技术方向上,有新的材料参与进来?或者在超强算力之下,诞生全新的人工智能生命?

在刘慈欣的科幻小说《镜子》中,具备超强算力的量子计算机,甚至可以预测宇宙的无数种可能,而我们所处的宇宙更可以被精准预测未来。

这当然只是科幻小说的想象,但只要有足够强的算力,出现“算力之神”,理论上一切问题都能够通过找到算力求解之道。绿色算力,就是加速超强算力出现所必须的技术与体系。

END

推荐阅读