发布于: 雪球转发:0回复:1喜欢:0

2024年刚开年,OpenAI推出的文生视频工具Sora再次风靡全球,成为了OpenAI继ChatGPT之后新的生成式AI标杆。AI重塑世界,也可能会让环境资源付出巨大的代价。

据《纽约客》杂志引援国外研究机构报告,ChatGPT每天要响应大约2亿个请求,在此过程中消耗超过50万度电力,也就是说,ChatGPT每天用电量相当于1.7万个美国家庭的用电量。而随着生成式AI的广泛应用,预计到2027年,整个人工智能行业每年将消耗85至134太瓦时(1太瓦时=10亿千瓦时)的电力。

除了耗电,和ChatGPT或其他生成式AI聊天,也会消耗水资源。加州大学河滨分校研究显示,ChatGPT每与用户交流25-50个问题,就可消耗500毫升的水。而ChatGPT有超过1亿的活跃用户,这背后消耗的水资源无疑是令人震惊的。

训练一个大模型,科技巨头每年都消耗了多少能源?本期钛媒体·钛度图闻带你关注。

AI大模型参数突破百万亿级别,

训练一次有多烧钱?

在大模型的训练中,语料信息的规模是很重要的。一般来说,语料规模越大,其蕴含的信息就越丰富,模型所形成的参数越大,具有更好的泛化能力。为了获得智能水平更高的大模型,AI模型的语料规模和参数规模越来越大。

从参数规模上看,大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。2017年,谷歌首次提出6500万参数的Transformer模型,自此大模型就开始走上了一条快速发展之路。

2018年,谷歌发布基于Transformer的BERT,BERT学习了16GB的语料,形成3.4亿个参数;2019年,OpenAI推出了15亿参数的GPT-2,同年,谷歌推出T5模型,参数达到110亿。从十亿级到百亿级,大模型在一年内实现跃升。2020年,OpenAI推出了1750亿参数的GPT-3;2021年,谷歌推出Switch Transformer架构,其参数量扩展到了1.6万亿;同年,北京智源人工智能研究院也推出参数量在万亿级别的模型“悟道”。2022年,清华大学、阿里达摩院等机构的研究人员提出的“八卦炉”模型,其具有174万亿个参数,可与人脑中的突触数量相媲美。如今,大模型参数量已实现百万亿级的突破。

目前,人工智能公司很少公开谈论大模型的训练成本,但相关研究估计这些模型的训练成本可高达数百亿美元。斯坦福大学发布的《2023年人工智能指数报告》,基于已有大模型披露的硬件和训练时间,对其训练成本进行了估算。

2019年,OpenAI发布的大语言模型GPT-2参数量为15亿,它的训练成本约为5万美元左右;到了2020年,训练1750亿参数量的GPT-3的费用大概是180万美元。GPT-3比GPT-2的参数量扩大了117倍,其训练费用也增加了36倍。大型语言和多模态模型如“吞金兽一般”,变得越来越大,也越来越贵。

生成式AI多耗能:

ChatGPT日耗电量超50万度

训练大模型需要大量的能源,比传统的数据中心要消耗更多的电力。OpenAI曾发布报告指出,自2012年以来,AI训练应用的电力需求每3到4个月就会翻一倍。华为AI 首席科学家田奇也曾给出数据,AI算力在过去10年至少增长了40万倍。AI大模型可谓是“耗电巨兽”。

研究显示,训练谷歌于2022年发布的大语言模型PaLM需要消耗3436兆瓦时的电量,约等于11.8万美国普通家庭日耗电量(美国普通家庭日均耗电量约为29千瓦时);就算训练参数量为3.4亿的BERT模型,也需要消耗1.5兆瓦时的电量,相当于观看1875小时的流媒体。

据了解,AI服务器和芯片是产生能耗最主要的地方。通用型服务器只需要2颗800W服务器电源,而AI服务器则需要4颗1800W高功率电源,AI服务器对于电源的需求大大提升。荷兰一位学者表示,到2027年,新制造的人工智能设备的用电量将与荷兰、瑞典、阿根廷等国的用电量一样。

除了耗电,由于算力设备的冷却需求,AI消耗的水资源数量也惊人。

谷歌环境报告显示,2022年谷歌的用水量达到了56亿加仑水(约212亿升水),相当于8500个奥运会规格的游泳池,这些水被用来为该公司的数据中心散热。

不仅如此,在微软的美国数据中心训练GPT-3使用的水量相当于填满一个核反应堆的冷却塔所需的水量,大约70万升。而用户在使用生成式AI工具时也需要耗水。研究显示,ChatGPT每与用户交流25-50个问题,就可消耗500毫升的水。研究人员预计,到2027年,全球范围内的AI需求可能会需要消耗掉66亿立方米的水资源,几乎相当于美国华盛顿州全年的取水量。

除了消耗大量的电力和水资源,AI大模型还是碳排放大户。斯坦福大学报告显示,OpenAI的GPT-3模型在训练期间释放了502公吨碳,是目前大模型中有据可查耗能最严重的,它的碳排放量是Gopher模型的1.4倍, 是BLOOM模型的20.1倍,约等于8辆普通汽油乘用车一生的碳排放量,人均91年的碳排放量。

随着科技日新月异,未来AI大模型会层出不穷。不可否认的是,生成式AI的出现给社会生活带来了巨大的助力,但AI给人类带来效率提升的同时也可能引发能源危机。所以,科技巨头们还需从算法和模型优化、硬件优化、训练和计算技巧等方面入手,让AI功耗在一定程度上降低。

全部讨论

AI先抢的是农夫山泉。之所以要用大量的水是因为要散热,而热量的主要来源是因为大量算力需要的巨额电力。现在,微软正在考虑使用小型核反应堆来为这些新产业所需的算力供电。
最新发布的招聘信息显示,微软正在招聘一名核能技术专家,相关职位名为“核能技术首席项目经理”,将要负责完善和实施微软在全球范围内小微型与模块化核反应堆的能源战略,领导相关核反应堆集成的技术评估,为微软云和AI所在的数据中心提供动力。具体要求是,应聘者拥有学士及学位,以及在核工业、工程、能源市场或相关职位六年以上的经验;三年以上管理跨职能或跨团队项目的经验;三年以上核能及相关技术或核监管事务的工作经验。拥有商业、工程、科学、经济学、商业或相关领域的硕士学位,并且在工程、能源市场、电网建模、分析或相关职位拥有四年以上经验,微软将优先考虑聘用。
外界都知道微软是OpenAI的大金主,动辄投资数十亿甚至是百亿美元。但很少有人知道的一点是,2008年时,尚任微软董事长的比尔·盖茨与内森·梅尔沃德联合创办了泰拉能源(TerraPower),现在盖茨仍是泰拉能源的董事长。泰拉能源的主打产品是行波反应堆,这是与传统的驻波反应堆不同的新品,目前这种反应堆可以连续运行40到60年而不必更换燃料。
随着上世纪核能开始被开发并利用以来,外界对核能的兴趣和关注与日俱增,因为核电几乎不排放二氧化碳,并且近几年气候变化引起的担忧也在逐渐增加。根据美国能源情报署的统计数据,美国现有的核反应堆大多建于上世纪70年代至90年代,当前核电约占全美总发电量的18%,占清洁发电总量的47%。
目前,美国核反应堆技术正在向着小型化的目标发展,泰拉能源也是这一理念的积极践行者和推动者。小型核反应堆比传统反应堆更小,反应速度更快,价格也更低,同时因为采用了模块化结构设计,不需要定制每个反应堆部件。从原理上说,核电是核聚变反应,是指两个较小的原子核碰撞形成一个较重的原子,并在此过程中释放巨大能量,这也是太阳内部的反应并产生太阳能的方式。核聚变产生的能量非常大,是核裂变的四倍。理论上只要几克反应物,产生的能量就足够供应发达国家一个人在60年内的所需。
尽管核聚变目前尚未大规模实现应用,但由于其有望提供无限的清洁能源,许多风险投资机构与初创公司都正在致力于此。同时由于技术难度的障碍,核聚变发电能否,或者何时实现商业化,这一问题的答案依然模糊不清,业内长期流传着一种说法:核聚变距离成功应用“永远还有50年”。去年12月5日,核聚变迎来了久违的重大突破。美国加州劳伦斯利弗莫尔国家实验室(LLNL)的科学家从一个实验性核反应堆中实现了净能量增益,即产生的能源大于消耗的能源,向“可控核聚变”迈出了新的一步,而“可控核聚变”的意义是堪比“室温超导”的。因此在此次试验后,美国能源部长珍妮弗·穆尔赫恩·格兰霍姆(Jennifer Mulhern Granholm)就表示,如果相关试验能顺利推进,就能用它为交通、工业提供能源,美国计划在未来十年内实现核聚变能源的商业化。
今年四月时有外媒曾报道过,硅谷的投资人最近几年对核聚变商业化前景颇为热衷。比尔·盖茨不仅自己创办了泰拉能源,也对一些相关初创公司积极投资。OpenAI的CEO奥尔特曼也对核聚变公司Helion Energy投资过3.75亿美元,这是他个人迄今为止最大一笔投资,Helion预计将在2028年左右实现可控核聚变。同时也是在今年五月,微软就和Helion Energy签署了协议,确保只要他们的核电站投产发电,微软将是首批购买电力的客户之一,之前还没有哪家公司达成过这种出售电力协议。Helion Energy要在2028年实现可控核聚变的目标也相当激进,虽然有消息称他们有强力的计划保证实施。
但是凡事无绝对,核能产业近几年遇到的非议也是一点不少的,主要的批评点集中在建造反应堆需要的时间和资金成本居高不下,以及时刻都可能有的核泄漏,甚至是核爆炸风险。不过不论怎样,微软在招募核能方面的专业人才就已经释放了信号,表明其对核电有需求有兴趣,同时也可以视为压缩AI与云计算等新时代产业成本的方法,甚至有可能推而广之,意义还是很大的。