大模型掀起AI新浪潮,国产算力崛起元年 | 骊阅 Knight Read

发布于: 雪球转发:1回复:1喜欢:2

本期导读

大模型掀起AI新浪潮,国产算力崛起元年

01. 从大模型到算力新基建

02. 算力芯片评价框架

03. 国产算力迎来新机遇

ChatGPT问世以来,科技巨头和明星初创公司掀起大模型军备竞赛,长文本、语音、视频等能力逐步演进,朝着AGI的星辰大海前行,强大的模型根植于充沛算力之上,算力芯片的战略地位不言而喻。本篇我们从大模型与算力的关系讲起,再构建算力芯片的评价框架,最后着眼于美国禁令下国产算力芯片迎来的发展新机遇。

01

从大模型到算力新基建

大模型掀起新一轮科技热潮

大模型之前,我们的生活已被AI渗透,手机助手、智能家居、刷脸支付皆是AI,但受限于模型算法和参数量,AI只能理解简短、单次指令,遇到没有预先设定的情景即刻宕机。而基于大模型的ChatGPT刷新对AI的认知,长记忆的多轮对话能力大幅提升了交互体验感,多模态模型能够生成逼真的图片、音乐和视频,更进一步的Agent系统能够自主决策、调用工具解决问题,虽然幻觉、专业知识匮乏等问题存在,但它展现的潜力已足以让所有人狂热。

Agent能力涉及感知、决策和执行

数据来源:新智元

参数量、数据量越大,模型能力越强

过去AI模型基于CNN、RNN等神经网络技术,这些架构要么无法很好地捕捉长上下文关系,要么参数量扩展后计算难度指数增长,而OPEN AI团队使用Transformer架构来构建AI模型,通过引入注意力机制,模型实现了卓越的记忆能力和扩展能力,从GPT-1一路迭代到GPT-4,每代模型能力都实现了跨越式提升,OPEN AI团队据此总结出“扩展法则”,即增大参数量和数据量、模型能力就能提升,它成为所有大模型公司的黄金法则,不断扩展模型规模、探索模型能力的边界。

神经网络算法演进时间线

数据来源 :Google Scholar

模型尺寸超过阈值后能力涌现

数据来源:Google/Deepmind

大模型扩展法则

数据来源:Open AI

训练/推理是算力吞金兽

模型训练侧算力需求=6×参数量×数据量,模型单次推理需求=2×参数量×输入输出数据量,沿着scaling law扩展模型的参数量和数据量、算力需求指数级增长,按照当前模型的迭代速度,每3-6个月算力需求就要翻倍,但是为了通往AGI,科技大厂们不计成本抢购最先进的GPU,北美云厂商给出了超预期的Q1资本开支和强劲的增长指引,虽然爆款应用尚未出现、商业闭环也没彻底打通,但硬件卖铲人已经赚的盆满钵满了,英伟达的CEO黄仁勋表示,全球AI基础设施市场规模将达到2万亿美元,包括当前1万亿数据中心基础设施向加速计算转移,AMD的首席执行官苏姿丰表示AI芯片到27年市场规模将达到4000亿美元,CAGR为70%。

Transformer架构推动算力需求加速增长

数据来源:英伟达

02

算力芯片评价框架

GPU与ASIC更适宜大模型训推

大模型训练和推理本质上是大量矩阵运算的过程,矩阵运算简单且具有非常好的并行性,GPU有众核、计算单元面积大的特点,相比于CPU更适合大模型训推,而ASIC内置了专用于矩阵运算的单元,虽然在泛用性和易用性上不如GPU,但是成本低、功耗低,成为各家云厂商自研芯片的首选。

大模型中注意力机制环节的计算过程

数据来源:知乎

GPU对比CPU有众核、计算面积大特点

数据来源:公开资料整理

华为达芬奇ASIC架构图示

数据来源:华为

AI芯片性能的决定因素一:单卡性能

单卡性能可分为计算和显存两个维度评估,计算侧,目前主流训练模型采用FP16 / BF16精度训练,矩阵参数使用FP32存储,量化后使用INT8进行推理,因此单卡计算性能核心指标为FP16和INT8。显存侧,模型训练时数据频繁在GPU芯片和显存之间搬运,显存带宽速度决定了通信的时延,推理时由于需要储存模型的参数和KV cache,对显存容量更为敏感,更高代际的HBM决定了GPU显存性能。

A100计算性能表格

数据来源:英伟达官网

大模型参数的量化过程

数据来源:公开资料整理

GPU运行中数据搬运时间更长

数据来源:公开资料整理

H200推理性能相比H100大幅提升

数据来源:英伟达官网

AI芯片性能的决定因素二:互联性能

头部大模型参数千亿起步、数据Token量达到十万亿级别,单卡远无法满足训练需求,通常需要构建万卡大集群,训练时卡间涉及大量数据同步,互联性能决定了集群的训练效率,具体可以分为片间互联和服务器互联两个维度,片间互联通常指单个AI服务器内八张卡之间的通信,英伟达开发了NVLink和NVSwitch技术,H100实现了900GB/s的八卡通信速度,GB200 NVL72整机柜形态问世后,实现了72张卡之间以1.8TB/s的速度通信,片间互联朝着速率更快、连接更广的趋势演进。单个服务器之外的彼此通信依赖IB或者RoCE组网技术,其中IB无损特性更适合于大模型训练。

集群训练的流水线并行计算

数据来源:《GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism》

英伟达GPU互联拓扑结构

数据来源:英伟达

GPU计算性能增长快于显存和互联速度

数据来源:安信证券

多个服务器节点构成训练集群

数据来源:公开资料整理

AI芯片性能的决定因素三:软件生态

英伟达CUDA生态是黄金典范,其小CUDA层决定了调用底层GPU硬件的调用效率,大CUDA层支持多种高级编程语言和人工智能学习框架,丰富的算子库方便开发者简便、高效的调用GPU,经过18年持续迭代,CUDA构筑了完善封闭的生态圈层和极强的用户粘性,尽管AMD单卡性能和价格对比H100有一定竞争力,但生态差距使得客户很难完全脱离英伟达转向AMD。

英伟达CUDA生态

数据来源:英伟达官网

CUDA GPU加速库

数据来源:英伟达官网

CUDA GPU数学加速库

数据来源:英伟达官网

03

国产算力迎来新机遇

美国禁令升级、高端芯片全线禁运

23年10月美国升级芯片出口禁令,前一代禁令约束了芯片的互联速率,英伟达针对性的推出了计算性能与原版相当、但互联速率降低至400GB/s的精简版A800与H800,升级后的禁令放开互联、重点约束算力性能,最先进的数据中心GPU全部被禁,英伟达推出了大幅削减计算性能的H20,单卡计算性能仅有A800的一半,互联速率提升至900GB/s,构建千卡甚至万卡集群时能达到A800集群的效果,但是供应亦非常紧张,预计5月份第一批到货数万张,远远无法满足国内的GPU缺口。

美国芯片出口管制变化

数据来源:远川科技评论

美国禁令对海外GPU芯片的影响

数据来源:国海证券

国产芯片分梯次接替训练和推理需求

目前国产芯片可以分为两个梯队,第一梯队的华为、海光与寒武纪,第二梯队是优秀的初创芯片公司,如燧原、沐曦、天数智芯等。第一梯队产品瞄准训练场景,华为得益于通信背景、互联能力较强,昇腾910B已在华为内部、鹏城实验室和科大讯飞皆组建了千卡集群,具备承接英伟达GPU训练千亿参数大模型的能力。海光深算系列采用GPGPU架构,良好CUDA兼容性大幅降低迁移成本,软件生态上具备独特优势,寒武纪590性能对标英伟达A卡系列。第二梯队初创公司,单卡性能上有不错表现,但是成立时间相对短,生态建设上短板明显,目前主要承接推理需求,但云厂商亦在寻求优秀的初创公司作为多元供应的一环,如燧原配合腾讯开发紫霄芯片,结合大客户需求场景打磨,预计能快速实现训推一体能力。

国产GPU性能对比

数据来源:东北证券

国产算力接棒正当时

以昇腾910B为首的国产芯片已经全面铺开,互联网厂商搭建团队适配昇腾芯片,并持续测试各类国产卡,科大讯飞已经实现数千国产卡集群的稳定训练,地方智算中心自建设初期便深度绑定昇腾,三大运营商采购国产卡比例从30%提升至几乎100%,移动最新招标了约100亿的国产AI服务器,支持力度大,有利于国产芯片软件生态的建立和应用侧算力成本的降低。24年将是国产芯片崛起的元年,未来国产算力将逐步接棒英伟达AMD等海外算力,成为支撑我国AI大模型产业发展的支柱力量。

运营商国产AI服务器的招采梳理

数据来源:公开资料整理

运营商采购国产AI服务器的中标情况梳理

数据来源:公开资料整理

国产智算中心建设及规划梳理

数据来源:公开资料整理

AGI既是人类向往的星辰大海、又是商业市场的庞大蓝海,科技企业的追逐热情经过一年半后丝毫不减,闭源和开源的竞争如火如荼,国内大模型厂商亦不甘落后,但在美国禁令下算力非常紧张,短期虽然阻碍了国产模型的进步,但为国产算力芯片崛起提供了绝佳的土壤,为长期的自主可控打下坚实基础。

往期看点(点击题目自动跳转)

电子工业之血液,国产化方兴未艾

中国预制菜的现状和未来

降糖/减重GLP-1药物及产业链价值浅析

工控自动化——赋能中国工业降本增效

国内大储复盘与展望

浅谈光伏的成长、周期和方向

半导体之道:周期与成长共舞

机器人推动手术方式的革命

POE——光伏产业卡脖子的一环

成本与性能共振——复合集流体量产前夜

更高效更方便——血糖管理的新时代

新型储能技术——新能源的后半场

激光雷达——助力自动驾驶的星辰大海

中国啤酒行业——一切才刚刚开始

碳纤维——“21世纪的黑黄金”

4680电池——结构创新和材料创新的交汇点

内窥镜市场——临床需求推动行业快速发展

Pico狂奔——字节元宇宙按下快进键

TOPCon技术——智能光伏发展新方向

小分子新冠药物研发的前世今生

现制茶 —— 行业马太效应显现

甜蜜的威胁 —— 认知糖尿病

VR行业奇点将至——虚拟世界眺望宇宙

逆变器——长坡厚雪的重要赛道

价减量增拓空间——中国激光设备行业全面研读

铝塑膜——锂电材料国产化“遗珠”

中国瓷砖行业——破局大行业小企业之痛

“卡脖子”清单——工程塑料

政策市场双驱动——让“轻卡”飞一会

智能微投——成长赛道孕育优质玩家

工程机械——如何从周期股中孕育伟大公司(下)

工程机械——如何从周期股中孕育伟大公司(上)

更多精彩内容敬请访问【青骊公众号——骊阅】板块

青骊投资管理(上海)有限公司成立于2015年,具备私募基金(二级市场)管理人资质,已获得中国证券投资基金业协会观察会员身份。

公司由资深业界精英掌舵,核心投研人员拥有17年以上金融从业背景,以专业、谨慎的投资研究为基础,股票多头策略为核心,自主研发的数据系统为支撑,坚持“价值发现,优选成长,严控风险”的理念,致力于管理资产的稳健增长,为客户创造长期收益。

部分荣誉

2023

· 第十四届金牛奖| 公司奖(三年期)

· 2023 英华奖| 公司奖(三年期)

· 2023 东方财富风云榜| 基金经理奖(苏雪晶)

· 第十四届金阳光 |公司奖

· 第四届新财富 | 基金经理奖(苏雪晶)

2022

· Wind | 公司奖(五年期)、产品奖(青骊长川)

· 第十三届金阳光 | 公司奖

· 金樟奖 | 公司奖

· 第十三届金牛奖 | 基金经理奖(三年期•刘淼)

· 英华奖 | 公司奖

· 第三届新财富 | 基金经理奖(苏雪晶)

· 私募排排网、招财杯、金启奖、格上财富、国元点金杯等多项奖项

2021

· Wind | 公司奖(三年期)

· 英华奖 | 产品奖(三年期•青骊泰川)

· 第二届新财富 | 基金经理奖(苏雪晶)

· 第十二届金牛奖 | 公司奖(三年期)

· 金鼎奖、格隆汇等多项奖项

2020

· 金长江奖 | 公司奖

· 首届新财富| 基金经理奖(苏雪晶)

· 格隆汇、格上、私募排排网、证券时报实盘大赛、

华安证券·徽赢私募大赛、天风私募大赛等多项奖项

2019

· Wind | 公司奖

· 证券之星、中国财经风云榜等多项奖项

著作权归作者所有,文中部分图片来源于网络,如有侵权请联系网站删除。

风险提示:本文所提到的观点仅代表个人的意见,所涉及标的不作推荐,据此买卖,风险自负。

全部讨论

05-18 23:07

ok