盘古大模型行业深度:框架分析、发展路径、产业链及相关公司深度梳理(慧博出品)

发布于: 雪球转发:2回复:0喜欢:0

作者:慧博智能投研

今年以来,以GPT为代表的预训练大模型引发技术和商业的热潮。展望国内大模型,华为在该领域积累深厚,其在芯片算力、模型算法、应用场景等多个环节具有完整布局的头部公司,具备优秀的大模型研发与应用能力,有望快速实现商业化。2021年华为首次发布了盘古大模型,其能够赋能千行百业,实现AI商业化落地。复盘华为盘古大模型的发展可以发现,其基础大模型、行业大模型、细分场景模型已经在不同领域率先取得成功,并带动了产业链及相关公司发展。

下面我们将主要介绍盘古大模型的概念、作用以及大模型的架构等,并对盘古大模型的发展路径、各类大模型细分和其产业链及相关公司进行详细梳理,希望对大家了解盘古大模型有所启发。

01

概述

1、概念及作用

华为盘古大模型布局已久,多个基础大模型即将上线。华为在2020年开始在大模型有布局,2021年华为盘古大模型首次发布。2021年4月25日,在华为开发者大会(Cloud)上,华为云发布了盘古系列超大规模预训练模型。

盘古大模型由NLP大模型CV大模型多模态大模型科学计算大模型等多个大模型构成,通过模型泛化,解决传统AI作坊式开发模式下不能解决的AI规模化、产业化难题。根据华为云官网,华为即将上线NLP大模型、CV大模型、以及科学计算大模型(气象大模型)。

2、大模型从学术走向产业

华为云盘古预训练大模型自2021年4月正式发布以来持续深耕技术、不断迭代,形成了“L0基础大模型-L1行业大模型-L2细分场景大模型”的发展路径,完成从学术大模型到产业大模型的转变,在煤炭、医药、电力等多个领域实现了应用。

此外,在华为部署的物联网、智能座舱、智能驾驶等领域,盘古大模型有望得到应用,为这些领域提供更加智能化的技术支持。比如,华为在MWC19期间宣布,华为终端将实施1+8+N全场景战略,“1个太阳”指的是手机,“8个行星”指的是平板、TV、音响、眼镜、手表、车机、耳机、PC八大业务,而“N个卫星”指的是移动办公、智能家居、运动健康、影音娱乐及智能出行各大板块的延伸业务。提高手机这一入口的智能化水平,提供语音识别、人机交互,有助于丰富用户的“全家桶”设备体验。比如在智能驾驶中,大模型可用于提升自动驾驶系统的智能控制和决策能力,优化车辆的智能驾驶功能。

3、盘古大模型架构

盘古大模型呈金字塔架构,算力为底层支撑。

02

鲲鹏+昇腾搭建基础AI算力

小模型到大模型成为重要发展趋势,大模型对软硬平台提出更高要求。1)大模型能够解决AI模型定制化和应用开发碎片化,可以吸收海量的知识,提高模型的泛化能力,减少对领域数据标注的依赖。2)大模型有利于激活深度神经网络对大规模无标注数据的自监督学习能力,同时对于AI框架的深度优化和并行能力都有很高的要求,是深度学习框架下将AI做到极致的集大成者。

除模型本身的优化外,盘古的优异性能依赖于基础算力设施、AI专用框架与平台的搭建。1)算力:鲲鹏CPU+昇腾GPU提供底层算力支撑,同时还基于华为CANN采用了算子量化、算子融合优化等技术,将单算子性能提升30%以上。2)全场景AI框架:华为MindSpore创新性地采用了“流水线并行、模型并行和数据并行”的多维自动混合并行技术,大幅降低了手动编码的工作量,并提升集群线性度20%。3)AI平台:ModelArts平台提供E级算力调度,同时结合物理网络拓扑,提供动态路由规划能力,为大模型训练提供了最优的网络通信能力。

华为以鲲鹏和昇腾作为根基,打造“一云两翼双引擎”的计算产业布局,持续构建开放生态。其中,双引擎指围绕“鲲鹏”与“昇腾”打造的两个基础芯片族,构筑异构的计算架构。华为已成为同时拥有“CPU、NPU、存储控制、网络互连、智能管理”5大关键芯片的厂商。

1、鲲鹏

鲲鹏包括服务器和PC机芯片。鲲鹏920是业界首颗64核的数据中心处理器,性能比业界主流处理器高25%、内存带宽高60%;同时把CPU、桥片、网络和磁盘控制器“4合1”。鲲鹏处理器走到现在已历时十多年。华为认为,最强算力的通用服务器需要具备至少64核、8个内存通道、PCIe4.0、多合一SoC、xPU高速互联、100GE高速I/O等六个特征。

2、昇腾

昇腾计算产业是基于昇腾系列处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务。主要昇腾系列芯片、系列硬件、芯片使能、CANN(异构计算架构)、AI计算框架、应用使能等。

(1)硬件系统

昇腾,基于华为自研DaVinci架构的AI处理器,可应用于训练和推理场景;昇腾910训练芯片与英伟达A100算力基本相当,昇腾310推理芯片,功耗仅8W。华为Atlas人工智能计算解决方案基于昇腾系列AI处理器,通过模块、板块、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,涵盖数据中心解决方案、智能边缘解决方案。

华为拥有性能国内领先的训练、推理卡。华为Atlas 300T Pro训练卡配合服务器,为数据中心提供强劲算力的AI加速卡,单卡可提供最高280 TFLOPS FP16算力,加快深度学习训练进程。华为Atlas 300I Pro推理卡单卡最大提供140 TOPS INT8算力,为数据中心推理提供更强大支持支持8 core*1.9GHz CPU计算能力。

(2)昇腾计算基础软件体系

昇腾计算基础软件体系包括异构计算架构CANN以及对应的驱动、运行时、加速库、编译器、调试调优工具、开发工具链MindStudio和各种运维管理工具等,开放给广大的开发者和客户。

CANN通过提供多层次的编程接口,以全场景、低门槛、高性能的优势,支持用户快速构建基于平台的AI应用和业务。

在推理部署方面,昇腾AI在MindStudio中提供了分布式推理服务化、模型轻量化、动态加密部署三方面能力,通过多机多卡分布式推理,可以大幅提高计算吞吐量。

(3)MindSpore(AI框架)

超大规模AI对AI框架提出新的挑战。即使单卡算力实现突破,对于大规模模型及训练数据,仅依靠单卡的内存与算力,不但训练时间过长,不确定性也会随之加大,因此大规模模型的训练通常需要使用多机多卡来实现,同时也衍生出算力单元之间的通信问题。超大规模AI对AI框架提出的挑战可以概括为如下六堵墙:

1)内存墙:以鹏程•盘古大模型为例,参数量200B,模型训练过程中需要存储参数、激活、梯度、优化器状态,一个模型的训练就需要占用近4TB的内存。业界主流训练卡,如昇腾910,一张卡的内存是32GB,也就是说需要100多张卡才能跑一个模型。

2)计算墙:鹏程·盘古200B参数量的大模型,需要3.6E23 FLOPS算力,即使能把昇腾910 256T的理论算力发挥出来,也需要44年才能训练完。

3)通信墙:大模型并行切分到集群后,模型切片之间会产生大量通信,从而产生通信瓶颈。只有综合考虑参数量、计算量、计算类型、集群网络带宽拓扑等,才能设计出性能较优的并行切分策略。

4)效率墙:算法的分布式并行开发一直是并行计算领域的一大难题,如何让用户高效编写分布式并行的代码,也是各种AI框架研究的重点和难点;在HPC时代是MPI编程范式,大数据时代是MapReduce编程范式,而超大规模AI时代需要建立新的编程范式。

5)调优墙:昇腾E级算力集群有4096个节点,在E级算力集群上训练一个千亿参数规模的模型,节点之间的通信关系非常复杂,要保证计算的正确性、性能和可用性,手动调试难以全面兼顾,需要一个自动化及可视化的集群分析工具。

6)部署墙:超大规模AI从训练到部署需要一个转换,同样以鹏程•盘古大模型为例,训练时用了千卡,云上推理部署需要64卡,中间需要把千卡的训练无缝地转接到64卡的推理。同时,为了进一步降低推理成本,需要把模型进行压缩,实现一张卡就能运行。

分布式并行实现算力增强、数据处理加速和模型训练。业界主流的分布式并行类型包括数据并行、模型并行和混合并行三种,围绕切分的内容(数据切分、模型切分)来划分。

昇思Mindspore是华为推出的全场景深度学习框架。人工智能领域的技术创新和产业发展,都离不开深度学习框架和平台。从2010年以前的深度学习开源框架Theano、Torch的发布,到2015年谷歌发布TensorFlow并风靡全球,再到近两年中国国产框架陆续发布并占有一席之地,开源深度学习框架市场不断推陈出新。在2020年的华为开发者大会上,华为自研的MindSpore深度学习框架正式开源,与外海主流的TensorFlow、国内百度研发的PaddlePaddle等业内主流框架共同组成了中国人工智能创新的重要基础设施。

Mindspore旨在实现易开发、高效执行、全场景覆盖三大目标。正如“昇思”两个字的含义,“昇”代表昇思是昇腾计算产业的重要组成,结合昇腾发挥极致性能,“思”代表着昇思深度思考产业界技术演进方向致力于打造最佳体验的AI框架。昇思MindSpore支持端、边、云等不同场景下的灵活部署,提供了Python编程范式简化AI编程,动静图统一等编码方式优化调试方式。Mindspore还包括了多个领域套件、模型库、工具组件和安全增强库,以及可视化调试调优工具,并提供了友好的设计和高效的执行,旨在提升数据科学家和算法工程师的开发体验,并为昇腾AI处理器提供原生支持,以及软硬件协同优化。

MindSpore支持多维度混合并行。MindSpore是业界首个支持全自动并行的框架,MindSpore多维度自动并行,通过数据并行、算子级模型并行、Pipeline模型并行、优化器模型并行、异构并行、重计算、高效内存复用,及拓扑感知调度,实现整体迭代时间最小(计算时间+通信时间)。编程接口高效易用,实现了算法逻辑和并行逻辑解耦,串行代码自动分布式并行。此外,MindSpore通过多维度混合并行,解决了模型及集群的Scale Out问题,实现了训练到推理模式的快速切换。以鹏程•盘古为例,鹏程•盘古是最大的稠密形式的中文预训练语言模型,拥有200B参数,训练时使用了2048卡,推理时需要64卡。并行训练模式采用了数据并行、模型并行、优化器并行、流水并行、重计算等,而推理时只需采用模型并行和流水并行。基于MindSpore的分布式并行能力,鹏程•盘古可自动从分布式训练模式转换成分布式推理模式,并实现服务化封装,可以对外提供RESTful接口,支持快速上线大模型服务。

MindSpore平台的强大能力助理国产大模型发展。因昇思MindSpore具备丰富的并行能力,能轻松完成4096卡集群、万亿参数规模的训练任务,因此支撑了国内多个领域首发大模型的训练,这些大模型涉及知识问答、知识检索、知识推理、阅读理解、文本/视觉/语音多模态、生物制药、遥感、代码生成等。基于Transformer Encoder、Transformer Decoder、MOE、乃至Clip与Diffusion的结构的大模型,均可以基于昇思MindSpore AI框架训练。

从应用实例来看:在互联网领域,华为云ModelArts基于算法优化、语音质检等途径,有效提升了T3出行司乘安全检测模型的准确率和召回率,使危险驾驶事件率下降38.6%,同时大幅降低模型开发和交付周期。在自动驾驶领域来看,针对AI算法训练,华为云ModelArts支撑端到端训练效率提升;分布式多级缓存技术可以将训练时长缩短50%;针对大规模集群训练,拓扑感知调度和动态软路由技术可以提升训练性能30%。

昇思MindSporeAI计算架构位居AI框架第一梯队。按照Papers with Code网站的统计数据,2022年使用昇思MindSpore的顶级会议论文已经超过600篇,在国内AI框架中排名第一,在全球范围内仅次于PyTorch。

(4)应用使能层

昇腾应用使能MindX,可以支持上层的ModelArts和HiAl等应用使能服务,同时也可以支持第三方平台提供应用使能服务。

行业应用是面向干行百业的场景应用软件和服务,围绕昇腾计算体系,诞生了大量优秀的应用比如互联网推荐、自然语言处理、视频分析、图像分类、目标识别、语音识别、机器人等各种场景,昇腾计算产业也拥抱各种云服务场景,支持Iaas,Paas,SaaS等多种云服务模式,同时,端边云协同的能力,会原生的构建在整个技术架构中,推动昇腾计算成为全场景的AI基础设施。

ModelArts便于用户快速创建和部署模型。一个AI商业化项目要经过数据标注、算法、训练、应用等多个步骤,华为通过ModelArts,将流程全面打通,并简化提效,使得开发者能够专注于模型本身的开发与优化。ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。“一站式”是指AI开发的各个环节,包括数据处理、算法开发、模型训练、模型部署都可以在ModelArts上完成。从技术上看,ModelArts底层支持各种异构计算资源,开发者可以根据需要灵活选择使用,而不需要关心底层的技术。同时,ModelArts支持Tensorflow、PyTorch、MindSpore等主流开源的AI开发框架,也支持开发者使用自研的算法框架。

03

L0:基础大模型

1、盘古NLP大模型:中文理解和下游应用能力优异

在2021年4月的HDC.Cloud大会上,盘古NLP大模型发布,其由华为云和循环智能联合开发的,由鹏城实验室提供算力支持。

盘古NLP大模型是业内首个千亿参数的中文大模型,性能优异。在预训练阶段,NLP大模型学习超过40TB行业文本数据和400万小时的行业语音数据,具有1100亿参数,具备强大的通用中文知识储备。同时通过行业数据的小样本调优,带来具体场景中的应用性能提升。

从性能角度来说,盘古NLP大模型兼顾生成能力与理解能力。从模型结构出发,有别于其他企业训练的NLP大模型,盘古看重的不仅是大模型有生成能力,还要有更强的理解能力,因此华为采用了Encoder和Decoder的架构,来保证盘古大模型在生成和理解上面的两个性能。在权威的中文语言理解评测基准CLUE榜单中,盘古NLP大模型发布之时,在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分约为83.05,多项子任务得分业界领先,向人类水平(85.61)迈进了一大步。

盘古NLP大模型通过迁移学习实现少样本学习的目标,将P-tuning、priming等最新技术融入到盘古的微调框架中,进一步提升微调效果,通过庞大的行业知识库进行训练,使其更适合在复杂商用场景下使用。在当时,盘古的微调对模型提升的能力甚至超过了GPT-3。

盘古NLP大模型兼顾通用知识和行业经验。盘古NLP大模型在预训练阶段沉淀了大量的通用知识,同时也可以通过少样本学习对意图进行识别,转化为知识库和数据库查询。通过功能的模块化组合支持行业知识库和数据库的嵌入,进而对接行业经验,使能全场景的快速适配与扩展。比如在华为云和循环智能合作构建的金融客服场景中,盘古NLP大模型能更好地赋能销售环节,帮助服务人员快速提升业务水平,重塑消费者体验。

2、鹏程·盘古NLP大模型:全球首个开源的2000亿参数的中文大模型

2021年5月的华为生态大会2021上,超大模型“鹏程•盘古”重磅亮相,由鹏城实验室联合相关技术团队开发。

其基于Transformer的Decoder架构设计,最大版本参数量达2000亿。以鹏城实验室为首的联合团队在基于昇腾910芯片的E级智能算力平台(鹏城云脑II)上训练了全球首个全开源2000亿参数的自回归中文预训练语言大模型:鹏程•盘古。其基于Transformer的Decoder架构改进而来,分为26亿、131亿、2070亿三个版本。

其收集了不同来源的海量数据,并通过数据预处理方式提升数据质量,以满足大模型的数据需求。收集了包含开放数据集、ommon Crawl原始网页数据、百科数据、新闻数据、电子书籍等近80TB的原始数据。先通过基于规则的数据清洗、基于模型的过滤、数据去重等数据预处理方式,再通过人工和模型分别对数据质量进行评估,并且通过不断迭代前两个步骤来提升数据质量,最终形成了1.1TB的高质量训练数据集。

为实现在下游任务中广泛而高效的应用,进一步做出了以下改进:1)通过模型压缩的方式降低模型参数,最终使显存占用降低50%,系统性能波动仅为2%左右。2)将模型从Mindspore框架成功移植到PyTorch框架下。3)设计并开放了在线体验服务,目前已处理上万条用户请求。

在26亿参数的基本版的基础上优化迭代推出了增强版,在相对小的参数规模上具有优越的性能。通过创新应用多任务学习、任务统一格式、提示微调和持续学习技术,对基本版模型进行能力扩展和增强,使模型性能得到大幅提升。形成基于鹏程·盘古模型进行提示微调和持续学习的应用新范式,更好地识别用户的任务说明,同时能尽量保持模型的原始生成能力。参数量为26亿规模,在中英文翻译、开放域知识问答、文本分类、摘要生成等方面的能力提升显著,在一张V100 GPU卡上就可以完成多路并行推理。

3、盘古CV大模型:整合三大功能,应用效果佳

在2021年4月的HDC.Cloud大会上,盘古CV大模型发布,提供三方面功能,在落地应用方面具有较强优势。

盘古CV大模型是一个超30亿参数的CV大模型,预训练时输入了10亿级图像,能同时满足底层图像处理与高层语义的理解需求。在功能方面,盘古CV大模型提供了大模型预训练、大模型部署和大模型迭代三个功能:

(1)在预训练中,盘古CV大模型中包含了数据处理、架构设计和模型优化三个步骤,支持层次化空间特征聚合、监督式对比语义调整等算法,可以将图像的表征效率提升数千倍。

(2)在大模型部署中,盘古CV大模型中专门设计了模型抽取和知识蒸馏算法,能够根据用户需求抽取高效子模型,并且确保将大模型学习到的知识最大限度地传递给子模型。

(3)在大模型迭代中,盘古CV大模型配备了数据挖掘和增量学习模块,其中的一比特监督学习、双向自步学习等算法能够减少90%以上的人力干预;同时类别增量、难例增量学习等技术也能够在增量学习过程中减少90%以上的算力消耗。配合基于图网络的模型融合技术,盘古CV大模型最终可实现闭环迭代,模型的泛化能力也会在使用过程中逐渐增强。

盘古CV大模型首次兼顾了图像判别与生成能力,捕捉样本决定性信息。1)图像中精准识别层次化的信息非常重要,例如“如何区分白色猫和白色狗的图片”,白色不是最重要的信息,动物才是图片中起决定性的信息。把握好图片中层次化的信息,能够快速的定位到图片中哪部分信息是起决定作用的,让算法以自适应的方式去关注比较重要的地方或内容,这样就容易捕捉样本之间的关系。2)盘古CV首次兼顾了图像判别与生成能力,能同时满足底层图像处理与高层语义的理解需求,同时能够融合行业知识的微调,快速适配各种下游任务。

盘古CV大模型服务于智能巡检、智慧物流等场景。盘古CV大模型在电力巡检行业中已实现行业应用,助力国家电网。它利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,节省人工标注时间。在模型通用性方面,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,大幅降低了模型维护成本。

4、多模态领域研究进展:从模型设计和数据集层面推进多模态大模型发展

多模态大模型具备图像和文本的跨模态理解、检索与生成能力,通过跨模态语义关联实现视觉-文本-语音多模态统一表示,采用一个大模型即可灵活支撑图-文-音全场景AI应用,可用于产品设计、艺术创作、语音播报、海报创作等领域。

紫东·太初是中科院自动化所与MindSpore社区联合打造的全球首个图、文、音三模态大模型,于2021年9月发布。紫东太初大模型首次实现语音生成视频功能,开拓性地实现了图-文-音语义统一表达,同时兼具跨模态理解和生成能力。

紫东·太初将文本+视觉+语音各个模型高效协同,实现超强性能,在图文跨模态理解与生成性能上都能领先目前业界的SOTA模型,高效完成跨模态检测、视觉问答、语义描述等下游任务。模型的视频理解与描述性能在2021年ACM Multimedia(国际多媒体大会)和ICCV(国际计算机视觉大会)两项人工智能领域国际顶会的视频语义理解与视频描述中均展现出当前最高水准。

2022年11月,发布论文《FILIP:FINE-GRAINED INTERACTIVE LANGUAGE-IMAGE PRE-TRAINING》,通过细粒度交互的语言-图像预训练提升预训练效率。通过一种跨模态后期交互机制,FILIP实现了较为精细的图文对齐(CLIP和ALIGN仅通过每个模态的全局特征的相似性来模拟跨模态交互)。这种跨模态后期交互机制通过最大化token级别的图文相似度来引导对比学习的训练目标进行训练。FILIP成功地利用了图像块和文本单词之间的细粒度表达,在多个下游任务中取得最佳性能,同时提升了大规模训练和推理的效率。

2022年10月,发布论文《Wukong:A 100Million Large-scale Chinese Cross-modal Pre-training Benchmark》开源首个亿级中文多模态数据集-悟空,填补中文社区数据空白。Clip等模型的推出展现了视觉和语言两种模态联合训练的潜力,但在中文领域缺乏兼具数量和质量的大型跨模态数据集。“悟空”的出现使这一情况得以改善,其包含来自网络的1亿个中文图文对。还采用基于图像和基于文本的过滤策略来进一步完善悟空数据集,使其成为了迄今为止最大的中文视觉语言跨模态数据集。

04

L1:行业大模型

1、气象大模型:业内首个精度超过传统数值预报方法的气象预测模型

气象预报精度首次超过传统数值方法,速度提升1000倍。盘古气象大模型提供秒级天气预报,例如重力势、湿度、风速、温度,气压等变量的1小时-7天预测。借助创新的3DEST网络结构以及分层时间聚合算法,盘古气象大模型在气象预报的关键要素(例如,重力势、湿度、风速、温度等)和常用时间范围上(从一个小时到一周)精度均超过当前最先进的预报方法。盘古气象大模型在一张V100显卡上只需要1.4秒就能完成24小时的全球气象预报,速度相比传统方法提升1000倍以上。

盘古气象大模型支持广泛的下游预报方案,如在台风路径预测任务上,相比传统数值气象预报方法,盘古气象大模型可以降低20%以上的位置误差。如右下图所示,红色轨迹为盘古大模型预测的台风线路,黑色为台风的实际运行线路,蓝色为传统方法ECMWF-HRES预测的台风线路。盘古大模型的预测精确度比ECMWF-HRES高出不少,预测十分精确。

2、矿山大模型:盘活工业数据,助力矿山行业显著实现降本增效

覆盖广泛细分场景,助力矿山行业降本增效。基于盘古CV模型开发的盘古矿山大模型旨在解决AI在煤矿行业落地难、门槛高等问题,只需导入海量无标注的矿山场景数据进行预训练,盘古矿山大模型即可进行无监督自主学习,仅一个大模型就能覆盖煤矿的采、掘、机、运、通等业务流程下的1000多个细分场景,让AI应用在煤矿普及更容易。

在主运场景中,基于盘古矿山大模型的AI主运智能监测系统能够精准识别大块煤、锚杆等异常情况,异物识别准确率达98%。此外,相较于人工巡检,盘古矿山大模型实现了全时段巡检,帮助工作人员及时地发现问题,避免因漏检造成的安全事故,缩短停机时间,同时提升井下巡检人员的工作效率。

在掘进场景中,基于盘古矿山大模型的掘进作业序列智能监测,动作规范识别准确率超过95%,用规范的AI流程来替代不确定的人工流程,让AI成为矿工规范作业的好帮手,保障井下作业安全。

3、药物分子大模型:开启AI药物研发新模式

创新药研发资金及时间成本极高,筛选失败率高,为解决以上痛点,2021年9月,华为正式发布华为云盘古药物分子大模型。依托华为云一站式医疗研发平台EIHealth,盘古药物分子大模型学习了17亿个药物分子的化学结构,具有以下三大技术和创新能力:1)提出了针对化合物表征学习的全新深度学习网络架构。参考化学领域的化合物分子表达形式及转换方式,华为云盘古药物分子大模型首次采用“图-序列不对称条件变分自编码器”架构,可自动找出化合物关键的分子特征指纹,极大提升了下游任务的准确性。2)进行了超大规模化合物表征模型训练。华为云盘古药物分子大模型对市面上真实存在的17亿个药物分子的化学结构进行预训练,在化学无监督学习模式下,实现结构重构率、合法性、唯一性等指标全面优于现有方法。3)生成了拥有1亿个新化合物的数据库。华为云盘古药物分子大模型的分子生成器生成了1亿个创新的类药物小分子筛选库,其结构新颖性为99.68%,并且可以有效地生成理化性质相似的新化合物,为发现新药创造可能性。

05

L2:细分场景模型

目前L2细分场景模型主要包含OCR金融大模型,其覆盖了通用文字识别场景。

OCR金融大模型精度高,覆盖通用文字识别场景。基于华为盘古多模态大模型,OCR金融大模型解决了OCR领域算法普适性不强的问题,通过独有的对比学习与掩膜图像建模相融合的自监督学习方法,学习并充分利用大规模的无标签数据,实现一个模型覆盖多个领域的全部通用文字识别场景,并将标注工作量降低90%。此外,盘古OCR大模型在11项经典数据集测试中取得显著的精度提升,而且与原本领先的文字识别算法相比,盘古OCR大模型的精度平均提升5%以上。

企业可自主构建OCR服务构建能力。盘古金融OCR大模型可以平滑蒸馏出体积相差1000倍的大、中、小模型,满足在多种设备上高效运行的使用条件,覆盖金融、零售、电商、地产等行业的新型单据、卡证、表格的识别需求。此外,华为云盘古OCR大模型能够提供二次训练能力,企业可在通用模型基础上快速训练出适应业务场景的新模型,让企业自主掌握OCR服务构建能力。

06

产业链及相关公司

1、产业链概述

从华为大模型产业链来看,华为盘古大模型处于产业链中游。产业链上游包括盘古大模型的硬件供应商、服务提供商,下游为盘古大模型的应用。

硬件供应上,算力硬件包含企业广电运通;连接器包含企业意华股份;桌面云终端包含企业星网锐捷;光器件包含企业光迅科技华工科技

服务提供上,网络规划建设包含的企业有特发信息;网络管维企业有润建股份;IDC建设企业有光环新网

行业应用合作伙伴中,AI应用包含企业创维数字;华为生态包含企业初灵信息(鸿蒙)、天源迪科(鲲鹏);云通信包含企业彩讯股份梦网科技;云计算包含企业光环新网

2、上下游相关公司

(1)广电运通

金融机具龙头。公司包括金融科技和城市智能两大主营业务,(1)金融科技方面,公司连续14年位居国内金融机具市占率第一,是国内金融机具的龙头企业,提供ATM、清分机、智能业务库等一系列产品;(2)城市智能方面,公司提供“智能终端+大数据”提供对应解决方案,构建智能安防、智能交通、智慧民生等多项业务场景。

公司旗下广电五舟具备研发和生产服务器、PC等多种算力产品的能力。公司旗下广电五舟提供国内高性能计算产品及解决方案、云服务器全系列产品、边缘计算和软硬一体化产品、智能计算产品、自主研发的存储产品和行业解决方案,目前产品广泛应用于政府、教育、网络安全、科研、人工智能、互联网等行业及领域。作为华为鲲鹏整机合作伙伴和昇腾AI战略伙伴,依托华为鲲鹏和昇腾AI等软硬件技术支持,广电五舟目前已推出华为鲲鹏、昇腾系列服务器、信创有为系列产品、自主研发的存储产品、PC、云终端和行业解决方案等,深度融入昇腾AI生态体系。

(2)星网锐捷

国内领先的ICT基础设施及AI应用方案提供商。星网锐捷成立于2000年,并于2010年在A股上市。公司致力于在智慧网络、智慧云、智慧金融、智慧通讯、智慧物联、智慧娱乐、智慧社区等领域扎根,为企业级客户提供信息化解决方案。2022年,公司实现营收157.41亿元,同比增长16.18%;实现归母净利润5.76亿元,同比增长6.37%。公司主营业务分为智慧网络、智慧云、智慧通讯、视频信息应用、智慧社区、车联网及通讯模组等六大业务板块,其中智慧网络板块主要由锐捷网络(2022年上市)负责。根据IDC数据,2022年锐捷网络在中国以太网交换机市占率排名第三;在中国数据中心交换机市占率排名第三;在中国企业级WLAN市占率排名第三,其中Wi-Fi6产品出货量排名第一。

子公司升腾资讯推出R2232A鲲鹏服务器,打造鲲鹏桌面云方案。升腾资讯成立于2002年,为公司全资子公司,主要经营桌面云、智慧营业厅解决方案和云支付三大业务,具有全系列桌面云产品,包括云方案、云终端、云服务器、存储器和交换机。在华为全连接大会(2019)上,升腾资讯发布了首款鲲鹏桌面云方案,该方案基于鲲鹏处理器的终端整机和服务器,以及威讯云平台,构建最新一代的鲲鹏桌面云方案,方案能够实现弹性调配云端和终端资源,敏锐感知用户需求,同时具备数据不落地的特性,为客户提供安全、易用的桌面云2.0解决方案,全面满足政务办公等各类场景的云上办公体验。根据IDC报告,2021年升腾威讯桌面云终端出货量市占率达20.3%,连续4年位列第一。

(3)创维数字

机顶盒及宽带接入领域龙头。创维数字成立于2002年,于2014年深圳A股上市,是国内机顶盒及宽带接入领域行业龙头。公司主营业务为全球用户提供全面系统的超高清终端呈现、宽带网络连接和超高清行业应用综合解决方案,主要产品有智能盒子终端、宽带网络通讯连接设备、汽车电子及车联网、物联网等系列产品及运营与服务,基于国内外运营商客户的定制化需求,提供对应解决方案、系统集成及终端产品,其中数字机顶盒终端为公司核心产品。公司与华为云合作紧密,目前公司与华为在AI技术的一些垂直领域有相关的交流和应用。

“双千兆”带动宽带连接业务营收增长。在宽带网络“双千兆”趋势下,国内宽带连接设备已开始升级换代,公司宽带连接产品多次中标运营商集采招标项目,份额显著提升。近年来公司宽带业务增速亮眼,中标情况喜人,在中国移动2022-2023年智能家庭网关产品集中采购(第一批次)的五个采购包均有中标。

(4)光迅科技

光迅科技是国内少有的布局芯片-模块-系统全产业链的光通信厂商。公司产品主要包括无源光器件、光纤放大器、光模块等,涵盖固网接入和无线接入,广泛应用于数据中心和电信市场。公司作为国内少有的自主研发光芯片的企业,可以有效改善自身光器件、光模块等产品的生产成本,扩大盈利空间。

公司布局硅光领域光芯片及光模块,已可提供100G、400G硅光芯片方案。公司拥有PLC(平面光波导)、III-V、SiP(硅光)三大光电芯片平台,其中硅光芯片平台支持直接调制和相干调制方案。2018年,由公司依托国家信息光电子创新中心、光纤通信技术和网络国家重点实验室、中国信息通信科技集团联合研制的“100G硅光收发芯片”成功投产,可实现100G/200G全集成硅基相干光收发集成芯片和器件的量产。目前,公司100G硅光模块已实现量产,并可提供400G的硅光芯片方案,公司400G客户包括BAT和华为。2021年12月,公司联合国家信息光电子创新中心、鹏城实验室等宣布完成1.6T/s硅基芯片的联合研制和功能验证,实现了我国硅光芯片向Tb/s级的首次跨越。

(5)特发信息

特发信息主营光纤光缆、通信设备、军工信息化及智慧服务四大业务板块。其中,通信设备板块主要由三大子公司负责,光网科技从事光器件研发,特发东智主要通过ODM模式进行路由器、机顶盒等网络终端的生产制造,四川华拓重点负责光模块的研发与制造。军工信息化板块主要由成都傅里叶和神州飞航两大子公司负责,从事军工智能终端、软件、大数据平台等业务,为各军兵种提供先进的装备信息化产品。智慧服务板块聚焦5G时代的基建,提供智慧网络工程及数据中心的规划设计、建设施工及运营维护。

承接鹏城云脑等多个AI项目建设。公司曾承接鹏城云脑二期建设集成项目和许昌市中原人工智能计算中心项目工程项目。鹏城云脑主要用于AI大模型领域,约70%的机时服务于鹏城实验室以外的企业、高校、科研院,已支撑近千个国产AI模型的训练,包括全球首个全开源的两千亿参数中文预训练语言大模型“鹏程·盘古”、全球首个知识增强千亿大模型“鹏城-百度·文心”、性能达国际先进水平的十亿参数视觉大模型“鹏程·大圣”等。

(6)彩讯股份

产业互联网解决方案和技术服务提供商。公司致力于为电信、金融、能源、交通等行业的大中型企业级政府部门等客户提供基于统一办公平台、企业邮件系统、大数据智能分析平台、一体化营销资源管理平台、终端管理平台、统一认证平台等产品的互联网应用平台的产品开发、系统建设、运维及运营支撑服务,助力各行业的数字化转型和产业升级,推动传统产业链的降本增效。

公司是华为首百家鲲鹏+昇腾ISV合作伙伴之一;是华为智能计算的安全邮件系统合作伙伴,公司Richmail邮件产品同时获得了华为鲲鹏、华为昇腾技术认证。同时彩讯股份与华为是信创领域的合作伙伴,是华为计算的银牌经销商,与华为在云通信方面有业务合作。

(7)光环新网

深耕通信行业多年,IDC与云计算业务双轮驱动。公司专注互联网数据中心服务领域已超过20年,积累了丰富的设计、建设与运营管理经验,目前已成长为国内头部的IDC服务提供商。公司数据中心业务形成了以北京为中心辐射京津冀,以上海为中心辐射长三角及以长沙为中心盘活华中及西部地区发展的战略,数据中心覆盖北京、上海、天津、河北燕郊、湖南长沙、新疆乌鲁木齐、浙江杭州等七个城市及地区,投产机柜达4.7万个。云计算业务方面,公司是亚马逊云科技中国(北京)区域运营商,目前已运营近6年时间,公司持续完善其本地化业务服务体系,为广大企业客户提供领先的、适合中国市场需求的基于亚马逊云科技的云服务产品。

多个数据中心仍在建,云计算业务保持扩张。公司持续响应国家算力网络建设号召,在全国各地进行数据中心建设。目前公司在全国范围内在建及储备项目规划机柜数量超过11万个,截止2022年上半年,在建工程金额总计10.6亿元,主要用于数据中心建设;此外,云计算方面,为顺应算力网络的发展趋势,公司凭借自身在数据中心、云计算以网络上的优势,着手进行“云电脑”与“云手机”的研发,并于2022年下半年起,逐步向市场推出云电脑与云手机服务。公司与华为于2022年6月签署了战略合作协议,双方未来在低碳数据中心、智能光伏储能、智慧网络、鲲鹏、昇腾AI计算产业、新型云计算业务等领域开展产品、服务及商业模式创新等方面的全面合作。

3、矿山大模型相关公司

2021年3月,华为成立煤矿军团,同年9月正式发布矿山鸿蒙操作系统,是首个基于鸿蒙系统的商用物联网操作平台。截止目前,华为智能矿山业务已与北路智控龙软科技云鼎科技梅安森等多家公司达成合作。

4、工业CV大模型、AI+OCR大模型相关公司

华为在工业CV大模型、AI+OCR大模型实施方面与能科科技赛意信息神州信息等多家公司达成合作。

07

未来展望

1、大模型有望持续快速迭代

盘古大模型基于ModelArts开发,NLP/CV等系列即将上线。能够认为,盘古大模型背靠ModelArts以及华为内外部广阔应用生态,模型发布后有望持续快速迭代,进一步实现语义理解力、信息生成可靠性等指标的大幅提升。

2、盈利模式有望快速成熟

小样本成本+应用场景,商业化有望加速。公司即将上线的三大模型均已有对应的落地场景,效果提升巨大。凭借ModelArts与小样本甚至零样本训练成本大幅降低。能够认为,盘古大模型兼顾技术创新与商业落地,盈利模式有望快速成熟。

08

参考研报

1.中信建投-人工智能行业:华为盘古大模型相关梳理

2.东方证券-通信行业:盘古大模型全新版本即将发布,建议关注华为产业链标的

3.德邦证券-电子行业点评:盘古大模型“开天辟地”,ChatGPT插件打开应用前景

4.浙商证券-电子行业华为产业链深度系列研究:华为AI盘古大模型研究框架

5.东吴证券-计算机行业点评报告:华为盘古大模型产业链梳理

6.财通证券-计算机行业投资策略周报:华为盘古、昇思、昇腾三箭齐发,GPT~4推动垂直应用颠覆式创新

以上相关研报原文可在“慧博智能策略终端”PC版或“慧博投资分析”APP中查看。

免责声明:以上内容仅供学习交流,不构成投资建议。

研报原文件请看:网页链接