阿里大模型深度解读核心要点嘉宾：阿里云研究院高级专家阿里大模型进化史1.19年9月开始布局2.21年4月发布PLU...

阿里大模型深度解读核心要点

嘉宾：阿里云研究院高级专家

阿里大模型进化史

1.19年9月开始布局

2.21年4月发布PLUG大模型，具有270亿参数和1.5TB训练数据

3.21年9月发布M6大模型，扩展到10万亿规模

4.2023年4月7日发布通义千问内测版

5.集团内已有60多个业务体使用PLUG和M6大模型，包括天猫精灵，车载系统和智能客服等

阿里大模型和GPT-3对比

1.算法方面，和GPT-3架构基本类似，都是采用Transformer，但Reward反馈模型、Encoder和Decoder之间的同步机制不同

2.参数方面，GPT-3参数1750亿，通义千问基于PLUG的模型（参数270亿），参数在200-300亿，主要偏向文本，没有涉及图像和视频

3.预训练语料数据集方面，在质量和规模上都比不上OpenAI和百度

4.效果方面，总体效果相当于GPT-3，在中文环境下更好，跟百度文心效果差不多，但模型调优和人工精标、反馈机制的设计上优于百度

阿里大模型发布节奏

1.下周阿里云峰会发布：NLP领域的通义千问大模型（通过网页开放测试），基于钉钉版的大模型，CV领域的类似文生图的扩散模型（基于M6的生成式模型）

2.9月云栖大会发布：更大多模态预训练模型，即M7版本，集成NLP、CV、多模态和科学计算四种能力

阿里算力储备和采购计划

1.训练算力基本依赖于英伟达V100和A100，及部分A800

2.云端推理目前用的是阿里自研的寒光800、高端的CPU卡、英伟达低端的推理卡，以及国内的寒武纪、海光、昇腾310等

3.进入商业化阶段，推理算力需求要比训练算力高十倍、百倍甚至千倍

4.A100存量大约5000张，达摩院需要1000张；A800在陆续采购，目前有近6000张；V100也在采购

5.今年计划从英伟达采购芯片总量3万张，其中70%-80%为V100和A800

阿里大模型的商业化路线

1.短期垂直化：打通淘宝智能搜索、智能客服和物流；基于钉钉为企业端提供AIGC应用；为2C智能家居和车载系统提供大模型能力

2.中长期整合各业务体系：通过打造智能搜索入口去打通自身商业体的融合场景，整合淘宝、支付宝、菜鸟物流等业务体系，形成超级APP概念

注：以上信息来源于公开信息，行业研究报告，不作为投资依据，仅供参考

作者：华鑫大通