发布于: 雪球转发:0回复:0喜欢:0

阿里大模型深度解读核心要点

嘉宾:阿里云研究院高级专家

阿里大模型进化史

1.19年9月开始布局

2.21年4月发布PLUG大模型,具有270亿参数和1.5TB训练数据

3.21年9月发布M6大模型,扩展到10万亿规模

4.2023年4月7日发布通义千问内测版

5.集团内已有60多个业务体使用PLUG和M6大模型,包括天猫精灵,车载系统和智能客服等

阿里大模型和GPT-3对比

1.算法方面,和GPT-3架构基本类似,都是采用Transformer,但Reward反馈模型、Encoder和Decoder之间的同步机制不同

2.参数方面,GPT-3参数1750亿,通义千问基于PLUG的模型(参数270亿),参数在200-300亿,主要偏向文本,没有涉及图像和视频

3.预训练语料数据集方面,在质量和规模上都比不上OpenAI和百度

4.效果方面,总体效果相当于GPT-3,在中文环境下更好,跟百度文心效果差不多,但模型调优和人工精标、反馈机制的设计上优于百度

阿里大模型发布节奏

1.下周阿里云峰会发布:NLP领域的通义千问大模型(通过网页开放测试),基于钉钉版的大模型,CV领域的类似文生图的扩散模型(基于M6的生成式模型)

2.9月云栖大会发布:更大多模态预训练模型,即M7版本,集成NLP、CV、多模态和科学计算四种能力

阿里算力储备和采购计划

1.训练算力基本依赖于英伟达V100和A100,及部分A800

2.云端推理目前用的是阿里自研的寒光800、高端的CPU卡、英伟达低端的推理卡,以及国内的寒武纪、海光、昇腾310等

3.进入商业化阶段,推理算力需求要比训练算力高十倍、百倍甚至千倍

4.A100存量大约5000张,达摩院需要1000张;A800在陆续采购,目前有近6000张;V100也在采购

5.今年计划从英伟达采购芯片总量3万张,其中70%-80%为V100和A800

阿里大模型的商业化路线

1.短期垂直化:打通淘宝智能搜索、智能客服和物流;基于钉钉为企业端提供AIGC应用;为2C智能家居和车载系统提供大模型能力

2.中长期整合各业务体系:通过打造智能搜索入口去打通自身商业体的融合场景,整合淘宝、支付宝、菜鸟物流等业务体系,形成超级APP概念

注:以上信息来源于公开信息,行业研究报告,不作为投资依据,仅供参考

#阿里云大模型邀请测试#