发布于: 雪球转发:0回复:0喜欢:0

天风证卷:从长文本到低成本,有望全面带动AI应用的发展

天风证卷研报指出,幻方5月6日发布了第二代MOE模型DeepSeek-V2,在模型性能一流的同时达到极低的价格。随着大模型的成本下降甚至边际成本降到了零后,AI革命即将开始,从PC互联网到移动互联网都是应用赚最多的钱。全面看多AI应用投Zi机会。

天风证卷研报指出,幻方5月6日发布了第二代MOE模型DeepSeek-V2,在模型性能一流的同时达到极低的价格。随着大模型的成本下降甚至边际成本降到了零后,AI革命即将开始,从PC互联网到移动互联网都是应用赚最多的钱。全面看多AI应用投Zi机会。

1)幻方AI发布了DeepseekV2模型,在模型性能一流的同时达到极低的价格

5月6日幻方发布了第二代MOE模型DeepSeek-V2。

目前在大模型主流榜单中,DeepSeek-V2均表现出色,中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队,英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处 第一梯队 ,超过最强MoE开源模型Mixtral8x22B,知识、薮学、推理、编程等榜单结果也位居前列。

同时, DeepSeek-V2API的定价处于极低的价格 :32K上下文每百万tokens输入1元、输出2元,价格仅为GPT-4-Turbo的近百fen之一,仅为同属于MoE架构的abab-6.5s模型的1/5,就中文能力来看,DeepSeek-V2在全球模型中处于第一档的位置,但其成本却是最低。

2)双重架构创新驱动极低训练与推理成本大幅降低

Deepseek-V2模型在模型架构上进行了全方位的创新,使用MLA(Multi-headLatentAttention)和DeepSeekMoE优化了Transformer架构中的Attention与FFN。为缓解键值缓存带来的推理效率下降问题,公司提出了MLA使用低秩键值联合压缩的方式,显著降低KV缓存;在FFN上,公司使用了DeepSeekMoE,采用了细颗粒度的专家fen割与共享专家隔离,提高了专家的潜力,相较于Gshard等传统MoE架构,新提出的架构优势较大。

在训练过程中,公司使用了约8.1Ttokens的训练语料库,随后使用收集的150万对话对大模型进行监督微调,同时采用GRPO,使模型进一步与人类偏好保持对齐。

最终,模型在取得了良好效果的同时, 训练成本与推理成本大幅降低,相较于DeepSeek67B模型,V2模型节省了42.5%的训练成本与93.3%的KV缓存,最大生成吞吐量提升至5.76倍。

3)大模型低成本进程,应用有望达到更好营利水平

降本是实现大模型规模化商业应用的关键,DeepSeek-V2模型通过架构创新,实现了大模型成本尤其是推理成本的显著下降。

A16Z的合伙人MartinCasado在演讲中指出,历史上芯片和互联网都曾发生两次边际成本大幅下降,而发生的平台转移和行业革命的案例, 随着大模型的成本下降甚至边际成本降到了零后,AI革命即将开始,而每一轮科技革命,从PC互联网到移动互联网都是应用赚最多的钱。

因此 以DeepSeek-V2为代表的大模型成本迅速下降,有望全面带动AI应用的发展。

全面看多AI应用 ,可关注:(1)办公软件:金山办公福昕软件;(2)多模态:万兴科技美图公司虹软科技光云科技;(3)金融、法律:同花顺恒生电子通达海新致软件;(4)B端应用:金蝶国际泛微网络用友网络致远互联鼎捷软件汉得信息;(5)算力:华为链+国产AI芯片四小龙。

#AI应用# #DeepSeek# #AI模型#