天风证卷：从长文本到低成本，有望全面带动AI应用的发展天风证卷研报指出，幻方5月6日发布了第二代MOE模型DeepSee...

天风证卷：从长文本到低成本，有望全面带动AI应用的发展

天风证卷研报指出，幻方5月6日发布了第二代MOE模型DeepSeek-V2，在模型性能一流的同时达到极低的价格。随着大模型的成本下降甚至边际成本降到了零后，AI革命即将开始，从PC互联网到移动互联网都是应用赚最多的钱。全面看多AI应用投Zi机会。

1）幻方AI发布了DeepseekV2模型，在模型性能一流的同时达到极低的价格

5月6日幻方发布了第二代MOE模型DeepSeek-V2。

目前在大模型主流榜单中，DeepSeek-V2均表现出色，中文综合能力（AlignBench）开源模型中最强，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队，英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B同处第一梯队，超过最强MoE开源模型Mixtral8x22B，知识、薮学、推理、编程等榜单结果也位居前列。

同时， DeepSeek-V2API的定价处于极低的价格：32K上下文每百万tokens输入1元、输出2元，价格仅为GPT-4-Turbo的近百fen之一，仅为同属于MoE架构的abab-6.5s模型的1/5，就中文能力来看，DeepSeek-V2在全球模型中处于第一档的位置，但其成本却是最低。

2）双重架构创新驱动极低训练与推理成本大幅降低

Deepseek-V2模型在模型架构上进行了全方位的创新，使用MLA（Multi-headLatentAttention）和DeepSeekMoE优化了Transformer架构中的Attention与FFN。为缓解键值缓存带来的推理效率下降问题，公司提出了MLA使用低秩键值联合压缩的方式，显著降低KV缓存；在FFN上，公司使用了DeepSeekMoE，采用了细颗粒度的专家fen割与共享专家隔离，提高了专家的潜力，相较于Gshard等传统MoE架构，新提出的架构优势较大。

在训练过程中，公司使用了约8.1Ttokens的训练语料库，随后使用收集的150万对话对大模型进行监督微调，同时采用GRPO，使模型进一步与人类偏好保持对齐。

最终，模型在取得了良好效果的同时，训练成本与推理成本大幅降低，相较于DeepSeek67B模型，V2模型节省了42.5%的训练成本与93.3%的KV缓存，最大生成吞吐量提升至5.76倍。

3）大模型低成本进程，应用有望达到更好营利水平

降本是实现大模型规模化商业应用的关键，DeepSeek-V2模型通过架构创新，实现了大模型成本尤其是推理成本的显著下降。

A16Z的合伙人MartinCasado在演讲中指出，历史上芯片和互联网都曾发生两次边际成本大幅下降，而发生的平台转移和行业革命的案例，随着大模型的成本下降甚至边际成本降到了零后，AI革命即将开始，而每一轮科技革命，从PC互联网到移动互联网都是应用赚最多的钱。

因此以DeepSeek-V2为代表的大模型成本迅速下降，有望全面带动AI应用的发展。

全面看多AI应用，可关注：（1）办公软件：金山办公、福昕软件；（2）多模态：万兴科技、美图公司、虹软科技、光云科技；（3）金融、法律：同花顺、恒生电子、通达海、新致软件；（4）B端应用：金蝶国际、泛微网络、用友网络、致远互联、鼎捷软件、汉得信息；（5）算力：华为链+国产AI芯片四小龙。

#AI应用# #DeepSeek# #AI模型#

作者：股友大本营