05-10 08:52
吹牛只服国内企业
#幻方AI发布了开源的MOE模型DeepSeek-V2
幻方在5月6日发布了新一代大模型DeepSeek-V2,模型为总计236B总参数的MOE模型,约21B激活,同时采用了创新的MLA架构(注意力机制中设计了IEAttn降低推理成本),在训练阶段模型本身使用了8.1万亿tokens进行训练,目前模型已经开源
# 模型效果优异但成本大幅降低
在目前大模型主流榜单中,DeepSeek-V2均表现出色:中文综合能力(AlignBench)开源模型中最强;英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral 8x22B,模型支持128k上下文。在测评得分上,MMLU得分77.8分,整体超过GPT3.5接近GPT4,与最新的LLaMA3 70B接近。同时推理的价格非常低,输入100万tokens成本仅1元,输出2元,约等于GPT-4的#百分之一,相较月之暗面24元的也大幅降低
# 大模型成本有望下降带动应用增长
大模型在2024年逐步走向小型化、低成本化和靠近GPT4水平,海外开源模型已经形成了四分天下的局面,国内也迎来了超低成本的大模型方案,成本是诸多应用的瓶颈之一,而幻方AI大模型的发布也代表着大模型应用有望逐步降低门槛
推荐关注
1.应用:(1)办公软件:金山办公、福昕软件、彩讯股份
(2)多模态:万兴科技、美图公司、虹软科技、光云科技
(3)TO B:用友网络、金蝶国际、致远互联、泛微网络、鼎捷软件、汉得信息
(4)金融、教育、医疗:科大讯飞、佳发教育、视源股份、润达医疗、恒生电子、新致软件
欢迎交流!
缪欣君/刘鉴
吹牛只服国内企业