发布于: Android转发:0回复:26喜欢:3
$每日互动(SZ300766)$华泰计算机】幻方DeepSeek v2解析,怎么就又好又便宜!
🔥模型基本信息:还是Transformer架构,开源,MoE架构,236B参数(2个共享+160路由专家),每个token激活21B参数(2个共享+6个路由专家),上下文长度128K,训练数据8.1T tokens。
🔥效果:开源MoE模型顶尖,MMLU(大规模多任务语言理解)接近Llama 3 70B(稠密架构,推理实打实700亿参数)。成本很低,例如输入输出价格是月暗的1/24和1/12,在单个8xH800节点上实现了超过50K tokens/s输出。
🔥高效的核心:
1)【推理降本,最主要】——改进的注意力机制。提出MLA注意力机制。传统Transformer多头注意力机制(MHA),每个生成的新token都需要和之前的老token进行注意力机制计算,所以老token的key-value不能丢,得缓存下来。导致随着token变多,KV缓存线性变大,成为瓶颈。已经有些方法优化MHA,一定程度压缩KV缓存,但是代价是性能下降。而幻方的MLA,不仅通过低秩(low-rank)压缩了KV缓存,还能换来表现性能提高,在250B的MoE模型上,MLA的KV缓存仅为传统MHA的4%,省下大量成本。
2)【训练降本】——使用DeepSeekMoE。DeepSeekMoE是幻方在今年早些时候提的新MoE架构。本身MoE的稀疏架构,相比dense稠密架构,在训练时就能节约计算资源。再加上DeepSeekMoE相比传统MoE进行了更细粒度的专家分个和共享专家等改进,训练成本进一步降低。与前一代dense的DeepSeek 67B相比,节省了42.5%的训练成本。
3)其他细节改进:控制通信成本(限制专家部署的设备数)、确保负载平衡(防止有些专家没被充分训练)、丢弃部分低分tokens等。
🔥后续发力点:在即将推出的模型版本中实现与GPT-4同等的性能!未来可能会支持多模态!
🔥国产大模型逐渐找到长文本、注意力机制改进等新的突破点,迭代值得期待!

全部讨论

盘后好像数据局出利好了。

05-11 10:39

花大,逻辑是幻方的价格预期差大吗?

05-10 18:54

专业,看不懂

老师,能不能带带卓创

AI炒原有的电力肯定是不对的。炒液冷新技术等,以及以后炒小概率的核能等

05-10 20:14

花总你看的懂?

05-10 15:58