$每日互动(SZ300766)$ 【华泰计算机】幻方DeepSeek v2解析，怎么就又好又便宜！🔥模型基本信息...

$每日互动(SZ300766)$ 【华泰计算机】幻方DeepSeek v2解析，怎么就又好又便宜！
🔥模型基本信息：还是Transformer架构，开源，MoE架构，236B参数（2个共享+160路由专家），每个token激活21B参数（2个共享+6个路由专家），上下文长度128K，训练数据8.1T tokens。
🔥效果：开源MoE模型顶尖，MMLU（大规模多任务语言理解）接近Llama 3 70B（稠密架构，推理实打实700亿参数）。成本很低，例如输入输出价格是月暗的1/24和1/12，在单个8xH800节点上实现了超过50K tokens/s输出。
🔥高效的核心：
1）【推理降本，最主要】——改进的注意力机制。提出MLA注意力机制。传统Transformer多头注意力机制（MHA），每个生成的新token都需要和之前的老token进行注意力机制计算，所以老token的key-value不能丢，得缓存下来。导致随着token变多，KV缓存线性变大，成为瓶颈。已经有些方法优化MHA，一定程度压缩KV缓存，但是代价是性能下降。而幻方的MLA，不仅通过低秩（low-rank）压缩了KV缓存，还能换来表现性能提高，在250B的MoE模型上，MLA的KV缓存仅为传统MHA的4%，省下大量成本。
2）【训练降本】——使用DeepSeekMoE。DeepSeekMoE是幻方在今年早些时候提的新MoE架构。本身MoE的稀疏架构，相比dense稠密架构，在训练时就能节约计算资源。再加上DeepSeekMoE相比传统MoE进行了更细粒度的专家分个和共享专家等改进，训练成本进一步降低。与前一代dense的DeepSeek 67B相比，节省了42.5%的训练成本。
3）其他细节改进：控制通信成本（限制专家部署的设备数）、确保负载平衡（防止有些专家没被充分训练）、丢弃部分低分tokens等。
🔥后续发力点：在即将推出的模型版本中实现与GPT-4同等的性能！未来可能会支持多模态！
🔥国产大模型逐渐找到长文本、注意力机制改进等新的突破点，迭代值得期待！

作者：花盆君

全部讨论