DeepSeek-V2 模型通过引入Multi-Head Lalent Altenion(MLA)将KV 矩阵乐缩到潜在空间米大幅降低所需缓存的数据量,且并不引入额外计算开销,巧妙的降低了推理成本,但在训练端,MLA结构会引入额外计算。针对优化训练成本和效率的问题,DeepSeek-V2 则是在前馈网络中引入并改进了MoE 架构。
这个公司都裁员那么多了!营收也那么低,能扛下去吗?现在最恐怖就是爆雷