发布于: Android转发:0回复:0喜欢:0
专业,看不懂[捂脸]
引用:
2024-05-10 15:22
$每日互动(SZ300766)$ 【华泰计算机】幻方DeepSeek v2解析,怎么就又好又便宜!
🔥模型基本信息:还是Transformer架构,开源,MoE架构,236B参数(2个共享+160路由专家),每个token激活21B参数(2个共享+6个路由专家),上下文长度128K,训练数据8.1T tokens。
🔥效果:开源MoE模...