05-10 18:29
马斯克那个昨天有个消息说值进脑部的线路有脱落 可能就是这两天下跌的原因
$每日互动(SZ300766)$ 【华泰计算机】幻方DeepSeek v2解析,怎么就又好又便宜!
🔥模型基本信息:还是Transformer架构,开源,MoE架构,236B参数(2个共享+160路由专家),每个token激活21B参数(2个共享+6个路由专家),上下文长度128K,训练数据8.1T tokens。
🔥效果:开源MoE模...
马斯克那个昨天有个消息说值进脑部的线路有脱落 可能就是这两天下跌的原因