发布于: Android转发:0回复:1喜欢:0
回复@溪谷留香: 是啊,降本//@溪谷留香:回复@花盆君:花大,逻辑是幻方的价格预期差大吗?
引用:
2024-05-10 15:22
$每日互动(SZ300766)$ 【华泰计算机】幻方DeepSeek v2解析,怎么就又好又便宜!
🔥模型基本信息:还是Transformer架构,开源,MoE架构,236B参数(2个共享+160路由专家),每个token激活21B参数(2个共享+6个路由专家),上下文长度128K,训练数据8.1T tokens。
🔥效果:开源MoE模...

全部讨论

05-11 12:50

那利空算力吗?