这次黄教主透露了一组数据：1.8 万亿参数的 MoE 架构 GPT 模型， 2000个GB200需要90天训练一个模型。...

发布于:2024-03-21 08:52

雪球

转发：0

回复：7

喜欢：3

这次黄教主透露了一组数据：1.8 万亿参数的 MoE 架构 GPT 模型， 2000个GB200需要90天训练一个模型。

这里面反应了两个关键问题：

1，如果做过AI训练的朋友应该知道，训练本身需要调优，这个过程最耗时间，而每一次训练时间又长，一旦中间不达预期，要返工找原因。CUDA软件生态是非常受欢迎的原因就是经过多年的发展已经很成熟了，相当坑比较少。而自建一个新GPU软件生态，这种坑需要研发人员一遍一遍的去踩过，代价非常大，时间周期长。但国产GPU软件生态也必须成功，否则越往后往难。

2，另一个也说明了国产大模型性能之差，不能说他们不努力，参数量级上不去，效果会差很多，参数量就相当于人的脑子的IQ值。你拿一个马斯克IQ值的神经网络模型去训练学习，效果要好许多。要想参数量级上去，又必须要足够的算力作保证。

所以国内的大模型，现在都是在局部领域去突破，例如：科大讯飞的星火大模型的参数量大概只有GPT3的十分之一，但可以在限定场景下效果不输GPT。这就是好比北大的韦神和马斯克之间区间，韦神在数学方面是天才，而马斯克全面天才。

所以未来很长一段时间，国内的大模型依然只能在局部领域取得超越！

$科大讯飞(SZ002230)$ $海光信息(SH688041)$ $中际旭创(SZ300308)$