发布于: 雪球转发:0回复:7喜欢:3

这次黄教主透露了一组数据:1.8 万亿参数的 MoE 架构 GPT 模型, 2000个GB200需要90天训练一个模型。

这里面反应了两个关键问题:

1,如果做过AI训练的朋友应该知道,训练本身需要调优,这个过程最耗时间,而每一次训练时间又长,一旦中间不达预期,要返工找原因。CUDA软件生态是非常受欢迎的原因就是经过多年的发展已经很成熟了,相当坑比较少。而自建一个新GPU软件生态,这种坑需要研发人员一遍一遍的去踩过,代价非常大,时间周期长。但国产GPU软件生态也必须成功,否则越往后往难。

2,另一个也说明了国产大模型性能之差,不能说他们不努力,参数量级上不去,效果会差很多,参数量就相当于人的脑子的IQ值。你拿一个马斯克IQ值的神经网络模型去训练学习,效果要好许多。要想参数量级上去,又必须要足够的算力作保证。

所以国内的大模型,现在都是在局部领域去突破,例如:科大讯飞的星火大模型的参数量大概只有GPT3的十分之一,但可以在限定场景下效果不输GPT。这就是好比北大的韦神和马斯克之间区间,韦神在数学方面是天才,而马斯克全面天才。

所以未来很长一段时间,国内的大模型依然只能在局部领域取得超越!

$科大讯飞(SZ002230)$ $海光信息(SH688041)$ $中际旭创(SZ300308)$

全部讨论

03-21 10:40

那是不是说国内如果投大模型,选垂直专业大模型更确定呢

算力不行的话,模型、应用都会很拉胯的。

03-21 09:06

等于现在投资大模型的票,失败的概率很高。

没有算力,国产大模型可能永远追不上,国外大模型一旦开源就是降维打击,国产等着汉化吧