这次黄教主透露了一组数据:1.8 万亿参数的 MoE 架构 GPT 模型, 2000个GB200需要90天训练一个模型。
这里面反应了两个关键问题:
1,如果做过AI训练的朋友应该知道,训练本身需要调优,这个过程最耗时间,而每一次训练时间又长,一旦中间不达预期,要返工找原因。CUDA软件生态是非常受欢迎的原因就是经过多年的发展已经很成熟了,相当坑比较少。而自建一个新GPU软件生态,这种坑需要研发人员一遍一遍的去踩过,代价非常大,时间周期长。但国产GPU软件生态也必须成功,否则越往后往难。
2,另一个也说明了国产大模型性能之差,不能说他们不努力,参数量级上不去,效果会差很多,参数量就相当于人的脑子的IQ值。你拿一个马斯克IQ值的神经网络模型去训练学习,效果要好许多。要想参数量级上去,又必须要足够的算力作保证。
所以国内的大模型,现在都是在局部领域去突破,例如:科大讯飞的星火大模型的参数量大概只有GPT3的十分之一,但可以在限定场景下效果不输GPT。这就是好比北大的韦神和马斯克之间区间,韦神在数学方面是天才,而马斯克全面天才。
所以未来很长一段时间,国内的大模型依然只能在局部领域取得超越!