发布于: Android转发:0回复:0喜欢:0
没有算力,国产大模型可能永远追不上,国外大模型一旦开源就是降维打击,国产等着汉化吧
引用:
2024-03-21 08:52
这次黄教主透露了一组数据:1.8 万亿参数的 MoE 架构 GPT 模型, 2000个GB200需要90天训练一个模型。
这里面反应了两个关键问题:
1,如果做过AI训练的朋友应该知道,训练本身需要调优,这个过程最耗时间,而每一次训练时间又长,一旦中间不达预期,要返工找原因。CUDA软件生态是非常受欢...