AI观察20240622:GPT5延期?

发布于: 修改于:Android转发:0回复:0喜欢:1

OpenAI的名义CTO Mira在最新的访谈中提到:

GPT3是Toddler-level的智力水平,GPT4更像是聪明的高中生智力水平。

在一年半后,我们会有一个能在Specific Tasks上达到PhD-level智力水平的大模型。

视频最早在周四发出来,在周五Twitter和中文自媒体开始讨论,并且理解为“GPT5将在一年半后发布”。大家可以查阅原视频,Mira在整个讨论中都没有提过GPT5,也只是提到一年半后会有一个PhD-level的模型。

OpenAI在流程上实际的CTO是Greg,但Greg更喜欢编程而不是管理,所以有了Mira任职目前的CTO的工作。但Mira本身的职能主要在负责Enterprise大客户,不负责目前的模型训练,这也造成了Mira在很多外部沟通中都出现了模棱两可的回答,包括上次提到“OpenAI实验室内的模型没有比外部更加先进”,再往前回溯还有类似的回答。

目前我们了解到的情况,下一代模型的参数量和训练数据量都在GPT4级别的5-10倍,同时会加强多模态和复杂任务的reasoning。传统训练模型方法,在小模型上做足够的ablation实验,然后到大模型上尝试的方法,在这么强大的下一代模型面前,有一定失效,因此很多实验需要在大模型上直接跑,需要的算力资源是巨大的。同时,这么强大的和复杂的模型,如何做post-train和alignment也非常复杂,需要大量的算力资源。

OpenAI的超大集群互联可能还是有一定挑战,仍然是2-3个集群进行互联,而不是一个10万+的大集群。这样在实验和训练的效率上都会受到影响,跨集群训练的问题在于集群间的传输速度和集群内的传输速度不一样(集群间一般只有集群内的1/3或者更低的传输速度)。导致集群间的传输调度策略要保证各种协同、一致变得非常复杂,而参数量大的模型的训练本身数据传输就非常多,协同要求也非常高

比如,有的实验或者pretrain,如果只跑了一半或者1/3,可能并不能看出来最后的结果如何。因此,OpenAI也需要更多的时间和计算资源,来调配出(炼丹)最优的pretrain和posttrain的recipe。

这也是为什么Elon Musk会很激进的提到XAI今年就要做出来10万卡集群,未来想要30万卡+的B卡集群。因为下一代B卡的互联性能有很大的提升,能够极大的帮助后进者来提升实验的效率和速度,追赶OpenAI。

尽管目前仍然有工程问题,但随着更大互联集群的迅速落地,大部分问题都会很快解决。