2024年OPENAI的产品发布节奏

发布于: 雪球转发:1回复:20喜欢:4

前一阵子OPENAI发布了GPT-4o,即有令人惊喜的地方,多模态的响应速度超出预期,从中能看到下一代人机交互的影子;也有令人失望的地方,模型的基础能力提升并不明显。很多人可能会认为,国产大模型有了追赶的可能,但我对此是比较悲观的。个人认为,OPENAI实际上是在掌握着产品的发布节奏,sam也提到过,OPENAI并不想直接发布爆炸性的产品,而是想让大家慢慢适应。大众期待的OPENAI下一代产品依然是GPT5,暂且叫它GPT5,将来发布时可能并不是这个名字了。GPT5依然是OPENAI今年下半年要发布的最炸裂的产品。个人猜测OPENAI今年的产品节奏是这样的:

1、Sora发布,解决视频数据处理和生成的问题,让大模型的多模态能力从图片、语音进一步进阶到视频。

2、训练GPT5语言模型,GPT5语言模型应该已经训练完成,但OPENAI应该并不想仅仅发布语言模型,而是对GPT5还有进一步的训练任务。

3、基于GPT4训练包含语音、图片的多模态模型,即已经发布的GPT-4o,OPENAI预判大模型的未来是多模态的,为下一代大模型准备。

4、OPENAI宣称开始下一代前沿模型的训练,就是基于GPT5语言模型的多模态模型的训练,其实也就是GPT-5o。GPT5是在纯文本模型训练出来的模型,GPT-5o则是加入语音、图片和文本甚至会加入一些视频数据的混合数据下进行的训练,这个训练时间可能并不比纯文本数据训练时间短,所以我们想看到OPENAI的下一代模型,还需要一段时间。从各种表态来看,今年年底GPT-5o肯定是会发布的。我们曾在4月份预期GPT5将会是炸裂的,只不过被GPT-4o的发布浇灭了,实际上大可不必,GPT-5o相比GPT-4o,能力必然会大幅提升,到时大模型将跨过能力临界点,势必掀起大模型赋能各种应用的狂潮。

5、由于算力受限,估计GPT-5o不会在视频模态上走得太远,从这点考虑,OPENAI也有可能发布Sora-2,提升视频生成的能力并降低成本。包含视频的真正的全模态模型可能要在GPT-6o才能看到。

最后,大家还是不要低估了GPT-4o的水平,GPT-4o的意义在于解决了多模态统一建模的问题,并且能够保证性能小幅提升情况下成本还下降了,说明OPENAI已经完全解决了多模态的数据和训练问题。国内要实现GPT-4o,需要一段不少的时间。对标完GPT4,还要用GPT4训练GPT4V,再到GPT-4o,要大量的数据要准备,要大量的试验要做,还有大量的训练要消耗时间。讯飞能在1024做出对标GPT-4o就算很NB了,更别说GPT-5o发布后国内外的差距会有多大。

讯飞曾在Sora出来后,在下半年的工作任务中加入了对标Sora的计划,但在GPT-4o出来后,不知道讯飞会不会延迟对标Sora的计划,而把对标GPT-4o的计划提前。我觉得是有可能的,GPT-4o的战略意义比Sora是要大得多的。

$科大讯飞(SZ002230)$ $百度集团-SW(09888)$ $阿里巴巴-SW(09988)$

全部讨论

我是对gpt偏向于悲观的,因为大佬伊利亚跑了。

目前看GPT5可能不及预期,否则按照他们的风格早就放出来了,讯飞有反超机会,等月底发布会吧。

假如1024真正对标gpt4o,市值是不是可以冲击3000了