2024年OPENAI的产品发布节奏前一阵子OPENAI发布了GPT-4o，即有令人惊喜的地方，多模态的响应速度超出预期，从中能看到下一代人机交互的影子；也...

前一阵子OPENAI发布了GPT-4o，即有令人惊喜的地方，多模态的响应速度超出预期，从中能看到下一代人机交互的影子；也有令人失望的地方，模型的基础能力提升并不明显。很多人可能会认为，国产大模型有了追赶的可能，但我对此是比较悲观的。个人认为，OPENAI实际上是在掌握着产品的发布节奏，sam也提到过，OPENAI并不想直接发布爆炸性的产品，而是想让大家慢慢适应。大众期待的OPENAI下一代产品依然是GPT5，暂且叫它GPT5，将来发布时可能并不是这个名字了。GPT5依然是OPENAI今年下半年要发布的最炸裂的产品。个人猜测OPENAI今年的产品节奏是这样的：

1、Sora发布，解决视频数据处理和生成的问题，让大模型的多模态能力从图片、语音进一步进阶到视频。

2、训练GPT5语言模型，GPT5语言模型应该已经训练完成，但OPENAI应该并不想仅仅发布语言模型，而是对GPT5还有进一步的训练任务。

3、基于GPT4训练包含语音、图片的多模态模型，即已经发布的GPT-4o，OPENAI预判大模型的未来是多模态的，为下一代大模型准备。

4、OPENAI宣称开始下一代前沿模型的训练，就是基于GPT5语言模型的多模态模型的训练，其实也就是GPT-5o。GPT5是在纯文本模型训练出来的模型，GPT-5o则是加入语音、图片和文本甚至会加入一些视频数据的混合数据下进行的训练，这个训练时间可能并不比纯文本数据训练时间短，所以我们想看到OPENAI的下一代模型，还需要一段时间。从各种表态来看，今年年底GPT-5o肯定是会发布的。我们曾在4月份预期GPT5将会是炸裂的，只不过被GPT-4o的发布浇灭了，实际上大可不必，GPT-5o相比GPT-4o，能力必然会大幅提升，到时大模型将跨过能力临界点，势必掀起大模型赋能各种应用的狂潮。

5、由于算力受限，估计GPT-5o不会在视频模态上走得太远，从这点考虑，OPENAI也有可能发布Sora-2，提升视频生成的能力并降低成本。包含视频的真正的全模态模型可能要在GPT-6o才能看到。

最后，大家还是不要低估了GPT-4o的水平，GPT-4o的意义在于解决了多模态统一建模的问题，并且能够保证性能小幅提升情况下成本还下降了，说明OPENAI已经完全解决了多模态的数据和训练问题。国内要实现GPT-4o，需要一段不少的时间。对标完GPT4，还要用GPT4训练GPT4V，再到GPT-4o，要大量的数据要准备，要大量的试验要做，还有大量的训练要消耗时间。讯飞能在1024做出对标GPT-4o就算很NB了，更别说GPT-5o发布后国内外的差距会有多大。

讯飞曾在Sora出来后，在下半年的工作任务中加入了对标Sora的计划，但在GPT-4o出来后，不知道讯飞会不会延迟对标Sora的计划，而把对标GPT-4o的计划提前。我觉得是有可能的，GPT-4o的战略意义比Sora是要大得多的。

$科大讯飞(SZ002230)$ $百度集团-SW(09888)$ $阿里巴巴-SW(09988)$

2024年OPENAI的产品发布节奏

作者：iFly2023

全部讨论