GPT-4o再颠覆！听说看更“丝滑”，还免费开放！OpenAI又抢先狙击谷歌？当地时间周一，OpenAI春季发布会重磅来袭，GPT-4o闪亮登场。作为GPT-4 型号的最新版本，GPT-4o不仅在听...

当地时间周一，OpenAI春季发布会重磅来袭，GPT-4o闪亮登场。

作为GPT-4 型号的最新版本，GPT-4o不仅在听、说、看方面更“丝滑”，并且将向所有用户免费开放。

OpenAI还称，在接下来的几周内，将开始向ChatGPT Plus展示新的语音和视觉功能。

GPT-4o的“o”代表“omni”，即“全能”的意思。

据OpenAI介绍，GPT-4o是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。

同时，它可以在短短232毫秒内响应音频输入，平均为 320 毫秒，与人类在对话中的响应时间相近。

而在此之前，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒。

在英语文本和代码上，GPT-4o的性能与GPT-4Turbo相当；在非英语语言的文本上也有显着改进，同时在 API 中也更快且便宜 50%。

总的来看，与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

“借助GPT-40，我们可以跨文本、视觉和音频端到端地训练一个新模型，这意味着所有输入和输出都由同一个神经网络处理。由于GPT-40是我们的第一个结合了所有这些模式的模型，因此我们对该模型的功能及其局限性的探索还只是触及表面。”

性能方面，按照传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面的表现也创下了新高。

OpenAI 称，GPT-4o现在支持50多种语言。

在现场直播中，OpenAi 首席技术官 Mira Murati 表示，ChatGPT 的更新版本现在还将具有记忆功能，这意味着它可以从之前与用户的对话中学习，并且可以进行实时翻译。

“这是我们第一次在易用性方面真正迈出一大步。这种互动变得更加自然，也更加容易。”

现场，OpenAl高管还演示了与ChatGPT的口语对话，以获得解决数学问题的实时指令，讲睡前故事，并获得编码建议。

ChatGPT能够用自然、人类的声音说话，也能用机器人的声音说话，甚至还能唱出一部分回应。该工具还能够查看图表的图像并进行讨论。

值得关注的是，眼下AI大模型战场的“厮杀”已十分焦灼。

OpenAI 和谷歌的对决更是激烈。

值得一提的是，这回OpenAI 的“大上新”正好挑在了谷歌 I/O开发者大会的前一天发布。

稍早前，谷歌发布了一条推文，展示了其 AI Gemini 聊天机器人的对话版本原型，该机器人使用视频输入而不是文本。

Gemini 不仅能够正确、恰当地回答提出的问题，视频还显示聊天机器人在维持对话方面做得很好。

但就在这段视频发布在“X”上不到一个小时后，OpenAI 首席执行官 Sam Altman的“X”上免费宣布为 ChatGPT 提供类似功能。

而上一次，OpenAI也是在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把。

一场朴实无华的“商战”似乎又在拉开大幕。

最近，有关OpenAI最新产品发布的猜测已成为硅谷的一场游戏。

此前，有消息传OpenAI会发布GPT-5和搜索功能。虽然随后公司辟谣了，但 GPT-4o对人工智能圈带来的震撼依然不小。

在发布会后，OpenAI 首席执行官 Sam Altman还谈到了关于 GPT-4o 的一些想法，并强调了两件事。

首先，OpenAI 使命的一个关键部分是将非常强大的人工智能工具免费（或以高昂的价格）交到人们手中。其次，新的语音（和视频）模式是他用过的最好的计算机界面。

他还表示，很快就会有更多的东西可以分享。

GPT-4o再颠覆！听说看更“丝滑”，还免费开放！OpenAI又抢先狙击谷歌？