GPT-4o再颠覆!听说看更“丝滑”,还免费开放!OpenAI又抢先狙击谷歌?

发布于: 雪球转发:0回复:0喜欢:1

当地时间周一,OpenAI春季发布会重磅来袭,GPT-4o闪亮登场。

作为GPT-4 型号的最新版本,GPT-4o不仅在听、说、看 方面更“丝滑”,并且将向所有用户免费开放。

OpenAI还称,在接下来的几周内,将开始向ChatGPT Plus展示新的语音和视觉功能。

“全能”的GPT-4o炸场

GPT-4o的“o”代表“omni”,“全能”的意思。

据OpenAI介绍,GPT-4o是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。

同时,它可以在短短232毫秒内响应音频输入,平均为 320 毫秒,与人类在对话中的响应时间相近。

而在此之前,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒。

在英语文本和代码上,GPT-4o的性能与GPT-4Turbo相当;在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。

总的来看,与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

“借助GPT-40,我们可以跨文本、视觉和音频端到端地训练一个新模型,这意味着所有输入和输出都由同一个神经网络处理。由于GPT-40是我们的第一个结合了所有这些模式的模型,因此我们对该模型的功能及其局限性的探索还只是触及表面。”

性能方面,按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面的表现也创下了新高。

OpenAI 称,GPT-4o现在支持50多种语言

在现场直播中,OpenAi 首席技术官 Mira Murati 表示,ChatGPT 的更新版本现在还将具有记忆功能,这意味着它可以从之前与用户的对话中学习,并且可以进行实时翻译。

“这是我们第一次在易用性方面真正迈出一大步。这种互动变得更加自然,也更加容易。”

现场,OpenAl高管还演示了与ChatGPT的口语对话,以获得解决数学问题的实时指令,讲睡前故事,并获得编码建议。

ChatGPT能够用自然、人类的声音说话,也能用机器人的声音说话,甚至还能唱出一部分回应。该工具还能够查看图表的图像并进行讨论。

OpenAI 和谷歌的新对决

值得关注的是,眼下AI大模型战场的“厮杀”已十分焦灼。

OpenAI 和谷歌的对决更是激烈。

值得一提的是,这回OpenAI 的“大上新”正好挑在了谷歌 I/O开发者大会的前一天发布。

稍早前,谷歌发布了一条推文,展示了其 AI Gemini 聊天机器人的对话版本原型,该机器人使用视频输入而不是文本。

Gemini 不仅能够正确、恰当地回答提出的问题,视频还显示聊天机器人在维持对话方面做得很好。

但就在这段视频发布在“X”上不到一个小时后,OpenAI 首席执行官 Sam Altman的“X”上免费宣布为 ChatGPT 提供类似功能。

而上一次,OpenAI也是在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把。

一场朴实无华的“商战”似乎又在拉开大幕。

最近,有关OpenAI最新产品发布的猜测已成为硅谷的一场游戏。

此前,有消息传OpenAI会发布GPT-5和搜索功能。虽然随后公司辟谣了,但 GPT-4o对人工智能圈带来的震撼依然不小。

在发布会后,OpenAI 首席执行官 Sam Altman还谈到了关于 GPT-4o 的一些想法,并强调了两件事。

首先,OpenAI 使命的一个关键部分是将非常强大的人工智能工具免费(或以高昂的价格)交到人们手中。其次,新的语音(和视频)模式是他用过的最好的计算机界面。

他还表示,很快就会有更多的东西可以分享。