发布于: Android转发:1回复:1喜欢:3
网页链接 OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
GPT-4o强在哪儿?
在过去几年里,OpenAI一直在专注于提升模型的智能水平。
虽然后者已经达到了一个相当的水平,但是,今天这是第一次,模型在易用性方面,迈出了一大步!
为什么会把模型的易用性提到如此战略层面的高度?这是因为,即使一个AI再强大,如果它不能和人有效互动,也就失去了意义。
在这个过程中,OpenAI所着眼的,是人类和机器交互的未来。
而今天GPT-4o的发布,可能会成为一个分水岭,让人机协作的范式彻底迈入一个新阶段!
为此,OpenAI希望把GPT-4o和人类的互动,打造得格外舒服自然。
不过,虽然这个理想很宏大,但是在实际操作过程中,却遭遇了不小的困难。

毫秒级响应,与人类对话一致

首先,在人类之间互动时,有很多东西是我们认为理所当然的,但要让AI理解这些,就变得很困难。
比如,我们的谈话经常被打断,谈话过程中会有背景噪声,会有多个人同时说话的情况,说话人的语气语调也经常发生微妙的变化。
OpenAI克服了很大困难,花费了数月的时间,终于打造出了完美适应这些状况的GPT-4o!
在GPT-4o发布之前,通过语音模式(Voice Mode)与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。
当时,为了实现这一点,「语音模式」设有三个独立模型的管线:
- 一个简单模型将音频转录成文本
- GPT-3.5或GPT-4接收文本并输出文本
- 第三个简单模型将文本转换回音频
这一过程走下来,意味着主要的智能来源GPT-4就丢失了很多信息:
不能直接观察语气、多位说话者或背景噪音,也无法无法输出笑声、歌声或表达情感。
而这也导致了延迟,大大破坏了我们和ChatGPT协作的沉浸感。
但现在,GPT-4o让一切都发生得很自然。
它能以平均320毫秒,做出响应。
它可以跨越语音、文本、视觉多种形式,直接进行推理!
GPT-4o是OpenAI首个端到端训练的跨越文本、视觉和音频的新模型,意味着所有输入和输出都由相同的神经网络处理。
这就会彻底颠覆ChatGPT 1亿用户的工作和生活。
不仅如此,由于GPT-4o是「原生的多模态」,自然地集成了语言、视觉和音频等多种能力。
用户可以上传各种图片、视频,以及包含图片和文字的文档,讨论其中的内容。
GPT-4o也内置了搜索功能,可以实时搜索网页信息来回复用户。
相比ChatGPT,GPT-4o的记忆能力更是提升了不少,不仅在对话中可以记住你提过的问题,还能记住你们之间的所有对话,提供「连续感」。
更高级的是,新版模型还具备了数据分析能力,可以理解并分析用户上传的数据和图表。
而且,为了真正实现「让AGI惠及全人类」的愿景,GPT-4o有50种语言的版本,并改进了推理的质量和速度,这也就意味着,全球97%的人口都可以使用GPT-4o了!

全部讨论

05-14 17:07

//