早起看了OpenAI昨晚的GPT-4o产品演示，和之前使用的版本比较，个人最直观的感受是两点：1，语音交互反应时间大幅减...

作者：康夕

发布于:2024-05-14 07:47 修改于: 2024-05-14 08:40

雪球

转发：2

回复：18

喜欢：2

早起看了OpenAI昨晚的GPT-4o产品演示，和之前使用的版本比较，个人最直观的感受是两点：

1，语音交互反应时间大幅减少；

2，语音情感更丰富。

之前使用语音和chatgpt对话时，总有几秒的延迟。在 GPT-4o 之前，使用语音模式与 ChatGPT 对话的平均延迟时间为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。当时我以为是算力还不够，网络有延迟，今天看了相关文章才理解，这是神经模型的进化结果。

之前的语音AI产品，包括ChatGPT和其他语音AI产品，背后的交互结构基本都是由三个过程组成：

1. 语音识别（ASR）：将音频转换为文本，例如 Whisper；
2. 大语言模型（LLM）规划接下来的话语：将第一阶段的文本转换为新的文本；
3. 语音合成（TTS）：将新文本转换回音频，如 ElevenLabs 或 VALL-E 所做的那样。

这个过程直接带来了语音交互上的时间延迟，也会造成最主要的大模型 GPT-4 或GPT-3.5会丢失很多重要信息：它不能直接观察感知音调、多人讲话或背景噪音，也不能输出笑声、歌声或表达情感。后者也是之前语音情感表达不够的主要原因。

解决实时对话的挑战不仅仅是让每个神经网络更快，还需要从整体上重新构思技术架构，最大程度地实现各组件的重叠，并学会如何在实时对话中进行有效干预。

而新的GPT-4o,直接使用一个神经网络从音频映射到音频，即从端到端的解决方案实现了更沉浸式的交互体验。

GPT-4o可以在232毫秒内对音频输入做出反应，堪比人与人对话的反应速度，还能随意打断再继续对话。GPT-4o还可以通过手机摄像头实时理解现实场景，进而做出反馈，比如识别白板上的数学方程3x+1=4，并一步一步地说出解题过程。

GPT-4o可以像人一样听、看、说，而且，还能免费使用！

结尾还直接致谢黄仁勋和英伟达，哈哈。

期待下一个重要产品，到时候应该是奥特曼时刻了。

全部讨论

05-14 08:07

一个感触：苹果国外和OpenAI合作终端AI，可以YY下到时和siri的体验提升多么巨大，但是国内不管是和百度还是其他团队合作，这体验上的差距可能确实比较大了，任重道远。

05-14 10:22

市场低估了GPT-4o，这个实质性的落地比sora带来的影响要更实际且更快。$汤姆猫(SZ300459)$ $惠威科技(SZ002888)$

05-14 07:51

以前的架构依赖文字模型，现在是独立的语音模型？？

05-14 10:37

mmp惠威炸板把我洗出去了100个

05-14 08:18

发展真快上年年初发布到今年这进步

05-14 08:50

在哪里能用？