发布于: 修改于: 雪球转发:2回复:18喜欢:2

早起看了OpenAI昨晚的GPT-4o产品演示,和之前使用的版本比较,个人最直观的感受是两点:

1,语音交互反应时间大幅减少;

2,语音情感更丰富。

之前使用语音和chatgpt对话时,总有几秒的延迟。在 GPT-4o 之前,使用语音模式与 ChatGPT 对话的平均延迟时间为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。当时我以为是算力还不够,网络有延迟,今天看了相关文章才理解,这是神经模型的进化结果。

之前的语音AI产品,包括ChatGPT和其他语音AI产品,背后的交互结构基本都是由三个过程组成:

1. 语音识别(ASR):将音频转换为文本,例如 Whisper;
2. 大语言模型(LLM)规划接下来的话语:将第一阶段的文本转换为新的文本;
3. 语音合成(TTS):将新文本转换回音频,如 ElevenLabs 或 VALL-E 所做的那样。

这个过程直接带来了语音交互上的时间延迟,也会造成最主要的大模型 GPT-4 或GPT-3.5会丢失很多重要信息:它不能直接观察感知音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。后者也是之前语音情感表达不够的主要原因。

解决实时对话的挑战不仅仅是让每个神经网络更快,还需要从整体上重新构思技术架构,最大程度地实现各组件的重叠,并学会如何在实时对话中进行有效干预。

而新的GPT-4o,直接使用一个神经网络从音频映射到音频,即从端到端的解决方案实现了更沉浸式的交互体验。

GPT-4o可以在232毫秒内对音频输入做出反应,堪比人与人对话的反应速度,还能随意打断再继续对话。GPT-4o还可以通过手机摄像头实时理解现实场景,进而做出反馈,比如识别白板上的数学方程3x+1=4,并一步一步地说出解题过程。

GPT-4o可以像人一样听、看、说,而且,还能免费使用!

结尾还直接致谢黄仁勋和英伟达,哈哈。

期待下一个重要产品,到时候应该是奥特曼时刻了。

全部讨论

一个感触:苹果国外和OpenAI合作终端AI,可以YY下到时和siri的体验提升多么巨大,但是国内不管是和百度还是其他团队合作,这体验上的差距可能确实比较大了,任重道远。

05-14 10:22

市场低估了GPT-4o,这个实质性的落地比sora带来的影响要更实际且更快。$汤姆猫(SZ300459)$ $惠威科技(SZ002888)$

以前的架构依赖文字模型,现在是独立的语音模型??

mmp惠威炸板把我洗出去了100个

05-14 08:18

发展真快 上年年初发布 到今年 这进步

在哪里能用?