一个感触:苹果国外和OpenAI合作终端AI,可以YY下到时和siri的体验提升多么巨大,但是国内不管是和百度还是其他团队合作,这体验上的差距可能确实比较大了,任重道远。
2. 大语言模型(LLM)规划接下来的话语:将第一阶段的文本转换为新的文本;
3. 语音合成(TTS):将新文本转换回音频,如 ElevenLabs 或 VALL-E 所做的那样。
这个过程直接带来了语音交互上的时间延迟,也会造成最主要的大模型 GPT-4 或GPT-3.5会丢失很多重要信息:它不能直接观察感知音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。后者也是之前语音情感表达不够的主要原因。
解决实时对话的挑战不仅仅是让每个神经网络更快,还需要从整体上重新构思技术架构,最大程度地实现各组件的重叠,并学会如何在实时对话中进行有效干预。
而新的GPT-4o,直接使用一个神经网络从音频映射到音频,即从端到端的解决方案实现了更沉浸式的交互体验。
GPT-4o可以在232毫秒内对音频输入做出反应,堪比人与人对话的反应速度,还能随意打断再继续对话。GPT-4o还可以通过手机摄像头实时理解现实场景,进而做出反馈,比如识别白板上的数学方程3x+1=4,并一步一步地说出解题过程。
GPT-4o可以像人一样听、看、说,而且,还能免费使用!
结尾还直接致谢黄仁勋和英伟达,哈哈。
期待下一个重要产品,到时候应该是奥特曼时刻了。
一个感触:苹果国外和OpenAI合作终端AI,可以YY下到时和siri的体验提升多么巨大,但是国内不管是和百度还是其他团队合作,这体验上的差距可能确实比较大了,任重道远。
市场低估了GPT-4o,这个实质性的落地比sora带来的影响要更实际且更快。$汤姆猫(SZ300459)$ $惠威科技(SZ002888)$
以前的架构依赖文字模型,现在是独立的语音模型??
mmp惠威炸板把我洗出去了100个
发展真快 上年年初发布 到今年 这进步
在哪里能用?