巨头发布会产品撞车 AI时代首款应用初见雏形谁不想有一个善解人意的“她”呢？撰稿 | 龙薇责编 | 李崇磊排版 | 萝拉校对

谁不想有一个善解人意的“她”呢？

撰稿 | 龙薇

责编 | 李崇磊

排版 | 萝拉

校对 | 柚子

两天时间内，两场重要发布会，发布了两款类似的产品。不仅功能大同小异，甚至连概念的表述都惊人地相似。这样的雷同，是纯属巧合？还是竞争对手所见略同，选择了一条相同的赛道？

作为AI时代的两大巨头，OpenAI和谷歌先后推出了AI数字助手，让人怀疑这块业务可能会成为最快进入商用阶段的人工智能产品。

一部科幻电影引发的创意

十年前，一部叫做《她》（《Her》）的电影获得了第86届奥斯卡最佳原创剧本奖，它讲述了一个孤独的作家爱上了手机里AI语音助手的故事。电影中的AI风趣幽默、善解人意，逐渐成为男主人公生活中不可缺少的一部分。

这一创意，被谷歌用来诠释其最新一代人工智能助手。据谷歌DeepMind实验室负责人代米斯·哈萨比斯（Demis Hassabis）发布会前透露，谷歌的Astra将是一个随时待命的全能助手，类似于电影《她》一样，无处不在。

无独有偶，电影《她》的创意也被另一家科技巨头OpenAI看重，其公司首席执行官萨姆·奥尔特曼（Sam Altman）抢在谷歌发布会前一天在推特上发文，将其最新产品GPT-4o比作电影《她》。

虽然科幻电影的创意引导科技公司的创新的案例并不罕见，但是一部电影同时启发了两家科技巨头的产品创意也堪称传奇。

OpenAI发布的新旗舰模型GPT-4o，可跨视频、音频、文本进行实时推理。作为一个多模态模型，GPT-4o能在一个神经网络中输入输出文本、视频、音频3种数据格式，比GPT-4增加了语音处理能力。在发布会现场，OpenAI一一展示了GPT 4o具有的功能，包括能与人无延迟对话交流、能识别人类情绪、解决数学问题、实时翻译等，就像人与人之间的对话。

隔天，谷歌发布了最新AI助手Astra项目的最新进展。Astra可通过对话方式回答问题或协助完成任务，支持多种交互方式，包括语音、文字、绘图、摄影和视频。在展示视频中，Astra帮助谷歌伦敦办公室的员工找到里他丢失的眼镜，并对白板上的代码进行了检查等等，这一切实际上都是以对话的方式实时进行的。

无论是GPT-4o，还是Astra，其智能化程度都堪比人与人之间交流。其相似之处在于，这两者都提供对话式自然语言语音界面，都提供通过智能手机摄像头进行实时视频分析的潜力，而且两者似乎都足够快，可以进行真正自然的对话，用户可以在其中中断人工智能流程。

不仅如此，二者的开放步调也出奇一致。与GPT-4o一样，谷歌发布的只是基于最新版Gemini的内测版本，还未向公众开放。目前，GPT-4o也只向用户提供文本和图像功能，实时语音模式会在来几周内推出。

表象相同，内里不同

虽然产品定位大同小异，内测表现不相上下，但是这两款AI语音助手之间的差异还是比较明显。

OpenAI 的 ChatGPT 语音听起来更自然，可以检测和响应情绪和语气，甚至可以实时适应用户要求它说话的方式，但从 Gemini Live 中未能看到这种能力的证据。

另一点重要区别是多模态。Gemini 仍然依赖其他模型进行输出，包括使用 Imagen 3 输出图像和使用 Veo 输出视频；GPT-4o 本质上是双向多模态，“o”代表全向或所有方向,它创造自己的图像和声音，它首次让ChatGPT实现了真正意义上的多模态交互。

对此，谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）和一众高管们在演讲中不得不强调，Gemini在诞生之初就是按照多模态路径去打造的，似乎是在解释最新版Gemini和GPT-4o的区别。

从演示效果上看，Gemini的对话延迟似乎比GPT-4o长，在提问之后有一定的反应时间，相比GPT-4o近似人类自然快速地对答有差距。此外，谷歌在演示中并未表现出GPT-4o那样多的人类情感。

而到了产品数量的环节，谷歌则完胜OpenAI。相对于GPT-4o只是一款AI大模型，谷歌发布的堪称AI 超级全家桶，包含十几款更新的产品。

热度飙升群雄逐鹿

殊途同归的产品发布，无疑表明谷歌与OpenAI都看好AI语音助手赛道的商业前景。

AI语音助手有着广阔的应用前景，可以实现更自然的对话、多模态交互、企业应用、多语言和跨文化支持、自我学习和不断改进、生态系统整合等目的。

以GPT-4o为例，OpenAI请来了可汗学院创始人可汗，展示了用ChatGPT辅导其儿子伊姆兰完成一道数学题的全过程，ChatGPT通过渐进式提问引导成功完成了这项任务。而这，不过是AI语音助手广阔应用场景中的冰山一角罢了。

瞄准AI语音助手赛道的，何止这两家？苹果的Siri已在此领域狂奔十多年了。

作为AI语音助手领域的鼻祖，Siri一直在兢兢业业地服务亿万级用户。苹果方面坦陈，Siri的目标始终是创建一个能理解语言和上下文的对话界面，但这是个难题。多年来，苹果始终未制定出一个全面的人工智能战略，Siri自推出以来也没有大的升级改进。

据悉，OpenAI与苹果即将敲定一项合作协议，让ChatGPT能够装进iPhone中，并为今年的iOS系统提供全新的生成式AI能力。预计今年6月10日的WWDC大会上也将发布改进后的Siri。有传言称，苹果正在探索开发带摄像头的AirPods，AI可以使用摄像头拍摄的画面，并通过多模态语音、图像AI系统，帮助用户跟踪自己的日常活动，协助人们优化日常作息。

硅谷的另一巨头Meta也没有置身事外。据外媒报道，Meta已建立一个名为“Camerabuds”（摄像头耳机）的项目，探索制造由AI驱动的带摄像头耳机，希望其能识别物体、翻译外语。

此前，Meta已发布了新一代雷朋智能眼镜，内置多模态AI功能。戴上眼镜后，说一声“嘿，Meta”，就能召唤出一个虚拟助手，后者能看到并听到周围发生的一切，能描述物品，能翻译，还会搭配衣服。

“AI+情感”正悄然崛起

在技术路线上，AI拟人化的趋势已经不可阻挡，AI语音助手赛道已有了主打“AI+情感”的细分赛道。在过去一年里，大量的AI公司都已看准商机，并抢先布局了。

只不过，他们换了个新概念——AI陪伴，而其产品也不再拘泥于手机、设备中的传统的语音助手形式，并出现了网页端、手机APP等多种形态。目前，苹果和其他应用商店里聊天陪伴型App已经成为生成式人工智能的主流应用。

它们中的典型代表是美国的Character.ai，及其中国对标产品Talkie。它们都有chatGPT对话的影子，但与更加注重功能属性的ChatGPT不同的是，这些AI产品则更侧重于情感陪伴和情绪价值，目标就是以更加贴近真人的语言方式来为用户提供个性化的社交体验。

当下，越来越多年轻人愿意与AI建立拟人化关系，在网络世界拥有一个虚拟“知己”，这些产品均能提供共情力、学习力、创造力、长期记忆等情感陪伴AI的核心能力。这使得这类情感陪伴类AI应用迅速抢占了市场，拥有了千万级日活用户，并实现了商业化变现。

据悉，Character.ai预计将在2024创收超过1600万美元。

巨头发布会产品撞车 AI时代首款应用初见雏形

作者：财经光年