OpenAI全面更新大模型，科技巨头的生成式AI之战升级至第二轮 GPT-4o的发布掀起风暴。它在发布会上的流利表达和令人惊叹的交互性震撼到了每一个听众。人们惊奇地发现，不知不觉间，它已...

GPT-4o的发布掀起风暴。它在发布会上的流利表达和令人惊叹的交互性震撼到了每一个听众。人们惊奇地发现，不知不觉间，它已经偷偷绕过了图灵测试的厚重幕帘，将带领我们走向一个人人都有AI相伴的时代。

GPT-4o，未来人机交互新范式

OpenAI在春季新品发布会上再次引燃了人们对人工智能的期待。北京时间5月14日，OpenAI 首席技术官 Mira Murati作为主持人，重磅介绍了此次春季发布会推出的新一代旗舰生成模型GPT-4o，其中，“o”代表的是拉丁词根“Omni”，具有“所有的”、“全部的”或“全能”的含义。

在发布会中，GPT-4o展示了其强大的实时多模态交互性能：它可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。这意味着，GPT-4o可以直接理解、直接生成音频或者视频一切内容，而无需通过文字的转译。这一重大的模型更新，使得GPT-4o具有了令人惊叹的可交互性。

OpenAI 首席技术官 Mira Murati

图片来源：网易科技

在响应速度方面，GPT-4o的交互性相较前代模型也具有颠覆性改变，变得更为自然，更像是在和一个“真人”进行对话，而不是和一个AI进行模块式问答。发布会数据显示，GPT-4o语音能在232毫秒内回应音频输入，平均为320毫秒，大幅降低了延迟，使其与现实对话中人类的响应时间相似，因此，用户在跟GPT-4o进行语音交谈时，几乎不会感受到任何停顿。并且，GPT-4o的说话可以被随时打断，而不影响它对整段对话的理解。

在进行视频通话时，GPT-4o还可以捕捉理解用户的表情、神态，并判断用户的当下状态。它甚至可以根据用户的语气、语速作出相应反应。在发布会的现场演示中，工程师刻意表现得呼吸急促，GPT-4o敏锐地捕捉到了这一状态，并建议工程师不要紧张，最好能够深呼吸平复情绪。

图片来源：华尔街见闻

此外，GPT-4o还完成了切换语言实时翻译、引导人们解题等现场演示，同时，OpenAI还在官网上放出了更多更复杂场景的交互，展现出AI多模态模型的更多潜力，包括照片转漫画、3D物体合成、海报创作、角色设计等。

“这是我们第一次在易用性方面真正迈出一大步，”Mira Murati在发布会中说道，“这种互动变得更加自然，也更加容易。”值得注意的是，此次GPT-4o将免费提供给所有用户，Murati表示，该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中GPT-4o将免费提供。

科幻电影《Her》走进现实

GPT-4o 的发布，让很多人联想到科幻爱情电影《Her》中的类似情景，影片讲述了主人公西奥多——一位信件撰写人与人工智能系统 OS1 萨曼莎的爱情故事。剧中给萨曼莎配音的著名影星斯嘉丽・约翰逊拥有迷人的声线，更是给萨曼莎增加了人类情感。此前，在春季发布会后，OpenAI首席执行官山姆·奥特曼（Sam Altman）在社交媒体上的评论只有一个词：Her，似乎也在暗示 ChatGPT 将科幻电影中的场景带进现实。

在GPT-4o发布之后，奥特曼还接受了硅谷著名风险投资公司Redpoint董事兼总经理Logan Bartlett的采访，在45分钟的对话中，他谈了谈对GPT-4o、GPT5、以及未来人工智能世界的看法。

“GPT-4o并不是突然解锁的一项疯狂的新技术，而是功能累积和整合的结果。”奥特曼表示，“在过去几年，OpenAI团队一直在研究音频模型、视觉模型，以及如何将它们结合起来，同时也在努力提高模型的训练效率。我们这次并不是突然解锁了一项从来没有的技术，而是将很多功能部分整合在了一起。”

OpenAI首席执行官山姆·奥特曼（Sam Altman）

图片来源：搜狐科技

很多人将GPT-4o看作是GPT-5重磅发布的预告，并一直对GPT-5的发布时间及功能升级保持高度期待。奥特曼坦言，人工智能和惊喜并不总是搭配着来的，未来可能不会有大规模的发布。也许我们仍然可以把它命名为GPT-5，但以不同的方式发布，或者换个名字。就目前来说，GPT-4还在不断改进中。谈及AI给世界带来的变革影响，奥特曼认为，目前为止，ChatGPT本身还没有改变世界，而是改变了人们对世界的期望。

“从现在的GDP等经济数据中还找不到GPT真正影响生产力的证据，但我认为，如果几十年后再去分析相应的经济图标走势，肯定能察觉到背后的变革。”奥特曼预测，在未来12个月内，编程会是受其影响的一个重要领域。

谷歌与微软的战书

就在OpenAI发布会的一天之后，谷歌发布一系列多模态更新，进一步说明了AI多模态能带来的颠覆性潜力。与OpenAI的发布会相比，谷歌的发布会时长更长，约有两小时，在各个生态方向用AI发力。CEO Sundar Picha在整场的演讲稿中总共提了120次“AI”，表明谷歌目前所有的工作都围绕多模态AI模型Gemini来展开。

谷歌DeepMind负责人Demis Hassabis在发布会上介绍了Project Astra，与OpenAI的GPT4o“宣战”。Project Astra基于Gemini多模态大模型，是一个实时、多模态的人工智能助手，可以通过硬件设备“看到”世界，知道东西是什么以及你把它们放在哪里，并且可以回答问题或帮助你做几乎任何事情。

在谷歌的demo视频中，谷歌伦敦办事处的一名工作人员用Astra识别自己的地理位置，找到丢失的眼镜，检查代码等。Hassabis表示，“展望未来，人工智能的故事将不再是关于模型本身，而是关于它们能为你做什么”。

图片来源：Google

接棒OpenAI 和谷歌掀起的 AI 科技月，5月22日，微软在新品发布会上也带来了一系列重磅产品，发布了 50 多项更新，其中，Copilot也迎来了全新升级，微软CEO Satya Nadella在发布会上介绍了“Copilot+PCs”的概念，它是指 Windows 笔记本电脑配置内置 AI 硬件并支持整个操作系统的 AI 功能，被描述为“新一类 Windows PC”。

Copilot开始具备“透视”屏幕能力，能真正理解屏幕上显示的内容，甚至给出相对应的建议。比如，在用户玩《我的世界》游戏时，它能化身游戏大师，不仅能用纯自然语言教你怎么打造一把剑，还可以通过“看到”玩家库存里的具体物资，给出精准的制作建议。

此外，新增的Recall功能使电脑拥有了过目不忘的记忆，这无异于一场效率革命。它能够帮助用户记忆海量的文件和网页，如果用户在浏览过程中点击的文件忘记存储在哪了，只需向其描述合适的词汇，就能第一时间找到文件。值得一提的是，这一切智能操作均在本地端侧完成，无需云端介入，对于隐私安全有着极大的保障。

Copilot 新增Recall 功能

从 2023 年到 2024 年，无论是否身处科技行业，或许都会感受到这一趋势：人工智能正在重塑我们的生活。而每一次技术的突破，总是会带来生产力变革。AI多模态之战打响之后，随着越来越多的科技巨头入局，在更多更广的应用上，我们看到了更落地更切实的可用性，这将重塑人类和AI以及电子设备的交互方式。

资料来源：搜狐科技、机器之心、硅谷101、知社学术圈等

往期推荐

元宇宙与汽车产业高度结合，自动驾驶拥抱智能化未来

阿里财报饿了么交卷：带动本地生活同比增长19%，变革成效显著，“上岸”来到最好时机

中法建交60周年！历史长河中的又一次“中法相遇”，中法商贸迎来历史性新机遇

OpenAI全面更新大模型，科技巨头的生成式AI之战升级至第二轮

作者：胡润百富