OpenAI全面更新大模型,科技巨头的生成式AI之战升级至第二轮

发布于: 雪球转发:0回复:0喜欢:0

GPT-4o的发布掀起风暴。它在发布会上的流利表达和令人惊叹的交互性震撼到了每一个听众。人们惊奇地发现,不知不觉间,它已经偷偷绕过了图灵测试的厚重幕帘,将带领我们走向一个人人都有AI相伴的时代。

GPT-4o,未来人机交互新范式

OpenAI在春季新品发布会上再次引燃了人们对人工智能的期待。北京时间5月14日,OpenAI 首席技术官 Mira Murati作为主持人,重磅介绍了此次春季发布会推出的新一代旗舰生成模型GPT-4o,其中,“o”代表的是拉丁词根“Omni”,具有“所有的”、“全部的”或“全能”的含义。

在发布会中,GPT-4o展示了其强大的实时多模态交互性能:它可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。这意味着,GPT-4o可以直接理解、直接生成音频或者视频一切内容,而无需通过文字的转译。这一重大的模型更新,使得GPT-4o具有了令人惊叹的可交互性。

OpenAI 首席技术官 Mira Murati

图片来源:网易科技

在响应速度方面,GPT-4o的交互性相较前代模型也具有颠覆性改变,变得更为自然,更像是在和一个“真人”进行对话,而不是和一个AI进行模块式问答。发布会数据显示,GPT-4o语音能在232毫秒内回应音频输入,平均为320毫秒,大幅降低了延迟,使其与现实对话中人类的响应时间相似,因此,用户在跟GPT-4o进行语音交谈时,几乎不会感受到任何停顿。并且,GPT-4o的说话可以被随时打断,而不影响它对整段对话的理解。

在进行视频通话时,GPT-4o还可以捕捉理解用户的表情、神态,并判断用户的当下状态。它甚至可以根据用户的语气、语速作出相应反应。在发布会的现场演示中,工程师刻意表现得呼吸急促,GPT-4o敏锐地捕捉到了这一状态,并建议工程师不要紧张,最好能够深呼吸平复情绪。

图片来源:华尔街见闻

此外,GPT-4o还完成了切换语言实时翻译、引导人们解题等现场演示,同时,OpenAI还在官网上放出了更多更复杂场景的交互,展现出AI多模态模型的更多潜力,包括照片转漫画、3D物体合成、海报创作、角色设计等。

“这是我们第一次在易用性方面真正迈出一大步,”Mira Murati在发布会中说道,“这种互动变得更加自然,也更加容易。”值得注意的是,此次GPT-4o将免费提供给所有用户,Murati表示,该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中GPT-4o将免费提供。

科幻电影《Her》走进现实

GPT-4o 的发布,让很多人联想到科幻爱情电影《Her》中的类似情景,影片讲述了主人公西奥多——一位信件撰写人与人工智能系统 OS1 萨曼莎的爱情故事。剧中给萨曼莎配音的著名影星斯嘉丽・约翰逊拥有迷人的声线,更是给萨曼莎增加了人类情感。此前,在春季发布会后,OpenAI首席执行官山姆·奥特曼(Sam Altman)在社交媒体上的评论只有一个词:Her,似乎也在暗示 ChatGPT 将科幻电影中的场景带进现实。

在GPT-4o发布之后,奥特曼还接受了硅谷著名风险投资公司Redpoint董事兼总经理Logan Bartlett的采访,在45分钟的对话中,他谈了谈对GPT-4o、GPT5、以及未来人工智能世界的看法。

“GPT-4o并不是突然解锁的一项疯狂的新技术,而是功能累积和整合的结果。”奥特曼表示,“在过去几年,OpenAI团队一直在研究音频模型、视觉模型,以及如何将它们结合起来,同时也在努力提高模型的训练效率。我们这次并不是突然解锁了一项从来没有的技术,而是将很多功能部分整合在了一起。”

OpenAI首席执行官山姆·奥特曼(Sam Altman)

图片来源:搜狐科技

很多人将GPT-4o看作是GPT-5重磅发布的预告,并一直对GPT-5的发布时间及功能升级保持高度期待。奥特曼坦言,人工智能和惊喜并不总是搭配着来的,未来可能不会有大规模的发布。也许我们仍然可以把它命名为GPT-5,但以不同的方式发布,或者换个名字。就目前来说,GPT-4还在不断改进中。谈及AI给世界带来的变革影响,奥特曼认为,目前为止,ChatGPT本身还没有改变世界,而是改变了人们对世界的期望。

“从现在的GDP等经济数据中还找不到GPT真正影响生产力的证据,但我认为,如果几十年后再去分析相应的经济图标走势,肯定能察觉到背后的变革。”奥特曼预测,在未来12个月内,编程会是受其影响的一个重要领域。

谷歌微软的战书

就在OpenAI发布会的一天之后,谷歌发布一系列多模态更新,进一步说明了AI多模态能带来的颠覆性潜力。与OpenAI的发布会相比,谷歌的发布会时长更长,约有两小时,在各个生态方向用AI发力。CEO Sundar Picha在整场的演讲稿中总共提了120次“AI”,表明谷歌目前所有的工作都围绕多模态AI模型Gemini来展开

谷歌DeepMind负责人Demis Hassabis在发布会上介绍了Project Astra,与OpenAI的GPT4o“宣战”。Project Astra基于Gemini多模态大模型,是一个实时、多模态的人工智能助手,可以通过硬件设备“看到”世界,知道东西是什么以及你把它们放在哪里,并且可以回答问题或帮助你做几乎任何事情。

谷歌的demo视频中,谷歌伦敦办事处的一名工作人员用Astra识别自己的地理位置,找到丢失的眼镜,检查代码等。Hassabis表示,“展望未来,人工智能的故事将不再是关于模型本身,而是关于它们能为你做什么”。

图片来源:Google

接棒OpenAI 和谷歌掀起的 AI 科技月,5月22日,微软在新品发布会上也带来了一系列重磅产品,发布了 50 多项更新,其中,Copilot也迎来了全新升级,微软CEO Satya Nadella在发布会上介绍了“Copilot+PCs”的概念,它是指 Windows 笔记本电脑配置内置 AI 硬件并支持整个操作系统的 AI 功能,被描述为“新一类 Windows PC”。

Copilot开始具备“透视”屏幕能力,能真正理解屏幕上显示的内容,甚至给出相对应的建议。比如,在用户玩《我的世界》游戏时,它能化身游戏大师,不仅能用纯自然语言教你怎么打造一把剑,还可以通过“看到”玩家库存里的具体物资,给出精准的制作建议。

此外,新增的Recall功能使电脑拥有了过目不忘的记忆,这无异于一场效率革命。它能够帮助用户记忆海量的文件和网页,如果用户在浏览过程中点击的文件忘记存储在哪了,只需向其描述合适的词汇,就能第一时间找到文件。值得一提的是,这一切智能操作均在本地端侧完成,无需云端介入,对于隐私安全有着极大的保障。

Copilot 新增Recall 功能

从 2023 年到 2024 年,无论是否身处科技行业,或许都会感受到这一趋势:人工智能正在重塑我们的生活。而每一次技术的突破,总是会带来生产力变革。AI多模态之战打响之后,随着越来越多的科技巨头入局,在更多更广的应用上,我们看到了更落地更切实的可用性,这将重塑人类和AI以及电子设备的交互方式。

资料来源:搜狐科技、机器之心、硅谷101、知社学术圈等

往期推荐

元宇宙与汽车产业高度结合,自动驾驶拥抱智能化未来

阿里财报饿了么交卷:带动本地生活同比增长19%,变革成效显著,“上岸”来到最好时机

中法建交60周年!历史长河中的又一次“中法相遇”,中法商贸迎来历史性新机遇