Open AI发布实时响应的GPT-4o AI模型 国产手机AI语音助手能赶上吗?

发布于: 雪球转发:0回复:0喜欢:1

北京时间5月14日凌晨,Open AI公布了最新的GPT-4o人工智能模型,其中“o”代表“Omnimodel”(全能模型)。据悉,GPT-4o提供了GPT-4同水平的智能,并改进了文本、视觉和音频方面的能力,现在这款模型能够以这三者任意组合的形式进行输入和输出,交互方式更多样、更自然。

GPT-4o的发布无疑在人工智能领域投下了一颗“重磅炸弹”,再结合近期一些消息——“苹果公司被曝正与OpenAI敲定一项协议,今年将后者的部分技术引入iPhone,借此苹果将能提供由ChatGPT支持的聊天机器人作为iOS 18中人工智能功能的一部分”,外界认为,GPT-4o不仅会对国内大模型行业带来冲击,同时也将为行业带来新的机遇。

一位国内手机厂商的AI从业者对记者分析称:“从国内目前的进度来看,追上OpenAI达到的AI语音助手功能估计还需要一年左右的时间,这不是国内和国外(在AI上)的差别,而是OpenAI vs(对抗)其他所有公司,OpenAI现在的优势在于语音情感化、实时视频多模态以及‘恐怖’的推理速度。”

GPT-4o语音助手进化:实时响应,能识别用户情感

虽然GPT-5没有如期到来,但GPT-4o私人语音助手的进化依旧让不少人感叹道:“太酷了。”

具体来看,在GPT-4o的支持下,它可以用各种语调、情绪给你讲睡前故事,并且交互的语音感情丰富,可以变换语音语调、风格,还可以随时打断,甚至“即兴”唱歌。

Quartz报道称,GPT-4o的情感属性使AI聊天机器人比苹果的Siri更加个性化。Siri给人的感觉就像在和一个机器人对话,但OpenAI的演示清楚地表明,GPT-4o具有“人工情感智能”,能够识别用户的情感并与你的情绪相匹配。

尤其在响应速度方面,GPT-4o几乎解决了延迟问题,其可以在短短232毫秒内响应音频输入,平均为320毫秒,这接近于对话中的人类响应的时间。并且,用户在进行对话时还可以随时打断。

在缩短延迟提升体验、情绪感知能力之外,GPT-4o在GPT-4的基础上还进行了多项升级,例如GPT-4o具有3D视觉内容生成能力。演示人员手写“3X+1=4”数学题给GPT-4o看,GPT-4o便能在线语音指导如何一步步解题;而客户端的ChatGPT则能随时解决写代码、读图表等任务。

性能提升的同时,GPT-4o价格还更便宜。OpenAI公司表示,新模型性能更强,接口调用价格却只有此前模型的一半。所有用户都可以免费使用新模型,不过消息数量会受到限制,付费用户消息上限更高。预计新模型各项功能会在未来几周逐步推出。

AI语音助手重回焦点

OpenAI今天更新后,数年前饱受诟病的AI语音助手又重回人们的视线。过去,人跟AI进行语音对话,基本上都经历三步:用户说话后AI进行语音识别,即音频转文本;大模型拿到这段文本,进行回复,产出文本;文本进行语音合成,变成音频。但上述三个阶段会导致较长的延迟以及信息损耗,无法表达情感等。

AI语音助手并不是一个新鲜事物,当前几乎各大手机厂商都在其智能手机中内置了自己的AI语音助手,例如苹果的“Siri”、小米的“小爱同学”、华为的“小艺”、荣耀的“YOYO”、OPPO的“小布”。

其中,为人熟知的当属Siri。公开资料显示,Siri于2011年问世,当时被誉为AI技术的突破。然而多年来,Siri在某些方面的表现仍不够理想。例如,Siri的语音识别能力还有待提高,在某些情况下,Siri可能会无法准确地识别用户的语音,导致用户无法得到他们想要的信息或服务;其次,Siri的理解能力也有限,它很难理解对话的上下文,并只能执行简单的任务。

Siri的联合创始人、前首席执行官达格·基特劳斯(Dag Kittlaus)甚至曾直言,在被苹果收购后,Siri可能没有充分发挥其潜力,但语音助手仍将是数字技术的未来。

相比之下,Google Assistant和OpenAI的ChatGPT具有先进的自然语言处理能力,这使它们能够理解人类语言的细微差别并作出相应的反应。一旦苹果与OpenAI达成协议,苹果不仅可以缩短产品研发周期,还可以利用OpenAI在人工智能领域的积累迅速提升自家产品的智能化水平,带来更加智能、更加互动的Siri。

放眼国内手机厂商,近年来国产手机厂商发布的新手机中,部署在手机“端侧”的AI大模型成为重中之重。其中,OPPO推出安第斯大模型,参数量从70亿到1000亿,可以部署在端侧和云端;vivo蓝心大模型的参数量从10亿到1750亿,可以部署在端侧和云端;小米MiLM大模型参数从13亿到60亿,主要部署在端侧;荣耀“魔法大模型”则有70亿参数,主要部署在端侧。

在AI落地应用方面,当前国内的AI技术主要集中在自动摄像头控制、人脸识别和身份验证、语音识别和转录等方面。其中,日常生活里,AI可以对语音助手、自动化办公、智能推荐系统等场景进行大幅优化,增强体验减少冗余工作量;在娱乐方面,AI可以处理复杂图像视频,如图像增强、分辨率增强、图像修复、色彩校正、消除物体以及智能抠像等等。此外,AI还能够从各种格式(例如,音频、视频、电子邮件附件)的长篇内容提取内容,生成简洁的摘要等等。

值得关注的是,当前主流手机厂商推出的大模型应用其实并没有太大差异。从长远发展来看,AI助手可以深度集成于操作系统,拥有理解与预测用户需求的能力,进而为实现无缝衔接的跨应用服务提供支持。

在回应几年之后荣耀的AI会带来怎样的想象力或者场景时,荣耀CEO赵明曾在今年3月表示:“我们坚信AI可以改变智能手机的未来,今天即使做得最好的苹果实际上操作也非常不方便,未来用AI势能改造的时候,比如说一个电子设备,我需要它的服务,用眼睛一看,就提供相应服务;或者打一个响指,这个服务就会过来。”

当谈及国产手机人工智能助手与GPT-4o之间的差距时,一位从业人士对记者称:“主要(差距)还是算法和云端算力。”前述AI从业者则表示:“我们初步看了一些榜单,阿里通义千问多模态模型已经超越了GPT-4V,当然,它离GPT-4o还有差距。现在的问题是,OpenAI是一家公司,而国内可能得几家(大模型厂商)组装起来(才能)追齐,我们的压力还是很大的,目前OpenAI(处于)断崖式超前。”

每日经济新闻