AI大战,OpenAI真的胜券在握?

发布于: 雪球转发:0回复:0喜欢:0

文丨俊俊

OpenAI与Google时间仅差一天的两场发布会,被视为是这两家科技企业在AI领域真刀明枪的激烈对垒。

OpenAI重磅发布了可跨文本、视频、音频推理的多模态大模型GPT-4o,其多元化的玩法、低延迟以及拟人化的声音,让11年前的科幻电影《Her》成为现实,人人都能拥有一个超强语音AI助手,似乎人类离AGI又更近了一步。

Google 一口气发布了多个新模型、新工具、新功能及新基建,重点分享了 Gemini 的最新进展,及其与Google核心业务的融合应用,所有创新都指向一个方向,Google 已全面进入 Gemini 时代

谷歌和OpenAI的发布会,不约而同地强调了AI与现实世界的真正交互。

不过,在产品功能重点方面,两家公司各有千秋。

Google与OpenAI,各显神通

这次,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本。

这可以看作是对GPT-4的一次阶段性更新,而根据OpenAI官方网站介绍,GPT-4o中的“o”代表Omni,也就是“全能”的意思。

GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善,总的来说,就是回应速度更快,能以平均320毫秒作出响应,已经达到了人类的级别!并支持多模态输入,且ChatGPT免费用户也能用上新发布的GPT-4o。

Altman表示,GPT-4o的平均延迟只有200—300毫秒左右,这种交互效率在之前是无法想象的,也极大地拓宽了应用场景。

例如,可以帮助人们进行实时翻译、语音交互和视频分析等,眼睛有障碍的人通过GPT-4o可以实现重现“光明”。而听力受损的用户可以基于文本和视觉功能完成日常交流。医生可以使用 GPT-4o 实时解析医学图像、转录患者数据以及分析医疗记录中的文本数据。所以,医学领域将是GPT-4o最大受益群体之一

而OpenAI这次颠覆谷歌的真正杀器,是它放出的ChatGPT桌面APP。通过这个程序,我们就能快速访问ChatGPT。

并且,还可以选择让它「透视」你的屏幕,实现「看你所看」,还可以像使用ChatGPT一样,和它实时语音交互。更是可以直接在ChatGPT中直接打开数据文件,进行实时分析!

谷歌则全面发布Gemini 1.5 Pro,可提供具有增强的性能和突破性、最高200万Token长文本能力,并且已经向全球开发者开放。

全新Gemini 1.5 Pro具有原生音频理解、系统指令、JSON 模式等,能够使用视频计算机视觉来分析图像(帧)和音频(语音)的视频,这使其具有人类水平的视觉感知。使用深度神经网络,Gemini 1.5 可以以超人的精度识别图像(和视频帧)中的物体、场景和人物,谷歌同时推出全新Gemini 1.5 Flash 模型。

关于如何将AI进一步集成到搜索中,谷歌有着更复杂的研究和规划。除了Veo视频工具和Astra多模态AI助手外,谷歌所有现有产品都会得到AI的注入,包括Google Docs、Gmail和 Chrome。但谷歌冗长繁杂的发布会内容,却给人这样一种感觉:它大概是自觉在模型上追不上OpenAI了,所以干脆以量取胜,把AI融进自己的一揽子产品内

显然在AI助手这方面,OpenAI的尝试更大胆,谷歌则更谨慎。

从呈现效果上,GPT-4o的现场演示让OpenAI直接「暴杀」,而谷歌Projetct Astra则一如既往的是提前录好的demo。

当然,战火并不止两场发布会之间,GPT-4o的热度确实足够强劲,Sam Altman丝毫不隐藏对谷歌的嘲讽,在x上po文表示,自己「无法不去思考OpenAI和谷歌之间的美学差异」。

谷歌大脑的研究工程师则po文暗讽Altman:一方面不想竞争对手,一方面所有的发布都和对手保持同步,你可真是太「茶」了

纷争不止于此,谷歌也早已试图通过重组的方式进行反击。

不仅CEO劈柴重新设计了他的领导团队,从而加快行动速度,促进业务中以往各自为政的部门达成合作。

并在在上月的重组中,包括构建机器学习模型、构建负责任的AI等等各类和AI相关的团队,都被并入了Google DeepMind,目的是帮助Hassabis和Google DeepMind团队更快地朝着AGI迈进

此外,谷歌越来越重视诸如Pixel这类的硬件产品,尤其是希望抓住「AI on Android」这一关键机会,合并服务和硬件部门。

就在今年3月,谷歌更是任命了一位专注于开发AI功能公司元老——Liz Re,担任生成式搜索业务(SGE)的负责人。随着谷歌生成式AI搜索功能开始推出,Reid的团队正面临着巨大的挑战。

聊天机器人正在蚕食谷歌搜索主导地位,自然让谷歌不得不处于如此被动的地位。

在Altman看来,AGI并不会像电影《星球大战》里的浮空车那样充满科幻感,AGI就是可以帮助用户自动处理、协调好所有工作。例如,这个工作之前需要100人来做,现在通过AGI一个人就能做好。

本次ChatGPT发布会,某种程度,AGI已经实现了,且OpenAI被曝出的的搜索产品SearchGPT,也将在未来某个时间推出。

想象力,才能推开新世界的大门

Sam Altman接受红点(Redpoint)采访时表示,对于GPT-5现在暂时可以称它为GPT-5,但发布的时候会很特别,可能会换一种叫法,功能也与现在的有很大不同。例如,从OpenAI发布GPT-1到现在的GPT-4,产品功能和叫法都是比较偏传统的。

真正发布GPT-5时,可能名字会变,功能可能类似“虚拟大脑”一样去帮助用户处理各种任务,将是一种非常特别的尝试。

确实,在一个新技术的时代,一个无比需要去开创可能性的时代中,想象力可能才是最重要的。

毫无疑问,谷歌的技术力还在,那些模型都很能打。但那些让人赞叹的技术突破,让人兴奋的产品演示,都没有了。

难超同行的诸多功能,完全可预期的诸多表现,只能令台下的观众昏昏欲睡,或许只是在拖延时间。

如果您有什么想说的,欢迎在评论区留言讨论!

如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!