OpenAI鸡贼截胡,谷歌疯狂复仇:本周两场重磅发布会简评

发布于: 修改于:雪球转发:0回复:0喜欢:0

本周有连续两场让人期待的重量级发布会,一场是早已确定的5月14日谷歌2024年I/O大会,而另一场则是OpenAI临时决定在5月13日(赶在谷歌I/O大会前一天)召开的春季发布会。

网上有很多关于这两场发布会的内容与点评,下面我也分享一下我的观察和思考。

一、OpenAI的鸡贼截胡

OpenAI主要发布了ChatGPT 4o,可以说是精心策划的,由She发布的一个《Her》。发布会不是由奥特曼本人主持,特意让OpenAI的首席技术官米拉·穆拉蒂(Muri Murati)主持,发布的基于4o的AI助理还原了电影《Her》的场景,AI助理互动无延迟感,AI语音可以随意变换语调、充满情感,达到真人效果,让人惊艳。

可能有人在5月13号还在问,为什么OpenAI没有发布大家期待已久的ChatGPT5,至少也该发布4.5吧,而是急匆匆发布4o呢?当5月14日看完谷歌I/O大会后,我们都知道了这是OpenAI精准而鸡贼的截胡。

显然OpenAI是提前知道了谷歌要在I/O大会公布谷歌的AI助理项目Astro,在gpt5甚至gpt4.5还发布不了的情况下,如果让谷歌的Astro抢先发布,吸引了世界眼光,那么OpenAI就会暂时被比下去。这是OpenAI接受不了的,OpenAI需要新产品来证明自己、需要高曝光吸引关注、需要获得更多用户、需要筹集更多资金。OpenAI高PR值是总所周知的,于是OpenAI 匆忙搞了个Her来应对,抢先发布,先建立用户心智再说。

二、谷歌的复仇

谷歌毕竟是大厂,我们看到复仇来了:

(1)复仇1:AI助手Astro

谷歌发布了自己的原生多模态AI助手项目Astro,并且播放了一个Demo视频,这个视频可以说相当惊艳,效果不输OpenAI的4o,甚至在视频的连续编码、缓存以供回忆等方面超过了4o。

从发布效果看,4o胜在语音情感丰富、效果惊艳,语音端到端模型更好;而Astra则在视频处理方面更胜一筹,Astra 可以通过连续编码视频帧并将视频和语音组合成事件时间线来做到这一点,然后缓存信息以供回忆。

当然,基于多模态大模型的AI助手还在进化中,虽然现在两家各有所长,但都还不完美,大家互卷嘛,4o的语音效果谷歌可以去追,而Astra的视频处理技术OpenAI也一样会学习(这不,OpenAI总裁在5月14日下午发布的一个演示视频,就展示了视频缓存及回忆能力,估计是在谷歌大会后加班搞出来的,哈哈),大家共同进步。

总之,AI世界已进入了多模态大模型时代。

(2)复仇2:文生视频Veo

这次谷歌发布的视频模型Veo,可以看作是对OpenAI Sora的正面迎战了。

Veo具备1080p的高质量,用户提示可以是文本、图像、视频等各种格式,还能捕捉到其中关于视觉效果和影像风格的各种细节描述。通过点击「扩展」按钮,用户就可以持续增加视频的时长,最终,它的时长已经超过Sora(最长1分钟)达到了1分10秒。

先不说Veo生成的视频质量如何,至少视频时长超过了Sora,哪怕是只是超过10秒!可见谷歌复仇心切啊,哈哈哈。

(3)复仇3:Gemini1.5 Flash又便宜又好用

谷歌还发布了Gemini 1.5 Flash,它同样具有Gemini1.5 pro多模态、1M tokens长上下文的特点,还实现了轻量化、低延迟、高效推理。

和GPT-4o比起来,一是上下文窗口更长,目前是支持100万token,今年晚些时候还要扩充到200万token,要知道GPT-4o只有128K!!!二是更便宜,Gemini 1.5 Flash 的价格定为每 100 万个 token 35 美分,这比 GPT-4o 的每 100 万个 token 5 美元的价格要便宜得多,换算成数字,4o是Flash的14倍!

三、谷歌的王炸

说完谷歌针对OpenAI的复仇,接着说说只属于谷歌的王炸产品。

(1)AI搜索

OpenAI之前曾暗示要推出OpenAI版的AI搜索,但终究难产。然而,这次该搜索王者谷歌出王炸大招了:谷歌终于发布了AI搜索---AI overviews,将在本周向美国的所有人推出,更多国家/地区即将推出。

自此,在Gemini的加持下,谷歌搜索会彻底变样。在搜索框下,会出现一个为你量身定做的AI总结。注意,它并不简单地将所有内容拼凑在一起,而是通过定制的 Gemini 模型将多步推理、规划和多模态与搜索系统结合,总结网络内容并生成、展示结果,甚至由 AI 来设计和填充结果页面。

AI搜索的内容非常丰富,回头我去深入体验一下,专门写一写。

(2)AI眼镜

谷歌在本次发布会中,通过AI助手的Demo演示视频,悄悄带出了谷歌最新的AI眼镜原型。

AI+AR眼镜那是绝配,谷歌在AI眼镜方面起了个大早,但此前一直未有大成,这次看他能不能修成正果。

四、谷歌的AI飞轮

谷歌将AI能力融入了其全家桶产品,用Gemini进行深度赋能。比如,将Gemini 1.5 Pro引入Gmail 邮箱、日历、文档、表格、幻灯片、云端硬盘等在内谷歌 Workspace 应用,将Gemini引入Android进行深度融合,在谷歌photos中增加Ask Photos功能,等等。除了AI软件外,还发布了最新的AI芯片,第六代Trillium TPU,在性能上实现了4.7倍的提升。。。

可以看出,谷歌的AI飞轮已经转动起来了:一边是把Gemini引入谷歌现有的各项业务,让其接触全球几十亿用户,获得源源不断的数据反馈,实现降本增效;一边是Gemini通过各项业务反馈的数据进行持续迭代升级,能力越来越强,也越来也好用。

谷歌有用户,有场景,有算力,所以可能现在Gemini好不好已经不是最需要担心的事,用的最多的大模型,未来可能就是最好的大模型之一

五、一点吐槽

谷歌发布会时间接近2小时,时间太长,内容太多了。这一方面反映谷歌家大业大,需要展示的内容确实太多;而另一方面,也反映谷歌大公司病的一个侧面,政治正确,产品线多到有点乱,内部资源有点分散,需要更加聚焦,需要更加锐意进取、敢于改革的管理层。

而反观OpenAI,则是充满活力、充分聚焦、无所顾忌、一心改变世界的创业公司,虽然有点鸡贼,但聚焦于GPT大模型,不断迭代升级,每次发布都会让世人惊艳。

六、下一个关注点:OpenAI+苹果

OpenAI的春季发布会上,全程用iPhone和MacBook Pro做演示,结合近期苹果与OpenAI合作的传闻,基本上预告了苹果与ChatGPT的合作已谈成了。

换个角度看,谷歌既有生态(全家桶、Android等)也有大模型,而OpenAI只有大模型,苹果有生态却没有能打的大模型,面对AI first的谷歌,最好的策略就是苹果和OpenAI的强强联合!

期待苹果接下来6月份的WWDC,好戏刚刚开始!

$谷歌C(GOOG)$ $苹果(AAPL)$ $微软(MSFT)$