欢迎来到谷歌Gemini时代

发布于: 雪球转发:1回复:2喜欢:0

文丨海天

OpenAI刚刚发布AI模型GPT-4o,谷歌无情一脚将它踢开,从口袋里拿出传说中的上古神器,大声说:“欢迎来到Gemini时代。”

没有开玩笑,在谷歌I/O大会上,谷歌CEO Sundar Pichai在主题演讲中的确是这样说的,他表示:“谷歌已经完全进入Gemini时代,当然,我们现在仍处在AI平台转变的早期阶段,前面的机会很多,对创作者、开发者、所有人都机会满满。Gemini时代要做的就是将让这些机会落地。”

在整个谷歌I/O发布会上,Gemini是当之无愧的明星,谷歌对它进行升级,新版本Gemini 1.5 Pro将上下文窗口(AI模型可理解的信息量)从当前100万tokens增加到200万。

升级之后Gemini可以处理更长的文本和更复杂的多媒体文件。谷歌还提前展示了Gemini Live,它相当于Gemini AI的语音对话功能。和GPT-4o一样,Gemini也支持实时、深度语音对话,Gemini可以利用设备摄像头观察周边环境,然后分析并给出回应。

谷歌还推出Gemma 2模型,相比Gemini,Gemma 2更加开放。Gemma 2模型支持270亿参数,预计6月份正式开放。

不只如此,谷歌还介绍了Project Astra,它可以在手机上、眼镜上运行,谷歌称Project Astra将是公司有史以来最先进的智能助手。

回顾整个2024年I/O发布会,我们可以总结出几大要点:

满足日常生活的Project Astra

面对OpenAI GPT-4o和微软的进攻,谷歌用Project Astra反击。

从定位看,Project Astra相当于日常生活的“AI代理”,如果剖析其本质,相当于Google Lens增强版本。Google Lens是一款基于图像识别和OCR技术的人工智能APP,能够让机器看图说话。Project Astra比Google Lens更强,它可以理解实时音频和视频,然后推理并回应。

Sundar Pichai说,谷歌有一个庞大计划,关注的不只有AI助手,还有AI代理,所谓的AI代理就是可以推理、规划、记忆的智能系统。

谷歌DeepMind CEO Demis Hassabis补充道:“我们想打造一个通用代理,它可以在日常生活中展现实用性,正因如此,我们从一开始就将Gemini设计成多模态AI。”

Project Astra可以看到我们正在做什么,理解我们在做什么,还能深入分析我们所处的情境,然后在对话中展现出超高理解能力。

因为Gemini拥有很长的文本窗口,它可以记住许多内容;又因为Gemini是多模态AI,它不只可以回答问题,还能与计算机中的文档互动,或者查看日历信息。

Project Astra目前仍处在原型开发阶段,谷歌只是通过视频展示一些特异功能。例如,一位女子拿着手机,打开后置摄像头,在办公室走动。摄像头会告诉AI办公室环境是怎样的,然后女子向AI代理提问。AI代理可以代表用户执行一些操作,比如网购的鞋子不合脚,AI代理可以帮助退货。

Sundar Pichai说:“产品还处在早期,我们正在打磨体验。”

Project Astra具备视频理解能力,年末时谷歌准备将此功能添加到Gemini Live。虽然与会者可以在I/O大会上试用Project Astra,但试用品不等于最终产品。

Sundar Pichai称:“我们的目标是让Astra无缝融入谷歌产品,但我们受到了质量、延迟等问题的阻挠。”

Gemini Live支持实时对话

按照谷歌的设想,如果一切顺利,Gemini将会成为可以解决复杂问题的AI助手,人与Gemini交流将会变得更自然。为了快速达成目标,谷歌推出Gemini Live,用户可以通过它用语音与Gemini交流。

Demis Hassabis称:“我们认为,双向对话可以让主题更深入,如果谈论的是重要事实,要进行头脑风暴,交流会变得更自然。”

受益于技术的优化,Gemini Live将会提供更加简洁的信息,使用起来也更方便。

谷歌认为Gemini Live相当于进入Project Astra的一扇窗,也许还有其它窗口,但Gemini Live是离Project Astra最近的窗口。

总之,当你与Gemini Live对话时会感到更自然、更符合直觉。

例如,当你向Gemini Live提问,可以按自己的节奏推进,可以在句子中打断AI,让它调整回应。

真是蛮巧,用户也可以打断GPT-4o对话!

还有更巧的,谷歌升级Gemini Nano,因为支持多模态,Gemini Nano可以处理文本、图片、音频,不再局限于文本输入,这种包容式处理方式与GPT-4o一样。

用Veo视频生成工具挑战Sora

几个月前OpenAI展示用Sora视频生成工具制作的视频,无数人惊叹。随后清华团队推出Vidu,证明视频生成并非外星科技。现在谷歌也推出自己的视频生成工具Veo,它可以生成一分钟长的1080p视频。

在提示语中,你甚至可以要求AI在制作视频时添加特效,比如达到延时或航拍效果。你还可以在上传视频时添加命令,让Veo按照高贵的命令进行剪辑。

Sora还没有向公众开放,Veo暂时也不会全面开放。谷歌目前只会通过VideoFX向部分创作者开放,相信过不了多久就会看到大量用Veo制作的视频流出。

按照谷歌的说法,Veo拥有极为出色的自然语言理解能力,用户可以用文本、图片、视频类提示信息指导Veo生成视频,它输出的视频更连贯、更有条理,视频中人、动物、物体的移动也更加逼真。

如果你对输出的视频不满意,可以通过增加提示语优化视频质量。

听起来很不错,也许能超越Veo。

将Android与Gemini融合

早先谷歌已经推出“圈选即搜”(Circle to Search)功能,刷短视频时不用跳出,往屏幕上一划拉,直接就能对自己关注到的画面细节进行搜索。

现在谷歌更进一步,将Gemini与Android融合,当我们打开手机屏幕浏览时,Gemini可以阅读、理解观看的内容,甚至可以预测用户会提什么问题。

当用户观看视频时,Gemini能理解视频内容,如果浏览的是长PDF文件,Gemini能汇总文本内容,甚至已经做好回答相关问题的准备。

今年晚些时候谷歌还会推出Gemini Nano,它支持双模态,该应用也将整合到Android系统层。

到底Gemini Nano有什么用呢?从目前掌握的信息看,Gemini Nano响应速度更快,可以监听通话,如果发现垃圾来电或垃圾信息会提醒用户注意。

让谷歌Workspace更加智能

Google Workspace是谷歌提供的一款云计算生产力和深度集成式工作区软件,具备多设备管理功能。它包含Gmail、日历、云端硬盘、文档、表格、幻灯片、聊天以及其它流行应用。

现在谷歌将Workspace与Gemini整合,Workspace变得更智能。例如,在Mail内,左侧多出一个侧边栏,那里有Gemini。如果工作时你与同事对过话,Gemini可以帮你做总结,摘出重点。

在商务视频会议应用谷歌Meet内,Gemini可以总结会议重点,开会时你不必再做笔记。在谷歌Sheets内,Gemini可以协助理解数据,可以处理一些特定请求,比如计算数据之和。

谷歌还为Workspace添加了“AI同事”(AI Teammate),它可以提高实时协作效率,谷歌将分档、对话、评论、聊天、邮件等多种信息集合在一起,放进虚拟生成式AI聊天机器人AI Teammate,让它帮助用户办公。

谷歌AI实力不容小觑 OpenAI不能大意

一直以来,我们都认为谷歌是AI领域的“跟随者”,不是“引领者”。谈到AI,人们公认的领袖是OpenAI,对于这一定位,谷歌肯定是不服的。

OpenAI刚刚推出GPT-4o,谷歌随后召开发布会,针锋相对的味道极为浓厚,两场发布会推介的功能有很多相似甚至相同之处,不得不说OpenAI对发布会召开的时间拿捏到位,否则会被谷歌抢走不少风头。

相较而言,谷歌展示的AI功能更加吸引人。例如,当你找不到眼镜,Project Astra会告诉你它在哪里,这样的功能还是蛮不错的。

OpenAI发布会节奏很快,太难懂。OpenAI发布会只有45分钟,但谷歌发布会时长2小时。老实说,想理解AI并不容易,如果涉及到技术就更晦涩,谷歌发布会在技术细节上谈论太多,它似乎想告诉全世界:“从技术角度看我们的模型更好。”

OpenAI没有多少产品,谷歌完全相反,产品琳琅满目,谷歌深知自己的优势所在,所以全力以赴将Gemini与各种产品深度整合。面对谷歌多种多样的进攻手段,OpenAI应该会感到紧张。

虽然谷歌展示了多种AI功能,但最重要的还是Project Astra。

在发布会现场,你可以用谷歌提供的Android手机对准他人,打开摄像头,然后命令AI:“描述一下他的衣服。”Gemini会分析视频,然后给出答案:“休闲服。”

某人跳舞,你问Project Astra:“这个傻X在干啥?”Project Astra也跟着犯傻,AI回答说:“他带了太阳镜。”没错,跳舞的人的确戴了太阳镜,但Project Astra搞错了回答的重点。莫非是傻X同志舞技不高,Project Astra无法识别?

试用者让Project Astra点评一下着装,Project Astra直接回答:“抱歉,现在无法提供股票信息。”看来智慧并不高啊。试用者用触摸屏画了一辆汽车,Project Astra这下又聪明了,它知道是汽车。命令Project Astra以汽车为题讲一个故事,它回答说:“这辆苗条的蓝色汽车在公路上行驶,就像独孤的旅行者穿梭于月夜。”还真有点小浪漫。

为什么Project Astra突然提到股票信息?谷歌代表给出了答案:“同志,你的衣服有一家创业公司的Logo,上面写着SuperEvilMegaCorp。AI看到这个名字,联想到你可能想获取该公司的股票信息。”

SuperEvilMegaCorp是一家硅谷创业公司,还没有上市,所以没有什么股票信息可以提供,这点Gemini可能并不知道。

目前的聊天机器人大多只能理解书写、语音内容,只能进行简单对话,Project Astra更智慧一些,它可以围绕文本、语音沟通理解其它更多的元素,比如手势信号。

无论怎样,在OpenAI漫天的光环下,谷歌的确给AI产业带来一些新玩意。

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!

如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!

参考链接:

1、网页链接

2、网页链接

全部讨论

05-15 20:36

精彩纷呈 AI是超长跑,而非短期冲刺!

05-16 00:08

.