GPT-4o、Gemini1.5推动新一轮人机交互角逐 营销媒介终端有望持续多元化

发布于: 雪球转发:0回复:0喜欢:0

年初以来,海内外大模型特别是多模态大模型持续迭代,应用底层支持能力不断提升。

北京时间5月14日凌晨,OpenAI在春季发布会上重磅推出首个原生多模态模型GPT-4o,“o”代表“omni”,意为全能,是迈向更自然的人机交互的关键一步。该模型可以实时对音频、视觉以及文本进行推理,同时在响应速度和生成质量方面取得显著进步,模型易用性的大幅提升也标志着AI大模型应用向更自然的人机交互持续迈进。

Open AI创始人Altman表示,GPT-4o是OpenAI有史以来最好的模型,它很聪明,速度很快,是天然的多模态。

同期,谷歌DeepMind首席执行官宣布推出Gemini 1.5闪电模型,该模型旨在兼顾快速和成本效益;字节跳动大模型首次全员亮相,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,在价格上也卷出新高度;腾讯宣布旗下的混元文生图大模型升级并对外开源,业内首个中文原生的DiT架构文生图开源模型,据悉,升级后的混元文生图大模型采用了与Sora一致的DiT架构...

据麦肯锡报告分析,到2030年,大模型有望在全球推动49万亿人民币的经济增量。

有业内人士表示,国内外大模型有望在未来一段时间实现模型性能以及用户交互体验方面的双重迭代,随着模型输出质量、响应时间等维度的不断优化,AI应用有望真正实现用户体验和效率提升的赋能,AI有望在各细分行业中持续加速商业化落地。

"

面对大模型领域的进一步繁荣,易点天下联合创始人兼CTO王一舟表示:“我们非常乐于见到大模型繁荣的时代,易点是处于媒体和广告主中间的技术服务商,我们真正关心的是如何能够提高广告营销的效率,技术的提升是重中之重,不论是数字技术,信息技术、云技术还是AI技术,都是我们很重要的底层工具。也正是因为很早就认识到了这一点,我们是国内首批接入包括GPT-4、Anthropic、PaLM、LLaMA等大语言模型与SD、MJ等视觉大模型众的公司,并基于自有数据进行微调重训,赋能数字营销业务,从而帮助大模型实现商业化落地并为广告主带来更好的营销效果。”

"

纵观GPT-4o的各项突破,除音频、图像、长文本等方面优异的处理能力外,GPT-4o最大的惊喜则在于对“情绪价值”的提供。比如机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。GPT-4o的交互体验,触动了全球网友对应用场景的畅想。面向个体用户,可以提供的主情绪价值,充当AI面试官,助力盲人进行环境观察。依托多模态的交互,大模型或将进化为一个“超级语音助理”,成为又一个标志性时刻。

此外,GPT4o更此前最新版本收费不同,全球免费使用,GPT-4o API 比 GPT4-turbo 快 2 倍,价格便宜 50%。有机构观点称,此次GPT-4o发布,赋予了大模型更实用的交互体验与低廉价格,有望加速打开各类应用场景,拥有多模态卡位的AI终端会是核心受益者,包括AI手机、AI PC、(摄像头+耳机)等AI多模态创新终端等。交互媒介手机终端在GPT-4o的赋能下,有望显著提升手机交互功效,换言之,对PC、MR等媒介,在GPT-4o的加持下,其交互能力同样值得期待。

另一边,谷歌Gemini 1.5 Pro也将上下文长度提升到了200万token,Project Astra的视觉识别和语音交互效果以及文生视频模型Veo,也与GPT-4o和Sora不相上下。

更重要的是,谷歌搜索将与Gemini融合,在搜索方式、搜索体验与搜索结果上进行变革式优化。

易点天下技术中心副总经理Aodi Zhang在近日出席“AI创生时代——2024甲子引力X科技产业新风向”大会分享认为,营销内容生产环节向AI要产能,营销投放环节向BI要决策,对于出海企业寻求长效增长至关重要。通过携手更多合作伙伴,在“AI+营销”的全链路解决方案与“AI+行业”的全场景解决方案上不断探索,将生成式 AI 技术引入多元化的应用场景,全面助力出海企业提高营销效率和内容创作效率,进而增收增利,才是真正推动AI技术普惠化与商业落地的根本。

易点天下将密切关注并积极面对广告内容生态的载体变化,当新的终端设备以新的模式被消费者规模使用后,公司内部将会以AGI先进技术为基础,快速迭代现有广告技术并覆盖新的终端设备,积极适配广告主们在出海路途中不断更新的营销需要,以满足广告主在新生态、新场景的探索和广告需求。