OpenAI|GPT4o

发布于: 雪球转发:1回复:3喜欢:11

JayTC(2024.05.14)

OpenAl正式发布最新大模型GPT-4o(转)

1、本次发布的并非单个AI应用,而是发布最新的旗舰大模型 GPT-4o,本质是一次大模型升级发布会。

2、GPT-4o相对于此前版本升级主要集中在改善人机交互体验,核心目的在于逼近人机交互的终极目标,更像真人交互的AIAgent(智能助理),包括几个方面:

3、和真人交互一样全模态统一:GPT-4o中o是omnimodel前缀首字母,指本次发布是文字、语音、图片、视频全模态统一的模型,可以接受任意模态组合输入,并生成任意组合模态输出。

4、和真人交互一样实时无延迟:在语音对话中,没有此前版本大模型的延迟,而且可以随时插嘴,模型实时响应。

5、和真人交互一样看懂、听懂情绪与语气:模型可以听懂人的情绪、甚至人的喘息成都呼吸。模型输出语气情绪也可以与真人一模一样。

6、GPT4o更此前最新版本收费不同,全球免费使用,GPT-4oAPI比 GPT4-turbo 快2倍:价格便宜 50%。

7、此次 GPT-4o发布核心在于赋予大模型更实用的交互体验与低廉价格,意在加速打开名类应用场景。

8、拥有多模态卡位的 AI终端会是核心受益者,包括AI手机、AIPC、(摄像头+耳机)等AI多模态创新终端等。

———————

OpenAI发布会总结:视觉声音混合多模态+极快响应速度+成本下降50%,Her时刻来临,重中全面看多A1板块【天风计算机

OpenAI发布会发布全新SOTA模型GPT-4o

本次更新发布了新端到端多模态大模型GPT-4o模型与API,模型本身在GPT-4tuibo基础上实现了视觉-音频的混合多模态功能,输入端接受文字/视觉(图与视频)/音频,输出端同样也可以文字/视觉/音频,同时响应速度仅320毫秒(之前GPT-4为5.4秒),模型在非英语语言上也有极大的提升,同时GPT-4o的API价格便宜50%,速度限制提高5倍。

GPT-4o在现场完成实时多模态交互

GPT-4o可以实现快速的人机交互,发布会上,OpenAI展示了复杂的实时对话、语音翻译、视频交互等功能。语音交互十分流畅,无需等待回复加载,GPT通过音频可感知并提供各种情绪;翻译可以实现实时同声传译,视频交互则表现出复杂的多模态融合交互,包括现场写方程与chatGPT沟通解法,根据视频拍摄内容给出情感反馈;可语音互动沟通代码内容,并解释分析代码生成的图表等。真正的个人助手时代有望到来

个人助手时代加速来临GPT-4o

展示了桌面端与手机端的终端,用户可以通过音频与0penA!完成多种模态的复杂交气,《Her》时代加速来临。我们预计GP[-4o将加速AGI与智能交互的时代到来,看好包括AI音频、AI个人助手等方向的应用与算力板块反弹。

推荐关注

1.应用:(1)办公软件:金山办公福昕软件彩讯股份

(2)多模态:万兴科技美图公司虹软科技光云科技

(3)TO B:鼎捷软件用友网络金蝶国际致远互联泛微网络汉得信息

(4)金融、教育、医疗:科大讯飞佳发教育视源股份润达医疗恒生电子新致软件2.基础设施:华为+海光算力产业链、云天励飞星环科技寒武纪景嘉微

————

(纪要笔记)

全部讨论

05-16 08:10

学习了

05-16 07:37

实际上并没有炒上面的这些,而是汤姆猫,佳禾智能 漫步者这些票

05-14 09:17

多谢分享