OpenAI｜GPT4o JayTC（2024.05.14）OpenAl正式发布最新大模型GPT-4o(转)1、本次发布的并非单个AI应用，而是发...

JayTC（2024.05.14）

OpenAl正式发布最新大模型GPT-4o(转)

1、本次发布的并非单个AI应用，而是发布最新的旗舰大模型 GPT-4o，本质是一次大模型升级发布会。

2、GPT-4o相对于此前版本升级主要集中在改善人机交互体验，核心目的在于逼近人机交互的终极目标，更像真人交互的AIAgent(智能助理)，包括几个方面:

3、和真人交互一样全模态统一:GPT-4o中o是omnimodel前缀首字母，指本次发布是文字、语音、图片、视频全模态统一的模型，可以接受任意模态组合输入，并生成任意组合模态输出。

4、和真人交互一样实时无延迟:在语音对话中，没有此前版本大模型的延迟，而且可以随时插嘴，模型实时响应。

5、和真人交互一样看懂、听懂情绪与语气:模型可以听懂人的情绪、甚至人的喘息成都呼吸。模型输出语气情绪也可以与真人一模一样。

6、GPT4o更此前最新版本收费不同，全球免费使用，GPT-4oAPI比 GPT4-turbo 快2倍:价格便宜 50%。

7、此次 GPT-4o发布核心在于赋予大模型更实用的交互体验与低廉价格，意在加速打开名类应用场景。

8、拥有多模态卡位的 AI终端会是核心受益者，包括AI手机、AIPC、(摄像头+耳机)等AI多模态创新终端等。

———————

OpenAI发布会总结:视觉声音混合多模态+极快响应速度+成本下降50%，Her时刻来临，重中全面看多A1板块【天风计算机】

OpenAI发布会发布全新SOTA模型GPT-4o

本次更新发布了新端到端多模态大模型GPT-4o模型与API，模型本身在GPT-4tuibo基础上实现了视觉-音频的混合多模态功能，输入端接受文字/视觉(图与视频)/音频，输出端同样也可以文字/视觉/音频，同时响应速度仅320毫秒(之前GPT-4为5.4秒)，模型在非英语语言上也有极大的提升，同时GPT-4o的API价格便宜50%，速度限制提高5倍。

GPT-4o在现场完成实时多模态交互

GPT-4o可以实现快速的人机交互，发布会上，OpenAI展示了复杂的实时对话、语音翻译、视频交互等功能。语音交互十分流畅，无需等待回复加载，GPT通过音频可感知并提供各种情绪;翻译可以实现实时同声传译，视频交互则表现出复杂的多模态融合交互，包括现场写方程与chatGPT沟通解法，根据视频拍摄内容给出情感反馈;可语音互动沟通代码内容，并解释分析代码生成的图表等。真正的个人助手时代有望到来

个人助手时代加速来临GPT-4o

展示了桌面端与手机端的终端，用户可以通过音频与0penA!完成多种模态的复杂交气，《Her》时代加速来临。我们预计GP[-4o将加速AGI与智能交互的时代到来，看好包括AI音频、AI个人助手等方向的应用与算力板块反弹。

推荐关注

1.应用:(1)办公软件：金山办公、福昕软件、彩讯股份

(2)多模态：万兴科技、美图公司、虹软科技、光云科技

(3)TO B：鼎捷软件、用友网络、金蝶国际、致远互联、泛微网络、汉得信息

(4)金融、教育、医疗：科大讯飞、佳发教育、视源股份、润达医疗、恒生电子、新致软件2.基础设施:华为+海光算力产业链、云天励飞、星环科技、寒武纪、景嘉微

————

（纪要笔记）

OpenAI｜GPT4o

作者：JayTC

全部讨论