ChatGPT-4o引领多模态交互新时代当地时间5月13日，OpenAI通过一场线上发布会，向全球展示了其最新旗舰AI模型——ChatGPT 4.0，代号GPT...

当地时间5月13日，OpenAI通过一场线上发布会，向全球展示了其最新旗舰AI模型——ChatGPT 4.0，代号GPT-4o。这一模型的推出，预示着AI技术的全新突破，以及人机交互方式的根本变革。GPT-4o中的“o”代表“omni”，意味着“全能”。在发布会的现场演示环节，OpenAI的团队展示了GPT-4o的多项功能。从实时语音对话到视觉问题解答，再到多语言支持和情感识别，GPT-4o展现了其在多个领域的强大能力。

网页链接

一、多模态交互：接近人类的交流体验

GPT-4o的最大创新之处在于其多模态交互能力，它不再是简单的文本生成器或语音助手，它被赋予了“眼睛”、“耳朵”、“嘴巴”，甚至是更聪明的“大脑”。这一功能使得AI能够同时处理文本、音频和图像输入，提供更为丰富和直观的交互体验，真正实现了跨越文本的限制。无论是实时翻译、客户服务还是多模态创作，GPT-4o都能提供高效而自然的解决方案。家长可以用它辅助孩子学习，盲人用户也能通过它“看见”世界。

1、文本理解与生成

GPT-4o在文本处理方面继承并发展了前代模型的能力，能够理解复杂的文本输入，并生成流畅、逻辑性强的文本输出。它不仅可以进行日常文字交流，还能撰写文章、生成报告、解答问题等。

2、语音识别与合成

在语音方面，GPT-4o实现了接近实时的语音识别能力。它能够在短时间内（平均320毫秒）对语音输入做出反应，这一速度与人类自然对话的响应时间相差无几。此外，它还能够通过合成语音与用户进行交流，其语音合成技术能够模拟真人的语调和情感，使得对话更加自然和富有表现力。甚至可以做到实时翻译。

网页链接

3、图像识别与分析

GPT-4o的图像识别能力使其能够理解和解释视觉信息。这包括识别图像中的对象、场景，甚至是手写文本。结合其文本和语音能力，GPT-4o能够为用户提供更加直观和互动的体验，如通过摄像头教用户解题或识别用户手势指令。同时，GPT-4o 还拥有 3D 视觉内容生成的能力，能够从 6 个生成的图像进行 3D 重建。官方展示了GPT可以通过识别手写的数学公式，来成功解题。

4、情感识别与表达

GPT-4o还能够识别和模拟人类情感，这在多模态交互中尤为重要。它可以通过语音的语调和图像中的表情来识别用户的情感状态，并据此调整自己的响应，使得交互更加贴心和人性化。在官方发布会中，展示了一段指导GPT唱歌和朗诵的有趣互动。

网页链接

二、GPT-4o 性能评估

在比较困难的 prompt 集上 —— 特别是编码方面：GPT-4o 相比于 OpenAI 之前的最佳模型，性能提升幅度尤其显著。

具体来说，在多项基准测试中，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上实现了新高。

1、推理提升：GPT-4o 在 5-shot MMLU（常识问题）上创下了 87.2% 的新高分。

2、音频 ASR 性能：GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

3、语音翻译：GPT-4o 在语音翻译方面取得了新的 SOTA 水平，并且在 MLS 基准测试中优于 Whisper-v3。

4、基准测试：M3Exam 基准测试既是多语言评估基准也是视觉评估基准，由来自多个国家 / 地区的标准化测试多项选择题组成，并包括图形、图表。在所有语言基准测试中，GPT-4o 都比 GPT-4 更强。

三、经济高效：API费用大幅降低

为了满足开发者的需求，OpenAI还提供了GPT-4o的API接口。一个令开发者和企业兴奋的消息是，GPT-4o的API费用比GPT-4 Turbo降低了50%。不仅如此，速度提升了2倍，支持的请求限制也提高了5倍。这意味着，开发者可以用更低的成本，享受更高的性能和更多的使用量。

四、免费开放：AI技术的普惠行动

OpenAI的另一项重大决策是GPT-4o的文本和图像功能将免费开放给所有用户，而付费用户将享受到更多权益。将GPT-4o免费向所有用户开放。这一策略不仅降低了高端AI技术的门槛，也使得更广泛的用户群体能够享受到AI带来的便利。对于推动AI技术的普及和应用，这无疑是一项具有里程碑意义的举措。

这一策略在推动技术的普惠性的同时，也考虑了商业的可持续性。通过提供免费的基础服务吸引用户，并通过付费服务为需要更多功能和专业支持的用户提供额外价值，OpenAI能够在确保研发投入和服务质量的同时，实现技术的广泛传播。

五、安全性与道德考量：AI技术的责任所在

随着AI技术的快速发展，其安全性和道德问题也日益受到关注。OpenAI在发布会上强调了其在确保GPT-4o安全性方面的努力，并表示将继续与政府、媒体和社会各界合作，确保技术的负责任使用。

六、总结：AI的未来已来

ChatGPT-4o的发布引起了行业震动，谷歌被曝正在测试类似的人工智能通话技术，并可能推出多模态个人助理“Pixie”，苹果也被传将与OpenAI合作，在iOS 18中集成ChatGPT支持的聊天机器人，预示着一场围绕AI助理的科技竞赛已经拉开序幕。

OpenAI通过ChatGPT-4o再次证明了其在AI领域的领导地位，尽管面临来自Google、Claude等竞争对手的挑战，但无疑，这场AI技术的飞跃，将深刻影响未来的人机交互方式，同时也带来了对于技术伦理与安全性的深层次思考。

正如OpenAI首席运营官Brad Lightcap所言，随着技术的飞速发展，我们今天的赞叹或许很快就会显得过时。ChatGPT-4o的问世，不仅是OpenAI的一次胜利，也是人类向人工智能共生未来迈出的重要一步。

ChatGPT-4o引领多模态交互新时代

作者：qidaxiang66