4、情感识别与表达
GPT-4o还能够识别和模拟人类情感,这在多模态交互中尤为重要。它可以通过语音的语调和图像中的表情来识别用户的情感状态,并据此调整自己的响应,使得交互更加贴心和人性化。在官方发布会中,展示了一段指导GPT唱歌和朗诵的有趣互动。
二、GPT-4o 性能评估
在比较困难的 prompt 集上 —— 特别是编码方面:GPT-4o 相比于 OpenAI 之前的最佳模型,性能提升幅度尤其显著。
具体来说,在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现了新高。
1、推理提升:GPT-4o 在 5-shot MMLU(常识问题)上创下了 87.2% 的新高分。
2、音频 ASR 性能:GPT-4o 相比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
3、语音翻译:GPT-4o 在语音翻译方面取得了新的 SOTA 水平,并且在 MLS 基准测试中优于 Whisper-v3。
4、基准测试:M3Exam 基准测试既是多语言评估基准也是视觉评估基准,由来自多个国家 / 地区的标准化测试多项选择题组成,并包括图形、图表。在所有语言基准测试中,GPT-4o 都比 GPT-4 更强。
三、经济高效:API费用大幅降低
为了满足开发者的需求,OpenAI还提供了GPT-4o的API接口。一个令开发者和企业兴奋的消息是,GPT-4o的API费用比GPT-4 Turbo降低了50%。不仅如此,速度提升了2倍,支持的请求限制也提高了5倍。这意味着,开发者可以用更低的成本,享受更高的性能和更多的使用量。
四、免费开放:AI技术的普惠行动
OpenAI的另一项重大决策是GPT-4o的文本和图像功能将免费开放给所有用户,而付费用户将享受到更多权益。将GPT-4o免费向所有用户开放。这一策略不仅降低了高端AI技术的门槛,也使得更广泛的用户群体能够享受到AI带来的便利。对于推动AI技术的普及和应用,这无疑是一项具有里程碑意义的举措。
这一策略在推动技术的普惠性的同时,也考虑了商业的可持续性。通过提供免费的基础服务吸引用户,并通过付费服务为需要更多功能和专业支持的用户提供额外价值,OpenAI能够在确保研发投入和服务质量的同时,实现技术的广泛传播。
五、安全性与道德考量:AI技术的责任所在
随着AI技术的快速发展,其安全性和道德问题也日益受到关注。OpenAI在发布会上强调了其在确保GPT-4o安全性方面的努力,并表示将继续与政府、媒体和社会各界合作,确保技术的负责任使用。
六、总结:AI的未来已来
ChatGPT-4o的发布引起了行业震动,谷歌被曝正在测试类似的人工智能通话技术,并可能推出多模态个人助理“Pixie”,苹果也被传将与OpenAI合作,在iOS 18中集成ChatGPT支持的聊天机器人,预示着一场围绕AI助理的科技竞赛已经拉开序幕。
OpenAI通过ChatGPT-4o再次证明了其在AI领域的领导地位,尽管面临来自Google、Claude等竞争对手的挑战,但无疑,这场AI技术的飞跃,将深刻影响未来的人机交互方式,同时也带来了对于技术伦理与安全性的深层次思考。
正如OpenAI首席运营官Brad Lightcap所言,随着技术的飞速发展,我们今天的赞叹或许很快就会显得过时。ChatGPT-4o的问世,不仅是OpenAI的一次胜利,也是人类向人工智能共生未来迈出的重要一步。