回复@pipee: 以前用ChatGPT 网页版也随时可以打断啊，点一下按钮就行，换了个交互方式而已。。。我都不知道那些...

发布于:2024-05-14 13:32

iPhone

转发：0

回复：10

喜欢：5

回复@pipee: 以前用ChatGPT 网页版也随时可以打断啊，点一下按钮就行，换了个交互方式而已。。。我都不知道那些自媒体high个啥，high点太低了，外行瞧热闹而已。
1、真正“认知”和”逻辑”部分，没有演示任何提升。
2、双工、情绪、图像物理识别早有demo。
3、多模态早有demo。
4、真正的提升在于低延迟，也意味着推理成本降低了。//@pipee:回复@仓又加错-刘成岗:这种程度的产品化背后怎么可能只是数据。gpt说话的时候可以被打断, 可以调整语气和节奏，可以实时将感知的环境加入到上下文并且重新推理。这背后必然有架构的巨大变化。以前openAI发布产品会带技术报告，这次4o直接不发了。

引用：

2024-05-14 09:28

为什么openAI可以做到如此遥遥领先？

全部讨论

pipee

05-14 14:02

对了仓老师，补充一点, 关于"1、真正“认知”和”逻辑”部分，没有演示任何提升。", 4o推理能力强了不少, 4o不仅可以算出正确答案, 还可以推理出covered call/put, gpt-4不可以。见网页链接

矩阵投资

05-14 13:34

并不是，gpt4-o 之所以延迟低是因为 voice 和 video 和文字一样直接作为 input 到新的大模型了。这个跟之前语言转文字再到 gpt4还是有很大区别，真正的多模态。

pipee

05-14 13:40

以往你点的停止按钮只是停止predict&generate next token, 但是语音的"打断"变成了另一种输入+重新推理，视觉上悄悄进来一个人改变了上下文，也会变成新的输入。不知你说的多模态demo 是哪个，链接有吗? 去年谷歌发布gemini号称多模态demo最后被揭露是剪辑拼凑，事实完全做不到4o展现的语音/视觉/文字融合。这次OAI有近10个demo，最好全部看一遍。

艾利克斯_2019

05-14 13:41

所以本次“低延迟”是不是因为：将多模态由三个子模型封装糅合到一个端到端黑盒的原因？

慢投ZI

05-14 13:41

认知和逻辑还是有提升的，都接近满分了

冠军骑士

05-14 13:36

本以为更新了个打火箭，结果拿出来一把摔炮

作者：仓又加错-刘成岗

引用：

全部讨论