发布于: iPhone转发:0回复:10喜欢:5
回复@pipee: 以前用ChatGPT 网页版也随时可以打断啊,点一下按钮就行,换了个交互方式而已。。。我都不知道那些自媒体high个啥,high点太低了,外行瞧热闹而已。
1、真正“认知”和”逻辑”部分,没有演示任何提升。
2、双工、情绪、图像物理识别早有demo。
3、多模态早有demo。
4、真正的提升在于低延迟,也意味着推理成本降低了。//@pipee:回复@仓又加错-刘成岗:这种程度的产品化背后怎么可能只是数据。gpt说话的时候可以被打断, 可以调整语气和节奏, 可以实时将感知的环境加入到上下文并且重新推理。 这背后必然有架构的巨大变化。 以前openAI发布产品会带技术报告,这次4o直接不发了。
引用:
2024-05-14 09:28
为什么openAI可以做到如此遥遥领先?

全部讨论

05-14 14:02

对了仓老师,补充一点, 关于"1、真正“认知”和”逻辑”部分,没有演示任何提升。", 4o推理能力强了不少, 4o不仅可以算出正确答案, 还可以推理出covered call/put, gpt-4不可以。见网页链接

05-14 13:34

并不是,gpt4-o 之所以延迟低是因为 voice 和 video 和文字一样直接作为 input 到新的大模型了。这个跟之前语言转文字再到 gpt4还是有很大区别,真正的多模态。

05-14 13:40

以往你点的停止按钮只是停止predict&generate next token, 但是语音的"打断"变成了另一种输入+重新推理,视觉上悄悄进来一个人改变了上下文, 也会变成新的输入。不知你说的多模态demo 是哪个,链接有吗? 去年谷歌发布gemini号称多模态demo最后被揭露是剪辑拼凑, 事实完全做不到4o展现的语音/视觉/文字融合。 这次OAI有近10个demo,最好全部看一遍。

所以本次“低延迟”是不是因为:将多模态由三个子模型封装糅合到一个端到端黑盒的原因?

05-14 13:41

认知和逻辑还是有提升的,都接近满分了

05-14 13:36

本以为更新了个打火箭,结果拿出来一把摔炮