05-14 13:43
这次展现的视觉/声音/文字多模态背后的engineering甚至学术壁垒是相当高的。 有CMU教授评价这个working model背后顶得上1000篇论文。
1、真正“认知”和”逻辑”部分,没有演示任何提升。
2、双工、情绪、图像物理识别早有demo。
3、多模态早有demo。
4、真正的提升在于低延迟,也意味着推理成本降低了。
为什么openAI可以做到如此遥遥领先?
这次展现的视觉/声音/文字多模态背后的engineering甚至学术壁垒是相当高的。 有CMU教授评价这个working model背后顶得上1000篇论文。