商汤科技董事长兼CEO徐立在论坛上表示,“商汤‘开悟’世界模型,由日日新V6.5赋能,而‘开悟’世界模型也是视频生成模型,但它考虑了时间、空间的一致性。”
徐立进一步解释称,比如自动驾驶需采集大量复杂视角,如七路摄像头typo数据,开悟模型仅凭自然语言描述,即可生成逼真的七路摄像头视角模拟数据。
“现在任何人都可以通过自然语言描述场景,生成符合3D物理规则、特定视角的视频片段。我们要求的不是视频质量达到电影级别,而是符合物理规则、物理定律,并且能够真正意义上切进用户的使用场景,让你在真实世界开上极品飞车。”徐立表示,而这部分能力,完全可以扩展到机器人的学习和应用中。
值得一提的是,商汤在具身智能领域的探索并非首次。
今年4月,商汤在其2025技术交流日上已展示了基于SenseCore 2.0大装置训练的具身智能成果,并与傅利叶、松应科技等公司达成战略合作。
展览期间,商汤科技还发布了日日新V6.5多模态大模型。据悉,日日新6.5独创了图文交错思维链,跨模态推理精度有较大提升。
具体来看,传统的多模态推理模型,在推理之前会将图像转变成文本解读,后续的推理过程就变成了纯文本。而在图文交错思维链当中,图像会以本体的形式参与到整个推理过程。
在展览现场,商汤还展示了一款搭载日日新V6.5多模态大模型的人形机器人。该机器人能够进行自然流畅的PPT讲解,并以生动有趣的互动对话吸引了大量参观者注意。
有分析指出,通过这一系列的创新和技术积累,商汤正在逐步消除机器人和智能设备的“冷感”,让它们能够更好地融入人的日常生活,并在更复杂的环境中实现自主互动。这也是商汤AI技术逐步成为提升生产力的重要工具的体现。
而随着多模态技术的不断突破,具身智能也将不断赋能机器人和智能设备,在各行各业中发挥越来越重要的作用。