商汤董事长徐立：世界模型，推动AI迈入真正与物理世界交互时代在人工智能快速演进的当下，具身智能作为感知、行动和交互能力的融合，正逐渐成为技术创新的新方向。商汤科技正加大在这一领...

在人工智能快速演进的当下，具身智能作为感知、行动和交互能力的融合，正逐渐成为技术创新的新方向。

商汤科技正加大在这一领域的布局。近日，在WAIC 2025大模型论坛上，商汤正式发布其“悟能”具身智能平台，标志着商汤在推动具身智能发展方面的又一进展。

据悉，“悟能”以商汤具身世界模型为核心引擎，依托商汤大装置提供端侧和云侧算力支持，能够为机器人、智能设备提供感知、视觉导航及多模态交互能力；“悟能”还可赋能机器人等各种终端硬件，实现对世界万物的感知理解能力，并支持嵌入到端侧芯片，具备较强的场景适配性。此外，“悟能”还能生成多视角视频，确保较为良好的时间一致性和空间一致性，让机器能够理解、生成、编辑真实世界，在空间层面实现世界交互。

更关键的是，商汤具身世界模型能构建面向人、物、场的4D真实世界，用户仅需输入简单的提示词，比如“在厨房区域的架子上找东西”，“进入娱乐室、向右转，然后打开通往院子的门”等，具身世界模型就能自主进行位姿、动作骨架和指令的生成。

商汤科技董事长兼CEO徐立在论坛上表示，“商汤‘开悟’世界模型，由日日新V6.5赋能，而‘开悟’世界模型也是视频生成模型，但它考虑了时间、空间的一致性。”

徐立进一步解释称，比如自动驾驶需采集大量复杂视角，如七路摄像头typo数据，开悟模型仅凭自然语言描述，即可生成逼真的七路摄像头视角模拟数据。

“现在任何人都可以通过自然语言描述场景，生成符合3D物理规则、特定视角的视频片段。我们要求的不是视频质量达到电影级别，而是符合物理规则、物理定律，并且能够真正意义上切进用户的使用场景，让你在真实世界开上极品飞车。”徐立表示，而这部分能力，完全可以扩展到机器人的学习和应用中。

值得一提的是，商汤在具身智能领域的探索并非首次。

今年4月，商汤在其2025技术交流日上已展示了基于SenseCore 2.0大装置训练的具身智能成果，并与傅利叶、松应科技等公司达成战略合作。

展览期间，商汤科技还发布了日日新V6.5多模态大模型。据悉，日日新6.5独创了图文交错思维链，跨模态推理精度有较大提升。

具体来看，传统的多模态推理模型，在推理之前会将图像转变成文本解读，后续的推理过程就变成了纯文本。而在图文交错思维链当中，图像会以本体的形式参与到整个推理过程。

在展览现场，商汤还展示了一款搭载日日新V6.5多模态大模型的人形机器人。该机器人能够进行自然流畅的PPT讲解，并以生动有趣的互动对话吸引了大量参观者注意。

有分析指出，通过这一系列的创新和技术积累，商汤正在逐步消除机器人和智能设备的“冷感”，让它们能够更好地融入人的日常生活，并在更复杂的环境中实现自主互动。这也是商汤AI技术逐步成为提升生产力的重要工具的体现。

商汤董事长徐立：世界模型，推动AI迈入真正与物理世界交互时代

作者：凤凰WEEKLY财经