$商汤-W(00020)$ 具身智能时代呼唤“端到端”“随着模型能力的迭代，以及模型从语言模型逐渐变成一个加上生成、多模...

$商汤-W(00020)$ 具身智能时代呼唤“端到端”

“随着模型能力的迭代，以及模型从语言模型逐渐变成一个加上生成、多模态理解的能力，相信在今年年底、明年可能会期待有质变的产生，从务实的角度来看，大模型目前阶段只是一个初步的阶段。”

纯视觉在端到端中的“AB”面

随着高速NOA走向城市NOA，自动驾驶系统的复杂程度在大幅提升，数百万行的C++代码对人工编写规则方式带来巨大的成本。

这时，完全基于人工智能和神经网络的感知模块不会存在因为手动编写规则引发效率低下的困惑，所以现如今的行业风向走到基于大模型的端到端自动驾驶。

多家企业在今年百人会论坛中亮相了行业成果的殊荣，各家对于感知的技术路线看法也各有千秋。

去年，商汤的端到端自动驾驶大模型UniAD入选了2023年CVPR最佳优秀论文。

绝影是商汤智能汽车的板块，商汤绝影智能汽车事业群总裁王晓刚在百人会上表示：“端到端的自动驾驶UniAD，是今年我们自动驾驶最大的突破，从高速到城区的领航，在这里可以看到场景日益复杂，需要大量的工程师每天去解决层出不穷的各种case。端到端自动驾驶是数据驱动，能够为我们高效地解决城区的领航，提供更加高效实践的路径。”

与传统的的单模态模型相比，多模态大模型的优点在于它可以从多个数据源中获得更丰富的信息，从而提高模型的性能和鲁棒性。

王晓刚还提到，商汤进一步提出了多模态大模型自动驾驶方案，这种方案的输入，除了各种感知传感器，系统的信息以外，还允许人机交互，通过自然语言作为输入。当自动驾驶时觉得旁边大车有压迫感，如果想要离它远一点，或者想超车，都是可以通过语言模型进行交互。

另外，输出的时候不但可以输出感知，还可以输出规控，还可以对自动驾驶做出的决策有解释性。

大模型现在在整个汽车行业的应用还是偏早期阶段。“刚才我们还在讨论，目前是量的提升，没有到质变，随着模型能力的迭代，以及模型从语言模型逐渐变成一个加上生成、加上多模态理解的能力，我相信在今年年底、明年可能会期待有质变的产生，从务实的角度来看，大模型目前阶段只是一个初步的阶段。”

感知固然重要，它提供了必要的信息输入，是司机的“眼睛与耳朵”，与它同样重要的，还有被业界及科研机构不断研究的认知，涉及到规划、决策和应对复杂或紧急情况的能力，相当于司机的“大脑”。

而只有当大模型作为自动驾驶的驾驶员，在认知层面远超于人类时，才能做出超出人类的决策能力，这时，感知、认知会不断迭代，甚至超出人类认知的上限，自动驾驶才会迎来真正所谓的GPT、IPhone时刻。

特斯拉的FSD，端到端自动驾驶是一体化方法，不产生中间结果，直接通过图像输入，直接输出控制信号，但这种技术路线也存在彻底黑盒，解释性差的问题。

时代呼唤“端到端”到机器人领域

智驾时代变革起点是汽车“驾驶权”由人类向AI转移，但远不止于此。端到端模型的潜力如果继续迭代下去，可能会做出物理世界的AGI。

如果说各家公司将战略目标放浅至5年来看，可能是推动端到端模型上量产车积累算法数据，但如果拉长，则是希望找到一条通过具体的实体与现实世界直接接触和互动——即具身智能（Embodied AI），它不再仅仅是软件和算法的集合。

而一个能承载更多想象的具车智能，最关键甚至起到决定性作用的技术底座一定是强大的基础模型。

而在具身智能的世界里，端到端自动驾驶又被视为一个子集，专注于智能体如何通过感知来指导行动，在自动驾驶的背景下，这意味着车辆需要理解周围环境并据此做出驾驶决策。

这种尤其强调动态交互和深度学习的具身智能，往往比端到端自动驾驶系统更强调数据质量性和泛化性能力。不过，“暴力美学”是否可以同样应用在机器人上，目前还没有一家实现的公司。

接下来，让我们一起等待机器人领域的Scaling Law时刻吧。

以上信息摘自智驾网作者：王欣

$优必选(09880)$ $科沃斯(SH603486)$

作者：正心以中修身以和3