$理想汽车(LI)$ 想子要发动攻势在自动驾驶上扭转心智了。据车友反馈，目前公测的城市无图noa很不错。转自郎咸朋（理...

$理想汽车(LI)$ 想子要发动攻势在自动驾驶上扭转心智了。据车友反馈，目前公测的城市无图noa很不错。
转自郎咸朋（理想自动驾驶负责人）：
省流：根据《思考，快与慢》提出的人类决策系统1和系统2，端到端=系统1，VLM(视觉语言模型)=系统二。由两颗自动驾驶芯片分别负责。
2024/06/19 21:58
最近想哥在重庆论坛上提到了理想汽车自动驾驶最新的研发思考和进展。本文在此基础上进行扩展，希望帮助大家更好的理解背后的逻辑和技术落地的情况。
一切源自去年下半年跟想哥的一次讨论。无图方案由于没有了高精地图，在比较复杂的路口有概率会开错道。想哥问我们能不能教会NOA系统像人一样看得懂导航地图，而不是仅仅用感知结果进行判断。我们经过考虑，车上得有两个系统，一个是开车的，一个是看图的，于是一切就从这里开始了。
核心理论思想来自于认知心理学中的系统1与系统2概念，由诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考，快与慢》中提出。快慢系统理论提供了一种新的视角来观察和理解人类的决策过程，展示了直觉和分析思维的交互作用。它揭示了人们在复杂情境中是如何平衡直觉判断与逻辑分析的，有助于理解在特定环境下人类行为的预测性和非预测性。
系统1这种思维模式是自动的、快速的、无意识的，通常基于直觉和经验，它所对应的是行为智能。Lecun在自己卷积神经网络的论文里提到,“CNN能够快速有效地处理图像数据，类似于人类的快速直觉反应”。而深度学习在过去十年中所取得的巨大成功也不外乎此类范畴，其对应的也就是人类最初步的智能形式，行为智能。
系统 2则关注于模拟人类或其他高级生物的思考过程。这种类型的智能不仅仅是关于行为，而是更深入地涉及理解、推理、学习和适应，所对应的是认知智能。认知智能尝试复制人类大脑的工作方式，如信息处理、决策制定、问题解决和语言理解等方面。认知智能通常建立在行为智能的基础之上，并对行为智能所处理的道的信息进行简化和抽象，并在此基础上进行更加复杂的分析，推理等高级思维过程。
2023年起以GPT系列为代表的LLM大语言模型使人类在创建通用人工智能AGI得这一目标上终于有了初步的进展。虽然LLM更多的还是依赖于深度学习技术来对输入输出进行拟合，但是如思维链(Chain of
Thought)等新的技术范式的出现，代表了AI模型不再单单仅能对输入和输出进行映射，而是可以对任务进行分析，拆解，再各个击破，这就很接近于人类在处理复杂需要思考问题时候的行为方式了。在最近
Andrew Karparthy的演讲《给忙碌者的LLM入门》里面也有提到，目前系统2是AI领域的研究重点，通过 CoT(思维链)甚至是ToT(思维树)可以更容易实现系统2的能力。
有了系统1和系统2的理论基础，再回到人类驾驶，我们可以把驾驶过程用系统1和系统2进行描述:
1.自动化驾驶过程(系统1):这涉及到习惯性和直觉性的行为，如自动换挡或者在看到红灯时无需深思熟虑地停车。这些过程通常是快速的、无意识的，并且随着驾驶经验的增加而变得更加自动化。
2.复杂控制过程(系统2):在复杂或新颖的驾驶情况下，如突发紧急情况、复杂的交通或不熟悉的路段，驾驶员需要更加集中注意力，进行深思熟虑的决策。这些过程是缓慢的、需要意识的，涉及高级认知功能，如判断、规划和决策。
绝大多数时间(>95%)我们都可以通过直觉快速对车辆进行驾驶，而无需复杂的思考过程，所以我们甚至可以边和旁边人说话边进行安全驾驶，这就是因为大多数时候系统1足以完成普通驾驶任务。然而总有非常少见的长尾问题(corner case)需要我们调集精神进行分析思考，才能给出安全的解决方法。比如说，在驾驶过程中遇到牛/羊群，这时候我们首先要知道这是一些动物(常识)，为了自车和它们的安全，我们需要减速进一步观察情况，然后我们需要根据牛羊群的动向分析得出他们多久会腾出足够的安全空间供自车通行，并规划相应的道路，而这样的过程并非一瞬间就能完成，需要的就是更复杂的第2类系统来解决问题。所以自动驾驶技术也需要获得类似的复杂认知智能才能在此类长尾问题(corner case)出现的时候，妥善的分析情况并给出相应的解决策略，这样才能真正在任何情况下做到无需人类介入的完全自动驾驶。也就是说，自动驾驶系统在遇到corner case时，需要有能力自己处理好，并且将其逐渐固化到日常驾驶中。这是不是像极了人类学习开车的过程。
思路有了，但是如何在自动驾驶上实现系统1和系统2，以及做好验证呢?理想给出的答案是E2E(端到端模型)+VLM(视觉语言模型)+仿真考试(世界模型)。不仅如此，高效的数据自动标注也是必不可少的。
这套系统的工作原理完美的模拟人类驾驶的行为。端到端承载人的系统1，VLM来承载人的系统2，我们将其部署到了两块OrinX上。其中一块OrinX跑One- model的实时端到端模型，模型输入是传感器数据，模型输出直接给出规划轨迹，交给执行器完成横向纵向控制。另一块OrinX部署了2B参数量的VLM模型，这也是NV车端芯片实际部署的首个大模型，并通过极致的优化，达到了准实时的推理速度，满足系统2的需求。系统1和系统2参与训练的数据已经超过了
100w clips，每个clip是30秒的短视频，约等于1w小时，50万公里的驾驶数据。这些clips是从上亿公里的驾驶数据里“精挑细选”出来的“老司机”数据。数据的标注过程和模型的训练过程已经完全实现了自动化，目前我们每周迭代版本3-5个。到今年年底，训练数据量预计可以达到1000万clips,
自动驾驶系统的评测方式跟之前做智能驾驶(或辅助驾驶)是完全不同的。智能驾驶的所有功能是设计出来的，设计是什么样做出来就是什么样，所以是要通过测试来验证其是否符合设计要求。但是自动驾驶系统拥有的是能力，像人一样，能力是可以持续迭代和成长的，而不是一开始就设计出来的。“能力”只能通过“考试”的方式来评估。就像一个新手司机，在驾校完成考试(验证了能力)才可以上路开车。然后不断的通过系统1和系统2的迭代，持续提升自己的驾驶能力。我们也希望用考试的方法来评估自动驾驶系统，其能力达到上路水平后，才可以交付到用户手中。
我们采取的技术实现方式是世界模型+影子模式。世界模型对真实场景进行重建和生成，把车放在里面进行考试。重建的场景来自于真实的驾驶数据和
Badcase，相当于有个真题库，跟人学开车并不犯同样的错误。生成的场景与重建场景类似但不完全一样，相当于模拟考试练习题，起到举一反三的作用，学会一道题的同时一通百通，用于评估研发过程中的能力。当通过这些模拟考试后，我们继续使用早鸟/内测车辆，通过影子模式进行实车考试，相当于人进行实际的驾校考试。如果考不过，就持续迭代，直到考试通过为止。交付给用户后，能力还会根据用户驾驶的数据持续提升，越开越好。
以上就是我们在过去的一段时间里，除了正常交付外所做的研究工作，而且上述内容均已通过了内部的原型验证。
但是技术的部分我觉得怎么介绍都不如直接看论文。所以这里也总结了团队最核心的几篇论文，并附上了简介，希望能够帮助大家更好的理解技术细节。
论文略。
$赛力斯(SH601127)$ $特斯拉(TSLA)$

作者：研究没有边界

精彩讨论

全部讨论