三、防御性驾驶:安全的关键在于预判
无人驾驶汽车要想安全上路,光靠识别能力是远远不够的。车载的传感器也许能捕获到、并识别出前方有一个行人,但更关键的是要判断出这个行人接下来可能采取的行动。比如,一个低头看手机的行人,即使车来了也可能心不在焉地横穿马路。一对在人行道上发生口角的行人,下一秒很可能就会失控打起来,甚至滚到车道上。路口的一辆小电驴,骑手已经等得不耐烦了,说不定下一秒就要违规闯红灯。这些都需要无人车具备更高层次的理解能力,提前判断可能出现的危险情况,未雨绸缪做好防御性驾驶。
防御性驾驶的关键,就在于无人车系统能否从海量路况数据中学习到交通参与者的行为模式,从而对他们接下来的意图做出较为准确的预判。这需要融合计算机视觉、因果推理等,构建起一套复杂的意图预测模型。模型需要理解人的心理,洞察人在不同情景下可能做出的决策。这其中包含了大量的不确定性和模糊性,对算法的泛化能力和鲁棒性提出了极高的要求。
可以说,要让无人驾驶技术走向成熟,最后一公里的挑战,恰恰在于这些看似“细枝末节”的人性化预测能力。无人车竞争是一个拼智商的游戏,并不是一个拼传感器的游戏。无人车不能只当一个“精准的执行者”,更要成为一个“善解人意的驾驶员”。唯有如此,它才能像人类驾驶员那样,与周遭的交通参与者和谐互动,灵活应对各种突发情况。
四、端到端大模型:全自动驾驶的唯一答案
综上所述,要实现全自动驾驶,我们需要从根本上转变思路。与其在硬件上做文章,不如在软件上下功夫。与其追求感应的精确性,不如提升智能的泛化力以更好的感知并决策。与其满足于对当下场景识别的准确率,不如追求预判的空间广度和时间深度。这一切,都指向了一个方向:端到端的大模型。
端到端大模型的优势在于,它可以最大限度地利用输入数据中蕴含的信息。传统的模块化方案,每一个模块都会对数据进行筛选和简化,导致信息在传递过程中不可避免地出现损失。就像传话游戏一样,到最后一个环节时,留存下来的信息往往已经面目全非。而端到端模型可以直接将原始输入映射到最终输出,中间不经过任何压缩或过滤,从而最大程度保留了信息的完整性。这种信息量的最大化保留,正是实现精准预测的关键。
在传统的“感知、规划、控制”模块化设计下,信息流通受损可能会导致很多问题。想象这样一个场景:当一辆无人车行驶在一条郊区公路上,前方有一个骑自行车的人。摄像头拍到了骑手的位置和速度,并且还收集到了骑手头部和肩部细微的倾斜。感知模块准确地检测出了自行车骑手的位置和速度,将骑手抽象为一个简单的"自行车物体",并将其位置、速度等少量信息传递给规划模块。在这个过程中,自行车骑车的头部和肩部动作就被当成不重要的“噪音”给过滤掉了。
规划模块基于感知模块的信息,对无人车的未来轨迹进行了规划。按照常理,只要与自行车保持安全距离并适时减速就可以安全通过。但实际上,骑手正准备突然减速左转进入一条小路。如果规划模块能够获得骑手头部左倾的信息,或许就能推断出他的意图,进而及早减速留出安全距离。可惜这些关键信息都已经被感知模块“过滤”掉了。
在这种情况下,即使控制模块再精准,也难以弥补前期决策的失误。因为在控制模块眼中,眼下的局面不过是“跟踪自行车物体的轨迹”,它没有任何理由去怀疑规划模块给出的指令。直到自行车骑手真的突然左转,一切都已经太晚了,最终无人车不得不进行紧急刹停。
这个例子揭示了模块化架构的一个潜在缺陷:每个模块都倾向于按照自己的“理解”,对数据进行抽象和简化。在这个过程中,一些看似无关紧要的细节实际上可能暗含着重要信息,但却被过早地丢弃了。这种信息流通的“中断”和“丢失”,会从根本上限制整个系统的能力上限。
相比之下,端到端的一体化模型就能避免这个问题。传感器的完整数据可以直接参与到决策过程中,哪怕是一些细枝末节,也有可能成为影响决策的关键因素。更重要的是,模型可以自主地学习哪些信息是有价值的,无需人工设定筛选规则。久而久之,它或许能领悟到一些人类尚未意识到的微妙规律。
事实上,无论是纯视觉方案,还是融合视觉方案,都有实现全自动驾驶的潜力。因为我们之前已经论证过了,全自动驾驶问题是一个“智能问题”而不是“传感器问题”。这就好像一个人考不考得上清华北大,与他是近视眼、远视眼、还是标准视力都没有太大的关系。因为高考是一个“智能问题”,而不是一个“传感器问题”,我们需要的是“智能冗余”,而不是“传感器冗余”。$赛力斯(SH601127)$ $特斯拉(TSLA)$
精彩讨论
大火成岩04-07 08:09所有业余玩票者都是凭想象在理解大模型。从视觉输入到驾驶员的动作,这个过程中决策信息已经损失了。除非人工标注,否则你不可能知道司机转弯是为了躲开路上的一滩污渍,还是预判到前面的行人可能过马路,还是单纯分神了。数据量大到一定程度,一些高频场景比如看到红灯就停下,可以被拟合到基本可用的程度,但天花板有限。深度学习无法在复杂的规划决策场景落地,核心就是这个死穴:同样的结果可以对应多个原因,原因的组合是无穷尽的。特斯拉这条路最多走到能用,但要好用到真正节省时间精力,不需要人一直盯着,让消费者愿意持续买单,那是完全不可能。
一把梭十年04-07 07:08我刚打赏了这个帖子 ¥50,也推荐给你。非常好的文章,把自动驾驶的基本逻辑解释的非常清晰,且列举的例子非常容易理解。推荐对智能驾驶有兴趣的朋友,不管你是谁家的粉,都看一看。
慢跑者39704-07 08:54与楼主商榷两点。第一:关于感知冗余和智能冗余。首先,你提的问题出发点错了。在智能驾驶系统中,感知和智能不是谁比谁重要,而是两者应该如何更好适配。应为两者在系统中是高度耦合。其次,智能驾驶不是一个纯粹的智能问题,您用高考题目的求解来比喻智能驾驶。高考题目的求解是一个纯粹的问题求解。在求解过程中,考生不需要也不准和考场的监考老师,旁边的同学甚至考场外的家人朋友做各种感知,信息和计算层面上的信息互动。而智能驾驶是驾驶系统(无论生物形态的人类大脑,还是硅基的自动驾驶系统 )在驾驶过程中,持续不断的和周围场景进行感知信息和决策计算的迭代互动。通俗的说,自动驾驶不是关起门来闭门造车的智能游戏,而是一个知行互动的学习过程。对于要求知行互动的学习系统,读书做题是一种封闭场景下的数据投喂,而知行互动是一个开放场景下的实时数据计算。
第二关于安全的关键在预判。请问预判的关键在于什么?预判对前方情况的预先计算。对于开放场景下的自动驾驶系统来说,前方情况需要预先的感知。这是一个实时计算。感知数据和计算决策高度耦合协同。感知层对对前方感知的距离越远,感知的信息越充分,计算层计算的算法模型越合理算力越强。智能驾驶系统实时计算的表现就越好。不要把数据感知和决策计算割裂开来。$炬光科技(SH688167)$
一把梭十年04-07 09:10点名字可以看到,作者是普度大学的计算机博士,不知道是现在时还是完成时。 假设是现在时的话,按照作者的知识水平,如果在股市有一定量的投入,那么毕业时财富自由是必然的…
pangpangdudu04-07 23:43我一直认为视觉方案的极限就是人眼。如果我们用肉眼开车存在看不清、看不见的情况,纯视觉方案在这些情况下也同样会看不清,靠“智能”、“算力”、“神经网络”是不够的。激光雷达也好,毫米波雷达也好,都是对视觉方案的一个必要补充,安全性必然优于纯视觉。毫米波雷达的分辨率不够,而激光雷达过去成本太高,让特斯拉走了纯视觉路线,现在成本不断下降,国内已经卷到400美元,2-3年内会到250美元,已经完全可以负担了;而和毫米波雷达直接竞争的短距离补盲激光雷达,价格会到100-150美元(某些厂宣称的900人民币其实是补盲雷达),毫米波雷达似乎变成了鸡肋。$Ouster(OUST)$ 有一个专利技术是彩色点云,给激光雷达的点云赋予真实世界物体的颜色。再过5-10年,当激光雷达的分辨率足够高,又能直接探测到真实的距离,纯视觉方案可能会消失,因为摄像头的功能被激光雷达取代了。当然这一天还很远。
全部讨论
这篇文章很深刻地解释了自动驾驶的关键问题。很多人对自动驾驶都是想当然的想法,根本就没有理解其中的本质。学习了。
都pdh了,不放reference啊,想看看您参考的文献。
开过的都知道,国内外驾车难度根本不是一个级别的,说再多也没用,是骡子是马拉出来溜溜。说一个最简单的例子,对stop(停)标志,中外司机应对完全不一样。