无人驾驶=激光雷达?小心走入死胡同!

发布于: 修改于: 雪球转发:7回复:259喜欢:74

理解无人驾驶,就需要理解三个重点:软件比硬件重要、智能比感应重要、预判比识别重要,我将分三个小章节论证这三个重点。基于这三个重点,我会在最后一个小节做出我对未来完全自动驾驶技术路线的预判。

一、十年前的智能手机,十年后的智能汽车。

如今,我们总是能看见这样的营销对比:某某厂商的激光雷达、超声波雷达、毫米波雷达等等,几乎每一种传感器的数量都远超竞争对手。这让我感觉似曾相识,过去的历史在今天又在变着法着重演。十年前,当我们从移动电话走向智能手机时,其实就开始了这种参数对比。那就是我们国产手机的处理器更强,内存更强,屏幕更大,分辨率更高、摄像头像素更好。

2014年,小米以13.7%的智能手机出货量市场份额,排名第一,苹果、华为、联想和三星,分列第2至5名。按照出货量计算,小米也是2014年中国最大的智能手机厂商。十年后,苹果以17.9%的份额位居国内智能手机份额榜首。当我们再看配置表会发现,大多数参数还是国产手机遥遥领先(除了被制裁的芯片)。

从这个历史中我得出了一个结论,当我们说一个手机是“智能”的,那么它的软件体验的权重就远远大于硬件参数。在智能手机这个赛道上,显然硬件占的权重较小。即使在局部取得了极大优势,也无法保证在全局竞争的市场中获得绝对优势。智能手机的本质,是“软件定义电话”,正如今天的智能汽车,是“软件定义汽车”。当我们说车是“智能”的,那么也就代表它的软件体验的权重会远远大于其硬件参数。

二、传感器冗余,还是智能冗余?

很多人认为传感器冗余就代表了安全冗余,这其实是不对的。具体需要什么冗余,取决于问题本身的难点是什么。举一个极端的例子,如果想在拳击擂台上打败泰森,你并不需要清华大学的博士学位,智商虽然也重要,但是你打拳并不需要“智能冗余”,同理,如果你想要在围棋上赢过柯洁,你也不需要百米跑进9秒俱乐部,比赛中的体力虽然也重要,但是体力的权重也绝对比不上棋力。同理,我想论证的是,自动驾驶的传感器虽然也很重要,但是感应的权重绝对比不上智能。智能驾驶的难点在于常识理解、逻辑推理、因果预测等,所以我认为真正需要的应该是“智能冗余”。

人类早就实现了不载人的火箭发射,但却实现不了无人驾驶汽车,我想原因是显而易见的。火箭发射的全过程在发射之前就已经计算好,模拟过上千次。火箭的路径、轨道都需要极其精确,所以它是一个“传感器问题”——你需要尽可能多的,甚至是冗余的传感器来保证火箭在预定轨道飞行,因为偏离轨道哪怕一丁点都可能酿成灾难性后果。多种传感器的数据需要交叉验证,互相印证,才能得出可靠的飞行状态判断。冗余的传感器还可以在某个传感器失灵时作为备份,保证飞行数据的连续性和完整性。

不同的是,自动驾驶却是一个“智能问题”。当传感器不足时,足够强的智能依然可以“感知”并“决策”。当智能不足时,传感器却无法弥补。晚上光线不好,看错路牌走错路了?没事换一个路线也能到,但这需要智能。被远光灯短暂致盲了?足够的智能会懂得减速,并看向右侧车道线来保持在车道内。如果大雾天气摄像头和激光雷达都不好使了?足够的智能会懂得减速,或者是靠边停车以保证安全。如果事故不可避免,不得不撞了?那么是撞保时米?还是撞保时捷?怎样损失更小,这个当然也需要智能。交通拥堵了?怎样加塞,怎样与别的司机博弈,这还是需要智能。

驾驶这件事情,既没有固定路径,也难以对所有路况进行预先设计。它需要在不完整、不确定的感应信息基础上,识别出交通参与者,并推理出交通参与者可能的行为意图,预测交通状况的发展趋势。这一切对软件的智能提出了很高要求。自动驾驶的终极难题其实是“电车难题”,比如拉着钢卷的大货车司机是刹车自己传送到异世界?还是撞过去把别人传送到异世界?这些道德伦理问题是非常非常难的,也就是意味着我们需要很多很多很多的“智能冗余”。

有人可能觉得,为什么不能两手抓?事实上是的原因是,自动驾驶太难了。很多人不理解,真正解决全自动驾驶需要价值万亿的数百万车队,经过多年的积累,拿到数十亿公里的训练数据。我们需要价值上千亿的训练算力,很多都是有价无市。我们还需要全世界最好的团队,很多关键人才如今仍然非常短缺。那些市值万亿的科技大厂,正在不惜一切代价的竞争这些关键人才。对于全人类来说,自动驾驶都是一个难到变态的难题,几乎等同于解决AGI。因此,我们很难有足够的资源,以一种“既要又要”的魄力去横推这个关卡。

相反,我们只能有所取舍,找到问题的关键点,基于第一性原理去单点突破。要知道,就算安装上所有传感器,并奇迹般让它们和谐共处、取长补短,自动驾驶问题也仅仅解决了10%,现实世界仍然存在90%的极其困难的问题需要极高的智能才能攻克。完美的传感器可以完美的解决10%的部分问题,但完美的智能可以以一种还算能接受的程度解决100%的问题。

三、防御性驾驶:安全的关键在于预判

无人驾驶汽车要想安全上路,光靠识别能力是远远不够的。车载的传感器也许能捕获到、并识别出前方有一个行人,但更关键的是要判断出这个行人接下来可能采取的行动。比如,一个低头看手机的行人,即使车来了也可能心不在焉地横穿马路。一对在人行道上发生口角的行人,下一秒很可能就会失控打起来,甚至滚到车道上。路口的一辆小电驴,骑手已经等得不耐烦了,说不定下一秒就要违规闯红灯。这些都需要无人车具备更高层次的理解能力,提前判断可能出现的危险情况,未雨绸缪做好防御性驾驶。

防御性驾驶的关键,就在于无人车系统能否从海量路况数据中学习到交通参与者的行为模式,从而对他们接下来的意图做出较为准确的预判。这需要融合计算机视觉、因果推理等,构建起一套复杂的意图预测模型。模型需要理解人的心理,洞察人在不同情景下可能做出的决策。这其中包含了大量的不确定性和模糊性,对算法的泛化能力和鲁棒性提出了极高的要求。

可以说,要让无人驾驶技术走向成熟,最后一公里的挑战,恰恰在于这些看似“细枝末节”的人性化预测能力。无人车竞争是一个拼智商的游戏,并不是一个拼传感器的游戏。无人车不能只当一个“精准的执行者”,更要成为一个“善解人意的驾驶员”。唯有如此,它才能像人类驾驶员那样,与周遭的交通参与者和谐互动,灵活应对各种突发情况。

四、端到端大模型:全自动驾驶的唯一答案

综上所述,要实现全自动驾驶,我们需要从根本上转变思路。与其在硬件上做文章,不如在软件上下功夫。与其追求感应的精确性,不如提升智能的泛化力以更好的感知并决策。与其满足于对当下场景识别的准确率,不如追求预判的空间广度和时间深度。这一切,都指向了一个方向:端到端的大模型。

端到端大模型的优势在于,它可以最大限度地利用输入数据中蕴含的信息。传统的模块化方案,每一个模块都会对数据进行筛选和简化,导致信息在传递过程中不可避免地出现损失。就像传话游戏一样,到最后一个环节时,留存下来的信息往往已经面目全非。而端到端模型可以直接将原始输入映射到最终输出,中间不经过任何压缩或过滤,从而最大程度保留了信息的完整性。这种信息量的最大化保留,正是实现精准预测的关键。

在传统的“感知、规划、控制”模块化设计下,信息流通受损可能会导致很多问题。想象这样一个场景:当一辆无人车行驶在一条郊区公路上,前方有一个骑自行车的人。摄像头拍到了骑手的位置和速度,并且还收集到了骑手头部和肩部细微的倾斜。感知模块准确地检测出了自行车骑手的位置和速度,将骑手抽象为一个简单的"自行车物体",并将其位置、速度等少量信息传递给规划模块。在这个过程中,自行车骑车的头部和肩部动作就被当成不重要的“噪音”给过滤掉了。

规划模块基于感知模块的信息,对无人车的未来轨迹进行了规划。按照常理,只要与自行车保持安全距离并适时减速就可以安全通过。但实际上,骑手正准备突然减速左转进入一条小路。如果规划模块能够获得骑手头部左倾的信息,或许就能推断出他的意图,进而及早减速留出安全距离。可惜这些关键信息都已经被感知模块“过滤”掉了。

在这种情况下,即使控制模块再精准,也难以弥补前期决策的失误。因为在控制模块眼中,眼下的局面不过是“跟踪自行车物体的轨迹”,它没有任何理由去怀疑规划模块给出的指令。直到自行车骑手真的突然左转,一切都已经太晚了,最终无人车不得不进行紧急刹停。

这个例子揭示了模块化架构的一个潜在缺陷:每个模块都倾向于按照自己的“理解”,对数据进行抽象和简化。在这个过程中,一些看似无关紧要的细节实际上可能暗含着重要信息,但却被过早地丢弃了。这种信息流通的“中断”和“丢失”,会从根本上限制整个系统的能力上限。

相比之下,端到端的一体化模型就能避免这个问题。传感器的完整数据可以直接参与到决策过程中,哪怕是一些细枝末节,也有可能成为影响决策的关键因素。更重要的是,模型可以自主地学习哪些信息是有价值的,无需人工设定筛选规则。久而久之,它或许能领悟到一些人类尚未意识到的微妙规律。

事实上,无论是纯视觉方案,还是融合视觉方案,都有实现全自动驾驶的潜力。因为我们之前已经论证过了,全自动驾驶问题是一个“智能问题”而不是“传感器问题”。这就好像一个人考不考得上清华北大,与他是近视眼、远视眼、还是标准视力都没有太大的关系。因为高考是一个“智能问题”,而不是一个“传感器问题”,我们需要的是“智能冗余”,而不是“传感器冗余”。$赛力斯(SH601127)$ $特斯拉(TSLA)$

精彩讨论

大火成岩04-07 08:09

所有业余玩票者都是凭想象在理解大模型。从视觉输入到驾驶员的动作,这个过程中决策信息已经损失了。除非人工标注,否则你不可能知道司机转弯是为了躲开路上的一滩污渍,还是预判到前面的行人可能过马路,还是单纯分神了。数据量大到一定程度,一些高频场景比如看到红灯就停下,可以被拟合到基本可用的程度,但天花板有限。深度学习无法在复杂的规划决策场景落地,核心就是这个死穴:同样的结果可以对应多个原因,原因的组合是无穷尽的。特斯拉这条路最多走到能用,但要好用到真正节省时间精力,不需要人一直盯着,让消费者愿意持续买单,那是完全不可能。

一把梭十年04-07 07:08

我刚打赏了这个帖子 ¥50,也推荐给你。非常好的文章,把自动驾驶的基本逻辑解释的非常清晰,且列举的例子非常容易理解。推荐对智能驾驶有兴趣的朋友,不管你是谁家的粉,都看一看。

一把梭十年04-07 09:10

点名字可以看到,作者是普度大学的计算机博士,不知道是现在时还是完成时。 假设是现在时的话,按照作者的知识水平,如果在股市有一定量的投入,那么毕业时财富自由是必然的…

慢跑者39704-07 08:54

与楼主商榷两点。第一:关于感知冗余和智能冗余。首先,你提的问题出发点错了。在智能驾驶系统中,感知和智能不是谁比谁重要,而是两者应该如何更好适配。应为两者在系统中是高度耦合。其次,智能驾驶不是一个纯粹的智能问题,您用高考题目的求解来比喻智能驾驶。高考题目的求解是一个纯粹的问题求解。在求解过程中,考生不需要也不准和考场的监考老师,旁边的同学甚至考场外的家人朋友做各种感知,信息和计算层面上的信息互动。而智能驾驶是驾驶系统(无论生物形态的人类大脑,还是硅基的自动驾驶系统 )在驾驶过程中,持续不断的和周围场景进行感知信息和决策计算的迭代互动。通俗的说,自动驾驶不是关起门来闭门造车的智能游戏,而是一个知行互动的学习过程。对于要求知行互动的学习系统,读书做题是一种封闭场景下的数据投喂,而知行互动是一个开放场景下的实时数据计算。
第二关于安全的关键在预判。请问预判的关键在于什么?预判对前方情况的预先计算。对于开放场景下的自动驾驶系统来说,前方情况需要预先的感知。这是一个实时计算。感知数据和计算决策高度耦合协同。感知层对对前方感知的距离越远,感知的信息越充分,计算层计算的算法模型越合理算力越强。智能驾驶系统实时计算的表现就越好。不要把数据感知和决策计算割裂开来。$炬光科技(SH688167)$

pangpangdudu04-07 23:43

我一直认为视觉方案的极限就是人眼。如果我们用肉眼开车存在看不清、看不见的情况,纯视觉方案在这些情况下也同样会看不清,靠“智能”、“算力”、“神经网络”是不够的。激光雷达也好,毫米波雷达也好,都是对视觉方案的一个必要补充,安全性必然优于纯视觉。毫米波雷达的分辨率不够,而激光雷达过去成本太高,让特斯拉走了纯视觉路线,现在成本不断下降,国内已经卷到400美元,2-3年内会到250美元,已经完全可以负担了;而和毫米波雷达直接竞争的短距离补盲激光雷达,价格会到100-150美元(某些厂宣称的900人民币其实是补盲雷达),毫米波雷达似乎变成了鸡肋。$Ouster(OUST)$ 有一个专利技术是彩色点云,给激光雷达的点云赋予真实世界物体的颜色。再过5-10年,当激光雷达的分辨率足够高,又能直接探测到真实的距离,纯视觉方案可能会消失,因为摄像头的功能被激光雷达取代了。当然这一天还很远。

全部讨论

楼主在美国?能不能介绍下自己?请问楼主是学什么的?在加州吧,是职业投资人还是从事什么工作?谢谢

所有业余玩票者都是凭想象在理解大模型。从视觉输入到驾驶员的动作,这个过程中决策信息已经损失了。除非人工标注,否则你不可能知道司机转弯是为了躲开路上的一滩污渍,还是预判到前面的行人可能过马路,还是单纯分神了。数据量大到一定程度,一些高频场景比如看到红灯就停下,可以被拟合到基本可用的程度,但天花板有限。深度学习无法在复杂的规划决策场景落地,核心就是这个死穴:同样的结果可以对应多个原因,原因的组合是无穷尽的。特斯拉这条路最多走到能用,但要好用到真正节省时间精力,不需要人一直盯着,让消费者愿意持续买单,那是完全不可能。

全自动驾驶问题是一个“智能问题”而不是“感知问题”~延伸思考,成熟的智能本身,能够自行补足决策中需要的感知信息中的不充分部分。

感知是第一步。感知不完整、不准确的情况下,哪谈得上智能?强光、黑夜、浓雾这些情况下摄像头看不清,怎么解决?

与楼主商榷两点。第一:关于感知冗余和智能冗余。首先,你提的问题出发点错了。在智能驾驶系统中,感知和智能不是谁比谁重要,而是两者应该如何更好适配。应为两者在系统中是高度耦合。其次,智能驾驶不是一个纯粹的智能问题,您用高考题目的求解来比喻智能驾驶。高考题目的求解是一个纯粹的问题求解。在求解过程中,考生不需要也不准和考场的监考老师,旁边的同学甚至考场外的家人朋友做各种感知,信息和计算层面上的信息互动。而智能驾驶是驾驶系统(无论生物形态的人类大脑,还是硅基的自动驾驶系统 )在驾驶过程中,持续不断的和周围场景进行感知信息和决策计算的迭代互动。通俗的说,自动驾驶不是关起门来闭门造车的智能游戏,而是一个知行互动的学习过程。对于要求知行互动的学习系统,读书做题是一种封闭场景下的数据投喂,而知行互动是一个开放场景下的实时数据计算。
第二关于安全的关键在预判。请问预判的关键在于什么?预判对前方情况的预先计算。对于开放场景下的自动驾驶系统来说,前方情况需要预先的感知。这是一个实时计算。感知数据和计算决策高度耦合协同。感知层对对前方感知的距离越远,感知的信息越充分,计算层计算的算法模型越合理算力越强。智能驾驶系统实时计算的表现就越好。不要把数据感知和决策计算割裂开来。$炬光科技(SH688167)$

所谓的特斯拉端到端,就是感知决策一体化。相对于感知,决策分开的业内主流方案能减少层级误差,决策更准确。但是,一体化后决策的可解释性就没了,就是一个黑盒。对于安全性影响可是很大的,特别是美国训练的拿到国内来用,可靠性是多少只有天知道了。估计最靠谱的就是重新训练,由于制裁的因素,重新训练的代价有点大,而且效率无法保证。而且,包含激光雷达的融合感知方案也可以使用端到端,所以,特斯拉进入国内后的前景也是有很大的不确定性的。

04-07 07:08

我刚打赏了这个帖子 ¥50,也推荐给你。非常好的文章,把自动驾驶的基本逻辑解释的非常清晰,且列举的例子非常容易理解。推荐对智能驾驶有兴趣的朋友,不管你是谁家的粉,都看一看。

04-07 08:25

道理是这个道理,只不过在简中网上发没有啥用处。他们会继续用一句话喷你,比如:没激光雷达就是不安全,美国没满大街电瓶车不算数,不信你来中国路况试试。
然后你要继续发长文解释,然而他们并不会看

我没搞明白的一点是:端到端在训练端应该是靠算力的巨大进步得以大力出奇迹不断进化,但是在推理端,为什么4-5年前的fw3.0也能搞定,或者说3.0 的摄像头清晰度也能解决?

好一个端到端唯一答案