从Attention注意力机制,看华为智驾ADS激光雷达方案的缺陷【科普篇】

发布于: iPhone转发:2回复:16喜欢:10

这篇文章假设你知道Transformer的Attention机制。如果不知道也没事,大概说一下。

Attention机制就是注意力机制,也就是关注点,同样一件事情,不同的人会有不同关注点。比如老师说:“小明同学又逃课去打篮球了。”老师的关注点是“小明”、“又”、“逃课”,说明老师想的是:“又是这个小明逃课”。而小明的好朋友小强的关注点可能是“小明”、“篮球”,他想的是:“小明打篮球也不叫我”。这就是Attention。

我们再来看图像的Attention。下面这个图,大家应该很熟悉,是理想汽车被追尾的场景。原因是理想汽车的视觉识别系统,把这个广告牌上的车子识别出来了,当成了真的汽车,然后就刹车了,导致后车追尾理想。

我们分析一下,这个图,如果从图像识别的角度,确实,它上面有2台车。然而,如果从一个司机的Attention的角度,它是一个立在高速上的广告牌,而且并不阻挡交通。Attention,其实就是在视觉上加入了人的关注点。

司机看到这个图像,他关注的首先是这个路上面有没有汽车,而不会首先关注广告牌,因为他知道这是个广告牌,后面也许会再关注这个广告牌上的汽车。很显然,理想的视觉系统,是没有Attention的,它只是单纯的图像识别,确实,这是一台车。我们再抽象一点,Attention包含了人类对事物的理解。

很多分析认为,理想的这个追尾,如果有激光雷达就好了。表面来看,确实是这样,因为激光雷达很容易就能发现这个物体是在路面的上方,不挡路,不是障碍物。激光雷达不知道这是广告牌还是什么,它只知道是一个不影响行驶的物体,正常通行即可,不会去刹车。然而如果是下面这幅图像:

我在广告牌上加了“前方塌方”四个字,激光雷达就无法理解这个信息。因为激光雷达没有识别文字的能力,它只能发现这个物体,上面的信息无法了解。那么有人会说了,华为的GOD网络,是激光雷达和视觉的融合,没错,是融合,然而这种融合就形成了干扰了。因为激光雷达把广告牌的形状位置都找出来了,而我们行驶的时候,如果看到“前方塌方”,我们关注的是这四个字的意义,而不是这个广告牌本身。

我们知道特斯拉购买了很多激光雷达,用在训练数据收集车上,用来标注视频中的物体。注意,标注可以是人工标注,这个标注就是司机的“注意力”,也就是后续在训练的时候需要大模型关注的地方。在上面这幅图,特斯拉可能的标注是“路”、“路边的栏杆”、“广告牌上的字”!特斯拉不会去标注这个广告牌的位置,因为这个不需要司机关注,开车的司机只要关注路上没车,然后看广告牌上的字即可,不需要关注广告牌的位置,也不需要关注广告牌这个物体本身。因为Attention包含了人类对事物的理解,和激光雷达的理解是不一样的。

再看华为的ADS 2.0和3.0,都加了激光雷达,也就是说,无论是否与视觉信息进行融合,雷达都会注意到广告牌的位置,并识别为一个物体,然后去和视觉融合,这就提供了错误的Attention关注点,至少会影响推理速度,因为算法多处理了一个干扰。然而,这种干扰有时候会使得决策错误。

比如,我们人类开车看到路边有一个路牌,上面写“前方修路”,我们就停车,然后掉头了。如果用ADS来学习这个人的驾驶,它关注到了激光雷达给的信息,是一个路牌形状的障碍物,然后车就掉头了。ADS不知道的是,人是看到路牌上面的“前方修路”才掉头的,人的Attention是“前方修路”,人根本没有去关注这个路牌本身。下一次ADS自己开的时候,发现了同样形状的一个路牌,就掉头了,其实这次路牌上面写的是“欢迎回家”!

总结,视觉信息,是最符合人类“Attention”机制的,它和AI Agent的结合也会更加完美。激光雷达正常情况是可以识别障碍物,但是它对周围所有可以反射雷达波的物体都进行了“关注”,和视觉信号的“Attention”会形成干扰,特别是当训练数据不足的时候,会影响Transformer对视觉信号的理解。

转自:诺博士

$特斯拉(TSLA)$ $赛力斯(SH601127)$

精彩讨论

icefighter05-18 15:05

最理性的人,谁都不信。

蓝蓝皮鼠05-18 13:38

这个解读有意思,原始世界是为视觉设计的。加上其他传感器相当于改变了感知权重,就会带来一些意想不到的问题。

我不是肥仔05-18 14:38

信马斯克,还是信余大嘴,就像一道智商题。很多人觉得自己比马斯克聪明很多很多,还给马斯克科普视觉是多么有缺陷。

左庶子05-18 15:47

游资的玩法,有能力就参与

Brooce05-18 15:25

一股小作文的气息。
注意力机制不是什么新鲜事物,更早的卷积神经网络也包含局部图像特征,不明白为何特意拿来说。
传感数据会影响视觉模型训练也挺奇怪的,那就单独在训练一个就行了,模型岂是如此不便之物?

全部讨论

05-18 13:38

这个解读有意思,原始世界是为视觉设计的。加上其他传感器相当于改变了感知权重,就会带来一些意想不到的问题。

05-18 14:38

信马斯克,还是信余大嘴,就像一道智商题。很多人觉得自己比马斯克聪明很多很多,还给马斯克科普视觉是多么有缺陷。

05-18 13:23

颠倒黑白啊,智驾纯视觉又不需要理解语音

05-18 15:22

哪个最贴近人类大脑处理信息的模式哪个就会胜出

05-19 19:50

你说复杂了.本质上就是识别与理解的区别!

05-18 13:42

用得着这么复杂的分析吗?垃圾是谁,从来就是一贯明确的

05-18 15:25

一股小作文的气息。
注意力机制不是什么新鲜事物,更早的卷积神经网络也包含局部图像特征,不明白为何特意拿来说。
传感数据会影响视觉模型训练也挺奇怪的,那就单独在训练一个就行了,模型岂是如此不便之物?

05-18 18:26

怎么不像是科普,像是中小学生的寒假作业。

05-18 19:00

这些个举例完全没有合理性,前方塌方和前方修路,都不会只是这样一个毫无干扰的文字信息,一定会有障碍物在前面做提示的!机器视觉也不可能去识别路边标识牌和广告牌的文字吧?要不然这得多大的信息量?

05-19 11:32

简单总结一下:
1.激光雷达优势是在AEB方面,也就是在视线不好、视野盲区等情况下的紧急刹车,网上问界封神的视频也多是这种视频。
2.视觉的优势是AI,也就是在所谓的智驾方面更智能更主动。