从Attention注意力机制，看华为智驾ADS激光雷达方案的缺陷【科普篇】这篇文章假设你知道Transformer的Attention机制。如果不知道也没事，大概说一下。Attention机制就...

这篇文章假设你知道Transformer的Attention机制。如果不知道也没事，大概说一下。

Attention机制就是注意力机制，也就是关注点，同样一件事情，不同的人会有不同关注点。比如老师说：“小明同学又逃课去打篮球了。”老师的关注点是“小明”、“又”、“逃课”，说明老师想的是：“又是这个小明逃课”。而小明的好朋友小强的关注点可能是“小明”、“篮球”，他想的是：“小明打篮球也不叫我”。这就是Attention。

我们再来看图像的Attention。下面这个图，大家应该很熟悉，是理想汽车被追尾的场景。原因是理想汽车的视觉识别系统，把这个广告牌上的车子识别出来了，当成了真的汽车，然后就刹车了，导致后车追尾理想。

我们分析一下，这个图，如果从图像识别的角度，确实，它上面有2台车。然而，如果从一个司机的Attention的角度，它是一个立在高速上的广告牌，而且并不阻挡交通。Attention，其实就是在视觉上加入了人的关注点。

司机看到这个图像，他关注的首先是这个路上面有没有汽车，而不会首先关注广告牌，因为他知道这是个广告牌，后面也许会再关注这个广告牌上的汽车。很显然，理想的视觉系统，是没有Attention的，它只是单纯的图像识别，确实，这是一台车。我们再抽象一点，Attention包含了人类对事物的理解。

很多分析认为，理想的这个追尾，如果有激光雷达就好了。表面来看，确实是这样，因为激光雷达很容易就能发现这个物体是在路面的上方，不挡路，不是障碍物。激光雷达不知道这是广告牌还是什么，它只知道是一个不影响行驶的物体，正常通行即可，不会去刹车。然而如果是下面这幅图像：

我在广告牌上加了“前方塌方”四个字，激光雷达就无法理解这个信息。因为激光雷达没有识别文字的能力，它只能发现这个物体，上面的信息无法了解。那么有人会说了，华为的GOD网络，是激光雷达和视觉的融合，没错，是融合，然而这种融合就形成了干扰了。因为激光雷达把广告牌的形状位置都找出来了，而我们行驶的时候，如果看到“前方塌方”，我们关注的是这四个字的意义，而不是这个广告牌本身。

我们知道特斯拉购买了很多激光雷达，用在训练数据收集车上，用来标注视频中的物体。注意，标注可以是人工标注，这个标注就是司机的“注意力”，也就是后续在训练的时候需要大模型关注的地方。在上面这幅图，特斯拉可能的标注是“路”、“路边的栏杆”、“广告牌上的字”！特斯拉不会去标注这个广告牌的位置，因为这个不需要司机关注，开车的司机只要关注路上没车，然后看广告牌上的字即可，不需要关注广告牌的位置，也不需要关注广告牌这个物体本身。因为Attention包含了人类对事物的理解，和激光雷达的理解是不一样的。

再看华为的ADS 2.0和3.0，都加了激光雷达，也就是说，无论是否与视觉信息进行融合，雷达都会注意到广告牌的位置，并识别为一个物体，然后去和视觉融合，这就提供了错误的Attention关注点，至少会影响推理速度，因为算法多处理了一个干扰。然而，这种干扰有时候会使得决策错误。

比如，我们人类开车看到路边有一个路牌，上面写“前方修路”，我们就停车，然后掉头了。如果用ADS来学习这个人的驾驶，它关注到了激光雷达给的信息，是一个路牌形状的障碍物，然后车就掉头了。ADS不知道的是，人是看到路牌上面的“前方修路”才掉头的，人的Attention是“前方修路”，人根本没有去关注这个路牌本身。下一次ADS自己开的时候，发现了同样形状的一个路牌，就掉头了，其实这次路牌上面写的是“欢迎回家”！

总结，视觉信息，是最符合人类“Attention”机制的，它和AI Agent的结合也会更加完美。激光雷达正常情况是可以识别障碍物，但是它对周围所有可以反射雷达波的物体都进行了“关注”，和视觉信号的“Attention”会形成干扰，特别是当训练数据不足的时候，会影响Transformer对视觉信号的理解。

转自：诺博士

$特斯拉(TSLA)$ $赛力斯(SH601127)$

从Attention注意力机制，看华为智驾ADS激光雷达方案的缺陷【科普篇】

作者：一把梭十年

精彩讨论

全部讨论