Menethil_ 的讨论

发布于: 雪球回复:19喜欢:7
X 和 YouTube 上的 FSD v12,主要是 Whole Mars Catalog、Edge Case 和 AI DRIVER 这三位。一句话总结,FSD v12 相比 v11 在一些基础体验上出现了难以理解的倒退,但依然是当之无愧的城市辅助驾驶领域的 ChatGPT 时刻。
- 对于即将达到导航目的地这个场景,FSD v12 第一个行为是学会了靠边贴近路沿停车,而不是 v11 那样停在路中间请求接管。后面 FSD 衍生出 3 种随机的行为:
1. FSD v12 会在抵达目的地前 50 - 100 米看到车位直接拐进去,然后驻车。
2. FSD v12 抵达了目的地但视野范围内没有停车位,系统会继续往前开,连续 4 个右转兜回来,在抵达目的地前找到一个车位停进去,然后驻车。
3. FSD v12 会在抵达目的地前 50 - 100 米,看到别的小巷子,提前拐进去——注意,这个时候 FSD 走的路线和导航是不一致的,导航就会继续不断更新路径规划——但 FSD 压根不按导航开,FSD 会绕着目的地周围转,直到找到车位停进去,然后驻车。
这三种行为,唯一的共性就是「人也是这么开的」。
- 当前的 FSD v12 的系统后台跑着两套网络。有足够的证据表明,仪表上的可视化信息和高速上运行的 FSD,肯定不是 v12 驱动的,只有城市道路是 v12 驱动。
这一点非常奇特,因为我们看 22 年的特斯拉 AI Day,其实 HW 3.0 的算力已经用得很满了。
如果我们看仪表上的可视化信息,会发现 FSD 的感知性能其实出现了严重的倒退,各种检测、跳变都不符合 FSD v11 应该有的表现,更不可能是 v12,否则规控不会那么行云流水,说明感知的置信度是非常高的。
高速场景从表现看,应该就是 v11,Teslascope 说确实是 v11,特斯拉仍在对高速场景的 v12 进行测试,但未获官方证实。
- 对于人类驾驶员肉眼不太好分辨的老旧减速带、烂路上看不太清的小凸起和一滩水渍,FSD v11 都当做不存在,FSD v12 的处理和人是一致的——尤其是水渍,人选择降低车速或打方向绕一下水渍,是因为不想把车搞脏,FSD v12 显然理解不到这一层,但也会这样做,Ta 只是学会了人的驾驶方式。
- 相比 v11,FSD v12 的近身博弈能力取得了巨大的改进,美国也还是有那种没有交规、人车混行的场景,比如停车场,FSD v12 需要大量通过和其他交通参与物的意图交互来进行路径规划,其实就是辅助驾驶最终极的场景,这一点上 v12 取得的进步是巨大的。
一个典型的场景是窄路错车,不局限于停车场,中国的国道省道县道乡道有大量双向共享,可临时借道的道路,如果恰好还有临停车,就非常依赖本车和其他车驾驶员的意图的交互。
A:你先走?
B:还是你先走。
A:好,那我先走。
这样的信息交互是仅通过观察车辆的启停来实现的,FSD v12 实现了,至少在 AI DRIVER 的测试中实现了一次。
此外,这类场景里的路口处,有时候对向驾驶员是不打灯的,人类驾驶员很多时候是根据对向车辆的车身姿态——甚至是前轮的转向角来意会对方接下来的驾驶轨迹的。FSD v12 也可以。
一句话,对于弱甚至是无交规、交通灯光信号的驾驶场景,FSD v12 的表现取得了巨大的进步。
最重要的是,正如特斯拉 Autopilot 规控负责人 Paril Jain 说的,特斯拉没有专门投入资源挨个解决这些场景,许多能力是 FSD v12 看了大量的视频无师自通的。
当然了,这也使得我们 3 个月前制作的 FSD v11 体验视频完全失去了意义。
- 最意外的 bug:当你开在路上,整条路就你一辆车的时候,FSD v12 的速度设置就会崩溃,会时而加速,时而减速,难以总结其调整逻辑——我有一个猜测:人开车确实不会完全固定一个速度,除非开了定速巡航,难道这也是跟人学的?
没错,各种艰难复杂无法编程的场景,看起来 FSD v12 都学会了,但最简单的 0 障碍物的大直路,FSD v12 表现还不如 Autopilot。
- AI DRIVER 做了一个实验,把车带到一个新的没绘制任何车道车位信息的小停车场,打开 FSD v12,然后——v12 会不断错过唯一的出口,不断转圈,你可以脑补一下,类似一个拉磨的驴。
当然,这可能难以称为一个 bug,只能说至少目前 FSD v12 并未真正获得一个人类和外界交互的能力。
- 正如 ChatGPT 有幻觉、会胡言乱语、没有完全和人类对齐,但依然掩盖不了其展现出来的巨大潜力。FSD v12 太正义了,必须要 all in 端到端。

热门回复

只需要观察FSD的take rate就够了

FSD V12的情况我也一直在跟踪。我有必要提醒一下,如果真的出现了自动驾驶的ChatGPT时刻,那这个认知绝不会仅仅局限在特斯拉粉丝这个群体。

哪里有具体的数据吗?还是只能根据财报猜测?

请问您是微博上的 不是郑小康 吗,我看那里也有个一模一样的分析,如果是的话我两边都关注一下,多跟您学习,谢谢~ 网页链接

给FSD一个与外界交流的声音渠道,有些场合下可以FSD自己开口沟通。

不是哦,我也是从别的渠道看来的,不是原创,不过我认为加大算力参数规模数据,再过个两代可能会涌现惊喜。
而OpenAI的Sora效果这么好,为什么呢?我猜可能和算力关系最大。OpenAI公布了一个算力对视频效果提升的影响:1倍算力时,勉强能认出是一条雪地里的狗,只不过更像是梦境里的,经常变形;4倍算力时,就不像在梦境了;32倍算力,就栩栩如生了。OpenAI自从GPT-3开始就坚信Tranformer模型大力出奇迹的规律,在Sora的研发中应该堆满了全部算力。而谷歌的投入未必有这么大。
OpenAI把Sora起名“世界模拟器”的原因是,它只通过看图就学会了生成世界和很多物理规律。比如,所有训练都是对二维图像的理解,但它已经可以很好地把握透视的立体效果了,它也可以很好地把控时间对物体变化的影响,时空规律里最重要的基本原则它已经掌握得差不多了。
这就和传统的游戏引擎不一样了。那些引擎是针对性地植入了很多今天已经发现的物理定律,比如说偏微分方程、100条,然后再在考虑运算量的基础上精确控制每个像素的变化,这才形成了水波或者毛发的效果。而Sora没有事先植入任何一条物理定律,它只是通过观看其他图片和视频就学会了这些。
在理解世界这一点上,世界上还有另外一家公司也做出了类似水准的产品,那就是特斯拉的视觉自动驾驶。
因为想要自动驾驶水平高,就要历遍各种可能的情况,尤其是那些老司机一辈子都难遇到几次的特殊情况,比如路面积雪的夜里,接近路口时是黄灯,对向车开着大灯晃你,这时突然有人横穿马路,这种情况下,驾驶员做怎么样的动作才安全。这需要在相同场景下反复训练。
也许自动驾驶汽车在真实路面会偶尔遇到,但不可能遇到50次,而训练如何应对这种特殊情况,要求反复5万次才可以。那就说明自动驾驶永远也不可能真正实现了吗?
不是。特斯拉靠的是自动生成路上驾驶的视频。同样一个路口,它可以训练各种方向转弯,日落余晖光下,日出阳光下,夜幕降临下,有滑板青年闯入的效果……这些自动生成的视频已经是最近两年特斯拉提升自动驾驶水平90%的驾驶经验来源了。特斯拉早就不依赖于真实路面的训练经验来提升自动驾驶了。

//