讨论详情 - 雪球

发布于:2024-02-29 16:04

雪球

回复：19

喜欢：7

X 和 YouTube 上的 FSD v12，主要是 Whole Mars Catalog、Edge Case 和 AI DRIVER 这三位。一句话总结，FSD v12 相比 v11 在一些基础体验上出现了难以理解的倒退，但依然是当之无愧的城市辅助驾驶领域的 ChatGPT 时刻。
- 对于即将达到导航目的地这个场景，FSD v12 第一个行为是学会了靠边贴近路沿停车，而不是 v11 那样停在路中间请求接管。后面 FSD 衍生出 3 种随机的行为：
1. FSD v12 会在抵达目的地前 50 - 100 米看到车位直接拐进去，然后驻车。
2. FSD v12 抵达了目的地但视野范围内没有停车位，系统会继续往前开，连续 4 个右转兜回来，在抵达目的地前找到一个车位停进去，然后驻车。
3. FSD v12 会在抵达目的地前 50 - 100 米，看到别的小巷子，提前拐进去——注意，这个时候 FSD 走的路线和导航是不一致的，导航就会继续不断更新路径规划——但 FSD 压根不按导航开，FSD 会绕着目的地周围转，直到找到车位停进去，然后驻车。
这三种行为，唯一的共性就是「人也是这么开的」。
- 当前的 FSD v12 的系统后台跑着两套网络。有足够的证据表明，仪表上的可视化信息和高速上运行的 FSD，肯定不是 v12 驱动的，只有城市道路是 v12 驱动。
这一点非常奇特，因为我们看 22 年的特斯拉 AI Day，其实 HW 3.0 的算力已经用得很满了。
如果我们看仪表上的可视化信息，会发现 FSD 的感知性能其实出现了严重的倒退，各种检测、跳变都不符合 FSD v11 应该有的表现，更不可能是 v12，否则规控不会那么行云流水，说明感知的置信度是非常高的。
高速场景从表现看，应该就是 v11，Teslascope 说确实是 v11，特斯拉仍在对高速场景的 v12 进行测试，但未获官方证实。
- 对于人类驾驶员肉眼不太好分辨的老旧减速带、烂路上看不太清的小凸起和一滩水渍，FSD v11 都当做不存在，FSD v12 的处理和人是一致的——尤其是水渍，人选择降低车速或打方向绕一下水渍，是因为不想把车搞脏，FSD v12 显然理解不到这一层，但也会这样做，Ta 只是学会了人的驾驶方式。
- 相比 v11，FSD v12 的近身博弈能力取得了巨大的改进，美国也还是有那种没有交规、人车混行的场景，比如停车场，FSD v12 需要大量通过和其他交通参与物的意图交互来进行路径规划，其实就是辅助驾驶最终极的场景，这一点上 v12 取得的进步是巨大的。
一个典型的场景是窄路错车，不局限于停车场，中国的国道省道县道乡道有大量双向共享，可临时借道的道路，如果恰好还有临停车，就非常依赖本车和其他车驾驶员的意图的交互。
A：你先走？
B：还是你先走。
A：好，那我先走。
这样的信息交互是仅通过观察车辆的启停来实现的，FSD v12 实现了，至少在 AI DRIVER 的测试中实现了一次。
此外，这类场景里的路口处，有时候对向驾驶员是不打灯的，人类驾驶员很多时候是根据对向车辆的车身姿态——甚至是前轮的转向角来意会对方接下来的驾驶轨迹的。FSD v12 也可以。
一句话，对于弱甚至是无交规、交通灯光信号的驾驶场景，FSD v12 的表现取得了巨大的进步。
最重要的是，正如特斯拉 Autopilot 规控负责人 Paril Jain 说的，特斯拉没有专门投入资源挨个解决这些场景，许多能力是 FSD v12 看了大量的视频无师自通的。
当然了，这也使得我们 3 个月前制作的 FSD v11 体验视频完全失去了意义。
- 最意外的 bug：当你开在路上，整条路就你一辆车的时候，FSD v12 的速度设置就会崩溃，会时而加速，时而减速，难以总结其调整逻辑——我有一个猜测：人开车确实不会完全固定一个速度，除非开了定速巡航，难道这也是跟人学的？
没错，各种艰难复杂无法编程的场景，看起来 FSD v12 都学会了，但最简单的 0 障碍物的大直路，FSD v12 表现还不如 Autopilot。
- AI DRIVER 做了一个实验，把车带到一个新的没绘制任何车道车位信息的小停车场，打开 FSD v12，然后——v12 会不断错过唯一的出口，不断转圈，你可以脑补一下，类似一个拉磨的驴。
当然，这可能难以称为一个 bug，只能说至少目前 FSD v12 并未真正获得一个人类和外界交互的能力。
- 正如 ChatGPT 有幻觉、会胡言乱语、没有完全和人类对齐，但依然掩盖不了其展现出来的巨大潜力。FSD v12 太正义了，必须要 all in 端到端。

热门回复

02-29 17:43

转！

02-29 20:24

只需要观察FSD的take rate就够了

Elon伟大的自由

02-29 17:04

查看讨论

FSD V12的情况我也一直在跟踪。我有必要提醒一下，如果真的出现了自动驾驶的ChatGPT时刻，那这个认知绝不会仅仅局限在特斯拉粉丝这个群体。

Donniezhang

02-29 23:58

查看讨论

哪里有具体的数据吗？还是只能根据财报猜测？

章锴

03-03 19:47

查看讨论

请问您是微博上的不是郑小康吗，我看那里也有个一模一样的分析，如果是的话我两边都关注一下，多跟您学习，谢谢~ 网页链接

勤奋的树獭

02-29 18:03

查看讨论

给FSD一个与外界交流的声音渠道，有些场合下可以FSD自己开口沟通。

Menethil_

03-04 12:44

查看讨论

不是哦，我也是从别的渠道看来的，不是原创，不过我认为加大算力参数规模数据，再过个两代可能会涌现惊喜。
而OpenAI的Sora效果这么好，为什么呢？我猜可能和算力关系最大。OpenAI公布了一个算力对视频效果提升的影响：1倍算力时，勉强能认出是一条雪地里的狗，只不过更像是梦境里的，经常变形；4倍算力时，就不像在梦境了；32倍算力，就栩栩如生了。OpenAI自从GPT-3开始就坚信Tranformer模型大力出奇迹的规律，在Sora的研发中应该堆满了全部算力。而谷歌的投入未必有这么大。
OpenAI把Sora起名“世界模拟器”的原因是，它只通过看图就学会了生成世界和很多物理规律。比如，所有训练都是对二维图像的理解，但它已经可以很好地把握透视的立体效果了，它也可以很好地把控时间对物体变化的影响，时空规律里最重要的基本原则它已经掌握得差不多了。
这就和传统的游戏引擎不一样了。那些引擎是针对性地植入了很多今天已经发现的物理定律，比如说偏微分方程、100条，然后再在考虑运算量的基础上精确控制每个像素的变化，这才形成了水波或者毛发的效果。而Sora没有事先植入任何一条物理定律，它只是通过观看其他图片和视频就学会了这些。
在理解世界这一点上，世界上还有另外一家公司也做出了类似水准的产品，那就是特斯拉的视觉自动驾驶。
因为想要自动驾驶水平高，就要历遍各种可能的情况，尤其是那些老司机一辈子都难遇到几次的特殊情况，比如路面积雪的夜里，接近路口时是黄灯，对向车开着大灯晃你，这时突然有人横穿马路，这种情况下，驾驶员做怎么样的动作才安全。这需要在相同场景下反复训练。
也许自动驾驶汽车在真实路面会偶尔遇到，但不可能遇到50次，而训练如何应对这种特殊情况，要求反复5万次才可以。那就说明自动驾驶永远也不可能真正实现了吗？
不是。特斯拉靠的是自动生成路上驾驶的视频。同样一个路口，它可以训练各种方向转弯，日落余晖光下，日出阳光下，夜幕降临下，有滑板青年闯入的效果……这些自动生成的视频已经是最近两年特斯拉提升自动驾驶水平90%的驾驶经验来源了。特斯拉早就不依赖于真实路面的训练经验来提升自动驾驶了。

03-03 16:22

03-01 18:30

转

03-01 11:09

mark

Menethil_ 的讨论

作者：Menethil_

热门回复