讨论详情 - 雪球

关于FSD，端到端模型FSD v12上车：$特斯拉(TSLA)$
技术上最大的变化是采用了“端到端模型”而放弃了基于规则的算法，实际的体验，从推特和油管零星的视频评测中，看到v12相比v11带来的显著变化是“更像人类”、驾驶流畅、人车博弈场景等观感上的体验的确有提升。让大家畅想真正的L3是不是越来越近了。
3.13推上有人收到了FSD v12.3 的发布，elon也表示这是一个大的进步
那“端到端”具体是什么？建议大家阅读CVPR 2023最佳论文，UniAD。总结来说，FSD v12的最大变化在于规控端去掉了基于规则的算法思路，而选择神经网络，但和感知还是分立的模块。
我们知道过去自动驾驶领域的规划控制部分一直是基于规则算法的，包括L4公司以及FSD 以前的版本，需要写大量的代码来解决不同场景的车辆控制问题，但到了一定程度之后发现模型进步很慢，因为corner case茫茫多，且不同规则之间互相影响导致有些场景解决好了，又出现问题
那“端到端”就是通过transformer直接丢入数据进行大参量模型的训练，相应的模型提升方式变成了：发现corner case→收集更多针对该场景的数据→模型训练，到这里才正式形成了数据闭环（这就可以理解过去为什么“遥遥领先公司”数据没那么多，但因为有很大的写规则算法的团队，23年的智驾效果就很快超过了xp）
但目前相当一部分人对于“端到端”自动驾驶模型的错误认知是，模型输入各种传感器信息（图像、雷达，mems传感器等等），直接输出各种规控指令，是一个单一的大参数量的神经网络大模型。但实际上目前的FSD v12的感知和规控还是分立的模块，如下图是2023CVPR最佳论文UniAD所展示的模型结构，感知被分为BEV特征构建、目标检测、地图特征提取、轨迹预测和占位网络，这些子任务网路通过transformer模型的中间层参数链接在一起，依然是一个复杂的人工结构（过去2年的Tesla并没有如21/22年那样在AI Day上展示模型结构，笔者猜测是接近UniAD论文展示的结构）
但不得不承认，FSD beta从v9到v12，分别实现了感知和规控算法的“神经网络化”/“端到端”化，这个变化在感知端效果的提升更为明显，已经得到了验证。所以从v12开始FSD只要持续丢入高质量数据和使用更大的参数模型，体验的提升就是可以预期的吗？
笔者认为实际速度可能没有大家想象的那么快，首先是推动模型进步的几个核心因素：
高质量的人类优秀司机驾驶数据，而且要针对出问题的corner case场景
更大参数量的模型，like GPT-2到GPT-4的过程
更好的模型工具（感知端Tesla找到了BEV和occupancy）
如何理解这几个因素？
1. 收集高质量的corner case的数据速度没那么快，因为本身这个case就是“corner”的；
2. 更大参数量的模型？目前v12大概是1亿参数，相比目前动辄百亿参数的LLM还是小了很多，但车端芯片又面临性能瓶颈（HW4.0 500Tops），这也让FSD研发中多了一个限制，Elon在前几天MS TMT conference上也提到了这一点；
3. 更好的模型结构和工具？FSD目前已经是自动驾驶领域最领先的公司，从学界/业界寻找工具创新的能力也是很强的（硅谷人才确实多）。比如OpenAI发布的Sora和Tesla 23年CVPR上展示的能力，也给了大家两个方面的启发：
1）仿真数据生成，来提升数据收集的效率问题，因为过去基于GPU渲染的仿真数据不work，而类sora的模型可能会解决这个问题（如更多样化的物理世界仿真）
2）提升感知模型的理解能力，比如对物体估计的预测更准确，以及识别目标的物理属性（like，纸箱子和石头的破坏程度是完全不一样的）
因此，笔者认为FSD v12距离足够好的体验、让用户愿意为之支付1.2万美元、甚至实现真正的L3，都还有相当长的路要走。虽然期待Tesla在自动驾驶领域的突破，只是这个突破可能不会来的那么快（GPT-2 到GPT-3.5 花了2年时间）。以及传闻FSD v12在24Q2/Q3落地中国，期待一下FSD和“遥遥领先”的实际能力对比！
总之，Elon毫无疑问是全球最牛逼的CEO之一，自动驾驶是未来最好的赛道之一，坐拥最领先自动驾驶技术的特斯拉也是全球最贵车企。但当卖车业务和FSD的上下行周期错配，会如何影响其股价和估值体系？拭目以待，也欢迎更多人与我讨论。关于FSD，端到端模型FSD

andyding 的讨论

作者：andyding