andyding 的讨论

发布于: 修改于:雪球回复:0喜欢:1
关于FSD,端到端模型FSD v12上车:$特斯拉(TSLA)$
技术上最大的变化是采用了“端到端模型”而放弃了基于规则的算法,实际的体验,从推特和油管零星的视频评测中,看到v12相比v11带来的显著变化是“更像人类”、驾驶流畅、人车博弈场景等观感上的体验的确有提升。让大家畅想真正的L3是不是越来越近了。
3.13推上有人收到了FSD v12.3 的发布,elon也表示这是一个大的进步
那“端到端”具体是什么?建议大家阅读CVPR 2023最佳论文,UniAD。总结来说,FSD v12的最大变化在于规控端去掉了基于规则的算法思路,而选择神经网络,但和感知还是分立的模块。
我们知道过去自动驾驶领域的规划控制部分一直是基于规则算法的,包括L4公司以及FSD 以前的版本,需要写大量的代码来解决不同场景的车辆控制问题,但到了一定程度之后发现模型进步很慢,因为corner case茫茫多,且不同规则之间互相影响导致有些场景解决好了,又出现问题
那“端到端”就是通过transformer直接丢入数据进行大参量模型的训练,相应的模型提升方式变成了:发现corner case→收集更多针对该场景的数据→模型训练,到这里才正式形成了数据闭环(这就可以理解过去为什么“遥遥领先公司”数据没那么多,但因为有很大的写规则算法的团队,23年的智驾效果就很快超过了xp)
但目前相当一部分人对于“端到端”自动驾驶模型的错误认知是,模型输入各种传感器信息(图像、雷达,mems传感器等等),直接输出各种规控指令,是一个单一的大参数量的神经网络大模型。但实际上目前的FSD v12的感知和规控还是分立的模块,如下图是2023CVPR最佳论文UniAD所展示的模型结构,感知被分为BEV特征构建、目标检测、地图特征提取、轨迹预测和占位网络,这些子任务网路通过transformer模型的中间层参数链接在一起,依然是一个复杂的人工结构(过去2年的Tesla并没有如21/22年那样在AI Day上展示模型结构,笔者猜测是接近UniAD论文展示的结构)
但不得不承认,FSD beta从v9到v12,分别实现了感知和规控算法的“神经网络化”/“端到端”化,这个变化在感知端效果的提升更为明显,已经得到了验证。所以从v12开始FSD只要持续丢入高质量数据和使用更大的参数模型,体验的提升就是可以预期的吗?
笔者认为实际速度可能没有大家想象的那么快,首先是推动模型进步的几个核心因素:
高质量的人类优秀司机驾驶数据,而且要针对出问题的corner case场景
更大参数量的模型,like GPT-2到GPT-4的过程
更好的模型工具(感知端Tesla找到了BEV和occupancy)
如何理解这几个因素?
1. 收集高质量的corner case的数据速度没那么快,因为本身这个case就是“corner”的;
2. 更大参数量的模型?目前v12大概是1亿参数,相比目前动辄百亿参数的LLM还是小了很多,但车端芯片又面临性能瓶颈(HW4.0 500Tops),这也让FSD研发中多了一个限制,Elon在前几天MS TMT conference上也提到了这一点;
3. 更好的模型结构和工具?FSD目前已经是自动驾驶领域最领先的公司,从学界/业界寻找工具创新的能力也是很强的(硅谷人才确实多)。比如OpenAI发布的Sora和Tesla 23年CVPR上展示的能力,也给了大家两个方面的启发:
1)仿真数据生成,来提升数据收集的效率问题,因为过去基于GPU渲染的仿真数据不work,而类sora的模型可能会解决这个问题(如更多样化的物理世界仿真)
2)提升感知模型的理解能力,比如对物体估计的预测更准确,以及识别目标的物理属性(like,纸箱子和石头的破坏程度是完全不一样的)
因此,笔者认为FSD v12距离足够好的体验、让用户愿意为之支付1.2万美元、甚至实现真正的L3,都还有相当长的路要走。虽然期待Tesla在自动驾驶领域的突破,只是这个突破可能不会来的那么快(GPT-2 到GPT-3.5 花了2年时间)。以及传闻FSD v12在24Q2/Q3落地中国,期待一下FSD和“遥遥领先”的实际能力对比!
总之,Elon毫无疑问是全球最牛逼的CEO之一,自动驾驶是未来最好的赛道之一,坐拥最领先自动驾驶技术的特斯拉也是全球最贵车企。但当卖车业务和FSD的上下行周期错配,会如何影响其股价和估值体系?拭目以待,也欢迎更多人与我讨论。关于FSD,端到端模型FSD