Sora一出，「纯视觉路线」要赢了？撰文 | 马青竹编辑｜周长贤大年初七那天，中国人还在休假，远在大洋彼岸的生成式AI技术领头羊OpenAI，甩出新版的...

撰文 | 马青竹编辑｜周长贤

大年初七那天，中国人还在休假，远在大洋彼岸的生成式AI技术领头羊OpenAI，甩出新版的文生视频大模型Sora，提醒大家该回去上班，继续卷。

但对于视频编辑来说，有班上的日子，可能不多了。

说实话，笔者心里又喜又慌。喜的是，输入文字，产出3D视频，意味着未来写文章如同拍电影。慌的是，过去对AGI和智能驾驶的前景预估，可能都是错的。

纯视觉被低估？OCC国内首上车

诚如自封Sora「布道者」的周鸿祎所言，Sora将给AGI和自动驾驶带来巨大影响。原来的自动驾驶技术过度强调感知层面，而没有重视认知层面。

这话对过于依赖激光雷达和各种雷达的方案商来说，有些刺耳。高阶玩家都在玩视觉大模型级别的场景理解和场景预测了，咱们还卷这些上限不高又昂贵的感知外挂。

再回首，不得不佩服马斯克的认知，及对纯视觉路线的战略眼光。不过，OpenAI借Sora狠刷这么一波存在感，争强好胜的马斯克也不爱看。

2 月 18 日，马斯克在科技主播 @Dr.KnowItAll 主题为「OpenAI 的重磅炸弹证实了特斯拉的理论」的视频下留言，称「特斯拉已经能够用精确物理原理制作真实世界视频大约一年了」。

过去，国内整车厂有一种不言自明的默契：我们学不起特斯拉。特斯拉纯视觉FSD研发启动早，数据多，从芯片到超算，布局完全。

而且特斯拉太财大气粗了，光去年8月启动的超级计算机，就用掉了1万片英伟达的H100。H100可是一片难求的硬通货啊。相比之下，几千块的激光雷达并不贵，还有利于写广告词。比如曾经的“四颗以下，请别说话。”明白了吧，纯视觉才是更贵的技术路线，而很多国内厂家揣着明白装糊涂。

世界变化太快，Sora展示出AI大模型的生长潜力，行业应反思路径，切勿刻舟求剑。

恰逢其时，跟特斯拉一起唯二信仰纯视觉路线的极越，也有了视觉领域的大动作。

2月23日，极越正式向用户OTA全量推送V1.3.1大版本，业内最前沿的纯视觉OCC（Occupancy Network）占用网络模型正式上车，因此集齐了“BEV+OCC+Transformer”纯视觉方案“B.O.T三向箔”，仅从模型的领先程度衡量，极越牢牢站稳中国智驾第一梯队。

纯视觉「开城」，全国跑起来

V1.3.1原计划春节前推送，极越CEO夏一平称，晚来的V1.3.1也是很幸福的。迟到的原因是，临时增加了一些原定1.4版本推送的内容。

V1.3.1最值得看的点是，全量推送OCC占用网络，通用视觉能力进化，对世界的重建和刻画更细致了。极越CEO夏一平表示：“OCC占用网络大幅提升了纯视觉的异形障碍物识别和场景泛化的能力。”

官方透露，极越纯视觉方案的3D精度能达到厘米级，比肩甚至超越激光雷达；对运动障碍物的速度识别更准更快，精度控制在0.1米/秒误差范围内。

在此之前，极越PPA智驾已经覆盖全国90%的高速高架，城市PPA也已经跑通上海、北京、深圳、杭州4个城市的主要城市道路。但这还不是智驾第一梯队的完整实力。

极越在官方直播中释放了另一个更重磅的点，即将开启智驾全国开城。

“我可以预告一下，极越智驾会很快做到全国都能开。打开百度地图APP，只要百度地图导航里有的地方，一定是百分之百都能开。”

据透露，极越智驾2024年的目标是全国都能开，比计划提前六个月。

官方称之为「精细化开城」，「实打实把一个城开得比较透」。

百度地图车道级导航升级，为极越智驾开城提供双重保障。

基于地图生成大模型，截止2024年2月，百度地图已经完成全球最大规模、覆盖全国360万公里道路的LD车道级地图数据制作，支持极越城市PPA达到高精地图水平。

据悉，LD车道级导航将陆续上线360座城市，支持极越PPA全国开城，实现夏一平所说的“有图的道路，就能PPA”。

端到端，是终局吗？

自从2023年华为和小鹏的开城大战，在中国，不开城就不配做智能驾驶第一梯队。现在，极越PPA不但开启全国开城，而且是纯视觉方案在中国开城，意义不一般。

在认识V1.3.1的开城能力时，必须讲点底层逻辑。

很多人认为，不用激光雷达是为了省钱。其实，激光雷达省下来的钱，还不够买芯片的，因为缺失激光雷达的能力，需要算法来补位。而且激光雷达会越来越便宜。

百度智能驾驶事业群组（IDG）首席研发架构师，IDG技术委员会主席王亮交了底。

除了激光雷达不是那么好用之外，比如虽然直接给到三维的信息，但信息量是极度匮乏的，分辨率仅是800万摄像头的1/160，采集频率低，部件的耐久性和可靠性也差点意思。

最重要的是，他说：“复杂路况下，压力很大的时候，选择视觉解，还是激光解？这时，99.99%的研发同学会选择用激光雷达解，因为视觉太难了。”

意思就是，只要不是纯视觉，在“多模态融合”的混合方案中，无论依靠激光雷达，还是毫米波雷达，工程师有求快求易的本能，必然导致解决方案以「雷达感知」为先，势必影响算法能力和迭代速度。

这就好比，如果你家孩子有一双“激光”眼睛，可以天天随便抄同桌作业，考试也能看见同桌答案，他还会好好学习吗？

所以，王亮视激光雷达为「拐杖」，于是跟夏一平说，“咱们把拐杖甩掉”，All in纯视觉。有意思的是，据透露，他们如今做OCC的骨干同学都是当年做激光雷达的leader。

如今极越纯视觉方案也跑通了城市智驾，全面开城，进入第一梯队，可以说最难的关，闯过来了，为后面端到端跑数据优化算法铺平了路。

在夏一平看来，AI驱动的端到端是智驾下一个高地，“最后大家要走到一条路上。”AI靠什么？算法、数据和算力。

虽然特斯拉在“端到端”方面已经领先，但是夏一平认为极越可以依托中国复杂的路况，在落地能力上占优，然后靠数据飞轮赶超。

数据飞轮，上不封顶的算力支持

如何理解不同车企的智驾代差？如何才算智驾第一梯队？

王亮认为第一梯队有四点要求，首先是支持复杂城市道路点到点领航辅助驾驶，第二是全国哪里都能用。第三要安心体验好。最后要具备自己的数据飞轮，可以持续演进。

王亮说现在市面上满足以上四个条件的智驾产品，可能被过滤掉90%以上了。剩下的第一梯队，极越绝对是其中之一。

不同于特斯拉靠自己做垂直大整合，极越走的是产业融合方案，集合各方优势资源。

首先，百度可以给到上不封顶的算力支持。

据王亮首次对外透露，百度给到极越自动驾驶相关的启动算力资源池，算力范围大概在1.8-2.2Eflops范围之内，而且随着销量和使用量的增长，对智驾算力的支持上不封顶。特斯拉Dojo发布时候的启动算力也就是1.1Eflops。

除了算力，百度有十年自动驾驶的技术积累和应用百度地图。尤其是庞大的制图团队，给了极越开城非常大的支持。还有来自萝卜快跑的上千辆L4级自动驾驶Robotaxi在全国十几个城市运营的数据支持。

王亮表示，正在构建视觉建图能力，通过底层原理的改变，替换现有的车道线和红绿灯极检测，推动极越的纯视觉从有图走向轻图，甚至无图的未来。

最后，说回到Sora大模型给智驾的启发。

正如马斯克提到，“特斯拉已经能够用精确物理原理制作真实世界视频，大约一年了。”

这跟Sora给王亮的启发是一致的。“最大的启发是，从预测的角度，感知世界如何构建出来。对未来预判越准，做的规划就越合理。”

王亮表示：“从预测的角度，感知是最近这1秒看到这个世界如何构建出来。其实我们决策规划不是建立在当下，而是对未来预判。这个未来可能是3秒可能是8秒。对未来预判越准，做的规划就越合理。”

“极越智驾也有一个预测模块，用来计算障碍物的未来轨迹。如果用SORA生成式技术，那么对未来的预测，包括决策规划的影响会比较巨大。”

去年7月，特斯拉自动驾驶软件总监Ashok Elluswamy在演讲中提到，正在为其人工智能技术构建一个基础的「世界模型」（General World Model）。该模型可以同时预测八个摄像头的视角。

马斯克坦言，目前训练FSD的算力还不够，所以还并没有用生成视频进行训练。他表示，在今年晚些时候，有空余算力了就会开始。

对于自动驾驶的更高阶段，王亮指出了预训练模型的方向，行业内会很多人去卷用于提取特征的基础模型backbone，而不是用于解决具体任务的HED。

王亮表示，对感知来说会有更强的视觉底座基础模型，放到车上合并小模型，让算力加大。从这个平台上可以长出多个任务，让每个任务解决的更好。

就像健身一样，只是练手练脚，力度是上不来的，这时需要全身肌肉锻炼。所以我们需要练腿、硬拉这样的动作，让全身肌肉增长，进入到另一个肌肉维度和力量维度的动作。这个基础模型很像提升核心能力，实打实让用户很快感受到变化的东西。

按照这个逻辑，夏一平认为，未来极越在车端可以用更低的算力，做更高级的算法，不用担心硬件淘汰，不用一直加算力，不用担心系统越来越跑不动，而是正相反，享受软件升级。

也许这就是「AI造车」未来真正实现的样子，也是在智驾头部的特斯拉，反而在删代码的原因。

AI造车时代已来。

不仅是文中提到的OpenAI、特斯拉、百度、极越，公开信息上，华为等科技巨头，小鹏等车企，也都在疯狂卷智能汽车领域的AI算法，囤积AI算力。

未来的头部车企，必须有强大的AI计算能力，靠数据驱动软件创新，与硬件创新相结合。世界范围的大模型革命带来的震撼，以及视觉领域SORA级别的冲击，让更多人越来越相信，背靠百度AI能力和吉利SEA浩瀚架构生态的极越，选择了一条难而正确的路。

Sora一出，「纯视觉路线」要赢了？

作者：AutocarMax

全部讨论