Sora一出,「纯视觉路线」要赢了?

发布于: 雪球转发:0回复:1喜欢:1

撰文 | 马青竹 编辑|周长贤

大年初七那天,中国人还在休假,远在大洋彼岸的生成式AI技术领头羊OpenAI,甩出新版的文生视频大模型Sora,提醒大家该回去上班,继续卷。

但对于视频编辑来说,有班上的日子,可能不多了。

说实话,笔者心里又喜又慌。喜的是,输入文字,产出3D视频,意味着未来写文章如同拍电影。慌的是,过去对AGI和智能驾驶的前景预估,可能都是错的。

纯视觉被低估?OCC国内首上车

诚如自封Sora「布道者」的周鸿祎所言,Sora将给AGI和自动驾驶带来巨大影响。原来的自动驾驶技术过度强调感知层面,而没有重视认知层面。

这话对过于依赖激光雷达和各种雷达的方案商来说,有些刺耳。高阶玩家都在玩视觉大模型级别的场景理解和场景预测了,咱们还卷这些上限不高又昂贵的感知外挂。

再回首,不得不佩服马斯克的认知,及对纯视觉路线的战略眼光。不过,OpenAI借Sora狠刷这么一波存在感,争强好胜的马斯克也不爱看。

2 月 18 日,马斯克在科技主播 @Dr.KnowItAll 主题为「OpenAI 的重磅炸弹证实了特斯拉的理论」的视频下留言,称「特斯拉已经能够用精确物理原理制作真实世界视频大约一年了」。

过去,国内整车厂有一种不言自明的默契:我们学不起特斯拉。特斯拉纯视觉FSD研发启动早,数据多,从芯片到超算,布局完全。

而且特斯拉太财大气粗了,光去年8月启动的超级计算机,就用掉了1万片英伟达的H100。H100可是一片难求的硬通货啊。相比之下,几千块的激光雷达并不贵,还有利于写广告词。比如曾经的“四颗以下,请别说话。”明白了吧,纯视觉才是更贵的技术路线,而很多国内厂家揣着明白装糊涂。

世界变化太快,Sora展示出AI大模型的生长潜力,行业应反思路径,切勿刻舟求剑。

恰逢其时,跟特斯拉一起唯二信仰纯视觉路线的极越,也有了视觉领域的大动作。

2月23日,极越正式向用户OTA全量推送V1.3.1大版本,业内最前沿的纯视觉OCC(Occupancy Network)占用网络模型正式上车,因此集齐了“BEV+OCC+Transformer”纯视觉方案“B.O.T三向箔”,仅从模型的领先程度衡量,极越牢牢站稳中国智驾第一梯队。

纯视觉「开城」,全国跑起来

V1.3.1原计划春节前推送,极越CEO夏一平称,晚来的V1.3.1也是很幸福的。迟到的原因是,临时增加了一些原定1.4版本推送的内容。

V1.3.1最值得看的点是,全量推送OCC占用网络,通用视觉能力进化,对世界的重建和刻画更细致了。极越CEO夏一平表示:“OCC占用网络大幅提升了纯视觉的异形障碍物识别和场景泛化的能力。”

官方透露,极越纯视觉方案的3D精度能达到厘米级,比肩甚至超越激光雷达;对运动障碍物的速度识别更准更快,精度控制在0.1米/秒误差范围内。

在此之前,极越PPA智驾已经覆盖全国90%的高速高架,城市PPA也已经跑通上海、北京、深圳、杭州4个城市的主要城市道路。但这还不是智驾第一梯队的完整实力。

极越在官方直播中释放了另一个更重磅的点,即将开启智驾全国开城。

“我可以预告一下,极越智驾会很快做到全国都能开。打开百度地图APP,只要百度地图导航里有的地方,一定是百分之百都能开。”

据透露,极越智驾2024年的目标是全国都能开,比计划提前六个月。

官方称之为「精细化开城」,「实打实把一个城开得比较透」。

百度地图车道级导航升级,为极越智驾开城提供双重保障。

基于地图生成大模型,截止2024年2月,百度地图已经完成全球最大规模、覆盖全国360万公里道路的LD车道级地图数据制作,支持极越城市PPA达到高精地图水平。

据悉,LD车道级导航将陆续上线360座城市,支持极越PPA全国开城,实现夏一平所说的“有图的道路,就能PPA”。

端到端,是终局吗?

自从2023年华为和小鹏的开城大战,在中国,不开城就不配做智能驾驶第一梯队。现在,极越PPA不但开启全国开城,而且是纯视觉方案在中国开城,意义不一般。

在认识V1.3.1的开城能力时,必须讲点底层逻辑。

很多人认为,不用激光雷达是为了省钱。其实,激光雷达省下来的钱,还不够买芯片的,因为缺失激光雷达的能力,需要算法来补位。而且激光雷达会越来越便宜。

百度智能驾驶事业群组(IDG)首席研发架构师,IDG技术委员会主席王亮交了底。

除了激光雷达不是那么好用之外,比如虽然直接给到三维的信息,但信息量是极度匮乏的,分辨率仅是800万摄像头的1/160,采集频率低,部件的耐久性和可靠性也差点意思。

最重要的是,他说:“复杂路况下,压力很大的时候,选择视觉解,还是激光解?这时,99.99%的研发同学会选择用激光雷达解,因为视觉太难了。”

意思就是,只要不是纯视觉,在“多模态融合”的混合方案中,无论依靠激光雷达,还是毫米波雷达,工程师有求快求易的本能,必然导致解决方案以「雷达感知」为先,势必影响算法能力和迭代速度。

这就好比,如果你家孩子有一双“激光”眼睛,可以天天随便抄同桌作业,考试也能看见同桌答案,他还会好好学习吗?

所以,王亮视激光雷达为「拐杖」,于是跟夏一平说,“咱们把拐杖甩掉”,All in纯视觉。有意思的是,据透露,他们如今做OCC的骨干同学都是当年做激光雷达的leader。

如今极越纯视觉方案也跑通了城市智驾,全面开城,进入第一梯队,可以说最难的关,闯过来了,为后面端到端跑数据优化算法铺平了路。

在夏一平看来,AI驱动的端到端是智驾下一个高地,“最后大家要走到一条路上。”AI靠什么?算法、数据和算力。

虽然特斯拉在“端到端”方面已经领先,但是夏一平认为极越可以依托中国复杂的路况,在落地能力上占优,然后靠数据飞轮赶超。

数据飞轮,上不封顶的算力支持

如何理解不同车企的智驾代差?如何才算智驾第一梯队?

王亮认为第一梯队有四点要求,首先是支持复杂城市道路点到点领航辅助驾驶,第二是全国哪里都能用。第三要安心体验好。最后要具备自己的数据飞轮,可以持续演进。

王亮说现在市面上满足以上四个条件的智驾产品,可能被过滤掉90%以上了。剩下的第一梯队,极越绝对是其中之一。

不同于特斯拉靠自己做垂直大整合,极越走的是产业融合方案,集合各方优势资源。

首先,百度可以给到上不封顶的算力支持。

据王亮首次对外透露,百度给到极越自动驾驶相关的启动算力资源池,算力范围大概在1.8-2.2Eflops范围之内,而且随着销量和使用量的增长,对智驾算力的支持上不封顶。特斯拉Dojo发布时候的启动算力也就是1.1Eflops。

除了算力,百度有十年自动驾驶的技术积累和应用百度地图。 尤其是庞大的制图团队,给了极越开城非常大的支持。还有来自萝卜快跑的上千辆L4级自动驾驶Robotaxi在全国十几个城市运营的数据支持。

王亮表示,正在构建视觉建图能力,通过底层原理的改变,替换现有的车道线和红绿灯极检测,推动极越的纯视觉从有图走向轻图,甚至无图的未来。

最后,说回到Sora大模型给智驾的启发。

正如马斯克提到,“特斯拉已经能够用精确物理原理制作真实世界视频,大约一年了。”

这跟Sora给王亮的启发是一致的。“最大的启发是,从预测的角度,感知世界如何构建出来。对未来预判越准,做的规划就越合理。”

王亮表示:“从预测的角度,感知是最近这1秒看到这个世界如何构建出来。其实我们决策规划不是建立在当下,而是对未来预判。这个未来可能是3秒可能是8秒。对未来预判越准,做的规划就越合理。”

“极越智驾也有一个预测模块,用来计算障碍物的未来轨迹。如果用SORA生成式技术,那么对未来的预测,包括决策规划的影响会比较巨大。”

去年7月,特斯拉自动驾驶软件总监Ashok Elluswamy在演讲中提到,正在为其人工智能技术构建一个基础的「世界模型」(General World Model)。该模型可以同时预测八个摄像头的视角。

马斯克坦言,目前训练FSD的算力还不够,所以还并没有用生成视频进行训练。他表示,在今年晚些时候,有空余算力了就会开始。

对于自动驾驶的更高阶段,王亮指出了预训练模型的方向,行业内会很多人去卷用于提取特征的基础模型backbone,而不是用于解决具体任务的HED。

王亮表示,对感知来说会有更强的视觉底座基础模型,放到车上合并小模型,让算力加大。从这个平台上可以长出多个任务,让每个任务解决的更好。

就像健身一样,只是练手练脚,力度是上不来的,这时需要全身肌肉锻炼。所以我们需要练腿、硬拉这样的动作,让全身肌肉增长,进入到另一个肌肉维度和力量维度的动作。这个基础模型很像提升核心能力,实打实让用户很快感受到变化的东西。

按照这个逻辑,夏一平认为,未来极越在车端可以用更低的算力,做更高级的算法,不用担心硬件淘汰,不用一直加算力,不用担心系统越来越跑不动,而是正相反,享受软件升级。

也许这就是「AI造车」未来真正实现的样子,也是在智驾头部的特斯拉,反而在删代码的原因。

AI造车时代已来。

不仅是文中提到的OpenAI、特斯拉百度、极越,公开信息上,华为等科技巨头,小鹏等车企,也都在疯狂卷智能汽车领域的AI算法,囤积AI算力。

未来的头部车企,必须有强大的AI计算能力,靠数据驱动软件创新,与硬件创新相结合。世界范围的大模型革命带来的震撼,以及视觉领域SORA级别的冲击,让更多人越来越相信,背靠百度AI能力和吉利SEA浩瀚架构生态的极越,选择了一条难而正确的路。

全部讨论

高兴在左侧03-05 23:35

自动驾驶以后都是纯视觉的天地。其它方案都会逐步被淘汰