完成端到端智驾大模型路测,千挂科技能否成为干线物流的特斯拉?

发布于: 雪球转发:0回复:0喜欢:0

4.6万亿元的干线物流大市场,哪些自动驾驶公司能成为“头号玩家”?

本文来自微信公众号“新智驾”(ID:AI-Drive),作者:李雨晨,36氪经授权发布。

编辑 | 李雨晨

2023 年,由 ChatGPT 所掀起的大模型风潮正在席卷科技圈,这股技术浪潮席卷至自动驾驶。

智能汽车作为一个能够承载、实现前沿的理想超级智能终端,能够最大限度地展现新技术所带来的变革。

2023年8月,特斯拉以直播形式向外界展示FSD V12测试版,该版本基于完全的端到端输出,真正实现了从「感知」到「决策」的全流程融入一个模型中,它成功走出依靠人工规则以外的技术通途,在全局视角下,展现出对感知、预测、规划、控制和决策的高度统一。

马斯克曾表示,FSD Beta V12是有史以来第一个端到端AI自动驾驶系统(Full AI End-to-End),从头到尾都是通过AI实现。

FSD Beta V12,没有编程,没有程序员写一行代码来识别道路、行人等概念,全部交给了神经网络自己思考。V12的C++代码只有2000行,而V11有30万行。

当然,在这场新的技术范式变革里,参与者不止只有特斯拉;许多中国玩家们也朝着同一个突破口努力,贡献自己的解题思路,甚至先一步走向端到端技术应用的前沿。

自动驾驶的技术奇点时刻:「端到端智能驾驶大模型」

此前,证明自动驾驶的可落地性是整个自动驾驶行业需要回答的问题。

一方面,业界不断减少激光雷达的数量,以无图或轻图的方式摆脱对高精度地图的深度依赖,减少或摆脱以「堆料」的方式实现对外部的感知。

另一方面,「渐进式」道路成为了业界的共识,以「高速」、「城区」等分区域落地的思路来证明自动驾驶的可实现性。

可以说,在端到端没有到来之前的自动驾驶世界,是一个依靠天才工程师对于无数驾驶场景的观察、归纳、提炼、总结的世界,同时也是一个依靠规则搭建的世界。

这当中存在着一个残酷的事实:场景是不能够穷举的。依靠人工规则对数据的总结提炼,不仅效率低而且泛化性差,这就导致了最后1%的长尾场景问题始终无法解决。

天才的工程师们始终在做打补丁的工作,缝缝补补一个由规则所搭建起来的世界,这样的技术路线也导致自动驾驶的落地未如预期。

端到端技术的到来则有机会彻底改变这一局面,它打破了过去业界在开发自动驾驶系统时,感知与规划分离,推翻一个由人为规则所搭建起来的世界。

这一明确的技术趋势使得几乎所有人都在赛跑:

在美国,FSD12已进入用户测试环节的特斯拉,是第一梯队的排头兵;

而在中国,比亚迪投入4000人进行智能驾驶研发;

理想也宣称2024年端到端上车;

而在刚刚结束的千挂科技2024年度产品发布会上,千挂科技公布了自己的端到端智能驾驶大模型在2023年底便已经进入公开道路常态化的测试阶段。

从公开信息上来看,这是先一步完成端到端智能驾驶大模型公开道路闭环测试的选手——而许多企业此时依然将端到端仅仅作为一个「未来的重要规划」。

端到端的技术想象力究竟在哪里?在千挂科技联合创始人叶璨博士看来,端到端智能驾驶大模型对于自动驾驶至少有三点重要的意义:

第一点:端到端可以大幅提升数据的利用规模和效率,打破传统自动驾驶研发当中,依靠人工规则对数据的总结提炼模式,解决效率低且泛化性差的痛点;

第二点:端到端能够对数据进行自动化学习,由模型取代规则,打破自动驾驶泛化性的瓶颈,能够覆盖更多的驾驶场景;

第三点:在传统自动驾驶当中,不同模块都在关注和优化自身的代理指标,而这些指标存在不一致,端到端能够解决多模块甚至全链路联合优化的问题。

另一方面,在这种全面learning化的AI系统之上,有机会将世界模型(world model)进一步引入自动驾驶系统中,复刻类似于GPT4.0 等大模型的模式,通过Transformer把海量的互联网数据及对应的知识压缩到模型参数当中,弥补现在自动驾驶系统对通用知识(world knowledge)的缺失。

当自动驾驶系统拥有了先验知识以后,就能迅速提高泛化和推理能力,包括对长尾物体的识别、对场景的深度理解、对驾驶任务的拆解规划等,这些能力的提升使得自动驾驶有机会迈向一个更为广阔的世界。

如果说,端到端智能驾驶大模型对于乘用车而言,是一个体验上的升级;那么,端到端智能驾驶大模型对于干线物流而言,更具经济意义和效益。

千挂科技背后所面向的是一个庞大的干线物流市场,这个市场涵盖770万台中重卡,市场规模超过4.6万亿元人民币,司机成本达到20%+,预计2030年卡车司机缺口达到15%以上。

端到端智能驾驶大模型的应用,可以提高自动驾驶系统的泛化性,更好地处理长尾场景,有机会在长途干线双驾变单驾的基础上,进入无人驾驶,进一步提升利润率,拥有无穷的想象力与现实意义。

「端到端智能驾驶大模型」的实践赛事:深厚的技术根基

知道一个最优解并不难,难的是践行一个最优解。

在V12亮相之前,特斯拉就做了非常多的「打地基」技术工作。其中就包括了2021年,特斯拉在AI Day推出基于BEV+Transformer的自动驾驶方案。

这个方案相当于,打开了一个理解自动驾驶的全新范式。在过去的几年里,「BEV + Transformer + 占用网络 + 无图化」几乎统领了头部车企的研发方向。

作为新一代自动驾驶技术企业,千挂科技一开始便出生于GPT时代;更幸运的一点是,作为一个年轻的技术公司,千挂没有传统大厂的技术包袱和组织束缚,在新的技术道路上能够启动得更为从容。

在千挂1.0阶段,千挂通过「One Model」和「Scene-centric」的方式,攻克自动驾驶卡车中感知和预测两道难题,有效解决高速干线场景下异形车、遗撒物识别等挑战。

在感知方面,千挂采用「One Model」,即一个大模型完成感知任务,实现多模态数据的前融合和多任务学习的能力。

具体来说,多模态前融合即,将环视相机、激光雷达等多个传感器采集的数据输入到一个感知大模型中,通过模型实现空间融合和时序融合,获得时空融合的特征。

基于时空融合的特征,完成多个感知任务,能够实现对障碍物的检测与分割、路网结构(如车道线、可行驶区域)的实时感知等,达到更完备、更准确、更鲁棒的效果。

在预测方面,千挂科技采用了「Scene-centric」架构,对所有道路参与者Agents进行联合建模和推理,底层基于Transformer架构完成特征编码与解码。相对于Agent-centric的传统架构,这种对所有障碍物统一建模的新架构简化了整体流程,提升了训练和推理效率,并且可以更好地理解道路参与者之间的交互关系,更好地处理蝴蝶效应。

凭借着「One Model」和「Scene-centric」奠定的技术基础,千挂的自动驾驶卡车如今在京沪等物流大干线上顺利实现了「周行万里无接管」的目标。

另一方面,以「One Model」和「Scene-centric」为起点,千挂科技开始了新一代自动驾驶技术——端到端智能驾驶大模型的研发。

在12月的GADS 2023全球自动驾驶峰会上,叶璨博士提出了千挂自研端到端算法框架 - AutraFlow。

千挂科技AutraFlow是面向新一代的自动驾驶技术,是从全面learning化和数据驱动的角度,进行设计研发的。

据叶璨博士介绍,在研发过程中,团队深入调研了大量端到端的前序工作,在此基础上结合干线物流的业务场景特点,在算法、工程、数据等层面做了大量的优化工作。目标是让端到端算法实际上车跑起来,能应对高速干线上的各种路况和场景,并最终在产品和业务中用起来。

整体上,AutraFlow是一个完全learning化的自动驾驶系统,系统的每个模块都是基于Transformer的神经网络模型,模块与模块之间采用embedding连接,摆脱了传统的人类设计的抽象概念——比如障碍物的边界框(bounding box)或预测轨迹,做到更高效、流畅、无损地传输数据。

叶璨博士进一步解释,可以把整个端到端模型看作是一个大的神经网络,在训练时能够实现各模块的联合优化,与此同时可以在中间阶段,通过对embedding解码得到具有相对明确语义的中间结果,便于理解和检查,打破端到端的黑盒状态,从而提升端到端算法的可解释性。

目前,千挂的端到端算法AutraFlow,已经在城市快速路和城市间高速路等公开道路进行常态化的全功能闭环测试。

近日,千挂科技也对外公布了一段2023年11月AutraFlow在北京市高级别自动驾驶示范区进行早期路测的视频集锦。

在叶璨博士的技术规划中,以端到端技术为基础,未来将借助多模态大模型,把通用知识(world knowledge)引入到自动驾驶系统,基于人类的知识和经验做出更好的驾驶决策,进一步提升自动驾驶系统的泛化性、可用性。

在千挂新一代自动驾驶技术的研发中,大模型成为了最核心的技术变量。

在叶璨博士的带领下,千挂在自动驾驶领域的多模态预训练中,将自动驾驶的多模态特征(图像、点云等)统一在语言特征空间对齐,从而获得泛化性更强的特征表达。

基于语言对齐的多模态特征,为下游的多种感知任务提供基础,使得系统更好地识别异型车、遗撒物等长尾物体,提高对驾驶场景的理解和泛化能力。

对于千挂而言,大模型已经成为自动驾驶数据闭环的核心,比如数据挖掘、自动化标注等应用。

2023年3月起,千挂开始在华中、华北、华东、华南等区域的主要一级干线,为顺丰福佑等合作伙伴,提供常态化的物流运输服务,单均超过1000公里。

业务规模的扩展也积累了海量的高速场景数据,而这也成为千挂的核心竞争力。通过大模型对海量路测数据进行挖掘,可以释放数据的黄金价值。

目前,千挂超过95%的训练数据都来自于大模型的自动化标注,而大模型进行模型压缩后得到的车端模型,可以部署路测,获得更多数据,进一步帮助迭代优化模型。

千挂正在跑通技术到产品的闭环

可以说,BEV重新定义了空间和时序,让空间和时序统一,直接在「上帝视角」下完成了感知、规划、控制、决策的高度统一。未来端到端将成为行业标配。

在这场技术加速赛当中,得益于叶璨博士及其团队的技术嗅觉,千挂在夯实的技术基础上启动端到端的工作,在海量仿真测试的基础上,在国内率先实现了公开道路的常态化的端到端智能驾驶大模型闭环测试,真正迈出了技术体系2.0的第一步,完成了从0到1的突破。在这场高手如云的比赛当中,千挂进入了第一梯队,以国内领先的身位,跑出了自己的第一个里程碑。

在千挂这支技术尖兵团队里,聚集了众多在AI领域深耕多年的顶尖人才。

叶璨博士毕业于美国卡内基梅隆大学(CMU)的人工智能专业,曾履职快手资深技术总监,负责了快手主站推荐、快手 AI 技术,以及快手私域和社交业务,在他的带领下,快手实现了强化学习在工业界的首次大规模落地应用。

在叶璨博士背后,是一群有着在百度快手腾讯商汤等技术巨头丰富经历的技术专家,和国内外头部院校博士组成的技术团队,在这场端到端的赛跑中,他们打通了感知、预测、规划、控制、架构等技术的任督二脉,攻克了一个又一个的技术难题目。

在技术的长板足够长的同时,千挂在资本层面也取得长足的进展。

近日,千挂科技顺利完成 Pre-A 轮融资的新一轮交割;在商业化层面,千挂在中国东部的主要一级干线路段完成 300 余次的载货运输服务。

这家年轻的公司正在走出从资本、商业化、技术的全面正向闭环,以领先的技术优势打开一个全新的物流实践地图,展现出技术如何驱动商业升级发展。