【国投汽车|重磅深度】Sora的诞生对智能驾驶行业的影响

发布于: 雪球转发:0回复:0喜欢:1

Sora是文生视频的集大成者,核心创新点在于时空编码和DiT模型。

Sora是Open AI推出的首个文本生视频模型,视频生成长度、逼真度等均远超现有竞品。从技术上看,Sora的核心创新点在于时空编码和Diffusion Transformer模型的应用。1)Spacetime patches时空编码将一个完整视频切分成带有时间维度的一系列Tokens输入Transformer模型,时空编码的引入是Sora能够进行大规模视频数据训练的关键,同时为Sora的生成结果具备三维一致性奠定了基础。2)DiT模型结合了Diffusion扩散模型和Transformer模型的优点,将传统扩散模型中采用的U-Net网络结构替换成Transformer,使得模型更擅长捕捉长距离的相关关系。

Sora验证了Diffusion+Transformer的技术路线或是通往世界模型的有效技术路径。

神经网络模型的预测结果是概率输出,目前尚不具备因果关系的推断能力,因此推理结果可能会出现常识错误或者违背现实物理规律。而学界提出的世界模型概念旨在希望神经网络模型可以像人类一样理解世界,具体可概括为具备以下三个特点:1)理解物理世界运行规律,像人一样具备常识。2)具备泛化到训练样本以外的能力。3)可以基于记忆进行自我演进。目前关于世界模型的技术路径尚有争议,但从Open AI的官方展示视频来看,Sora已经具备了世界模型的雏形,对于真实物理世界有一定的模拟能力。因此我们认为Sora采用的Diffusion+Transformer的技术路线或许是通往世界模型的有效技术路径。

特斯拉同样基于与Sora相似的技术路径已开始对于世界模型的探索。

早在2023年6月召开的CVPR会议上,特斯拉已经分享了对于世界模型的探索,Demo展示效果效果惊艳:1)可以同时对车身周围八个摄像头周围未来情况进行预测;2)可以精准的模拟过去难以描述的场景(如烟尘);3)可以根据动作指令调节;4)可以用来做分割任务。根据特斯拉CVPR上的演讲及马斯克推特的公开回复,可以推断特斯拉大概率和Open AI一样采用的是Diffusion+Transformer生成式AI的技术路线。而Sora的成功已经率先在AGI领域验证了这条技术路线的可行性,由此我们认为World Model应用于智能驾驶的时代亦将加速到来。

世界模型中短期内应用于仿真环节,长期作为智驾基座大模型,引领行业迈向L5时代。

世界模型在智能驾驶中的应用有望最先在仿真环节落地,推动仿真场景泛化能力提升。当前智能驾驶仿真采用NeRF+素材库排列组合+游戏引擎的技术路线,虽然保证了场景的真实性但泛化性不足。世界模型能够理解物理世界运行规律、同时具备泛化到训练样本以外的能力,因此世界模型能够迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。长期来看世界大模型有望成为智驾的基座大模型,所有的智能驾驶下游任务都可以通过简单的插入任务头来实现。届时,智能驾驶将不再存在corner case,智能驾驶的驾驶安全性、驾驶效率都将占优于人类驾驶员。

■风险提示:技术进步不及预期、市场竞争加剧。

目录

1

Sora验证了DiT模型的有效性,具备世界模型的雏形

1.1 Sora是文生视频技术的集大成者,核心创新点在于时空编码及DiT模型

Sora是Open AI推出的首个文生视频模型,效果远超现有竞品。一方面Sora大幅提升了行业视频生成长度,Sora可一次性生成60s高质量视频,远超此前Pika的3秒、Runaway Gen2的16秒。并且Sora可在单个视频中进行多镜头切换,并保证了场景、物体在3D空间内的一致性。从技术原理上看,Sora本质上依然是基于Transformer模型,由Transformer三大组件构成。包括:1)Visual Encoder 模块:根本目的是将一个视频通过一系列操作进行Token化(即时空编码Spacetime patches);2)Diffusion Transformer模块:用于视频的生成;3)Transformer Decoder:将生成的潜在表示映射回像素空间。其中Sora的核心创新点在于时空编码和Diffusion Transformer模型的应用。(关于Transformer模型的分析解读可参考我们此前的报告《AI大模型在自动驾驶中的应用》)

Spacetime patches(时空编码)的引入是Sora能够进行大规模视频数据训练的关键,同时为Sora的生成结果具备三维一致性奠定了基础。Open AI认为LLM范式的成功部分得益于对Tokens的使用,这些Token统一了代码、数学和各种自然语言等不同模态的文本,语言模型中的Token代表文本的最小单位,可以是单词、词组或者是标点符号等。将这个概念应用到视频领域,Sora引入了Spacetime patches(时空编码)作为视频的最小单位。Spacetime Patches技术建立在ViT(Vision Transformer)的研究基础之上。ViT模型的思路是将图片切成了多个Patches(小块,类似于九宫格),再拉平成一系列Tokens输入Transformer模型(目前自动驾驶行业中主流应用的“BEV+Transformer”也是以ViT为基础)。而Spacetime Patches在此基础上增加了时间维度,可以理解为Sora模型的一个Patch是一个小立方体。Spacetime patches的引入使得Sora高效地训练大体量的视频数据(包括各种时长、分辨率、长宽比的视频数据)。并且Spacetime patches保证了前后帧之间的强相关关系,为Sora的生成结果具备三维一致性奠定了基础。

DiT模型结合了Diffusion扩散模型和Transformer模型的优点。Diffusion扩散模型本质作用,就是学习训练数据的分布,产出尽可能符合训练数据分布的真实图片。可以理解为根据文本指令或者有噪音的图片模型“脑补”出完整图片/视频。“脑补”过程的思路是,从清晰没有噪声的图像开始,每一步(timestep)都往上加一点噪声,得到噪声越来越大、越来越模糊的图像;同时在每一步里,都让模型根据当前步加噪后的图像去恢复出加噪前的图像,也就是让模型学会去噪(加噪后的图像作为输入,加噪前的图像作为监督的正确答案,模型本质上是根据加噪前后的图像来学习拟合所添加的噪声)。这样训练完毕后,模型就可以从一张纯噪声图像一步步还原出原始图片。在上述步骤里,一步步加噪的过程,就被称为Diffusion Process;一步步去噪的过程,就被称为Denoise Process。传统的Diffusion模型采用U-Net网络架构,本质上是卷积神经网络。Sora的创新之处在于用Transformer模型架构作为主干网络,通过Transformer来估测每一步加的噪音。这样做的好处在于将视频数据转换成Token之后,Transformer更擅长捕捉长距离的相关关系

1.2 Sora已初具世界模型雏形

神经网络模型预测结果是概率输出,现阶段尚不具备因果关系的推断能力,因此推理结果可能会出现常识错误或违背现实物理规律。神经网络模型通过反向传播和参数更新进行训练,输出的结果是一个概率值:比如提供一张猫的图片给一个被训练用于识别猫的神经网络模型,它的输出可能是“有85%的概率是一只猫,有10%的概率是一只狗,有5%的概率是一只老虎”,随着不断的数据训练,模型输出猫的概率值会提升,但神经网络不真正“知道”什么是猫,不理解抽象的概念。再比如神经网络能够预测一个物体未来几帧中可能的轨迹,但它并不能理解这背后的物理规律(如重力、动力学等)。因为神经网络尚不理解底层事实,因此神经网络的推理结果可能会出现常识错误或者违背现实物理规律。

World Model世界模型的概念涵义来源于人类对世界体验和认知。人类可以通过观察、以及通过无监督的方式进行交互来学习积累大量关于物理世界如何运行的常识,这些常识告诉人类什么是合理的、什么是不可能的,因此人类可以通过很少的试验学习新技能,可以预测自身行为的后果,所谓世界模型就是希望神经网络可以同样具备上述的能力。需要注意的是,目前学界、业界对于world model世界模型并没有统一的定义,根据Meta首席科学家LeCun的演讲,我们总结世界大模型应该具备以下几个特点:1)能够理解物理世界运行规律,像人一样具备“常识”,并能够基于对世界的理解来预测世界的演化;2)能够进行反事实推理,即对于数据中没有见过的决策,world model也能推理出决策的结果,也可以理解为具备泛化到训练样本以外的能力;3)具备基于记忆进行自我演进的能力。

目前关于世界模型的技术路线尚有争议,Sora采用的Diffusion+Transformer的技术路线或许是通往世界模型的有效技术路径。当前关于探索世界模型的技术路线至少可以分为两类,一类以Meta首席科学家LeCun代表,提出JEPA联合嵌入预测架构(非生成式AI);另一类是以Open AI为代表的生成式AI(主要基于Diffusion+Transformer)技术路线,Open AI在Sora技术文档中表示“扩展视频生成模型是构建物理世界通用模拟器的一条有前途的路径。”从Open AI的官方展示视频来看,Sora已经具备世界模型的雏形,对真实物理世界有了一定的模拟能力。如Sora生成的动态摄像机运动的视频,随着摄像机的移动旋转,人物和场景元素在三维空间中的移动是一致的。Sora的负责人之一Tim Brooks表示工程师没有事先设定这点,是Sora自己学习了大量关于3D几何的知识。同时,Sora具备一定的和世界进行互动的能力,如画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续。

2

世界模型或将成为自动驾驶的最终解,引领行业迈向L5时代

2.1 特斯拉已开始对于世界模型的探索,将成为智驾模型的下阶段迭代方向

早在2023年6月召开的CVPR会议上,特斯拉和英国自动驾驶公司Wayve都分享了对于世界模型的探索,其中Wayve将其命名为GAIA-1,特斯拉则直接称之为World Model。从特斯拉展示的Demo来看,特斯拉World Model效果十分惊艳,具体表现在以下几方面:

1)视频预测:同时预测了汽车周围所有八个摄像头的情况,并且汽车颜色在各个摄像头之间保持一致,物体的运动在三维空间中保持一致,这是模型自己学习的结果而非工程师设定。

2)精准的模拟现实世界:一些过去难以描述的场景(如飘在空中的垃圾袋、烟尘等)都可以在世界模型中得到准确表达。

3)根据动作指令调节:如果要求模型直行,模型会直行;要求它变道,它就会变道。

4)可以用来做分割任务(效果类似于Meta发布的segment anything)。

特斯拉尚未分享World Model具体的技术细节,但根据特斯拉在CVPR上的演讲内容、Demo效果、以及马斯克在推特上的公开回复,可以推断特斯拉大概率和Open AI一样采用的是Diffusion+Transformer生成式AI的技术路线。而Sora的成功已经率先在AGI领域验证了这条技术路线的可行性,由此我们认为World Model应用于智能驾驶的时代亦将加速到来。

2.2 世界模型中短期内应用于仿真环节,长期作为基座大模型

2.2.1. 世界模型有望大幅提升仿真的泛化能力,提升数据闭环效率

当前智能驾驶仿真主流的技术方案为NeRF+素材库+游戏引擎,基于真实数据进行道路重建保证和真实场景的相似程度,再依靠交通元素的不同排列组合进行有条件泛化,最后通过游戏引擎输出高质量的仿真画面特斯拉 Simulation World Creator 为例:1)通过NeRF+多趟重建的方式对真实场景数据进行道路重建。NeRF神经辐射场解决的问题是多视角合成任务,具体在智能驾驶场景下,可以理解为输入是某个十字路口一系列的2D图片,输出是该十字路口的3D还原结果。2)利用素材库、导航地图添加道路旁植被、房屋、交通路牌、车辆行人等交通要素,在这一过程中,通过道路街景随机生成以及车道链接关系的随机生成提高了模型的泛化能力。3)用Unreal游戏引擎做运动学和动力学上的仿真使其满足真实物理时间运行规律,同时做细节上的渲染使场景更加逼真。

世界模型在智能驾驶中的应用有望最先在仿真环节落地,推动仿真场景大幅提升泛化能力。随着仿真数据质量的提升,智能驾驶厂商有望提高在模型训练中仿真数据的应用比例,从而提高智能驾驶模型迭代速度、缩短开发周期。如前所述,当前智能驾驶仿真主要依赖NeRF对于场景进行重建,NeRF并非生成式AI,因此相较于Diffusion的优势在于NeRF完全基于真实场景进行还原,不会出现违背现实客观规律的情况。但基于NeRF做仿真的技术路线主要通过人工进行泛化,即NeRF对真实场景进行重建后,再通过人为添加要素,如增添雨雾环境、增加交通参与人数等方式对原始场景进行梯度泛化。但上述方式对场景的泛化能力依赖于工程师对于场景的理解,且存在经由手动添加元素后的场景与真实场景的拟合度不高的问题。如前所述,世界模型能够理解物理世界运行规律、同时具备泛化到训练样本以外的能力,因此世界模型能够迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。具体而言,特斯拉以及Wayve在CVPR2023中展示了世界模型应用于智能驾驶仿真的潜力:1)根据几秒钟的视频启动,世界模型可以生成多种可能的未来场景,且越往后差异越大,泛化能力强。2)根据语言提示生成特定的假设场景,比如直行或者左右转、不同的环境、光影条件等,甚至可以生成世界模型从未见过的极端场景。根据九章智驾数据,当前智能驾驶厂商训练模型时真实数据与仿真数据的比例为7:3,我们认为世界模型应用仿真环节将大幅推动仿真数据质量,降低智能驾驶厂商对于真实数据的依赖度,从而提高智能驾驶模型训练效率。

2.2.2. 长期看世界大模型有望成为基座大模型,带领智驾进入L5时代

长期看,世界模型有望成为智能驾驶的基座大模型。如我们在报告《从特斯拉迭代历程看智能驾驶算法升级趋势》中的分析,特斯拉从2018年开始尝试用Hydranets多任务网络来提高模型效率,模型具有一个共享的 backbone 骨干网络,再输出多个任务头,后续的BEV、Occupancy模型也同样延续了这一思想。事实上,Occupancy模型架构里很大一部分的作用是在向量空间内描述世界特征,然后再接多个任务头(task head)。比如23年12月特斯拉推出的高保真泊车辅助功能就是在Occupancy模型上接一个Distance Field(距离场,用于显示周围障碍物距离)任务头,进行回归测试以获得距离感。以此为延伸,如果世界模型能够包含物理世界的全部特征,那么就能够利用这些向量空间特征捕捉到智能驾驶所需要的相关信息,比如体积占用、路面、物体、车道线、红绿灯等等。因此,所有的智能驾驶下游任务都可以通过简单地插入(plugging)任务头来实现。特斯拉Autopilot资深工程师Phil Duan在2023年CVPR上称“接下来的很多步骤将是在应用层面上的,以一种非常轻量化的方式来推导不同场景下的应用”。

World Model有望成为智能驾驶终极技术路线,带领智驾进入L5时代。回顾智能驾驶行业技术发展方向,本质上都是在解决模型的泛化性问题。特斯拉2020-2022年间提出的“BEV+Occupancy”感知技术架构分别解决了智能驾驶对高精度地图的强依赖问题和一般障碍物的识别问题,大幅提升了智能驾驶感知端的泛化能力,带领智能驾驶进入L3时代。但目前智能驾驶依然存在面对复杂的十字路口这种强博弈场景中通行效率低、对于未训练过的边缘场景无法决策的问题,根本原因在于智能驾驶系统决策端无法对周围环境进行准确的预测,而人类司机因为有大量“常识”的积累,在驾驶过程中可以更加准确的预判未来不久后的场景,这是目前智驾系统与人类司机的主要差异所在。而World Model类似于一种预演机制,通过推测未来的方式对世界进行建模,同时由于World Model能够了解物理世界运行的底层规律,因此能够相对准确地对周围环境未来状态进行预测。并且,由前所述,World Model具备泛化到训练数据集以外的能力,因此基于World Model的智驾系统遇到未见过的场景也能采用最小风险策略进行决策,届时,智能驾驶将不再存在corner case,智能驾驶的驾驶安全性、驾驶效率都将占优于人类驾驶员。

风险提示

技术进步不及预期:

智能驾驶是具有强科技属性的赛道,回顾智能驾驶行业的发展,行业的快速迭代均依赖于技术的进步。特斯拉从2020年8月份重构底层算法,经过近一年的时间,至 2021年7月才推送城市领航辅助驾驶功能。目前距离特斯拉首次提出world model尚不足一年的时间,若技术进步不及预期,将影响世界模型在智能驾驶中落地的节奏,进而影响行业迈向L5的时间节奏。

市场竞争加剧:

除自动驾驶公司外,包括Open AI在内的AI公司均在对世界模型进行探索,而智能驾驶可以看作是世界模型应用的一个“垂域”。从技术上看,Open AI等AI企业均具备入局智能驾驶的技术基因,未来智驾行业竞争或会进一步加剧。

内容来自研究报告:《Sora的诞生对智能驾驶行业的影响》

报告发布机构: 国投证券

报告发布时间: 2024-2-26

分析师: 徐慧雄

分析师执业编号: S1450520040002

邮箱: xuhx@essence.com.cn

分析师: 李泽

分析师执业编号: S1450523040001

邮箱: lize@essence.com.cn

推荐阅读

【汽车行业重磅深度报告】

【国投汽车|重磅深度】2024年智能驾驶年度策略:自动驾驶开始由创造型行业转向工程型行业 2023-12-28

【国投汽车|重磅深度】2024年整车策略:行业格局向好,智能化&全球化加速变革 2023-12-18

【安信汽车|重磅深度】从特斯拉迭代历程看智能驾驶算法升级趋势 2023-08-06

【安信汽车|重磅深度】AI大模型在自动驾驶中的应用 2023-05-04

【安信汽车】智能汽车2023年度策略(Ⅰ):座舱迈入2.0时代,车机域控格局或将再重塑 2022-12-12

【安信汽车】线控底盘:实现高阶自动驾驶的必要条件,各环节将迎加速量产期 2022-10-29

免责声明

本订阅号为安信证券股份有限公司(下称“安信证券”)研究中心汽车团队的官方订阅号。本订阅号推送内容仅供安信证券客户中的专业投资者参考。为避免订阅号推送内容的风险等级与您的风险承受能力不匹配,若您并非安信证券的客户中的专业投资者,请勿使用本信息。安信证券不会因为任何机构或个人订阅本订阅号或者收到、阅读本订阅号推送内容而视为本公司的当然客户。

本订阅号推送内容仅供参考,不构成对任何人的投资建议,接收人应独立决策并自行承担风险。在任何情况下,本信息作者及其所在团队及安信证券不对任何人因使用本订阅号中的任何内容所引致的任何损失负任何责任。

本订阅号推送内容版权归安信证券所有,未经安信证券事先书面许可,任何机构或个人不得以任何形式删节、修改、复制、引用和转载,否则应承担相应责任。

团队成员

徐慧雄,汽车行业首席分析师。南京大学经济学硕士,6年汽车行业研究经验。重点覆盖:汽车整车、零部件。执业编号:S1450520040002。电话:17521216970。

李泽,团队成员。金融数学硕士。2022年加入安信证券研究中心,曾就职于东方基金科技制造研究团队,重点覆盖:智能汽车全产业链,具备在科技制造领域的跨行业研究能力及丰富的产业资源。执业编号:S1450523040001。电话:18392351441。

谷诚,团队成员。上海财经大学金融学学士、威斯康星大学麦迪逊分校经济学硕士,曾任职于东北证券,2022年加入安信汽车团队,覆盖整车板块相关标的。执业编号:S1450523070002。电话:19512185688。

支露静,团队成员。湖南大学学士,复旦大学金融硕士,曾任职于开源证券,2022年加入安信汽车团队,主要覆盖汽车零部件板块。执业编号:S1450523070008。电话:18374807018。

唐英韬,团队成员。华中科技大学学士,上海财经大学硕士,曾任职于东方证券,2023年加入安信汽车团队,重点覆盖两轮车板块。执业编号:S1450523070007。电话:16621293349。

马雨池,团队成员。上海财经大学经济学学士、约翰霍普金斯大学金融学硕士,曾任职于上海证券,2023年加入安信汽车团队,覆盖整车板块相关标的。执业编号:S1450123060043。电话:15721599264。

宋金治,团队成员。西安交通大学学士,西南财经大学硕士,2023年加入安信汽车团队,重点覆盖零部件板块。执业编号:S1450123100002。电话:15301422730。

者斯琪,团队成员。对外经济贸易大学学士,中国人民大学金融硕士,2023年加入安信汽车团队,主要覆盖汽车智能化板块。执业编号:S1450123070037。电话:18935809032。

夏心怡,团队成员。东北大学学士,浙江大学金融硕士,1年行业研究经验,2023年加入安信汽车团队,覆盖整车板块相关标的。执业编号:S1450122070029。电话:13761770429。