Sora与马斯克,相煎何太急?

发布于: 雪球转发:0回复:20喜欢:6

出口成章已是过去式,出口成“视频”才是现在时?

最近几天,sora的热度只增不减。Sora是美国人工智能团队OpenAI发布的首个文本生成视频大模型。据了解,Sora的文本生成视频不仅在时长上取得了突破,时长达到60秒,而且质量稳定,能够模拟物理世界和数字世界的人物、动物和环境。

Sora堪称惊艳的视频生成能力,“技惊四座”,并很快引起了同为AI科技圈特斯拉CEO埃隆·马斯克的注意。近日,马斯克更是在推特上直言:“特斯拉拥有世界上最好的现实世界模拟和视频生成能力!”

Sora与马斯克两大神仙打架,谁的“视频生成术”更胜一筹?

Sora与马斯克,本是同根生?

Sora与马斯克,一直关系匪浅。

一方面,马斯克原本是Sora背后的公司OpenAI的联合创始人,只不过后来被踢出了董事会。据了解,马斯克在OpenAI转变为盈利公司后,曾多次在公开场合批评和指责OpenAI开始逐利、失去初心。

另一方面,马斯克探索的视频生成技术方向以及其背后的逻辑与Sora十分相似。

其实,“文生视频大模型”并不是一条全新的赛道,早在sora之前,市面上的头部大模型就已经在探索视频生成技术了。据相关媒体报道,在OpenAI登场之前,头部大模型研发商几乎都拥有自己的文生视频大模型。例如,Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已经诞生了垂直于多媒体内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、NvidiaSalesforce参与的C轮融资后,估值超过15亿美元。

而后来者Sora之所以能够引起轰动,更多的在于其在技术层面和逻辑层面的重大突破。

技术层面,据悉,Sora最令人震撼的技术突破莫过于视频时长的巨大提升。Sora能生成长达1分钟的视频,远超市面上其他AI视频模型。此前,Runway能够生成4秒的视频,用户可以将其最多延长至16秒,这已经是AI生成视频在2023年所能达到的最长时长纪录:Stable Video能提供4秒的视频,Pika则提供3秒的视频。

逻辑层面,Sora展示出了对物理世界部分规律的理解,解决了过去文生视频模型的一大痛点。有专家分析指出,Sora带有“世界模型”的特质,这让其在逼真度上更胜一筹。

特斯拉的世界模型和Sora之间的最大相似点,也是逻辑层面。据悉,二者的技术底层逻辑都是通过视觉让AI能够理解甚至模拟真实的物理世界。

去年7月,特斯拉自动驾驶软件总监Ashok Elluswamy在CVPR2023的演讲中提到,特斯拉正在为其人工智能技术构建一个基础的世界模型(General World Model)。

同时,据马斯克介绍,特斯拉的视频生成技术是基于其模拟现实技术而开发的。通过这种技术,特斯拉能够构建一个动态生成的世界,这个世界并不是简单的图像拼接或动画模拟,而是基于真实世界的物理规则和数据来生成的。这意味着,特斯拉的视频生成技术不仅能够呈现出逼真的视觉效果,更重要的是它能够预测和模拟出极其精准的物理场景。

不过,二者的底层逻辑也存在差异。有业内人士分析指出,特斯拉目前的视频生成技术逻辑,是基于过去的视频,给出车辆行动提示,甚至不给提示,该模型可以预测不同的未来情况,以及生成视频。

也就是说,特斯拉目前的视频生成技术是基于过去的视频进行动态生成的,而不是基于文本的输入。对此,有业内人士分析表示,这或许意味着特斯拉的视频生成技术可能更依赖于数据的质量和数量,而不是模型的复杂度和创造力。

晚了一步的马斯克,相煎何太急?

在Sora出现在公众视野之前,马斯克的特斯拉早在一年前就具备了相似的技术。

马斯克表示:“特斯拉在大约一年前就能以精确的物理生成真实世界的视频。只不过,由于训练数据来自汽车,生成的视频并不有趣。这些视频看起来像特斯拉的普通视频,实际上是通过动态生成的。”

只不过,由于发展方向不同,马斯克这一次似乎失去了技术公布的“先机”。目前特斯拉的视频生成能力主要运用在了探索自动驾驶上。而OpenAI的Sora则一直将重心放在生成视频上。方向不同,重心也就不同。因此,相比于OpenAI先放出Sora给世界带来一点震撼的方式,晚了一步的马斯克也情有可原。

也正是在自动驾驶上的深耕,让特斯拉的视频生成技术有希望与如今风头正盛的Sora一较高下。

第一,特斯拉FSD的成功依赖于对大量真实世界数据的处理和学习能力,这与OpenAI探索AGI的途径有共通之处。两者都需要大量的数据、高效的算法和强大的计算能力。所以,有业内人士猜测,如果OpenAI能够在AGI领域取得突破,那么特斯拉在FSD上的成功也显得更加可行。

第二,由于特斯拉FSD专注于自动驾驶这一特定的应用场景,技术难度和复杂性可能低于开发能够执行广泛任务的通用人工智能系统。同时,特斯拉拥有大量的实际驾驶数据,这为FSD的训练提供了丰富资源。这也是不少业内人士猜测其技术突破和实现自动驾驶的时间可能比OpenAI实现通用人工智能要早的重要原因。

不过,相比于Sora,特斯拉的视频生成能力仍存在局限性。

算力是限制特斯拉的主要因素。据了解,视频生成涉及大量的视觉信息处理,所需计算量远超文本生成。模型可能需要在数以亿计的参数上进行训练,消耗巨大的GPU算力资源。此外,文生视频模型需要结合音频、文本等多个模态信息,这就需要模型能够有效融合不同类型的输入信号,并输出相应的跨模态内容,无疑将大大增加模型设计和训练的难度。

而在对一则讨论OpenAI Sora和FSD的视频下,马斯克也回复到:“我们在FSD的训练计算能力上一直比较紧张,因此没有使用其他视频进行训练,但这是肯定可以做到的。我们计划在今年晚些时候,当有一些空余能力时进行这项工作。“

同时,自动驾驶仪工程的负责人Ashok也直言,公司目前的视频生成模型也还只是个“半成品”,关键是它可以提供一个神经网络模拟器,推演出不同的未来结果,跟踪道路中所有移动的物体。

可见,Sora的发布的确让马斯克产生了些许危机感。

好在,Sora并非完美无瑕。在Sora公开的Demo视频中,存在不少生成式AI脱离现实逻辑的漏洞。例如,随着时间推移,有的人物、动物或物品会消失、变形或者生出分身;或者出现一些违背物理常识的画面,比如穿过篮筐的篮球、悬浮移动的椅子。

OpenAI在技术报告中也坦诚地公布了Sora的不成熟之处。据悉,OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。

多年从事计算机视觉研究的上海交通大学人工智能研究院副教授王韫博也认为:“Sora对真实世界的模拟还有很大提升空间,就目前的展示内容来看,并不意味着它已经‘读懂了’物理规律。”

英伟达高级科学家Jim Fan也指出,目前Sora对涌现物理的理解是脆弱的,远非完美,仍会产生严重、不符合常识的幻觉,还不能很好地掌握物体间的相互作用。

总之,留给马斯克追赶的时间似乎还很多。而Sora最后又能否成为文本生成视频领域的“真老大”,现在定论,似乎也为时尚早。

全部讨论

一篇很好的AI认知的学习文章,从竞争的角度分析了OpenAi 的SORA和特斯拉FSD的共同点和区别。以及目前竞争态势和未来的机会。
马斯克更是在推特上直言:“特斯拉拥有世界上最好的现实世界模拟和视频生成能力!”
但从个人观点看,我更关注SORA和马斯克口中的模拟现实世界模型是否实现了?或者离实现还有多远?
这是决定比现实世界模拟难度少几十个数量级的——AI自动驾驶,能否实现的前提条件。
个人认为,所谓理解“物理世界规律”其实还远不能成立,人对现实世界规律的理解,建立在两方面。
其一现实信息的收集,分析和理解,人存在太多的手段,除了六感,还有现代科学的辅助分析手段。还有建立在对未确定的感性预判和想象力。
其二人类对客观世界的理解,关键还建立在人类上亿年的进化,过千代每代几十亿上百亿人的信息收集、分析归纳、总结推导、验证而获得的知识和文化体系上。
还有,这些规律成立的条件和影响因素太多了?是否准确?人类穷尽了吗?
人类尚且如此,而只建立在2D的图像和视频认知的,Sora或FSD们将如何?
文章其实也给出了一些答案:
OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。
而且并不意味着它已经‘读懂了’物理规律。”
英伟达高级科学家Jim Fan也指出,目前Sora对涌现物理的理解是脆弱的,远非完美,仍会产生严重、不符合常识的幻觉,还不能很好地掌握物体间的相互作用。
AI在现实世界模拟上,只能算是初试了一下,离实现还非常远。L4级自动驾驶也是,还有不少的ConerCase要填坑。$特斯拉(TSLA)$ $比亚迪(SZ002594)$ #比亚迪##新能源车#

何为端到端AI模型?
个人认为其实就是以全电子电路模拟人脑的智能数字大脑,由输入(现实世界的信息——图像、声音和文字等)到输出(执行),全过程AI化,人工的控制和修饰减少为零,其实这不应该是一个条件,而是一个科技发展的结果。能作为区分AI的能力的一个参考,但绝对不是唯一的方向,因为人的研究参与是至关重要的。
个人觉得对中国来说,难度不在软件及模型能力上,也就是说不在算法上,因为这些其实都是open的,而且中国人天然具有数理优势,而且人口众多。而瓶颈是在算力上,尤其是高程工艺,能车载,并价格合适,能满足高载荷运算能力的AI芯片。
中国企业要根据自身的条件,开发自己特点的系统。而不能盲目地跟从概念和潮流。
(转ANDY)看看究竟谁在adas上使用真正的端到端模型:$比亚迪(SZ002594)$ $特斯拉(TSLA)$ $赛力斯(SH601127)$
1. 国内智驾行业为何在2024年集体喊出了端到端?
一个直观的回答是,因为特斯拉这么干了。去年年初,马斯克在推特上透露特斯拉已经开启端到端自动驾驶方案的开发。8月,马斯克首次直播亲测FSD V12,系统呈现出的类人驾驶效果引发热议:自动驾驶看起来真有希望了(尽管中途接管了一次)。
FSD V12的类人操作:前方车道已经拥堵,那就不要开过去堵住路口
但更接近现实情况的答案是,端到端是诸多企业在进行过大量实践、试错后,逐渐认同的一种方法。或者说,如果智能驾驶的技术问题主要是一个AI问题,那么端到端是一个通用解。
端到端并不是一个全新的概念。在人工智能领域,它是一种普遍使用的方法。比如在各种AI翻译、语音转文字应用中,基本都使用端到端:原始数据被送进一张神经网络中,经过一系列运算后,直接给出最终结果。
在智能驾驶领域,行业对端到端的探索也不鲜见,比如英伟达、Waymo都组建过团队进行预研,美国的初创公司如Comma.ai和Drive.ai,则选择All in端到端。但早年间算力、算法性能尚低,基于此开发的神经网络规模与能力有限,自动驾驶的任务又高度复杂,端到端方案的表现并不好。
因此,在实际量产中,行业前些年更普遍的做法是分而治之:
将智能驾驶的技术栈切成多个模块,每个模块有独立的算法(有的模块如感知多使用神经网络,有的模块使用传统算法),众模块前后接力,协作完成智能驾驶任务。直到目前,市面上大多L2及其以下的智能驾驶仍然使用这套技术栈,并且运行得不错,因为任务相对简单。
但问题在于,当企业的目标是实现高阶智驾乃至自动驾驶时,这种模块化的方法就不够用了——一个关键原因是,“中间人”太多了。
几乎所有地球人都参与过的“传话游戏”中,一个必然会发生的情况是,当参与游戏的传话人越多,最后一个人说出的结果与最初传下去的话差别就越离谱。
就像这样
这与智能驾驶模块化技术栈的问题共通:当信息流转的层级越多、传递的链路越长,失真情况就越严重。人类会发挥主观能动性胡乱脑补,而智驾各模块不仅对信息有损压缩、传递并累计误差,还会面临并行模块信息相互打架的问题。
面对人员冗杂、难以配合、效率低下的问题,一家企业惯常的操作是精简组织,付4.5倍工资招3个能力强的干6个人的活。
同样的事情也发生在智驾技术栈中。车企与智驾公司们不断整合智驾技术栈原来相对细碎的模块,打包成感知预测、决策规划、控制执行三大模块(也有企业将预测拆出构成四大模块)。
然而,做到这一步实际上只是让高阶智驾能用,难题依然层出不穷。
在大多已上市的智驾车型的决策规划模块中,有大量人类工程师手写的if else规则去应对不同场景。在不复杂的场景下,这些规则能运行得不错,但当场景高度复杂比如在城区智驾时,靠if else很难精确地描述并处理场景,规则与规则之间也会冲突。
就像一个刚拿证不久,反应总是会慢半拍的新手,常常会在心中默念交规开车,在车流较少时还能应付,遇到早晚高峰就原形毕露。不少智驾车型的鲁莽、笨拙、机械感,和这有分不开的关系。
为了解决这个问题,国内智驾系统开发进度靠前的企业都在进行一项工作:在决策规划模块中,逐渐用神经网络替换掉手写规则,靠数据驱动解决人工无法穷尽的弊端。
比如华为在北京车展期间发布的ADS 3.0,将原本有不少手写规则的预测决策规划模块替换为了一整张PDP神经网络;小鹏即将在五月推送的天玑系统,也会在相应模块引入神经网络模型Xplanner。
但做到这一步依然不够好。因为感知神经网络与决策规划神经网络的仍然相对独立,且任务并不相同,两者之间依然存在人工设计的通信接口,有一个信息筛选过程,也自然意味着存在信息的有损压缩——好比一个乘客负责看路,来指挥蒙着眼的司机如何开车。
在理论上,取消所有“中间人”,让一张庞大的神经网络负责整个驾驶任务,才是充分利用信息的最优解,这就是端到端智能驾驶。
智驾技术栈的演进方向
而眼下,智驾行业正处于激烈的城市NOA开城竞赛中。以人类为模板,智驾系统如果要做到全国都能开,驾驶感类人、丝滑,需要的当然不是几个人协作,而是单个足够强大的大脑在正确理解环境后,指挥腿脚做出正确的动作。
端到端就是打造出这颗AI大脑的关键路径。这是智驾行业今年对它前赴后继的根本原因。
2. 到底哪端到哪端
略显喜感的是,在这场端到端的热潮中,要么是因为中文博大精深,要么是一些企业有意为之,尽管不同企业异口同声地在说端到端,他们表达的可能完全不是一个意思。
比如华为在非智驾领域讲端到端时,表达的是“从客户端来,到客户端去”的流程。
当某些智驾算法供应商在讲感知端到端时,表示的意思其实是“将感知模块原本数张负责不同任务的神经网络整合成了一张”,而不是完全实现了端到端智能驾驶。
某些车企在宣传端到端时,实际所做的工作是“把智驾技术栈的模块合并了一些”。
实际上,严格意义上的端到端自动驾驶,指的是传感器数据进入神经网络处理后,直接输出方向盘、油门、刹车等执行器的控制信号。
严格意义上的端到端智驾
不过,稍微宽泛一点的定义目前也受到认可:车辆的控制模块不需要改造成神经网络,只要一张神经网络接管感知与决策规划,能输出正确的行驶轨迹,也可以被叫做端到端。图森未来CTO王乃岩日前就发文呼吁,业界要避免陷入狭义端到端的误区,因为这对智驾量产不利。
宽泛意义上的端到端
元戎启行CEO周光持有类似的观点,他对此的解释是:
相对于感知和决策规划,汽车的控制自由度较低,难度不高,传统算法经过长期发展已经有非常成熟的解决方案。在传统算法可以精确控制车辆按轨迹行驶的情况下,将其改造为神经网络并无明显收益,反而可能带来不同车辆的适配问题。
在这两种狭义与广义的端到端之外,一些企业试图将端到端定义为“把感知模块与决策规划模块,改造成感知神经网络和决策规划神经网络”。
宣称自己是端到端(其实不是)
相比传统的模块化架构,用两张神经网络解决智驾的思路的确更先进,能更好地实现数据驱动。但正如上文所说,两张神经网络之间仍有人工设计数据结构的接口,这个中间人的存在必然伴随信息损失,与端到端“充分利用信息”的思路有差距。
由两张大神经网络驱动的智驾,只能说是在感知与决策规划环节各自完成了端到端,能在这两个环节各自获得局部最优解,但智驾需要的是全局最优解。
在此之外,还有各种各样的端到端则有些像车企的自研榜单,只要定语加得多,哪款车都可以是最畅销车型;同样只要定义的范围足够小,任何企业都能掌握某种端到端。
类似的重新定义其实在智驾的无(高精地)图竞赛中已经广泛上演过,不少公司宣称自己的方案是无图,但实际上纷纷在导航地图上打补丁、堆先验、定制图层,更像是一种变相的高精地图。
而真正的“无图”,应该是仅采用导航电子地图(不用地图不可能),业界传闻只有极少数供应商能真正提供无图智驾方案。
不同企业此前对无图,如今对端到端千差万别的理解和运用的区别,反映出他们截然不同的出发点与目的地。

02-21 12:18

造工具,底层技术

02-21 09:24

智能驾驶领域的生图技术路径,更多参照游戏领域的制作工具或技术平台。模拟特种场景训练智驾系统。也称为虚拟路测。肯定遵循物理规律。但场景毕竟是有限的。 走的路数与Open AI 完全不同。马斯克不过蹭热点而已