硅谷顶级投资人对谈：特斯拉FSD V12的护城河在哪里？ 5月7日，特斯拉 CEO马斯克在 X 平台上表示，最新版本的自动驾驶 FSD 将会让你大吃一惊。恰巧今天，投资机构Al...

5月7日，特斯拉CEO马斯克在 X 平台上表示，最新版本的自动驾驶 FSD 将会让你大吃一惊。

恰巧今天，投资机构Altimeter Capital首席执行官布拉德利·格斯特纳 (Bradley Gerstner)也在播客上再次放出了与硅谷风险投资公司Benchmark的合伙人Bill Gurley（右）就特斯拉 FSD V12 版本的对话视频。

整体上，两位大佬认为，特斯拉的端到端模型，所拥有的车队规模，以及能够获取的高质量数据，能让特斯拉在自动驾驶领域拥有无可匹敌的优势。

精彩观点：

特斯拉用模仿学习驱动的端到端神经网络模型取代了确定性C++代码模型。这家公司非常大，有成千上万的员工，但却做出了一个如此激进的决定——就是要扔掉整个事情并重新开始，这简直太疯狂了。与那些先前的模型相比，这个模型每月的改进率要好 5 到 10 倍。

关于特斯拉和 FSD V12 的故事，最令人着迷的事情之一就是当你了解他们从哪里获取数据。它们拥有庞大的车队，然后可以上传数据，这是海量的数据，没有谁有能力做到这一点。

车辆收集的 99% 的数据永远不会返回特斯拉。他们真正要寻找的是异常时刻是什么，然后找到十个、几十个、数百个或数千个这样的时刻来训练模型，对模型进行微调，然后他们将这些模型重新上传回汽车。这就是为什么我们会得到这些指数级的改进时刻。

以下是经过编辑的对话实录：

Brad Gerstner ：我试驾了特斯拉最新的FSD V12 软件，我认为这感觉有点像是一个ChatGPT时刻。大约 12 个月前，特斯拉团队非常戏剧性地对他们的自动驾驶模型进行了分叉，将其从真正的 C++确定性模型转变为他们所说的端到端模型。你一直是自动驾驶的长期观察者，你的想法是什么？

Bill Gurley：人们对于自动驾驶一直存在批评和担忧。愿意质疑是，自动驾驶不能对所有的极端情况（corner cases ）进行编码。cornercase是指你遇到问题的地方，让你最终陷入困境的地方。以前，特斯拉会尝试为这样的每种情况编写一个代码，就像一个软件，如果如果发生X，那么就发生Y。但这种情况导致软件成为一种拼凑而成的东西，就像老鼠的洞穴一样，堆叠起来，不断积累，一点也不简洁优雅。

特斯拉的团队已经完全抛弃了编码，并采用了神经网络模型，他们正在上传来自他们最好的驾驶员的驾驶视频。从字面上看，视频是输入，输出是方向盘、制动器和油门。你知道有一个奥卡姆剃刀原理（Occam's Razor），它在科学中永远存在。那就是，一种更简单的方法，更有可能是最佳方法。当我完全理解他们在做的事情时，在我看来，这种方法更有可能走下去并取得成功，同时，它也是可维护和合理的，并且更加优雅。另一件令人印象深刻的事情是，这家公司非常大，有成千上万的员工，但却做出了一个如此激进的决定——就是要扔掉整个事情并重新开始。

Brad Gerstner ：让我们稍微了解一下 V12跟此前版本的不同之处。在 V12 的模型中没有红绿灯的确定性视图，但是此前，必须正确标记红绿灯。这样的情况下，汽车第一件事情就确定你正处于红绿灯处，然后第二件事通过C++ 代码执行下面的的操作。但这一切就像你刚刚谈到的那样，是拼凑而成的，并且很难解决每一个Corner case。但是，现在所有的东西在这个新模型中都是像素，模型本身没有代码，它不知道这本身就是红绿灯，事实上，他们只是观察驾驶员的行为，然后模型决定应该如何表现。我认为这是一个非凡的突破，我们了解到的是，与那些先前系统相比，这个模型每月的改进率要好 5 到 10 倍。

Bill Gurley：再说一次，大胆地扔掉整个旧的东西并放入新的东西，对于特斯拉来说是一件疯狂的事情。很多人将人工智能与LLM大模型等同起来，因为 ChatGPT 和 LLM 的到来确实向大多数人介绍了人工智能的能力，这些都是大语言模型，而特斯使用的通用的开源人工智能模型，可以在 Hugging face上找到它们。但是特斯拉肯定进行了定制开发，所以会有一些专有代码。

人工智能已经发展了很长时间，神经网络的概念在大模型出现之前就已经存在了，这就是为什么他们四年前就开始尝试这样做了。基本的元素已经有了，通过他们使用的方式，以及大型英伟达 GPU 集群来进行训练。这个模型使用跟大模型一样的GPU或TPU硬件进行推理，但是他们不是同一类型的代码。我认为这一点值得一提。

Brad Gerstner ：Transformers、扩散架构，卷积神经元网络，不是新东西，在过去十年里一直在研究，现在特斯拉正在将这些组件整合在一起，现在他们投入了所有的精力，并且重点变成了如何获取数据使这些模型变得更好。所以，突然之间，数据成为了核心的问题，因为模型本身只是消化这些数据。

Bill Gurley：关于特斯拉和 FSD V12 的故事，最令人着迷的事情之一就是当你了解他们从哪里获取数据。他们用五个摄像头跟踪最好的司机，然后加入计划的司机连夜上传视频。特斯拉司机说他们每晚上传 10 GB 的数据，因此你必须拥有Wi-Fi 之类的基础设施。有一个人，他的Tesla在一个月内上传了 115 GB 的数据，所以这是一个巨大的数字，而五年前的基础设施，汽车根本无法做到这一点。我们稍后会讨论竞争，它们拥有庞大的汽车车队，然后可以上传数据，这是海量的数据，还有谁有能力做到这一点。

Brad Gerstner ：所以你只需计算一下500万辆汽车，每天行驶 30 英里，汽车上有八个摄像头，每个摄像头 5 兆像素，然后数据可以追溯到 10 年前，显然不能把所有这些数据都存储起来。我认为，汽车收集的 99% 的数据永远不会返回特斯拉。（注：马斯克转发这个对谈视频时，回复称只有1/10000的行驶里程数据有用。）他们真正要寻找的是异常时刻是什么，然后找到十个、几十个、数百个或数千个这样的时刻来训练模型，对模型进行微调，然后他们将这些模型重新上传回汽车。这就是为什么我们会得到这些指数级的改进时刻。特斯拉在路上有500万辆车，拥有所有这些基础设施，正在收集数据，想想 Waymo ，它们还在用旧的架构，路上大概有 30、40 辆车，它们还有什么机会吗？即使采用了端到端的架构，Waymo 还有机会吗？

Bill Gurley：这是一个有趣的问题。顺便对你所说的上一件事进行快速评论，实际上特斯拉的工程师们非常聪明，他们已经教会了汽车应该记录哪些时刻，比如托管时刻，它们会想要托管之前和之后的时刻的时刻，以及油门过快或者刹车被快速击中、方向盘抖动的时刻等。人们已经听说过你知道人类反馈的强化学习，它们会把这些时刻放入模型中，并增加额外的权重。所以它告诉模型，如果出现汽车颠簸等类似情况，这是更重要的事情，必须格外注意。我们都知道，这些极端情况是现在自动驾驶中最大的问题，他们有办法捕获这些重要的时刻，并从中学习。开始的时候，它们需要的是海量的数据，现在带给他们优势的是，它们可以捕捉到哪些更严重，但是并不频繁的时刻，因为车队规模足够大。我不知道谁可以进行这样的竞争。让我们作出一个断言，如果端到端的模型是正确的解决方案，那么让我再次有理想相信，Cruise、Waymo，甚至 Uber 都不可能进行竞争。

Brad Gerstner ：请记住比尔刚刚说了一个重要的观点，这不仅仅是数据量的问题，而是数百万辆汽车周围会发生的一些神奇的事情。你不必获得所有数据量，但要正确地记录长尾事件的时刻，这些都是只发生几十或几百次的事件，这才是你真正需要数百万辆汽车的地方，否则你就没有这些长尾实例的相关统计池。所以关键的是数据质量，尤其跟不良事件相关的数据。

Bill Gurley：我觉得其他公司也可能采取行动，比如Mobileye 或者其他公司，但问题是，他们无法控制汽车的整个设计。特斯拉在晚上将汽车停在车库中并上传千兆字节并将其直接放入模型中，就像他们能够与其他原始设备制造商合作完成这项工作一样。他们在车上有一块东西，说何时记录，何时不记录，并且这像一个巨大的基础设施问题。

Brad Gerstner ：特斯拉拥有网络优势，拥有数据优势，以及更大的 H100 集群，显然处于领先地位。但是如果你想一想特斯拉的正确之处是什么？那么我们首先会调出这张幻灯片。如果你看看没有FSD的 Tesla 的单位经济效益，他们在一辆汽车上赚了大约两千五百美元，，如果你今天看看，他们的 FSD 渗透率约为 7%，如果降价达到 20% 或者 50% 的渗透力，将会创造数十亿美元的增量 EBITA。从特斯拉的角度，它们为什么要提升 FSD 的渗透率，是因为他们能够让数据飞轮转起来。所以我的猜测是，它们看到这样能够实现有意义的改进。我周边有人说 Waymo 价值 500-600 亿美元，但是我觉得，它们很快就会成为历史，因为它们在根本上已经很难赶上了。

Bill Gurley：Waymo的团队规模跟Cruise 差不多，Cruise 的财务表现非常糟糕，我认为Waymo的表现也会差不多。我一直在思考这种模式，制造令人难以置信的汽车，并采取对外服务的商业模式。如果做一个10 年的模型，可能需要去融资 1000 亿美元。还有另外一个因素，特斯拉的团队非常强烈地认为，雷达不是必须的，但是Waymo、Cruise 使用了这些成本高昂的组件，所以如果这一切都是真的，那么这也是一个非常激进的新发现。

Brad Gerstner ：很多机器人也开始转换成为模仿模型。斯坦福大学的学生演示了一个视频，只需要 2 分钟的训练视频，就能培训器械手臂拿起咖啡杯。我认为，我们将看到这些端到端学习的应用模型、模仿学习模型将不仅仅影响汽车。

Bill Gurley：这个视频的另一个伟大之处是，它实际上非常简单地解释了特斯拉的东西如何正常工作。我的意思是，它只是一个不同的规模，显然说的是完全相同的事情，只是进行了一个非常简化的处理。

Brad Gerstner ：这个是一个很少人工干预的自动飞轮，我猜测，特斯拉可能有更多一些的工程干预，但是我觉得特斯拉从事此项工作的团队规模可能是Cruise 的十分之一。

Bill Gurley：这种方法消除了如此多的复杂性，它用更少的人做到了这一点。用更少的人得到更好的东西，这真的很强大。

转自：智能超参数

$特斯拉(TSLA)$ #FSD v12#

— 非常好的一篇文章，解答了关于FSD 12的许多重要问题。如果你对于自动驾驶有兴趣，不管你在做多还是做空特斯拉，都应该仔细看一下这篇业内人士的访谈文章。

硅谷顶级投资人对谈：特斯拉FSD V12的护城河在哪里？

作者：一把梭十年

全部讨论