发布于: iPhone转发:2回复:8喜欢:13
$特斯拉(TSLA)$ 英伟达“具身智能”实验室负责人Jim Fan(吉姆.范)对特斯拉FSD 13版本做了预判。
他认为,特斯拉 FSD v13 可能会采用 Grok-1.5V 技术,该技术利用语言标记来理解复杂场景并做出决策。这种方法可以帮助解决自动驾驶中的边缘情况,并使车辆能够通过 “思维链” 进行推理和解释。
Grok-1.5V 可以将像素到动作的映射提升为像素到语言到动作,从而提高 FSD 的多模态推理能力。特斯拉已经拥有一套成熟的数据管道,可以用高质量的人类解释标注大量的边缘情况,并将 Grok 微调为比 GPT-4V 和 Gemini 更好的多模态 FSD 推理。虽然之前已经有过类似的尝试,但特斯拉的数据飞轮可能会在此领域实现更大的规模。
核心就是将FSD的推理过程从像素-->动作,进化到像素-->语言-->动作,增加了通过多模态大模型将视频画面解释成语言的步骤,这不但增强了对现实世界的刻画和理解,让FSD的动作更具解释性,更重要的是可以利用CoT(即思维链)技术,提升它的逻辑推理能力。
这似乎也能验证,特斯拉最近扫货H100和美光存储的原因,即充分发挥transformer,实现FSD智力涌现的跃升。

全部讨论

“核心就是将FSD的推理过程从像素-->动作,进化到像素-->语言-->动作,增加了通过多模态大模型将视频画面解释成语言的步骤,这不但增强了对现实世界的刻画和理解,让FSD的动作更具解释性,更重要的是可以利用CoT(即思维链)技术,提升它的逻辑推理能力。”
感觉有点多此一举?

04-17 10:50

这是否表明英伟达很有可能加入fsd的技术路线,从而对特斯拉发起挑战?

04-17 09:29

总感觉特斯拉这样搞下去会倒闭

04-17 11:11

所有技术都为使用服务,使用不好再好的技术也白搭。