发布于: 雪球转发:0回复:0喜欢:0
回复@川普教你炒股: Transformer大语言场景已经验证过,增强了FSD对现实世界(像素)的刻画和理解//@川普教你炒股:回复@东城西不就:“核心就是将FSD的推理过程从像素-->动作,进化到像素-->语言-->动作,增加了通过多模态大模型将视频画面解释成语言的步骤,这不但增强了对现实世界的刻画和理解,让FSD的动作更具解释性,更重要的是可以利用CoT(即思维链)技术,提升它的逻辑推理能力。”
感觉有点多此一举?
引用:
2024-04-17 03:29
$特斯拉(TSLA)$ 英伟达“具身智能”实验室负责人Jim Fan(吉姆.范)对特斯拉FSD 13版本做了预判。
他认为,特斯拉 FSD v13 可能会采用 Grok-1.5V 技术,该技术利用语言标记来理解复杂场景并做出决策。这种方法可以帮助解决自动驾驶中的边缘情况,并使车辆能够通过 “思维链” 进行推理和解释。...