人形机器人技术路线梳理(一)-大模型

发布于: 雪球转发:0回复:0喜欢:0

一、大模型

1、模型:RT-2/VoxPoser

1)RT-2

谷歌 DeepMind 于 2023 年 7 月 28 日推出全球首个控制机器人的视觉-语言-动作(VLA)模型 RT-2。

简单来说,RT-2以视觉-语言模型(VLMs)开发,以PaLI-X和PaLM-E为基础模型,以图像作为输入,生成一系列自然语言文本token,来形成指导机器人动作的指令。

其他:

PaLI(Pathways Language and Image model),语言+图像模型

PaLM(Pathways Language Model),语言模型

注意:两者都是基于基础深度学习算法-transformer。transformer 是一种深度学习架构,最初被设计用于处理序列数据。其核心思想之一是注意力机制,它使模型根据输入序列中的不同位置,对不同位置的信息进行加权聚合,这样模型能够更好地捕捉上下文信息和长距离依赖关系,其中的编码器负责将输入序列映射到一个表示空间中(形成的是向量),而解码器则在此表示的基础上生成目标序列,transformer架构在自然语言处理和其他序列任务中取得了重大突破。

2)VoxPoser

斯坦福大学李飞飞教授研究团队于 2023 年 7 月 12日推出 VoxPoser,通过大语言模型加视觉语言模型指导机器人行动。

VoxPoser,给定图片和语言信息,用LLM把自然语言指令拆分成不同的小步骤并生成相应的代码,代码和VLM模型进行交互,用以建立一个空间尺度的指示地图(3D Value Map),通过 3D Value Map 中标记的值来反应哪个物体是对它具有“吸引力”的,哪些物体是具有“排斥性”,比如在打开抽屉的例子中,抽屉就是“吸引”的,花瓶是“排斥”的,在空间中找到一条最优路径并执行。(其实是先随机选择几条路径并找到cost最小的那条,然后再针对其做MPC的算法-一种预测算法,并找到局部最优)

2、这两个模型带来的突破和进步:

1)拥有了更好的泛化能力,能够加速机器人的通用化:a、理解全新未训练过的指令;b、能够进行思维链推理,进行多阶段的语义推理。举例来说,过去算法下实现机器人扔垃圾的动作需训练机器人区分、捡起、扔掉垃圾 各个步骤,而 RT-2 /VoxPoser可以在其无需明确的训练的情况下学会扔垃圾。

2)此前大模型产出的策略需要借助低级别策略或 API 才能完成对机器人的运动控制,但是RT-2/VoxPoser的可以输出直接指导机器人工作的指令语句。