人形机器人技术路线梳理（一）-大模型一、大模型1、模型：RT-2/VoxPoser1）RT-2 谷歌 DeepMind 于 2023 年 7 月 28 日推...

一、大模型

1、模型：RT-2/VoxPoser

1）RT-2

谷歌 DeepMind 于 2023 年 7 月 28 日推出全球首个控制机器人的视觉-语言-动作(VLA)模型 RT-2。

简单来说，RT-2以视觉-语言模型（VLMs）开发，以PaLI-X和PaLM-E为基础模型，以图像作为输入，生成一系列自然语言文本token，来形成指导机器人动作的指令。

其他：

PaLI（Pathways Language and Image model），语言+图像模型

PaLM(Pathways Language Model），语言模型

注意：两者都是基于基础深度学习算法-transformer。transformer 是一种深度学习架构，最初被设计用于处理序列数据。其核心思想之一是注意力机制，它使模型根据输入序列中的不同位置，对不同位置的信息进行加权聚合，这样模型能够更好地捕捉上下文信息和长距离依赖关系，其中的编码器负责将输入序列映射到一个表示空间中（形成的是向量），而解码器则在此表示的基础上生成目标序列，transformer架构在自然语言处理和其他序列任务中取得了重大突破。

2）VoxPoser

斯坦福大学李飞飞教授研究团队于 2023 年 7 月 12日推出 VoxPoser，通过大语言模型加视觉语言模型指导机器人行动。

VoxPoser，给定图片和语言信息，用LLM把自然语言指令拆分成不同的小步骤并生成相应的代码，代码和VLM模型进行交互，用以建立一个空间尺度的指示地图（3D Value Map），通过 3D Value Map 中标记的值来反应哪个物体是对它具有“吸引力”的，哪些物体是具有“排斥性”，比如在打开抽屉的例子中，抽屉就是“吸引”的，花瓶是“排斥”的，在空间中找到一条最优路径并执行。（其实是先随机选择几条路径并找到cost最小的那条，然后再针对其做MPC的算法-一种预测算法，并找到局部最优）

2、这两个模型带来的突破和进步：

1）拥有了更好的泛化能力，能够加速机器人的通用化：a、理解全新未训练过的指令；b、能够进行思维链推理，进行多阶段的语义推理。举例来说，过去算法下实现机器人扔垃圾的动作需训练机器人区分、捡起、扔掉垃圾各个步骤，而 RT-2 /VoxPoser可以在其无需明确的训练的情况下学会扔垃圾。

2）此前大模型产出的策略需要借助低级别策略或 API 才能完成对机器人的运动控制，但是RT-2/VoxPoser的可以输出直接指导机器人工作的指令语句。

人形机器人技术路线梳理（一）-大模型

作者：法外狂徒CL