$谷歌C(GOOG)$ 谷歌在人形机器人领域有较为深厚的技术积累，接连推出了 PaLM-E、RT-2 等人形机器人模型...

$谷歌C(GOOG)$ 谷歌在人形机器人领域有较为深厚的技术积累，接连推出了 PaLM-E、RT-2 等人形机器人模型。以下是谷歌在人形机器人方面的一些技术积累：
- 视觉-语言-动作模型：谷歌推出了视觉-语言-行动模型 RT-2，这是全球第一个控制机器人的视觉-语言-动作（VLA）模型。该模型可以从网络和机器人数据中进行学习，并将这些知识转化为机器人可以控制的通用指令。RT-2 建立在视觉-语言模型（VLM）的基础上，又创造了一种新的概念：视觉-语言-动作（VLA）模型，它可以从网络和机器人数据中进行学习，并将这些知识转化为机器人可以控制的通用指令。
- 具身视觉语言模型：谷歌开发了具身视觉语言模型 PaLM-E，这是一种多模态具身视觉语言模型（VLM），其可以在不需要再训练的情况下执行各种任务。PaLM-E 是通过 PaLM-540B 语言模型与 ViT-22B 视觉Transformer 模型相结合构建的，最终的参数量高达5620亿，这是全球已知的最大视觉语言模型。PaLM-E 不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。
- 数据收集系统：谷歌开发了数据收集系统 AutoRT，这个系统将大模型（包括LLM和VLM）与机器人控制模型（RT）相结合，不断地指挥机器人去执行现实世界中的各种任务，从而产生数据并收集。该系统具有安全护栏，采用“以安全为重点的提示”，灵感来自科幻作家艾萨克·阿西莫夫的“机器人三定律”。
- 机器人加速模型：谷歌开发了 SARA-RT 模型，这是一种新的模型微调方法，可以将原来的二次复杂度转换为线性复杂度，同时保持处理质量。将 SARA-RT 应用于具有数十亿参数的 RT-2 模型时，后者可以在各种任务上实现更快的操作速度以及更高的准确率。
- 机器人泛化框架：谷歌推出了 RT-Trajectory 框架，这是一个帮助机器人泛化的框架，通过给机器人提供视觉提示的方法来教它完成任务。RT-Trajectory 可以在训练视频中自动添加描述机器人运动的视觉轮廓。这些轨迹为模型学习机器人控制策略提供了低级但非常实用的视觉提示。

作者：茧房里的众生光