RT-1:用于大规模实际控制的机器人变压器

1725983747441.jpg

机器学习 (ML) 研究的多个子领域(例如计算机视觉和自然语言处理)最近取得了重大进展,这得益于一种通用方法,该方法利用了大型、多样化的数据集和能够有效吸收所有数据的表达模型。尽管人们曾多次 尝试将这种方法应用于机器人技术,但机器人尚未像其他子领域那样利用高性能模型。

造成这一挑战的因素有几个。首先,缺乏大规模和多样化的机器人数据,这限制了模型吸收大量机器人经验的能力。数据收集对于机器人来说尤其昂贵且具有挑战性,因为数据集管理需要工程繁重的自主 操作,或使用人类远程操作收集的演示。第二个因素是缺乏富有表现力、可扩展且速度足够快的实时推理模型,这些模型可以从此类数据集中学习并有效概括。

为了应对这些挑战,我们提出了Robotics Transformer 1 (RT-1),这是一个多任务模型,它可以对机器人输入和输出动作 (例如,摄像机图像、任务指令和运动命令)进行标记,以在运行时实现高效推理,从而使实时控制成为可能。该模型在一个大规模的真实机器人数据集上进行训练,该数据集包含 13 万集,涵盖 700 多项任务,这些数据集是使用来自Everyday Robots (EDR) 的 13 个机器人组成的队伍在 17 个月内收集的。我们证明,与之前的技术相比,RT-1 可以显著提高对新任务、环境和对象的零样本泛化能力。此外,我们仔细评估和消除了模型和训练集中的许多设计选择,分析了标记化、动作表示和数据集组成的效果。最后,我们将开源RT-1 代码,并希望它能为未来扩大机器人学习的研究提供宝贵的资源。

RT-1吸收了大量的数据,包括具有多种任务、物体和环境的机器人轨迹,从而实现了更好的性能和泛化。

机器人变压器 (RT-1)

RT-1 建立在一个转换器架构上,该架构从机器人的相机中获取图像的简短历史记录以及用自然语言表达的任务描述作为输入,并直接输出标记化的动作。

RT-1 的架构类似于当代仅解码器序列模型,该模型针对具有因果掩蔽的标准分类交叉熵目标进行训练。其主要功能包括:图像标记化、动作标记化和标记压缩,如下所述。

图像标记化:我们将 图像放入在ImageNet上预先训练的EfficientNet-B3模型中,然后将生成的 9×9×512 空间特征图展平为 81 个标记。图像标记器以自然语言任务指令为条件,并使用初始化为身份的FiLM 层在早期提取与任务相关的图像特征。

动作标记化:机器人的动作维度包括 7 个用于手臂运动的变量(x、y、z、滚动、俯仰、偏航、夹持器张开)、3 个用于底座运动的变量(x、y、偏航)以及一个额外的离散变量,用于在三种模式之间切换:控制手臂、控制底座或终止情节。每个动作维度都离散化为 256 个箱体。

标记压缩:该模型根据图像标记对元素注意模块TokenLearner学习的影响,自适应地选择可以进行压缩的图像标记的软组合,从而使推理速度提高 2.4 倍以上。

RT-1 的架构:该模型将文本指令和一组图像作为输入,通过预先训练的 FiLM EfficientNet 模型将它们编码为 token,并通过 TokenLearner 对其进行压缩。然后将它们输入到 Transformer 中,Transformer 输出动作 token。

为了构建一个可以推广到新任务并显示对不同干扰因素和背景的稳健性的系统,我们收集了一个庞大而多样化的机器人轨迹数据集。我们使用了 13 个 EDR 机器人操纵器,每个操纵器都有一个 7 自由度臂、一个 2 指夹持器和一个移动基座,在 17 个月内收集了 13 万个情节。我们使用了人类通过远程遥控提供的演示,并使用机器人刚刚执行的指令的文本描述注释了每个情节。数据集中表示的高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长物品直立放置、撞倒物体、拉动餐巾纸和打开罐子。最终的数据集包括 13 万多个情节,涵盖了使用许多不同物体的 700 多个任务。

实验与结果

为了更好地理解 RT-1 的泛化能力,我们研究了其针对三个基线的性能:Gato、BC-Z 和 BC-Z XL(即,具有与 RT-1 相同数量参数的 BC-Z),涵盖四个类别:

已见任务表现:训练期间已见任务的表现

未见任务表现:在未见任务中的表现,其中技能和对象在训练集中单独出现,但以新颖的方式组合在一起

稳健性(干扰项和背景):干扰项(最多 9 个干扰项和遮挡)下的性能以及背景变化下的性能(新厨房、灯光、背景场景)

长期场景:在真实厨房中 执行SayCan类型的自然语言指令

RT-1 在所有四个类别中的表现都远远优于基线,表现出令人印象深刻的泛化程度和鲁棒性。

RT-1 与基线在评估场景中的表现。

整合异构数据源

为了进一步推动 RT-1 的发展,我们用从另一个机器人收集的数据对其进行训练,以测试 (1) 当出现新数据源时,模型是否能保持其在原始任务上的性能,以及 (2) 模型在使用新数据和不同数据时的泛化能力是否有所提升,这两者都是通用机器人学习模型所希望的。具体来说,我们使用在固定基座Kuka 手臂上自主收集的 209k 个无差别抓取场景用于QT-Opt 项目。我们对收集到的数据进行转换,使其与使用 EDR 收集的原始数据集的动作规格和界限相匹配,并使用任务指令“挑选任何东西”标记每个场景(Kuka 数据集没有对象标签)。然后,在每个训练批次中将 Kuka 数据与 EDR 数据以 1:2 的比例混合,以控制原始 EDR 技能的回归。

从多个机器人收集数据时的训练方法。

我们的结果表明,RT-1 能够通过观察其他机器人的经验来获得新技能。具体来说,当使用 Kuka 的箱体拾取数据和机器人教室的现有 EDR 数据对 RT-1 进行训练时,仅使用 EDR 数据进行训练时的准确率仅为 22%,而使用机器人教室中的现有 EDR 数据进行训练时,准确率几乎提高了 2 倍,达到 39%,我们在机器人教室中收集了大部分 RT-1 数据。当仅使用 Kuka 的箱体拾取数据对 RT-1 进行训练,然后使用 EDR 机器人的箱体拾取数据对其进行评估时,我们发现准确率为 0%。另一方面,混合使用两种机器人的数据,RT-1 可以在面对 Kuka 观察到的状态时推断出 EDR 机器人的动作,而无需 EDR 机器人上箱体拾取的明确演示,并利用 Kuka 收集的经验。这为未来的工作提供了一个机会,即结合更多多机器人数据集来增强机器人的能力。

训练数据 课堂评估      拾取评估

Kuka 拾料数据 + EDR 数据 90% 39%

仅限 EDR 数据 92% 22%

Kuka 仅拾取数据 0 0

使用各种训练数据进行 RT-1 准确度评估。

长期 SayCan 任务

RT-1 的高性能和泛化能力可通过 SayCan 实现长远的移动操作任务。SayCan 的工作原理是将语言模型建立在机器人功能的基础上,并利用少量提示将用自然语言表达的长远任务分解为一系列低级技能。

SayCan 任务提供了理想的评估设置来测试各种特性:

长期任务的成功率会随着任务长度而呈指数下降,因此较高的操纵成功率非常重要。

移动操作任务需要在导航和操作之间进行多次切换,因此对初始策略条件(例如,基准位置)变化的稳健性至关重要。

可能的高级指令的数量随着操作原语的技能广度而增加。

我们在两个真实厨房中评估了 SayCan 与 RT-1 和另外两个基线(SayCan 与 Gato 以及 SayCan 与 BC-Z)。下图中的“Kitchen2”构成了一个比“Kitchen1”更具挑战性的泛化场景。用于收集大部分训练数据的模拟厨房是仿照 Kitchen1 建模的。

SayCan with RT-1 在 Kitchen1 中实现了 67% 的执行成功率,优于其他基线。由于新出现的未见厨房带来的泛化困难,SayCan with Gato 和 SayCan with BCZ 的性能大幅下降,而 RT-1 没有出现明显下降。

 Kitchen1 中的 SayCan 任务    Kitchen2 中的 SayCan 任务

规划 执行 规划 执行

原创 Saycan 73 四十七 - -

SayCan 与 Gato 87 33 87 0

SayCan 与 BC-Z 87 53 87 十三

SayCan 带 RT-1 87 67 87 67

以下视频展示了 PaLM-SayCan-RT1 在多个真实厨房中执行长期任务的几个示例。

结论

RT-1 Robotics Transformer 是一种简单且可扩展的动作生成模型,适用于现实世界的机器人任务。它对所有输入和输出进行标记化,并使用经过预先训练的 EfficientNet 模型和早期语言融合以及用于压缩的标记学习器。RT-1 在数百项任务中表现出色,并在现实世界中具有广泛的泛化能力和稳健性。

在探索这项工作的未来方向时,我们希望通过开发允许非专家使用定向数据收集和模型提示来训练机器人的方法来更快地扩展机器人技能的数量。我们还期待通过可扩展的注意力和记忆来提高机器人变形金刚的反应速度和上下文保留能力。要了解更多信息,请查看论文、开源代码 RT-1 代码和项目网站。

致谢

这项工作是与 Anthony Brohan、Noah Brown、Justice Carbajal、Yevgen Chebotar、Joseph Dabis、Chelsea Finn、Keerthana Gopalakrishnan、Karol Hausman、Alex Herzog、Jasmine Hsu、Julian Ibarz、Brian Ichter、Alex Irpan、Tomas Jackson、Sally 合作完成的Jesmonth、尼基尔·乔希、瑞恩·朱利安、德米特里·卡拉什尼科夫、邝宇恒、伊莎贝尔·莱尔、李光慧、谢尔盖·莱文、姚璐、乌察夫·马拉、迪克沙·曼朱纳特、伊戈尔·莫达奇、奥菲尔·纳胡姆、卡罗莱纳·帕拉达、乔迪林·佩拉尔塔、艾米丽·佩雷斯、卡尔Pertsch、Jornell Quiambao、Kanishka Rao、Michael Ryoo、Grecia Salazar、Pannag Sanketi、Kevin Sayed、Jaspiar Singh、Sumedh Sontakke、Austin Stone、Clayton Tan、Huong Tran、Vincent Vanhoucke、Steve Vega、Quan Vuong、Fei Xia、Ted Shaw、Peng Xu、Sichun Xu、Tianhe Yu 和 Brianna Zitkovich。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论