重新排列视觉世界

重新排列物体(例如整理书架上的书籍、移动餐桌上的餐具或推动一堆咖啡豆)是一项基本技能,可以让机器人与我们多样化且非结构化的世界进行物理交互。虽然对人类来说很容易,但完成这样的任务对于具身机器学习 (ML) 系统来说仍然是一个开放的研究挑战,因为它需要高级和低级感知推理。例如,在堆放一堆书时,人们可能会考虑应该把书堆在哪里,按照什么顺序堆放,同时确保书的边缘彼此对齐以形成一个整齐的堆。

在机器学习的许多应用领域中,模型架构的简单差异就会表现出截然不同的泛化特性。因此,人们可能会问,是否存在某些深度网络架构,它们有利于重排问题的简单底层元素。例如,卷积架构在计算机视觉中很常见,因为它们编码了平移不变性,即使图像发生移位也会产生相同的响应,而Transformer 架构在语言处理中很常见,因为它们利用自注意力来捕获长距离上下文依赖关系。在机器人应用中,一个常见的架构元素是在学习模型中使用以对象为中心的表示,例如姿势、关键点或对象描述符,但这些表示需要额外的训练数据(通常是手动注释),并且难以描述困难场景,例如可变形物体(例如橡皮泥)、流体(蜂蜜)或一堆东西(切碎的洋葱)。

今天,我们介绍了Transporter Network,这是一种用于学习基于视觉的重排任务的简单模型架构,它作为CoRL 2020的出版物和全体演讲发表。Transporter Nets 使用一种新颖的 3D 空间理解方法,避免了对以对象为中心的表示的依赖,使其适用于基于视觉的操作,但比基准端到端替代方案的样本效率高得多。因此,它们在真实机器人上进行训练既快速又实用。我们还将发布 Transporter Nets 的配套开源实现以及Ravens,这是我们新的模拟基准套件,包含十个基于视觉的操作任务。

传送网络:为机器人操控重新排列视觉世界

传输网络架构背后的关键思想是,人们可以将重新排列问题表述为学习如何移动 3D 空间的一大块。与依赖于对象的明确定义(这必然会难以捕捉所有极端情况)不同,3D 空间是一个更广泛的定义,可以作为被重新排列的原子单元,并且可以广泛地包含一个对象、一个对象的一部分或多个对象等。传输网络通过捕获 3D 视觉世界的深度表示,然后将其部分叠加在自身上来想象 3D 空间的各种可能的重新排列,从而利用这种结构。然后,它选择与训练期间看到的重新排列最匹配的重新排列(例如,来自专家演示),并使用它们来参数化机器人动作。这种表述允许传输网络推广到看不见的对象,并使它们能够更好地利用数据中的几何对称性,以便它们可以推断出新的场景配置。传送网络适用于机器人操控的各种重新排列任务,超越了我们早期的模型,例如基于可供性的操控和TossingBot,这些模型只关注抓取和抛掷。

传送网络捕捉视觉世界的深度表征,然后将其各部分叠加在自身上,以想象 3D 空间的各种可能的重新排列,从而找到最佳的排列方式并告知机器人的动作。

乌鸦基准

为了在一致的环境中评估 Transporter Nets 的性能,以便与基线和消融进行公平比较,我们开发了Ravens,这是一套包含十个模拟视觉重排任务的基准测试套件。Ravens 具有Gym API,其中内置了随机预言机,用于评估模仿学习方法的样本效率。Ravens 避免了无法转移到真实设置的假设:观察数据仅包含 RGB-D 图像和相机参数;动作是末端执行器姿势(通过逆运动学转置为关节位置)。

在这十项任务上进行的实验表明,Transporter Nets 的样本效率比其他端到端方法高出几个数量级,仅通过 100 次演示就能在许多任务上实现 90% 以上的成功率,而基线则难以用相同数量的数据进行推广。在实践中,这使得收集足够的演示成为在真实机器人上训练这些模型的更可行的选择(我们在下面展示了示例)。

我们的新 Ravens 基准测试包括十项基于视觉的模拟操作任务,包括推动和拾取和放置,实验表明,Transporter Nets 的样本效率比其他端到端方法高出几个数量级。Ravens 具有 Gym  API,其中内置了随机预言机,用于评估模仿学习方法的样本效率。

1729242063662.jpg

我们的新Ravens基准测试包括十项基于视觉的模拟操作任务,包括推动和拾取和放置,实验表明,Transporter Nets 的样本效率比其他端到端方法高出几个数量级。Ravens 具有Gym API,其中内置了随机预言机,用于评估模仿学习方法的样本效率。

亮点

通过 10 个示例演示,运输网络可以学习拾取和放置任务,例如堆叠盘子(令人惊讶的是很容易放错!),多模式任务,例如将盒子的任意角与桌面上的标记对齐,或构建积木金字塔。

1729242048234.jpg

通过利用闭环视觉反馈,传输网络能够通过少量演示来学习各种多步骤连续任务:例如,移动汉诺塔的磁盘、码垛箱子或组装训练期间未见过的新物体套件。这些任务具有相当长的“视野”,这意味着要解决任务,模型必须正确排序许多个人选择。策略也倾向于学习紧急恢复行为。

1729242028869.jpg

这些结果令人惊讶的一点是,除了感知之外,模型还开始学习类似于高级规划的行为。例如,为了解决汉诺塔问题,模型必须选择下一步移动哪个圆盘,这需要根据当前可见的圆盘及其位置识别棋盘的状态。在箱子码垛任务中,模型必须找到托盘的空白处,并确定新箱子如何放入这些空隙中。这些行为令人兴奋,因为它们表明,有了所有固有的不变性,模型可以专注于学习更高级的操作模式。

传送器网络还可以学习使用由两个末端执行器姿势定义的任何运动基元的任务,例如将一堆小物体推入目标集,或重新配置可变形绳索以连接三边形的两个端点。这表明刚性空间位移可以作为非刚性位移的有用先验。

1729242003269.jpg

结论

传输网络为学习基于视觉的操作提供了一种有前途的方法,但并非没有局限性。例如,它们可能容易受到嘈杂的 3D 数据的影响,我们仅展示了它们用于使用运动基元进行稀疏路径点控制,并且仍不清楚如何将它们扩展到空间动作空间之外以进行力或扭矩动作。但总的来说,我们对这个工作方向感到兴奋,我们希望它能为我们讨论过的应用之外的扩展提供灵感。

致谢

这项研究由 Andy Zeng、Pete Florence、Jonathan Tompson、Stefan Welker、Jonathan Chien、Maria Attarian、Travis Armstrong、Ivan Krasin、Dan Duong、Vikas Sindhwani 和 Johnny Lee 完成,特别感谢 Ken Goldberg、Razvan Surdulescu、Daniel Seita、Ayzaan Wahid、Vincent Vanhoucke、Anelia Angelova 和 Kendra Byrne 对写作提供的帮助反馈;Sean Snyder、Jonathan Vela、Larry Bisares、Michael Villanueva 和 Brandon Hurd 提供操作和硬件支持;Robert Baruch 提供软件基础设施,Jared Braun 提供 UI 贡献;Erwin Coumans 提供 PyBullet 建议;Laura Graesser 提供视频旁白。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论