Grasp2Vec：通过自监督抓取学习物体表征

lixia01 · 发表于 2024-12-3 21:53:17

从很小的时候开始，人们就能够识别自己喜欢的物体并将它们捡起来，尽管从未被明确教过如何做到这一点。根据认知发展研究，与世界上的物体互动的能力在物体感知和操纵能力（例如有针对性的抓取）的出现中起着至关重要的作用。通过与周围的世界互动，人们能够通过自我监督进行学习：我们知道自己采取了什么行动，并从结果中学习。在机器人技术中，这种类型的自我监督学习正在得到积极研究，因为它使机器人系统无需大量训练数据或人工监督即可学习。受物体永久性
概念的启发，我们提出了Grasp2Vec，这是一种简单但非常有效的获取物体表征的算法。Grasp2Vec 基于这样的直觉：尝试拿起任何东西都会提供多条信息 - 如果机器人抓住一个物体并将其举起，则该物体在抓取之前必须位于场景中。此外，机器人知道它抓取的物体目前在其夹持器中，因此已从场景中移除。通过这种自我监督形式，机器人可以学会通过抓取后场景中的视觉变化来识别物体。
我们之前与 X Robotics 合作，让一系列机器人同时学习仅使用单目摄像头输入来抓取家居物品，在此基础上，我们使用机械臂“无意中”抓取物体，这种经验使我们能够学习物体的丰富表征。然后，这些表征可用于获得“有意抓取”能力，机械臂随后可以拾取用户命令的物体。
构建感知奖励函数在强化学习
(RL) 框架中，任务成功通过“奖励函数”来衡量。通过最大化奖励，机器人可以从头开始自学各种抓取技能。当成功可以通过简单的传感器测量来衡量时，设计奖励函数很容易。一个简单的例子是按下按钮时直接向机器人提供奖励。但是，当我们的成功标准取决于对手头任务的感知理解时，设计奖励函数会困难得多。考虑实例抓取任务，其中向机器人展示一张夹持器中夹持的所需物体的图片。在机器人尝试抓住该物体后，它会检查夹持器的内容。此任务的奖励函数归结为回答物体识别的问题：这些物体匹配吗？
左侧，夹持器握着刷子，背景中有一些物体（黄色杯子、蓝色塑料块）。右侧，夹持器握着黄色杯子，刷子在背景中。如果左侧图像是期望的结果，那么良好的奖励函数应该“理解”上面的两幅图像对应于不同的物体。
为了解决这一识别问题，我们需要一个感知系统，该系统可以从非结构化图像数据（没有任何人工注释）中提取有意义的对象概念，以无监督的方式学习对象的视觉感知。无监督学习算法的核心是它们对数据做出结构性假设。通常假设图像可以压缩到低维空间中，并且可以根据先前的帧预测视频中的帧。但是，如果不对数据内容做出进一步的假设，这些假设通常不足以学习解开的对象表示。
如果我们在数据收集过程中使用机器人将对象从物理上解开会怎样？机器人领域为表示学习提供了一个令人兴奋的机会，因为机器人可以操纵物体，从而提供数据所需的变化因素。我们的方法依赖于这样的见解：抓取物体会将其从场景中移除。这会产生 1) 抓取之前的场景图像、2) 抓取之后的场景图像和 3) 被抓物体本身的孤立视图。
左图：抓取前的物体。中图：抓取后的物体。右图：抓取的物体。
如果我们考虑一个从图像中提取“对象集”的嵌入函数，它应该保留以下减法关系：
抓握前的物体 - 抓握后的物体 = 抓握的物体
我们使用完全卷积架构和简单的度量学习算法来实现这种相等关系。在训练时，下图所示的架构将抓取前图像和抓取后图像嵌入到密集空间特征图中。这些图被均值池化为向量，“抓取前”和“抓取后”向量之间的差异代表一组对象。该向量和被抓取对象的相应向量表示通过N-Pairs 目标被推至等价。
添加标题
经过训练后，我们的模型会自然而然地呈现出两个有用的属性。1
. 对象相似性
第一个属性是向量嵌入之间的余弦距离使我们能够比较对象并确定它们是否相同。这可用于实现强化学习的奖励函数，并允许机器人在没有人工提供的标签的情况下学习实例抓取。
2. 定位目标对象
第二个特性是，我们可以结合场景空间图和对象嵌入来定位图像空间中的“查询对象”。通过对空间特征图和查询对象对应的向量进行元素乘积，我们可以找到空间图中与查询对象“匹配”的所有像素。
当有多个对象与查询对象匹配时，或者即使查询由多个对象组成（两个向量的平均值），我们的方法也有效。例如，这是一个场景，它在场景中检测到多个橙色块。
生成的“热图”可用于规划机器人接近目标物体的方式。我们将 Grasp2Vec 的定位和实例识别功能与我们的“抓取任何东西”策略相结合，在数据收集期间看到的物体的成功率为 80%，机器人从未遇到过的新物体的成功率为 59%。
结论
在我们的论文中，我们展示了机器人抓取技能如何生成用于学习以对象为中心的表示的数据。然后，我们可以使用表示学习来“引导”更复杂的技能，例如实例抓取，同时保留我们的自主抓取系统的自监督学习属性。
除了我们自己的工作之外，最近的许多论文还研究了如何通过抓取、推动和以其他方式操纵环境中的物体，利用自监督交互来获取表示。展望未来，我们不仅为机器学习可以通过更好的感知和控制为机器人带来什么而感到兴奋，也为机器人可以在新的自监督范式中为机器学习带来什么而感到兴奋。
致谢
本研究由 Eric Jang、Coline Devin、Vincent Vanhoucke 和 Sergey Levine 开展。我们要感谢 Adrian Li、Alex Irpan、Anthony Brohan、Chelsea Finn、Christian Howard、Corey Lynch、Dmitry Kalashnikov、Ian Wilkes、Ivonne Fajardo、Julian Ibarz、Ming Zhao、Peter Pastor、Pierre Sermanet、Stephen James、Tsung-Yi Lin、Yunfei Bai 以及 Google、X 和更广泛的机器人社区的许多其他人为改进这项工作做出了贡献。

		自动登录	找回密码
密码			立即注册