室内模拟到户外真实:学习在没有任何户外经验的情况下在户外导航

1725278756502.jpg

教会移动机器人在复杂的户外环境中导航对于现实世界的应用至关重要,例如送货或搜索和救援。然而,这也是一个具有挑战性的问题,因为机器人需要感知周围环境,然后探索以确定通往目标的可行路径。另一个常见的挑战是机器人需要克服不平坦的地形,例如楼梯、路缘或小路上的岩床,同时避开障碍物和行人。在我们之前的工作中,我们研究了第二个挑战,即教会四足机器人应对具有挑战性的不平坦障碍物和各种户外地形。

在“室内模拟到室外真实:学习在没有任何户外经验的情况下在户外导航”中,我们介绍了我们最近的工作,以解决机器人推理感知周围环境以确定户外环境中可行导航路径的挑战。我们引入了一种基于学习的室内到室外迁移算法,该算法使用深度强化学习在模拟室内环境中训练导航策略,并成功地将同一策略迁移到真实的户外环境中。我们还引入了上下文地图(用户创建的包含环境观察的地图),这些地图被应用于我们的算法以实现高效的远程导航。我们证明,通过这一策略,机器人可以在新的户外环境中、绕过以前从未见过的户外障碍物(树木、灌木丛、建筑物、行人等)以及在不同天气条件下(晴天、阴天、日落)成功导航数百米。

PointGoal 导航

用户输入可以通过“前往 Android 雕像”等命令、显示目标位置的图片或简单地在地图上选择一个点来告诉机器人要去哪里。在这项工作中,我们将导航目标(地图上的选定点)指定为机器人当前位置的相对坐标(即“前往 ∆x, ∆y”),这也称为PointGoal 视觉导航(PointNav) 任务。PointNav 是导航任务的通用公式,是室内导航任务的标准选择之一。然而,由于户外环境中的视觉效果多样、地形不平坦且目标距离远,训练户外环境中的 PointNav 策略是一项具有挑战性的任务。

室内到室外的传输

最近,由于快速、可扩展的模拟器的开发以及室内环境照片级逼真的3D 扫描大规模数据集的出现,我们 在训练轮式和腿式机器人代理在室内 环境中导航方面取得了成功。为了利用这些成功,我们开发了一种室内到室外的转移技术,使我们的机器人能够从模拟的室内环境中学习,并部署到真实的室外环境中。

为了克服模拟室内环境和真实室外环境之间的差异,我们在学习系统中应用了运动控制和图像增强技术。使用运动控制时,我们假设存在一个可靠的低级运动控制器,可以控制机器人精确到达新位置。这一假设使我们能够在模拟训练期间通过前向欧拉积分将机器人直接移动到目标位置,并使我们不必在模拟中明确建模底层机器人动力学,从而大大提高了模拟数据生成的吞吐量。先前的研究表明,与动态控制方法相比,运动控制可以实现更好的模拟到现实的转移,在动态控制方法中,需要对完整的机器人动力学进行建模,并且需要低级运动控制器来移动机器人。

左:运动控制;右:动态控制

我们利用室内的物体创建了一个户外迷宫般的环境,用于初步实验,并使用波士顿动力公司的Spot 机器人进行导航测试。我们发现,机器人可以在新的户外环境中绕过新的障碍物。

Spot 机器人能够成功绕过室内环境中的障碍物,其策略完全是在模拟中训练的。

然而,当面对训练中没有见过的陌生的室外障碍物时,例如大斜坡,机器人无法爬上斜坡。

机器人无法爬坡,因为在室内环境中斜坡很少见,而且机器人也没有接受过如何爬坡的训练。

为了让机器人能够在斜坡上行走,我们在模拟训练中应用了图像增强技术。具体来说,我们在训练过程中随机倾斜机器人上的模拟摄像头。它可以在 30 度以内向上或向下指向。这种增强技术有效地让机器人即使地面是平的也能感知到斜坡。在这些感知到的斜坡上进行训练使机器人能够在现实世界中导航斜坡。

通过在模拟训练期间随机倾斜摄像机角度,机器人现在能够在斜坡上行走。

由于这些机器人仅在模拟室内环境中接受训练,在这种环境中,它们通常需要步行到几米外的目标,我们发现学习到的网络无法处理较长距离的输入 - 例如,该策略无法在空旷的空间中向前行走 100 米。为了让策略网络能够处理户外导航中常见的长距离输入,我们使用目标距离的对数对目标向量进行了规范化。

用于复杂远程导航的上下文地图

综合考虑所有因素,机器人可以在户外导航至目标,同时在不平坦的地形上行走,并避开树木、行人和其他户外障碍物。然而,仍然缺少一个关键组件:机器人规划高效长距离路径的能力。在这种导航规模下,走错路和走回头路的代价可能很高。例如,我们发现标准 PointNav 策略学习到的局部探索策略不足以找到长距离目标,并且通常会导致死胡同(如下所示)。这是因为机器人在导航时没有环境背景,并且机器人可能从一开始就看不到最佳路径。

没有环境背景的导航策略无法处理复杂的远程导航目标。

为了让机器人能够考虑到环境并有目的地规划高效路径,我们提供了一个 Context-Map(一种二值图像,表示机器人所在区域的自上而下的占用图)作为对机器人的额外观察。下面给出了一个 Context-Map 示例,其中黑色区域表示障碍物占据的区域,白色区域表示机器人可行走的区域。绿色和红色圆圈表示导航任务的起点和目标位置。通过 Context-Map,我们可以向机器人提供提示(例如,下面路线中的狭窄开口),帮助它规划高效的导航路线。在我们的实验中,我们为由Google Maps 卫星图像引导的每条路线创建了 Context-Map。我们将这种具有环境背景的 PointNav 变体表示为Context-Guided PointNav。

导航任务(左)的上下文映射示例(右) 。

值得注意的是,Context-Map 无需精确,因为它仅作为规划的粗略轮廓。在导航过程中, 机器人仍然需要依靠其机载摄像头来识别地图上没有的行人并根据行人调整其路径。在我们的实验中,人类操作员会根据卫星图像快速绘制 Context-Map,屏蔽掉需要避开的区域。此 Context-Map 连同其他机载感官输入(包括深度图像和相对于目标的相对位置)一起被输入到具有注意力模型(即transformers )的神经网络中,该网络在大规模模拟中 使用DD-PPO (近端策略优化的分布式实现)进行训练。

上下文引导 PointNav 架构由 3 层卷积神经网络(CNN) 和多层感知器(MLP)组成,前者用于处理来自机器人摄像头的深度图像,后者用于处理目标向量。这些特征被传递到门控循环单元(GRU)。我们使用额外的 CNN 编码器来处理上下文地图(自上而下的地图)。我们计算地图和深度图像之间的缩放点积注意力,并使用第二个 GRU 来处理关注特征(上下文注意力、深度注意力)。该策略的输出是 Spot 机器人要遵循的线性和角速度。

结果

我们通过三项远程户外导航任务对我们的系统进行了评估。所提供的环境地图是粗略的、不完整的环境轮廓,其中忽略了汽车、树木或椅子等障碍物。

借助所提出的算法,我们的机器人可以 100% 成功到达远距离目标位置,不会发生任何碰撞或人工干预。机器人能够绕过背景地图上不存在的行人和现实世界杂物,并在包括土坡和草地在内的各种地形上导航。

路线 1

 

路线 2

 

路线 3

 

结论

这项工作将机器人导航研究带入了多样化户外环境这一较少探索的领域。我们的室内到室外转移算法不使用任何现实世界经验,也不需要模拟器模拟主要在户外出现的现象(地形、沟渠、人行道、汽车等)。该方法的成功源于强大的运动控制、深度和地图传感器的低模拟与现实差距以及大规模模拟训练的结合。我们证明,为机器人提供近似的高级地图可以在新型户外环境中实现远程导航。我们的研究结果为挑战(公认的合理)假设提供了令人信服的证据,即我们必须为我们希望研究的每个新场景设计一个新的模拟器。有关更多信息,请参阅我们的项目页面。

致谢

我们要感谢 Sonia Chernova、Tingnan Zhang、April Zitkovich、Dhruv Batra 和 Jie Tan 为该项目提供的建议和贡献。我们还要感谢 Naoki Yokoyama、Nubby Lee、Diego Reyes、Ben Jyenis 和 Gus Kouretas 对机器人实验设置的帮助。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论