|
仅在美国,就有 300 万人行动不便,无法离开家门。能够自主远距离导航的服务机器人可以提高行动不便人士的独立性,例如,为他们送来杂货、药品和包裹。研究表明,深度强化学习 (RL) 擅长将原始感官输入映射到动作,例如学习抓取物体和机器人运动,但 RL代理通常缺乏对大型物理空间的理解,无法在没有人工帮助的情况下安全地进行长距离导航,也无法轻松适应新空间。
在最近的三篇论文“使用 AutoRL 端到端学习导航行为”、“ PRM-RL:通过结合强化学习和基于采样的规划实现远程机器人导航任务”和“使用 PRM-RL 实现远程室内导航”中,我们通过将深度 RL 与远程规划相结合来研究易于适应的机器人自主性。我们训练局部规划器代理执行基本的导航行为,安全地穿越短距离而不会与移动障碍物发生碰撞。局部规划器采用嘈杂的传感器观测值,例如提供与障碍物距离的 1D激光雷达,并输出用于机器人控制的线性和角速度。我们使用 AutoRL 在模拟中训练局部规划器,AutoRL 是一种自动搜索 RL 奖励和神经网络架构的方法。尽管局部规划器的范围有限到 10 到 15 米,但它们可以很好地迁移到真实机器人和新的、以前从未见过的环境。这使我们能够将它们用作在大空间中导航的构建块。然后,我们构建一个路线图,这是一个图,其中节点是位置,边仅当局部规划器能够可靠地在它们之间穿越时才连接节点,局部规划器可以很好地模拟真实机器人及其嘈杂的传感器和控制。
自动化强化学习 (AutoRL)
在我们的第一篇论文中,我们在小型静态环境中训练局部规划器。然而,使用标准深度强化学习算法(例如深度确定性策略梯度 ( DDPG ))进行训练会带来一些挑战。例如,局部规划器的真正目标是实现目标,而目标代表着稀疏的奖励。在实践中,这要求研究人员花费大量时间迭代和手动调整奖励。研究人员还必须对神经网络架构做出决策,而没有明确公认的最佳实践。最后,像 DDPG 这样的算法是不稳定的学习者,并且经常表现出灾难性的遗忘。
为了克服这些挑战,我们实现了深度强化学习 (RL) 训练的自动化。AutoRL 是围绕深度 RL 的进化自动化层,它使用大规模超参数优化来搜索奖励和神经网络架构。它分为两个阶段:奖励搜索和神经网络架构搜索。在奖励搜索期间,AutoRL 会在几代中同时训练一组 DDPG 代理,每个代理都有略微不同的奖励函数,以优化本地规划器的真正目标:到达目的地。在奖励搜索阶段结束时,我们选择最常引导代理到达目的地的奖励。在神经网络架构搜索阶段,我们重复该过程,这次使用选定的奖励并调整网络层,以优化累积奖励。
然而,这种迭代过程意味着 AutoRL 的样本效率不高。训练一个代理需要 500 万个样本;对 100 个代理进行 10 代 AutoRL 训练需要 50 亿个样本 - 相当于 32 年的训练!好处是,在 AutoRL 之后,手动训练过程是自动化的,DDPG 不会出现灾难性的遗忘。最重要的是,产生的策略质量更高 - AutoRL 策略对传感器、执行器和定位噪声具有鲁棒性,并且可以很好地推广到新环境。在我们的测试环境中,我们的最佳策略比其他导航方法成功率高出 26%。
虽然这些策略仅执行局部导航,但它们对移动障碍物具有很强的鲁棒性,并且可以很好地转移到真实机器人身上,即使在非结构化环境中也是如此。虽然它们是在仅使用静态障碍物的模拟中训练的,但它们也可以有效地处理移动物体。下一步是将 AutoRL 策略与基于采样的规划相结合,以扩大其范围并实现远程导航。
使用 PRM-RL 实现远程导航
基于采样的规划器通过近似机器人运动来解决远程导航问题。例如,概率路线图(PRM) 对机器人姿势进行采样并将它们与可行的转换连接起来,从而创建可捕捉机器人在广阔空间内有效运动的路线图。在我们的第二篇论文中,该论文获得了ICRA 2018服务机器人最佳论文奖,我们将 PRM 与手动调整的基于 RL 的本地规划器(不使用 AutoRL)相结合,对机器人进行一次本地训练,然后使其适应不同的环境。 首先,我们在通用模拟训练环境中为每个机器人训练一个本地规划器策略。接下来,我们根据该策略在部署环境的平面图上构建一个 PRM,称为 PRM-RL。对于我们希望在建筑物中部署的任何机器人,都可以使用相同的平面图,每个机器人+环境设置一次。 要构建 PRM-RL,我们仅在基于 RL 的本地规划器(可以很好地代表机器人噪声)能够可靠且一致地在它们之间导航时才连接采样节点。这是通过蒙特卡罗模拟完成的。生成的路线图会根据特定机器人的能力和几何形状进行调整。具有相同几何形状但不同传感器和执行器的机器人的路线图将具有不同的连接性。由于代理可以绕过角落,因此可以包括视线不清晰的节点。而由于传感器噪声,靠近墙壁和障碍物的节点不太可能连接到路线图中。在执行时,RL 代理会从路线图航点导航到航点。
第三篇论文对原始 PRM-RL 进行了几项改进。首先,我们用 AutoRL 训练的本地规划器替换了手动调整的 DDPG,从而改善了远程导航。其次,它添加了机器人在执行时使用的同步定位和地图构建(SLAM) 地图作为构建路线图的来源。由于 SLAM 地图噪声很大,因此这一变化弥补了“sim2real gap”现象,这是机器人技术中的一种现象,即模拟训练的代理在转移到真实机器人时表现明显不佳。我们的模拟成功率与机器人实验中的成功率相同。最后,我们添加了分布式路线图构建,从而生成了包含多达 700,000 个节点的超大规模路线图。
我们使用 AutoRL 代理评估了该方法,使用比训练环境大 200 倍的办公室楼层地图构建路线图,在 20 次试验中接受成功率至少为 90% 的边缘。我们将 PRM-RL 与各种不同的方法进行了比较,距离可达 100 米,远远超出了本地规划器的范围。PRM-RL 的成功率是基线的 2 到 3 倍,因为节点的连接方式与机器人的能力相适应。
我们在多个真实机器人和真实建筑工地上测试了 PRM-RL。下面显示了一组测试;除了靠近杂乱区域和 SLAM 地图边缘的地方外,机器人非常稳健。
结论
自主机器人导航可以显著提高行动不便人士的独立性。我们可以通过开发易于适应的机器人自主性来实现这一目标,包括可以使用已有信息在新环境中部署的方法。这是通过使用 AutoRL 自动学习基本的短距离导航行为,并结合使用这些学习到的策略与 SLAM 地图来构建路线图来实现的。这些路线图由通过机器人可以持续遍历的边缘连接的节点组成。结果是,一旦训练完成,策略就可以在不同环境中使用,并且可以生成针对特定机器人量身定制的路线图。
致谢
这项研究由 Hao-Tien Lewis Chiang、James Davidson、Aleksandra Faust、Marek Fiser、Anthony Francis、Jasmine Hsu、J. Chase Kew、Tsang-Wei Edward Lee、Ken Oslund、来自谷歌机器人技术的 Oscar Ramirez 和来自新墨西哥大学的 Lydia Tapia 完成,按字母顺序排列。我们感谢 Alexander Toshev、Brian Ichter、Chris Harris 和 Vincent Vanhoucke 的有益讨论。
|
|