从地形语义学中学习野外行走

1726205308429.jpg

四足机器人的一个重要前景是它们有可能在人类难以或无法进入的复杂户外环境中运行。无论是在深山中寻找自然资源,还是在地震灾区寻找生命信号,一个坚固而多功能的四足机器人都会非常有用。为了实现这一点,机器人需要感知环境,了解其运动挑战,并相应地调整其运动技能。虽然感知运动方面的最新进展大大增强了四足机器人的能力,但大多数研究都集中在室内或城市环境中,因此它们无法有效处理越野地形的复杂性。在这些环境中,机器人不仅需要了解地形形状(例如坡度、平滑度),还需要了解其接触特性(例如摩擦、恢复、可变形性),这对于机器人决定其运动技能非常重要。由于现有的感知运动系统主要侧重于使用深度摄像头或激光雷达,因此这些系统很难准确估计这些地形特性。

在“从人类演示中学习语义感知的运动技能”中,我们设计了一个分层学习框架来提高机器人穿越复杂越野环境的能力。与以前关注环境几何(例如地形形状和障碍物位置)的方法不同,我们关注环境语义,例如地形类型(草地、泥地等)和接触属性,它们提供了一组对越野环境有用的互补信息。当机器人行走时,框架会根据感知到的语义决定运动技能,包括机器人的速度和步态(即腿部运动的形状和时间),这使机器人能够在各种越野地形上稳健行走,包括岩石、鹅卵石、深草、泥地等。

我们的框架从相机 RGB 图像中选择机器人的技能(步态和速度)。我们首先根据地形语义计算速度,然后根据速度选择步态。

概述

分层框架由高级技能策略和低级电机控制器组成。技能策略根据摄像机图像选择运动技能,电机控制器将选定的技能转换为电机命令。高级技能策略进一步分解为学习到的速度策略和基于启发式的步态选择器。为了决定一项技能,速度策略首先根据来自板载RGB摄像机的语义信息计算所需的前进速度。为了提高能源效率和稳定性,四足机器人通常为每种速度选择不同的步态,因此我们设计了步态选择器来根据前进速度计算所需的步态。最后,低级凸模型预测控制器(MPC) 将所需的运动技能转换为电机扭矩命令,并在真实硬件上执行它们。我们使用模仿学习直接在现实世界中训练速度策略,因为与标准强化学习算法相比,它需要更少的训练数据。

该框架由高级技能策略和低级电机控制器组成。

从人类示范中学习速度命令

作为我们管道的核心组件,速度策略根据车载摄像头的 RGB 图像输出机器人所需的前进速度。尽管许多机器人学习任务可以利用模拟作为低成本数据收集的来源,但我们在现实世界中训练速度策略,因为目前还无法准确模拟复杂多样的越野环境。由于现实世界中的策略学习耗时且可能不安全,我们做出了两个关键的设计选择来提高系统的数据效率和安全性。

第一种是从人类示范中学习。标准强化学习算法通常通过探索来学习,其中代理在环境中尝试不同的动作并根据收到的奖励建立偏好。然而,这种探索可能不安全,特别是在越野环境中,因为任何机器人故障都可能损坏机器人硬件和周围环境。为了确保安全,我们使用从人类示范中模仿学习来训练速度策略。我们首先要求人类操作员在各种越野地形上遥控机器人,其中操作员使用遥控操纵杆控制机器人的速度和航向。接下来,我们通过存储(图像,前进速度)对来收集训练数据。然后,我们使用标准监督学习来训练速度策略以预测人类操作员的速度命令。事实证明,人类示范既安全又高质量,并且允许机器人学习针对不同地形的适当速度选择。

第二个关键的设计选择是训练方法。深度神经网络,尤其是那些涉及高维视觉输入的神经网络,通常需要大量数据进行训练。为了减少所需的真实世界训练数据量,我们首先在 RUGD (越野驾驶数据集,其中的图像看起来与机器人车载摄像头捕获的图像相似)上预训练语义分割模型,其中模型预测摄像头图像中每个像素的语义类别(草、泥等)。然后,我们从模型的中间层中提取语义嵌入,并将其用作机器人训练的特征。借助预训练的语义嵌入,我们可以使用不到 30 分钟的真实世界数据有效地训练速度策略,从而大大减少了所需的工作量。

我们预先训练了语义分割模型并提取了语义嵌入以便在机器人数据上进行微调。

步态选择和运动控制

管道中的下一个组件是步态选择器,它根据速度策略的速度命令计算适当的步态。机器人的步态,包括其步频、摆动高度和基座高度,可以极大地影响机器人穿越不同地形的能力。

科学研究表明,动物在不同速度下会切换不同的步态,这一结果在四足机器人中得到进一步验证,因此我们设计了步态选择器来计算每种速度的稳健步态。与在所有速度下使用固定步态相比,我们发现步态选择器进一步增强了机器人在越野地形上的导航性能(更多详细信息请参阅论文)。

管道的最后一个组件是电机控制器,它将速度和步态命令转换为电机扭矩。与之前的工作类似,我们对摆动腿和站立腿使用单独的控制策略。通过将技能学习和电机控制任务分开,技能策略只需要输出所需的速度,而不需要学习低级运动控制,这大大简化了学习过程。

实验结果

我们在一台A1 四足机器人 上实现了我们的框架,并在一条户外小路上对其进行了测试,该小路上有多种地形类型,包括草地、碎石路和沥青路,这些地形对机器人的难度各不相同。例如,虽然机器人需要在深草中缓慢行走并大幅摆动双脚以防止脚被卡住,但在沥青路上,它可以走得更快,摆动的脚更少,从而提高能源效率。我们的框架捕捉到了这些差异,并为每种地形类型选择了适当的技能:在深草上速度慢(0.5 米/秒),在碎石路上速度中(1 米/秒),在沥青路上速度高(1.4 米/秒)。它在 9.6 分钟内完成了 460 米长的路径,平均速度为 0.8 米/秒(即每小时 1.8 英里或 2.9 公里)。相比之下,非自适应策略要么无法安全地完成路径,要么行走速度明显变慢(0.5 米/秒),这说明了根据感知环境调整运动技能的重要性。

该框架根据路径条件选择不同的速度。

为了测试通用性,我们还将机器人部署到训练期间未见过的许多小径上。机器人顺利穿越了所有小径,并根据地形语义调整了其移动技能。一般来说,技能策略会在坚硬平坦的地形上选择更快的技能,而在易变形或不平坦的地形上选择较慢的速度。在撰写本文时,机器人已经顺利穿越了超过 6 公里的户外小径。

有了这个框架,机器人就可以在训练中未见过的各种户外地形上安全行走。

结论

在这项工作中,我们提出了一个分层框架来学习越野运动的语义感知运动技能。使用不到 30 分钟的人类演示数据,该框架学习根据感知到的环境语义调整机器人的速度和步态。机器人可以在各种越野地形上安全高效地行走。我们的框架的一个限制是它只调整标准行走的运动技能,不支持跳跃等更敏捷的行为,而跳跃对于穿越有间隙或障碍的更困难的地形至关重要。另一个限制是我们的框架目前需要手动转向命令才能遵循所需的路径并达到目标。在未来的工作中,我们计划研究高级技能策略与低级控制器的更深入集成,以实现更敏捷的行为,并将导航和路径规划纳入框架,以便机器人可以在具有挑战性的越野环境中完全自主地运行。

致谢

我们要感谢我们的论文合著者:Xiangyun Meng、Wenhao Yu、Tingnan Zhang、Jie Tan 和Byron Boots。我们还要感谢 Google 机器人团队的讨论和反馈。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论