Performer-MPC:通过实时机器人变压器进行导航

1725522470045.jpg

尽管经过了数十年的研究,我们仍然没有看到很多移动机器人在我们的家中、办公室和街道上漫游。现实世界中以人为中心的环境中的机器人导航仍然是一个未解决的问题。这些具有挑战性的情况需要在狭小空间内进行安全高效的导航,例如在咖啡桌和沙发之间挤来挤去、在狭窄的角落、门口、凌乱的房间等处移动。同样重要的要求是以符合人们周围不成文的社会规范的方式进行导航,例如在盲角处让行或保持舒适的距离。Google Research 致力于研究机器学习的进步如何帮助我们克服这些障碍。

具体来说,Transformers 模型在现实世界的机器学习 (ML) 问题中的各种数据模态中取得了惊人的进步。例如,多模态架构使机器人能够利用基于 Transformer 的语言模型 进行高级规划。最近使用Transformers 编码机器人策略 的工作为将这些架构用于现实世界的导航开辟了激动人心的机会。但是,由于安全关键型移动机器人的严格延迟限制,在机器人上部署大量基于 Transformer 的控制器可能具有挑战性。注意机制相对于输入长度的二次空间和时间复杂度通常非常昂贵,迫使研究人员以牺牲表现力为代价来削减 Transformer 堆栈。

作为我们持续探索机器人产品 ML 进步的一部分,我们与Google 机器人部门和Everyday Robots合作,在机器人学习会议(CoRL 2022) 上展示了“具有实时注意力的学习模型预测控制器,用于现实世界导航” 。在这里,我们介绍了 Performer-MPC,这是一个端到端可学习的机器人系统,它结合了 (1)基于 JAX 的可微分模型预测控制器(MPC),可将梯度反向传播到其成本函数参数,(2) 基于 Transformer 的上下文编码(例如,用于导航任务的占用网格),代表 MPC 成本函数并使 MPC 适应复杂的社交场景,而无需手工编码规则,以及 (3) Performer架构:可扩展的低秩隐式注意力 Transformer,具有线性空间和时间复杂度注意力模块,可高效地部署在机器人上(提供 8ms 的机器人上延迟)。我们证明 Performer-MPC 可以在不同的环境中推广,以帮助机器人在狭小空间中导航,同时表现出社会可接受的行为。

表演者-MPC

Performer-MPC 旨在通过其可学习的成本函数将经典 MPC 与 ML 融合在一起。因此,Performer-MPC 可以被认为是逆强化学习算法的实例,其中成本函数是通过从专家演示中学习推断出来的。至关重要的是,成本函数的可学习部分由 Performer-Transformer 生成的潜在嵌入参数化。Performers 提供的线性推理是实时部署机器人的门户。

实际上,通过融合机器人传感器提供的占用网格可作为 Vision Performer模型的输入。该模型从未明确实现注意力矩阵,而是利用其低秩分解对注意力模块进行高效线性计算,从而实现可扩展的注意力。然后,从模型的最后一层嵌入特定的固定输入补丁标记会参数化 MPC 模型成本函数的二次可学习部分。该部分将添加到常规手工设计的成本(与障碍物的距离、突然速度变化的惩罚项等)。该系统通过模仿学习进行端到端训练,以模仿专家演示。

Performer-MPC 概览。用红色突出显示的补丁的最终潜在嵌入用于构建上下文相关的可学习成本。反向传播(红色箭头)是通过 Transformer 的参数进行的。Performer 通过常规注意矩阵(矩阵 Query' 和 Key')的低秩近似分解以及通过改变矩阵乘法的顺序(用黑色括号表示)来提供可扩展的注意模块计算。

现实世界的机器人导航

虽然从原则上讲,Performer-MPC 可以应用于各种机器人设置,但我们评估了它在可能有人的密闭空间中的导航性能。我们将 Performer-MPC 部署在差速轮式机器人上,该机器人的前端装有3D LiDAR摄像头,头部装有深度传感器。我们的机器人可部署 8ms 延迟 Performer-MPC 具有 8.3M Performer 参数。单次 Performer 运行的实际时间约为 1ms,我们使用最快的Performer-ReLU变体。

我们将 Performer-MPC 与两个基准进行比较,一个是没有学习成本组件的常规 MPC 策略 (RMPC),另一个是使用相同 Performer 架构但不与 MPC 结构耦合来预测参考和目标状态的显式策略(EP)。我们在模拟和三个真实场景中评估 Performer-MPC。对于每个场景,我们都会使用特定于场景的演示来训练学习到的策略(EP 和 Performer-MPC)。

实验场景:(a)学习在穿过门口时避免局部最小值,(b)在高度受限的空间中机动,(c)在盲角处实现符合社会规范的行为,以及(d)行人障碍物交互。

我们的策略是通过在现实世界中使用几个小时的人控机器人导航数据进行行为克隆来训练的。有关更多数据收集详细信息,请参阅论文。我们在上半部分可视化了 Performer-MPC(绿色)和 RMPC(红色)的规划结果以及专家演示(灰色),在下半部分可视化了训练和测试曲线。为了测量机器人轨迹和专家轨迹之间的距离,我们使用豪斯多夫距离。

顶部:门口遍历(左)和高度受限的障碍赛道(右)中的测试示例可视化。与 RMPC 轨迹相比,瞄准目标的 Performer-MPC 轨迹总是更接近专家演示。底部:训练和测试曲线,其中纵轴表示豪斯多夫距离,横轴表示训练步骤。

顶部:盲角(左)和行人遮挡(右)场景中的测试示例可视化。与 RMPC 轨迹相比,瞄准目标的 Performer-MPC 轨迹总是更接近专家演示。底部:训练和测试曲线,其中纵轴表示豪斯多夫距离,横轴表示训练步骤。

学习避免局部最小值

我们在模拟的门口穿越场景中评估 Performer-MPC,其中从墙的相对两侧随机抽取 100 个起点和目标对。由贪婪成本函数引导的规划器通常会将机器人引向局部最小值(即卡在墙另一侧最接近目标的点)。Performer-MPC 学习成本函数,引导机器人通过门口,即使它必须偏离目标并走得更远。Performer-MPC 的成功率为 86%,而 RMPC 的成功率为 24%。

Performer-MPC 与 Regular MPC 在门口通过任务上的比较。

学习高度受限的动作

接下来,我们在具有挑战性的现实场景中测试 Performer-MPC,其中机器人必须在杂乱的家庭或办公室环境中执行敏捷、近乎碰撞的操作。全局规划器提供机器人遵循的粗略路径点(骨架导航路径)。每个策略运行十次,我们报告导航障碍路线的成功率 (SR) 和平均完成百分比 (CP) 以及方差 (VAR),其中机器人能够顺利穿越障碍路线(碰撞或卡住)。Performer-MPC 在 SR 和 CP 方面均优于 RMPC 和 EP。

针对 RMPC、EP 和 Performer-MPC 的具有策略轨迹和失败位置(以十字表示)的障碍赛道。

日常机器人辅助机器人使用常规 MPC、显式策略和 Performer-MPC 在高度受限的空间中移动。

学习在有人的空间中导航

除了静态障碍物之外,我们还将 Performer-MPC 应用于社交机器人导航,在这种情况下,机器人必须以社会可接受的方式导航,而成本函数很难设计。我们考虑两种情况:(1) 盲角,在这种情况下,机器人应该避开走廊角落的内侧,以防突然出现人;(2) 行人阻碍,在这种情况下,有人意外地阻碍了机器人的规定路径。

Performer-MPC 部署在 Everyday Robots 辅助机器人上。左图:常规 MPC 可有效抄近路,迫使人员后退。右图: Performer-MPC 可避免抄近路,从而实现安全且符合社会接受的绕行。

与在看不见的盲角中使用常规 MPC、显式策略和 Performer-MPC 的 Everyday Robots 辅助机器人进行比较。

与在看不见的行人阻碍场景中使用常规 MPC、显式策略和 Performer-MPC 的 Everyday Robots 辅助机器人进行比较。

结论

我们推出了 Performer-MPC,这是一种端到端可学习的机器人系统,它结合了多种机制,可通过实时的机器人变压器实现现实世界中稳健且自适应的机器人导航。这项工作表明,可扩展的 Transformer 架构在设计富有表现力的基于注意的机器人控制器方面发挥着关键作用。我们证明,对于利用具有几百万个参数的 Transformer 的策略,实时毫秒延迟推理是可行的。此外,我们还表明,此类策略使机器人能够学习高效且社会可接受的行为,这些行为可以很好地推广。我们相信,这将开启将 Transformer 应用于现实世界机器人的激动人心的新篇章,并期待继续我们对 Everyday Robots 助手机器人的研究。

致谢

特别感谢 Xuesu Xiao 作为客座研究员共同领导 Everyday Robots 的这项工作。这项研究由 Xuesu Xiao、Tingnan Zhang、Krzysztof Choromanski、Edward Lee、Anthony Francis、Jake Varley、Stephen Tu、Sumeet Singh、Peng Xu、Fei Xia、Sven Mikael Persson、Dmitry Kalashnikov、Leila Takayama、Roy Frostig、Jie Tan、Carolina Parada 和 Vikas Sindhwani 完成。特别感谢 Vincent Vanhoucke 对稿件的反馈。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论