基于模型的强化学习，用于分散式多智能体导航_人工智能

随着机器人在日常生活中越来越普遍，它们彼此之间以及与环境之间的互动也变得越来越复杂。在受控环境（例如实验室）中，多个机器人可以通过一个集中式规划器协调它们的行动和努力，该规划器促进了各个代理之间的通信。尽管已经进行了大量研究来解决可靠的传感器信息目标导航问题，但在许多实际应用中，必须在没有集中式规划器的情况下协调独立机器人代理之间的目标，这带来了不小的挑战。

这种具有挑战性的分散式任务的一个例子是会合任务，其中多个代理必须就他们可以会面的时间和地点达成一致，而无需彼此明确沟通。这个目标协调任务在现实世界的多代理和人机环境中起着重要作用，例如执行对象交接或动态确定目标。在这种情况下解决分散式会合任务不仅取决于环境中的障碍，还取决于每个代理的策略和动态。解决潜在的协调不力和处理嘈杂的传感器数据取决于代理对其他代理及其自身运动进行建模的能力，以及在使用有限信息的同时适应不同意图的能力。

两个独立控制的机器人被障碍物隔开，它们的共同目标是相遇。它们应该如何移动才能相遇？每个机器人的示例轨迹以红色和蓝色箭头表示。每个机器人根据自己的观察独立决定去往何处。

在CoRL 2020上发表的 “基于模型的去中心化多智能体会合强化学习”中，我们提出了一种整体方法来解决去中心化会合任务的挑战，我们称之为分层预测规划 ( HPP )。这是一个去中心化的、基于模型的强化学习(RL) 系统，使智能体能够在现实世界中动态调整其目标。我们在现实世界和模拟环境中评估HPP ，并将其与几个基于学习的规划和集中式基线进行比较。在这些评估中，我们表明HPP能够更有效地预测和调整轨迹，避免不协调，并直接转移到现实世界而无需额外的微调。

整合预测、规划和控制

与标准导航管道类似，我们的基于学习的系统由三个模块组成：预测、规划和控制。每个代理都使用预测模型来学习代理运动，并根据自己对其他代理的行为和导航模式的观察结果（例如，来自 LiDAR 和团队位置信息）预测自身（自我代理）和其他代理的未来位置。因此，每个代理都会学习两个预测模型，一个用于自己的运动，一个用于其他代理。这些运动预测器构成预测模块，并由每个代理的规划模块使用。

预测模块的输出——根据自我代理自身的传感器观测，每个代理（包括自我代理和其他代理）最有可能到达的位置的估计——对于规划模块来说是有用的信息，规划模块会评估不同的目标位置并维护团队应该汇聚在哪里的信念分布。信念分布会使用预测模型提供的评估定期更新。代理会从这个信念分布中采样以更新它应该导航到的目标。

选定的目标被传递给代理的控制模块，该模块配备了预先训练的、不完善的导航策略，可以在充满障碍的环境中导航到给定位置。然后，控制策略决定机器人应该执行什么动作。

观察其他智能体、更新信念分布并导航至更新后的目标的过程会重复进行，直到智能体成功会合。虽然分层规划和控制设置并不罕见，但我们的工作通过使用传感器信息预测模块，关闭了分散式多智能体系统的控制和规划之间的循环。

训练预测模型

HPP在模拟中训练运动预测器，假设每个代理都由隐藏的、可能不是最优的、能够避开障碍物的控制策略控制。关键困难在于在无法访问其他代理的传感器观测和控制策略的情况下训练预测模型。

预测器是通过自我监督进行训练的。为了收集训练数据，我们将所有代理和障碍物随机放置在环境中，并为每个代理分配一个随机目标（其他代理不知道）。当代理朝着各自的目标前进时，每个代理都会记录经验——其传感器观测值和所有代理（自身和其他代理）的姿势。接下来，从记录的经验中，代理为团队中的每个代理（包括自身（目标代理））学习一个单独的预测器。训练数据集包括自我代理的初始传感器观测值、目标代理的姿势和目标，并标有未来的自我观测值和目标代理姿势。目标和标签是从记录的经验中推断出来的。

因此，预测器会根据目标代理的假定目标，学习当前和未来自我代理的观察结果以及目标代理的姿势的时间因果关系——换句话说，模型会根据当前情况预测每个代理未来的位置。预测器训练仅使用代理在运行时可用的信息，并且在独立于部署环境的环境中进行。

模型预测模型的训练环境。环境中充满了随机填充的障碍物。所有代理（左侧为蓝色，右上角为红色）都被赋予相同的随机目标（中心为绿色），并使用自己的控制模块向该目标移动。

选择要协调的目标

每个代理的基于模型的 RL 规划器使用部署环境中学习到的预测器来引导代理到达会合点。规划器会考虑它认为其他代理在完成会合任务时会做什么。

HPP 图示。每个机器人都会独立考虑几个潜在的会合点，并根据其认为代理可以接近的程度来评估每个点。

为了进行这种推理，每个代理都会独立地对一系列潜在目标进行采样，并选择它认为最有可能实现的目标。这个过程有效地模拟了虚拟代理的集中规划器，通过使用预测模型来预测这些代理移动到固定目标的轨迹。根据提出的目标，该算法预测代理未来的姿势，这些姿势是通过预测模型的顺序推出生成的。然后通过使用有利于使代理更紧密联系的目标的任务奖励对预期的系统状态进行评分来评估每个目标。我们使用交叉熵方法(CEM) 将这些目标评估转换为对潜在会合点的信念更新。最后，代理的规划器从这个新的信念分布中为自己选择一个目标，并将该目标传递给代理的控制模块。

目标评估的简单说明。在模拟轨迹的末尾，代理（红色，左侧，蓝色，右侧）要么彼此相距较远（顶部），要么彼此靠近（底部）。下图中的目标比上方的目标更好，因为代理最终彼此更接近。

结果

我们将HPP与几个基线（MADDPG（基于学习）、带有 CEM 的RRT（规划）以及使用启发式方法选择代理会合点的集中式基线）在现实世界和模拟环境中进行了比较。

评估环境，每个评估环境都独立于代理的控制策略和预测模块的训练环境。

我们的研究结果有两个主要结论。其一是HPP使代理能够预测和调整轨迹，避免错误协调。例如：

第二个要点是 HPP 可以直接转移到现实世界，无需额外培训。例如：

结论

这项研究提出了 HPP，一种基于模型的 RL 方法，用于分散式多智能体协调。智能体首先学会根据自己的传感器预测自己和队友的位置，然后决定并导航至共同目标。我们的实验表明，该方法可以推广到新环境并处理协调不善问题，同时不对其他智能体的动态做出任何假设。这可能会引起更大的多智能体研究社区的兴趣，因为它是使用噪声传感器和不完善控制器的分散式任务的真实示例；可能会引起运动规划社区的兴趣，因为它是基于学习的规划系统的示例，该系统可以闭合规划器和控制器之间的循环；可能会引起 RL 社区的兴趣，因为它是基于模型的 RL 的示例，可在分层的自监督预测设置中提供反馈。

致谢

这项研究由 Rose E. Wang、J. Chase Kew、Dennis Lee、Tsang-Wei Edward Lee、Tingnan Zhang、Brian Ichter、Jie Tan 和 Aleksandra Faust 完成，特别感谢 Michael Everett、Oscar Ramirez 和 Igor Mordatch 的精彩讨论。

基于模型的强化学习，用于分散式多智能体导航

版权声明

相关推荐

评论