PlaNet 简介：用于强化学习的深度规划网络

lixia01 · 发表于 2024-11-22 13:57:22

通过强化学习(RL)，关于人工智能代理如何随着时间的推移改善其决策的研究正在迅速发展。对于这种技术，代理在选择动作（例如运动命令）时观察一系列感官输入（例如相机图像），有时会因实现指定目标而获得奖励。无模型的 RL 方法旨在直接从感官观察中预测好的动作，使DeepMind 的 DQN能够玩 Atari，并使其他代理能够控制机器人。然而，这种黑盒方法通常需要数周的模拟交互才能通过反复试验进行学习，这限制了它在实践中的实用性。相比之下，基于模型的 RL试图让代理了解世界的一般行为方式。与直接将观察结果映射到动作不同，这允许代理明确地提前计划，通过“想象”动作的长期结果来更谨慎地选择动作。基于模型的方法已经取得了巨大的成功，包括AlphaGo，它想象在虚拟棋盘上按照已知的游戏规则采取一系列动作。然而，为了在未知环境中利用规划（比如在仅提供像素作为输入的情况下控制机器人），代理必须从经验中学习规则或动态。由于此类动态模型原则上可以实现更高的效率和自然的多任务学习，因此创建足够准确的模型以实现成功的规划是 RL 的长期目标。为了推动这一研究挑战的进展，我们与DeepMind合作，推出了深度规划网络 (PlaNet)代理，它仅从图像输入中学习世界模型并成功地利用它进行规划。PlaNet 解决了各种基于图像的控制任务，在最终性能方面可与先进的无模型代理相媲美，同时平均数据效率提高了 5000%。我们还将发布源代码供研究界参考。
PlaNet 的工作原理
简而言之，PlaNet 根据给定的图像输入来学习动态模型，并利用该模型进行有效规划以收集新经验。与之前对图像进行规划的方法不同，我们依赖于隐藏状态或潜在状态的紧凑序列。这被称为潜在动态模型：我们不是直接从一张图像预测下一张图像，而是向前预测潜在状态。然后，从相应的潜在状态生成每一步的图像和奖励。通过以这种方式压缩图像，代理可以自动学习更抽象的表示，例如物体的位置和速度，从而无需在此过程中生成图像，从而更容易向前预测。
为了学习准确的潜在动态模型，我们引入：
循环状态空间模型：一种具有确定性和随机性成分的潜在动态模型，可以根据稳健规划的需要预测各种可能的未来，同时记住多个时间步骤中的信息。我们的实验表明，这两个成分对于高规划性能都至关重要。
潜在超调目标：我们通过强制潜在空间中单步和多步预测之间的一致性，将潜在动态模型的标准训练目标推广到训练多步预测。这产生了一个快速有效的目标，可以改善长期预测并与任何潜在序列模型兼容。
虽然预测未来图像可以让我们训练模型，但编码和解码图像（上图中的梯形）需要大量计算，这会减慢规划速度。然而，在紧凑的潜在状态空间中进行规划很快，因为我们只需要预测未来的奖励，而不是图像，就可以评估动作序列。例如，代理可以想象球的位置及其与球门的距离将如何随着某些动作而变化，而无需将场景可视化。这使我们能够在每次代理选择一个动作时将 10,000 个想象的动作序列与大批量大小进行比较。然后，我们执行找到的最佳序列的第一个动作，并在下一步重新规划。
与我们之前在世界模型上的工作相比，PlaNet 无需策略网络——它完全通过规划来选择动作，因此它受益于模型的即时改进。有关技术细节，请查看我们的在线研究论文或PDF 版本。PlaNet
与无模型方法
我们在连续控制任务上评估 PlaNet。代理仅获得图像观察和奖励。我们考虑带来各种不同挑战的任务：
一个推杆摆动任务，使用固定摄像头，这样推车就可以移出视线。因此，代理必须吸收并记住多个帧上的信息。
手指旋转任务需要预测两个独立的物体以及它们之间的相互作用。
猎豹奔跑任务包括难以准确预测的与地面的接触，需要一个可以预测多种可能未来的模型。
杯子任务，接住球后只会提供稀疏的奖励信号。这需要对未来做出准确的预测，以规划精确的行动序列。
步行者任务中，模拟机器人首先躺在地上，然后学会站立，然后再走路。
我们的工作是首批使用学习模型进行规划优于无模型方法的基于图像的任务的例子之一。下表将 PlaNet 与著名的A3C代理和D4PG代理进行了比较，后者结合了无模型 RL 的最新进展。这些基线的数字取自DeepMind Control Suite。PlaNet在所有任务上的表现都明显优于 A3C，最终性能接近 D4PG，同时与环境的交互平均减少了 5000%。
一个代理解决所有任务
此外，我们训练单个 PlaNet 代理来解决所有六项任务。代理被随机放置在不同的环境中，不知道任务是什么，因此它需要根据图像观察推断任务。在不改变超参数的情况下，多任务代理可以实现与单个代理相同的平均性能。虽然它在 cartpole 任务上的学习速度较慢，但它的学习速度明显更快，并且在需要探索的具有挑战性的步行者任务上达到了更高的最终性能。
结论
我们的结果展示了学习动力学模型在构建自主 RL 代理方面的前景。我们主张进一步研究，重点是学习更高难度任务的精确动力学模型，例如3D 环境和现实世界的机器人任务。扩大规模的一个可能因素是TPU的处理能力。我们对基于模型的强化学习开辟的可能性感到兴奋，包括多任务学习、分层规划和使用不确定性估计的主动探索。
致谢
该项目是与 Timothy Lillicrap、Ian Fischer、Ruben Villegas、Honglak Lee、David Ha 和 James Davidson 合作的。我们还要感谢所有在我们的论文草稿上发表评论并在项目整个过程中提供反馈的人。

		自动登录	找回密码
密码			立即注册