视频模型中的模拟策略学习

lixia01 · 发表于 2024-11-21 19:20:36

深度强化学习(RL) 技术可用于从视觉输入中学习复杂任务的策略，并且已成功应用于经典的 Atari 2600 游戏。该领域的最新研究表明，在许多游戏中，即使在像Montezuma's Revenge所展示的那种具有挑战性的探索领域中，也可以获得超越人类的表现。然而，许多最先进的方法的局限性之一是它们需要与游戏环境进行大量交互，通常远远超过人们玩好游戏所需学习的交互次数。一个合理的假设可以解释为什么人们能够更有效地学习这些任务，那就是他们能够预测自己行为的效果，从而隐式地学习一个模型，该模型表明哪些动作序列会导致理想的结果。这个总体思路——建立一个所谓的游戏模型并使用它来学习一个选择动作的好策略——是基于模型的强化学习 (MBRL) 的主要前提。在“基于模型的 Atari 强化学习”中，我们引入了模拟策略学习 (SimPLe) 算法，这是一种 MBRL 框架，用于训练 Atari 游戏的代理，它比目前最先进的技术效率高得多，并且仅使用与游戏环境的约 100K 次交互（相当于一个人大约两小时的实时游戏）就显示出具有竞争力的结果。此外，我们已将我们的代码作为tensor2tensor开源库的一部分开源。该版本包含一个预训练的世界模型，可以使用简单的命令行运行，并可以使用类似 Atari 的界面进行播放。学习 SimPLe 世界模型从高层次来看，SimPLe 背后的想法是在学习游戏行为的世界模型和使用该模型在模拟游戏环境中优化策略（使用无模型强化学习）之间交替。该算法背后的基本原理已经很完善，并已在众多最近的基于模型的强化学习方法中得到采用。
SimPLe 的主循环。1) 代理开始与真实环境交互。2) 收集到的观察结果用于更新当前世界模型。3) 代理通过学习世界模型来更新策略。
要训练 Atari 游戏模型，我们首先需要在像素空间中生成未来的合理版本。换句话说，我们试图预测下一帧会是什么样子，方法是将已经观察到的帧序列和给游戏的命令（例如“左”、“右”等）作为输入。在观察空间中训练世界模型的一个重要原因是，它实际上是一种自我监督的形式，其中观察结果（在我们的例子中是像素）形成密集而丰富的监督信号。
如果成功训练了这样的模型（例如视频预测器），那么基本上就拥有了一个游戏环境的学习模拟器，可用于生成轨迹以训练游戏代理的良好策略，即选择一系列动作，以使代理的长期奖励最大化。换句话说，我们不是在真实游戏的序列上训练策略，因为这在时间和计算上都非常耗费精力，而是在来自世界模型/学习模拟器的序列上训练策略。
我们的世界模型是一个前馈卷积网络，它接收四帧并预测下一帧以及奖励。然而，在 Atari 的案例中，仅给定前四帧的范围，未来是不确定的。例如，游戏中超过四帧的暂停（例如Pong中球从帧中掉出时）可能会导致模型无法成功预测后续帧。我们利用一种新的视频模型架构来处理此类随机性问题，这种架构在这种设置下表现更好，这受到之前研究的启发。
当 SimPLe 模型应用于《功夫大师》时，可以看到随机性引发问题的一个例子。在动画中，左侧是模型的输出，中间是基本事实，右侧面板是两者之间的像素差异。在这里，模型的预测与真实游戏存在偏差，因为生成的对手数量不同。
在每次迭代中，在训练完世界模型之后，我们使用这个学习到的模拟器来生成 rollouts（即动作、观察和结果的样本序列），这些 rollouts 用于使用近端策略优化 (PPO)算法改进游戏策略。使 SimPLe 发挥作用的一个重要细节是，rollouts 的采样从真实数据集帧开始。由于预测误差通常会随着时间的推移而增加，并使长期预测变得非常困难，因此 SimPLe 只使用中等长度的 rollouts。幸运的是，PPO 算法也可以从其内部价值函数中学习动作和奖励之间的长期影响，因此即使对于像Freeway这样奖励稀疏的游戏，有限长度的 rollouts 也足够了。SimPLe
效率
衡量成功的一个标准是证明模型非常高效。为此，我们在与环境进行 10 万次交互后评估了我们的策略的输出，这相当于一个人大约两个小时的实时游戏。我们将 SimPLe 方法与两种最先进的无模型 RL 方法Rainbow和 PPO 进行了比较，并将其应用于 26 种不同的游戏。在大多数情况下，SimPLe 方法的采样效率比其他方法高出 2 倍以上。
SimPLe 成功SimPLe 方法的一个令人兴奋的结果是，对于 Pong 和Freeway
这两款游戏，在模拟环境中训练的代理能够获得最高分。以下是我们的代理使用我们为 Pong 学习的游戏模型玩游戏的视频：
对于 Freeway、Pong 和Breakout，SimPLe 可以生成未来 50 步的近乎像素完美的预测，如下所示。
SimPLe 惊喜
SimPLe 并不总是能做出正确的预测。最常见的失败是由于世界模型没有准确捕捉或预测小但高度相关的物体。一些例子是：（1）在Atlantis和Battlezone中，子弹太小以至于它们往往会消失，以及（2）Private Eye，其中代理穿越不同的场景，从一个场景传送到另一个场景。我们发现我们的模型通常很难捕捉如此大的全局变化。
在 Battlezone 中，我们发现模型很难预测诸如子弹之类的小而相关的部分。
结论
基于模型的强化学习方法的主要前景是在交互成本高昂、缓慢或需要人工标记的环境中，例如许多机器人任务。在这样的环境中，学习到的模拟器将能够更好地理解代理的环境，并可能带来新的、更好和更快的多任务强化学习方法。虽然 SimPLe 的性能尚未达到标准无模型 RL 方法的性能，但它的效率要高得多，我们预计未来的工作将进一步提高基于模型的技术的性能。
如果您想开发自己的模型和实验，请前往我们的存储库和colab，在那里您将找到有关如何重现我们的工作以及预先训练的世界模型的说明。
致谢
这项工作是与伊利诺伊大学香槟分校、华沙大学和 deepsense.ai 合作完成的。我们要特别感谢论文合著者 Mohammad Babaeizadeh、Piotr Miłos、Błażej Osiński、Roy H Campbell、Konrad Czechowski、Chelsea Finn、Piotr Kozakowski、Sergey Levine、Afroz Mohiuddin、Ryan Sepassi、George Tucker 和 Henryk Michalewski。

		自动登录	找回密码
密码			立即注册