超越 Tabula Rasa：重生强化学习_商业应用

强化学习(RL) 是机器学习的一个领域，专注于使用相关经验训练智能代理，以便它们可以学习解决决策任务，例如玩视频游戏、驾驶平流层气球和设计硬件芯片。由于 RL 的通用性，RL 研究中的普遍趋势是开发能够有效学习白板（tabula rasa）的代理，即从头开始学习而不使用以前学到的有关问题的知识。然而在实践中，白板 RL 系统通常是解决大规模 RL 问题的例外，而不是常态。大规模 RL 系统（例如在Dota 2上实现人类水平性能的OpenAI Five）在其开发周期内会经历多次设计变更（例如算法或架构变更）。这个修改过程可能持续数月，并且需要纳入这些变化，而无需从头开始重新训练，因为那样成本太高。

此外，白板强化学习研究的低效率可能会使许多研究人员无法解决计算要求高的问题。例如，在ALE中训练深度强化学习代理在 50 多个 Atari 2600 游戏上达到 2 亿帧（标准协议）的典型基准需要 1,000 多个 GPU 天。随着深度强化学习转向更复杂、更具挑战性的问题，进入强化学习研究的计算门槛可能会变得更高。

为了解决白板强化学习的低效率问题，我们在NeurIPS 2022上提出了“重现强化学习：重用先前的计算来加速进展” 。在这里，我们提出了一种强化学习研究的替代方法，其中先前的计算工作（例如学习到的模型、策略、记录的数据等）在强化学习代理的设计迭代之间或从一个代理转移到另一个代理。虽然强化学习的某些子领域利用了先前的计算，但大多数强化学习代理仍然主要是从头开始训练的。到目前为止，还没有更广泛的努力来利用先前的计算工作来进行强化学习研究中的训练工作流程。我们还发布了我们的代码和训练过的代理，以使研究人员能够在这项工作的基础上继续研究。

Tabula rasa RL 与 Reincarnating RL (RRL)。虽然 Tabula rasa RL 专注于从头开始学习，但 RRL 的前提是，在训练新代理或改进现有代理时，即使在相同的环境中，也可以重复使用先前的计算工作（例如，先前学习过的代理）。在 RRL 中，新代理不需要从头开始训练，除非是初次尝试新问题。

为什么要重现 RL？

与从头开始训练相比，循环强化学习 (RRL) 是一种计算和样本效率更高的工作流程。RRL 可以让更广泛的社区在不需要过多计算资源的情况下解决复杂的强化学习问题，从而使研究民主化。此外，RRL 可以实现基准测试范式，研究人员可以不断改进和更新现有的经过训练的代理，特别是在提高性能会对现实世界产生影响的问题上，例如气球导航或芯片设计。最后，现实世界的 RL 用例很可能出现在先前的计算工作可用的场景中（例如，现有部署的 RL 策略）。

RRL 作为一种替代研究工作流程。想象一下，一位研究人员已经训练了代理 A 1一段时间，但现在想要尝试更好的架构或算法。虽然 tabula rasa 工作流程需要从头开始重新训练另一个代理，但 RRL 提供了更可行的选择，即将现有代理 A 1转移到另一个代理并进一步训练该代理，或者只是对 A 1进行微调。

虽然已经有一些临时的大规模轮回研究，但适用性有限，例如Dota2 中的模型手术、魔方中的策略蒸馏、AlphaStar 中的 PBT 、 AlphaGo / Minecraft中的行为克隆策略的 RL 微调，但 RRL 本身尚未被研究为一个研究问题。为此，我们主张开发通用的 RRL 方法，而不是以前的临时解决方案。

案例研究：政策价值重现强化学习

根据提供的先前计算工作的类型，可以实例化不同的 RRL 问题。作为开发广泛适用的 RRL 方法的一步，我们介绍了一个案例研究，研究了策略到价值再生 RL (PVRL) 的设置，以便有效地将现有的次优策略（教师）转移到独立的基于价值的 RL 代理（学生）。虽然策略直接将给定的环境状态（例如，Atari 中的游戏屏幕）映射到动作，但基于价值的代理根据可实现的未来奖励来估计给定状态下动作的有效性，这使它们能够从以前收集的数据中学习。

为了使 PVRL 算法得到广泛应用，它应该满足以下要求：

与教师无关：学生不应受到现有教师政策架构或训练算法的限制。

摆脱对老师的依赖：在连续的轮回中继续依赖过去次优的老师是不可取的。

计算/采样效率：只有比从头开始训练更便宜时，轮回才有用。

考虑到 PVRL 算法的要求，我们评估了现有的设计目标密切相关的方法是否足够。我们发现，这些方法要么比 tabula rasa RL 的改进很小，要么在脱离教师时性能会下降。

为了解决这些限制，我们引入了一种简单的方法QDagger，其中代理通过模仿算法从次优老师那里提取知识，同时将其环境交互用于 RL。我们从针对 4 亿环境帧（一周的单 GPU 训练）训练的深度 Q 网络(DQN) 代理开始，并将其用作仅针对 1000 万帧（几个小时的训练）训练的再生学生代理的老师，其中老师在前 600 万帧中逐渐减少。对于基准评估，我们报告了RLiable 库中的四分位均值 (IQM) 指标。如下所示，对于 Atari 游戏的 PVRL 设置，我们发现 QDagger RRL 方法优于之前的方法。

在 Atari 上对 PVRL 算法进行基准测试，并在 10 款游戏中汇总教师标准化分数。Tabula rasa DQN (–·–) 获得 0.4 的标准化分数。标准基线方法包括kickstarting、JSRL、排练、离线 RL 预训练和DQfD。在所有方法中，只有 QDagger 在 1000 万帧内超越教师表现，并在 75% 的游戏中胜过教师。

在实践中重现强化学习

我们进一步研究了在Arcade Learning Environment（一种广泛使用的深度强化学习基准）上进行的 RRL 方法。首先，我们采用使用RMSProp优化器的Nature DQN代理，并使用Adam优化器对其进行微调，以创建 DQN (Adam) 代理。虽然可以从头开始训练 DQN (Adam) 代理，但我们证明，使用 Adam 优化器对 Nature DQN 进行微调，使用的数据和计算量减少了 40 倍，性能可与从头开始的性能相媲美。

通过微调重现 DQN（Adam）。垂直分隔符对应于加载网络权重和重放数据以进行微调。左图： Tabula rasa Nature DQN 在 2 亿个环境帧后性能几乎收敛。右图：使用降低的学习率和 Adam 优化器对 2000 万帧的 Nature DQN 代理进行微调，获得的结果与从头开始训练 4 亿帧的 DQN（Adam）相似。

鉴于 DQN (Adam) 代理是起点，微调仅限于 3 层卷积架构。因此，我们考虑一种更通用的再生方法，该方法利用最近的架构和算法进步，而无需从头开始训练。具体来说，我们使用 QDagger从微调的 DQN (Adam) 代理再生另一个使用更先进的 RL 算法 ( Rainbow ) 和更好的神经网络架构 ( Impala-CNN ResNet ) 的 RL 代理。

通过 QDagger 重现不同的架构/算法。垂直分隔线是我们使用 QDagger 进行离线预训练以进行重现的点。左图：使用Adam 对 DQN 进行微调。右图：使用经过微调的 DQN（Adam）中的 QDagger RRL 训练的 Tabula Rasa Impala-CNN Rainbow 代理（天蓝色）与 Impala-CNN Rainbow 代理（粉色）的比较。重现的 Impala-CNN Rainbow 代理始终优于其零散代理。请注意，进一步微调 DQN（Adam）会导致收益递减（黄色）。

总体而言，这些结果表明，通过采用 RRL 方法设计代理，而不是从头开始重新训练代理，可以加速过去的研究。我们的论文还包含气球学习环境的结果，我们证明了 RRL 使我们能够通过重复使用在 TPU 上训练了一个多月的分布式 RL代理，仅使用几个小时的 TPU 计算来解决导航平流层气球的问题。

讨论

公平地比较重生方法需要使用完全相同的计算工作和工作流程。此外，RRL 中广泛概括的研究结果将是关于算法在访问现有计算工作时的有效性，例如，我们成功地将使用 Atari 开发的 QDagger 应用于 Balloon Learning Environment 上的重生。因此，我们推测重生 RL 的研究可以分为两个方向：

具有开源计算工作的标准化基准：类似于NLP和视觉，通常使用一小组预先训练的模型，RRL 中的研究也可能汇聚到给定基准上的一小组开源计算工作（例如，预先训练的教师策略）。

现实世界领域：由于获得更高的性能会在某些领域产生现实世界的影响，因此它激励社区重复使用最先进的代理并尝试提高其性能。

请参阅我们的论文，了解有关 RRL 中的科学比较、可推广性和可重复性的更广泛讨论。总体而言，我们希望这项工作能够激励研究人员发布其他人可以直接在此基础上构建的计算工作（例如模型检查点）。在这方面，我们已经开源了我们的代码并使用其最终的重放缓冲区训练了代理。我们相信，通过建立在先前的计算工作的基础上，而不是总是从头开始，重新演化 RL 可以大大加快研究进度。

致谢

这项工作是与 Pablo Samuel Castro、Aaron Courville 和 Marc Bellemare 合作完成的。我们要感谢 Tom Small 为本文提供的动画人物。我们也非常感谢匿名 NeurIPS 审阅者以及 Google 研究团队、DeepMind 和 Mila 的几位成员的反馈。

超越 Tabula Rasa：重生强化学习

版权声明

相关推荐

评论