引入灵活且可重复的强化学习研究新框架

lixia01 · 发表于 2024-12-10 17:04:44

强化学习(RL) 研究在过去几年中取得了许多重大进展。这些进步使代理能够以超人的水平玩游戏 - 值得注意的例子包括 Atari 游戏上的 DeepMind DQN以及AlphaGo和AlphaGo Zero，以及Open AI Five。具体而言，在 DQN 中引入重放记忆使得能够利用以前的代理经验，大规模分布式训练使得能够将学习过程分布在多个工作者身上，而分布式方法使代理能够对完整分布（而不仅仅是它们的预期值）进行建模，从而更全面地了解它们的世界。这种进步很重要，因为产生这些进步的算法也适用于其他领域，例如机器人技术（请参阅我们最近关于机器人操作和教机器人视觉自适应的研究）。
通常，开发这类进步需要快速迭代设计 - 通常没有明确的方向 - 并破坏既定方法的结构。然而，大多数现有的 RL 框架并没有兼具灵活性和稳定性，使得研究人员无法有效地迭代 RL 方法，从而探索可能不会带来明显好处的新研究方向。此外，重现现有框架的结果通常过于耗时，这可能会导致后续的科学可重复性问题。
今天，我们推出了一个基于 Tensorflow 的新框架，旨在为新手和经验丰富的 RL 研究人员提供灵活性、稳定性和可重复性。该平台受到大脑奖励激励行为的主要组成部分之一的启发，反映了神经科学和强化学习研究之间的紧密历史联系，旨在实现能够推动根本性发现的推测性研究。此版本还包括一组 colab，阐明了如何使用我们的框架。
易用性
清晰度和简单性是设计此框架的两个关键考虑因素。我们提供的代码紧凑（大约 15 个 Python 文件）并且有详尽的文档。这是通过专注于Arcade 学习环境（一个成熟、易于理解的基准）和四个基于价值的代理来实现的：DQN、C51 （ Rainbow 代理的精心策划的简化变体）和隐式分位数网络代理（上个月在国际机器学习会议(ICML)。我们希望这种简单性可以让研究人员轻松了解代理的内部工作原理并快速尝试新想法。
可重复性
我们特别关注强化学习研究中可重复性的重要性。为此，我们为我们的代码提供了完整的测试覆盖范围；这些测试还可以作为文档的附加形式。此外，我们的实验框架遵循Machado 等人 (2018)提出的使用 Arcade 学习环境标准化实证评估的建议。
基准测试
对于新研究人员来说，能够根据既定方法快速对他们的想法进行基准测试非常重要。因此，我们提供了四个提供的代理的完整训练数据，涵盖 Arcade 学习环境支持的 60 款游戏，以 Python pickle 文件（用于使用我们的框架训练的代理）和JSON 数据文件（用于与使用其他框架训练的代理进行比较）的形式提供；我们还提供了一个网站，您可以在其中快速可视化所有提供的代理在所有 60 款游戏中的训练运行。下面我们展示了我们的 4 个代理在 Seaquest 上的训练运行情况，Seaquest 是 Arcade Learning Environment 支持的 Atari 2600 游戏之一。
我们在 Seaquest 上为 4 个代理进行了训练。x 轴表示迭代次数，每次迭代为 100 万个游戏帧（4.5 小时的实时游戏）；y 轴表示每次游戏获得的平均分数。阴影区域显示 5 次独立运行的置信区间。
我们还提供这些代理的训练有素的深度网络、原始统计日志以及用于使用Tensorboard绘图的 Tensorflow 事件文件。这些都可以在我们网站的下载部分找到。
我们希望我们框架的灵活性和易用性将使研究人员能够尝试新的想法，无论是渐进的还是激进的。我们已经在积极地将它用于我们的研究，发现它使我们能够灵活地快速迭代许多想法。我们很高兴看到更大的社区能从中做些什么。在我们的github repo中查看它，试用它，并让我们知道您的想法！
致谢
这个项目只有在 Google 的多次合作下才得以实现。核心团队包括 Marc G. Bellemare、Pablo Samuel Castro、Carles Gelada、Subhodeep Moitra 和 Saurabh Kumar。我们还要特别感谢 Sergio Guadamarra、Ofir Nachum、Yifan Wu、Clare Lyle、Liam Fedus、Kelvin Xu、Emilio Parisoto、Hado van Hasselt、Georg Ostrovski 和 Will Dabney，以及 Google 的许多帮助我们测试的人。

		自动登录	找回密码
密码			立即注册