强化学习中的好奇心和拖延症

lixia01 · 发表于 2024-12-5 09:16:41

强化学习(RL) 是机器学习领域最活跃的研究技术之一，在这种技术中，人工智能代理在做对某件事时会得到正奖励，否则会得到负奖励。这种“胡萝卜加大棒”的方法简单而通用，DeepMind 可以教会DQN算法玩老式 Atari 游戏，教会AlphaGoZero玩古老的围棋游戏。OpenAI 也通过这种方式教会其OpenAI-Five算法玩现代视频游戏 Dota，谷歌也通过这种方式教会机械臂抓取新物体。然而，尽管 RL 取得了成功，但要使其成为一种有效的技术仍面临许多挑战。
标准 RL 算法在代理反馈稀疏的环境中表现不佳— 至关重要的是，这种环境在现实世界中很常见。举个例子，想象一下，试图学习如何在一个大型迷宫般的超市里找到你最喜欢的奶酪。你找了又找，但奶酪区却无处可寻。如果每一步你都没有得到“胡萝卜”和“大棒”，就无法判断你是否走在正确的方向上。在没有奖励的情况下，什么能阻止你原地打转呢？也许除了好奇心之外，什么也没有。好奇心会促使你进入一个陌生的产品区，寻找你梦寐以求的奶酪。
在“通过可达性实现情景好奇心”——这是Google Brain 团队、DeepMind和苏黎世联邦理工学院合作的成果——中，我们提出了一种基于情景记忆的新型模型，该模型授予 RL 奖励，类似于好奇心，从而引导你探索环境。由于我们希望代理不仅探索环境，还要解决原始任务，因此我们将模型提供的奖励奖金添加到原始的稀疏任务奖励中。组合奖励不再稀疏，这使得标准 RL 算法可以从中学习。因此，我们的好奇心方法扩展了可通过 RL 解决的任务集。
我们方法的关键思想是将智能体对环境的观察存储在情景记忆中，同时奖励智能体完成记忆中尚未记录的观察。在我们的方法中，“记忆中没有”是新颖性的定义——寻找这样的观察意味着寻找不熟悉的事物。这种寻找不熟悉事物的动力将引导人工智能体到达新的位置，从而防止它在原地徘徊，最终帮助它在目标上跌跌撞撞。正如我们稍后将讨论的那样，我们的配方可以使智能体避免其他配方容易出现的不良行为。令我们惊讶的是，这些行为与外行人所说的“拖延症”有些相似。
以前的好奇心公式化
虽然过去曾有过许多将好奇心公式化的尝试[1][2][3][4]，但在本文中，我们将重点介绍一种自然且非常流行的方法：通过基于预测的惊喜来激发好奇心，这在最近的论文“通过自监督预测进行好奇心驱动的探索”中有所探讨（通常称为 ICM 方法）。为了说明惊喜如何引发好奇心，我们再次考虑在超市寻找奶酪的类比。
当你在市场中闲逛时，你会尝试预测未来（“我现在在肉类区，所以我认为拐角处的区域是鱼类区——在这家连锁超市中，鱼类区通常是相邻的”）。如果你的预测是错误的，你会感到惊讶（“不，实际上是蔬菜区。我没想到！”）并因此获得奖励。这会激励你在未来环顾角落，探索新地点，看看你对它们的期望是否符合现实（并且希望偶然发现奶酪）。
同样，ICM 方法构建了一个世界动态的预测模型，并在模型无法做出正确预测时给予代理奖励——这是惊喜或新颖性的标志。请注意，探索未访问的位置并不是 ICM 好奇心公式的直接组成部分。对于 ICM 方法，访问它们只是获得更多“惊喜”并从而最大化整体奖励的一种方式。事实证明，在某些环境中，可能还有其他方法可以造成自我惊喜，从而导致无法预料的结果。
“拖延症”的危害
在“好奇心驱动学习的大规模研究”中，ICM 方法的作者与OpenAI的研究人员展示了惊喜最大化的隐患：代理可以学会放纵类似拖延的行为，而不是做一些对手头任务有用的事情。要了解原因，请考虑作者称之为“嘈杂电视问题”的常见思想实验，其中代理被放入迷宫中，并被要求找到一个奖励丰厚的物品（类似于我们之前超市示例中的“奶酪”）。环境还包含一台电视，代理拥有遥控器。频道数量有限（每个频道都有不同的节目），每次按下遥控器都会切换到随机频道。代理在这样的环境中会如何表现？
对于基于惊喜的好奇心公式，更换频道会带来巨大的奖励，因为每次更换都是不可预测且令人惊讶的。至关重要的是，即使循环看完所有可用频道，随机频道选择也会确保每次变化仍然会让人感到惊讶——代理会预测换台后电视上会播放什么，但预测很可能会出错，从而导致惊讶。重要的是，即使代理已经看过每个频道的所有节目，变化仍然是不可预测的。正因为如此，充满基于惊讶的好奇心的代理最终会永远呆在电视机前，而不是寻找回报丰厚的物品——类似于拖延症。那么，什么样的好奇心才不会导致这种行为呢？
情景好奇心
在“通过可达性实现情景好奇心”中，我们探索了一种基于情景记忆的好奇心模型，该模型不太容易“沉迷于”即时满足。为什么会这样？以上面的例子来说，换台一段时间后，所有节目都会出现在记忆中。因此，电视不再那么有吸引力：即使屏幕上出现的节目顺序是随机且不可预测的，所有这些节目都已在内存中！这是与基于惊喜的方法的主要区别：我们的方法甚至不会尝试对可能难以（甚至不可能）预测的未来下注。相反，代理会检查过去以了解它是否看到过与当前类似的观察结果。因此，我们的代理不会那么被嘈杂的电视提供的即时满足所吸引。它将不得不去探索电视之外的世界以获得更多奖励。
但是我们如何确定代理看到的事物是否与现有记忆相同？检查是否完全匹配可能毫无意义：在现实环境中，代理很少两次看到完全相同的事物。例如，即使代理返回完全相同的房间，它仍然会以与记忆不同的角度看到这个房间。
我们不是检查记忆中的完全匹配，而是使用经过训练的深度神经网络来衡量两次体验的相似程度。为了训练这个网络，我们让它猜测两次观察是在时间上相近还是相隔很远。时间接近度是判断两次体验是否应被判断为同一体验的一部分的一个很好的指标。这种训练通过可达性产生了新颖性的一般概念，如下所示。
实验结果
为了比较不同好奇心方法的性能，我们在两个视觉丰富的 3D 环境中对它们进行了测试：ViZDoom和DMLab。在这些环境中，代理需要解决各种问题，比如在迷宫中寻找目标或收集好物体并避开坏物体。DMLab 环境恰好为代理提供了一个类似激光的科幻小工具。之前对 DMLab 的研究中的标准设置是让代理在所有任务中都配备这个小工具，如果代理在某项任务中不需要小工具，则可以不使用它。有趣的是，与上面描述的嘈杂电视实验类似，基于惊喜的 ICM 方法实际上会大量使用这个小工具，即使它对于当前任务毫无用处！当被要求在迷宫中寻找高奖励物品时，它更喜欢花时间标记墙壁，因为这会带来很多“惊喜”奖励。从理论上讲，预测标记的结果应该是可能的，但在实践中却太难了，因为它显然需要比标准代理更深的物理知识。
基于惊喜的 ICM 方法是持续地标记墙壁而不是探索迷宫。
相反，我们的方法在相同条件下学习合理的探索行为。这是因为它不会试图预测其行为的结果，而是从情景记忆中寻找“更难”实现的观察结果。换句话说，代理隐性地追求需要从记忆中付出更多努力才能实现的目标，而不仅仅是单一的标记动作。
我们的方法体现了合理的探索。
有趣的是，我们授予奖励的方法会惩罚一个在圈子里跑的代理。这是因为在完成第一个圈子后，代理除了记忆中的观察之外不会遇到新的观察，因此不会获得任何奖励：
同时，我们的方法有利于良好的探索行为：
我们希望我们的工作将有助于引领新一波探索方法，超越惊讶，学习更智能的探索行为。有关我们方法的深入分析，请查看我们研究论文的预印本。
致谢：
该项目是 Google Brain 团队、DeepMind 和苏黎世联邦理工学院合作的成果。核心团队包括 Nikolay Savinov、Anton Raichuk、Raphaël Marinier、Damien Vincent、Marc Pollefeys、Timothy Lillicrap 和 Sylvain Gelly。我们要感谢 Olivier Pietquin、Carlos Riquelme、Charles Blundell 和 Sergey Levine 就本文进行的讨论。我们感谢 Indira Pasko 对插图的帮助。
参考文献：
[1]《基于计数的神经密度模型探索》，Georg Ostrovski，Marc G. Bellemare，Aaron van den Oord，Remi Munos
[2]《#Exploration：基于计数的深度强化学习探索研究》，Haoran Tang，Rein Houthooft，Davis Foote，Adam Stooke，Xi Chen，Yan Duan，John Schulman，Filip De Turck, Pieter Abbeel
[3] “用于内在动机目标探索的目标空间的无监督学习”, Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer
[4] “ VIME: 变分信息最大化探索”, Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter阿贝尔

		自动登录	找回密码
密码			立即注册