强化学习 (RL) 是一种常用的方法来训练代理,用于从机器人到芯片设计 等一系列应用。虽然 RL 擅长从头开始发现如何解决任务,但它在训练代理理解其动作的可逆性方面可能会遇到困难,而可逆性对于确保代理在其环境中以安全的方式行事至关重要。例如,机器人通常价格昂贵且需要维护,因此人们希望避免采取可能导致部件损坏的行动。评估某个动作是否可逆(或者更好地说,它被逆转的难易程度)需要对代理所处环境的物理特性有实际了解。然而,在标准的 RL 设置中,代理没有足够的环境模型来做到这一点。
在NeurIPS 2021接受的论文 “没有回头路:一种可逆性感知强化学习的自监督方法”中,我们提出了一种在强化学习背景下近似代理动作可逆性的新颖而实用的方法。这种方法,我们称之为可逆性感知强化学习,为强化学习程序添加了一个单独的可逆性估计组件,该组件是自监督的(即,它从代理收集的未标记数据中学习)。它可以在线训练(与强化学习代理联合训练),也可以离线训练(从交互数据集中训练)。它的作用是引导强化学习策略走向可逆行为。这种方法提高了强化学习代理在多项任务上的表现,包括具有挑战性的推箱子益智游戏。
可逆性感知 RL
添加到 RL 程序中的可逆性组件是从交互中学习到的,而且至关重要的是,它是一个可以独立于代理本身进行训练的模型。模型训练是自我监督的,不需要数据标记动作的可逆性。相反,模型仅从训练数据提供的上下文中学习哪些类型的动作往往是可逆的。我们将这种经验可逆性的理论解释称为 ,它是事件A先于事件B发生的概率的度量,已知A和B都会发生。优先权是真正可逆性的有用代理,因为它可以从交互数据集中学习,即使没有奖励。
举个例子,想象一个实验,其中一只玻璃杯从桌子高度掉落,当它落地时破碎了。在这种情况下,玻璃杯从位置A(桌子高度)移动到位置B(地板),并且无论试验次数多少,A总是先于B,因此当随机抽样事件对时,找到一对A先于B 的概率是 1。这将表明一个不可逆序列。假设,掉落的是一个橡皮球而不是玻璃杯。在这种情况下,球将从A开始,落到B,然后(大约)回到A。因此,当抽样事件对时,找到一对A先于B 的概率只有 0.5(与随机对显示B先于A 的概率相同),并且将表明一个可逆序列。
可逆性估计依赖于对世界动态的了解。可逆性的一个替代方法是优先性,它确定在两个事件都被观察到的情况下,平均而言哪个事件先发生。
在实践中,我们从一系列交互中抽取事件对,对它们进行打乱,然后训练神经网络重建事件的实际时间顺序。通过将其预测与从实际数据的时间戳得出的地面实况进行比较,可以衡量和改进网络的性能。由于时间上相距遥远的事件往往要么微不足道,要么无法排序,因此我们在固定大小的时间窗口中对事件进行抽样。然后,我们使用该估计器的预测概率作为可逆性的代理:如果神经网络对事件A发生在事件B之前的置信度高于选定的阈值,则我们认为从事件A到B的转换是不可逆的。
优先估计包括预测随机洗牌事件的时间顺序。
将可逆性融入强化学习
我们提出了两种在 RL 中集成可逆性的并行方法:
可逆性感知探索 (RAE):这种方法通过修改后的奖励函数惩罚不可逆转换。当代理选择一个被认为是不可逆的操作时,它会收到一个奖励,该奖励对应于环境的奖励减去一个正的固定惩罚,这会使此类操作不太可能发生,但不会将其排除在外。
可逆性感知控制 (RAC):在此,所有不可逆操作都会被过滤掉,这一过程充当策略和环境之间的中间层。当代理选择一个被认为是不可逆的操作时,操作选择过程会重复,直到选择一个可逆操作。
针对可逆性感知 RL提出的 RAE(左)和 RAC(右)方法。
RAE 和 RAC 之间的一个重要区别是,RAE 仅鼓励可逆操作,而不禁止可逆操作,这意味着当收益大于成本时,仍然可以执行不可逆操作(如下面的推箱子示例)。因此,RAC 更适合安全的 RL,其中不可逆副作用会引起应完全避免的风险,而 RAE 更适合怀疑大多数情况下应避免不可逆操作的任务。
为了说明 RAE 和 RAC 之间的区别,我们评估了这两种方法的功能。以下是一些示例场景:
避免(但不禁止)不可逆转的副作用
出于谨慎考虑,安全强化学习的一般规则是尽可能减少不可逆交互。为了测试此类能力,我们引入了一个合成环境,其中开放场地中的代理负责实现目标。如果代理遵循既定路径,环境将保持不变,但如果它离开路径并进入草地,它所走的路径将变成棕色。虽然这会改变环境,但不会因此类行为而受到惩罚。
在这种情况下,典型的无模型代理(例如近端策略优化(PPO) 代理)倾向于平均遵循最短路径并破坏一些草地,而 PPO+RAE 代理则避免了所有不可逆的副作用。
左上:智能体(蓝色)被要求达到目标(粉色)的合成环境。一条路径以灰色显示,从智能体通向目标,但该路径并非两者之间的最直接路线。右上:智能体动作的不可逆副作用动作序列。当智能体偏离路径时,它会在田野中留下一条棕色路径。左下: PPO 智能体的访问热图。智能体倾向于遵循比灰色显示的更直接的路径。右下: PPO+RAE 智能体的访问热图。偏离路径的不可逆性鼓励智能体留在既定的灰色路径上。
通过禁止不可逆操作来确保交互的安全
我们还针对经典的Cartpole任务进行了测试,在这个任务中,代理控制一辆手推车,以平衡一根摇摇欲坠地直立在其上的杆子。我们将最大交互次数设置为 50k 步,而不是通常的 200 步。在这个任务中,不可逆的动作往往会导致杆子倒下,所以最好完全避免这样的动作。
我们表明,只要我们为某个动作不可逆的概率选择适当的阈值,将 RAC 与任何RL 代理 (甚至是随机代理)相结合就绝不会失败。因此,RAC 可以从环境中的第一步开始保证安全、可逆的交互。
我们展示了配备 RAC 的随机策略的 Cartpole 性能如何随不同的阈值 (ꞵ) 而变化。标准无模型代理 ( DQN、M-DQN ) 通常得分低于 3000,而阈值为 β=0.4 时受随机+RAC 策略控制的代理得分为 50000(最高分)。
避免推箱子中的死锁
推箱子是一款益智游戏,玩家控制仓库管理员将箱子推到目标空间,同时避免无法挽回的情况(例如,箱子在角落里,或者在某些情况下沿着墙壁)。
完成推箱子关卡的动作序列。代理必须将箱子(带有红色“x”的黄色方块)推到目标(中间有一个点的红色轮廓)上。由于代理无法拉动箱子,因此任何被推到墙上的箱子都很难(如果不是不可能的话)远离墙壁,即陷入“僵局”。
对于标准 RL 模型,代理的早期迭代通常以近乎随机的方式探索环境,因此经常会卡住。此类 RL 代理要么无法解决推箱子难题,要么效率很低。
随机探索的代理很快就会陷入僵局,从而无法完成关卡(例如,推动墙上最右边的盒子是无法逆转的)。
我们比较了最先进的无模型强化学习代理 IMPALA 在 Sokoban 环境中的表现与 IMPALA+RAE 代理的表现。我们发现采用组合 IMPALA+RAE 策略的代理死锁频率较低,因此得分较高。
IMPALA 和 IMPALA+RAE 在 1000 个 Sokoban 关卡中的得分。每集开始时都会抽取一个新关卡。最佳得分取决于关卡,接近 10。
在这个任务中,检测不可逆动作很困难,因为这是一个高度不平衡的学习问题——只有~1%的动作确实是不可逆的,而许多其他动作很难标记为可逆,因为它们只能通过代理的一些额外步骤来逆转。
逆转一个动作有时并不简单。在这里显示的例子中,一个盒子被推到墙上,但仍然可以逆转。然而,逆转这种情况需要代理至少进行五个单独的动作,包括 17 个不同的动作(每个编号的动作都是代理的几个动作的结果)。
我们估计,大约一半的 Sokoban 关卡需要至少完成一项不可逆操作(例如,因为至少有一个目标目的地与墙壁相邻)。由于 IMPALA+RAE 几乎解决了所有关卡,这意味着 RAE 不会阻止代理在关键时刻采取不可逆操作。
结论
我们提出了一种方法,通过学习对随机采样的轨迹事件的时间顺序进行建模,使 RL 代理能够预测动作的可逆性,从而实现更好的探索和控制。我们提出的方法是自监督的,这意味着它不需要任何关于动作可逆性的先验知识,因此非常适合各种环境。未来,我们有兴趣进一步研究如何将这些想法应用于更大规模和安全关键的应用中。
致谢
我们要感谢我们的论文合著者 Nathan Grinsztajn、Philippe Preux、Olivier Pietquin 和 Matthieu Geist。我们还要感谢 Bobak Shahriari、Théophane Weber、Damien Vincent、Alexis Jacq、Robert Dadashi、Léonard Hussenot、Nino Vieillard、Lukasz Stafiniak、Nikola Momchev、Sabela Ramos 以及所有为这项工作提供有益讨论和反馈的人。
评论