用于强化学习的置换不变神经网络

1727419183153.jpg

,引自Livewired

人们拥有一种惊人的能力,能够使用一种感觉模式(例如触觉)来提供通常由另一种感觉(例如视觉)收集的环境信息。这种适应能力称为感觉替代,是神经科学中众所周知的一种现象。虽然一些困难的适应——例如适应上下颠倒的看东西、学习骑“倒着”的自行车,或者学习通过解释放在舌头上的电极网格发出的视觉信息来“看”东西——需要数周、数月甚至数年才能掌握,但人们最终能够适应感觉替代。

相比之下,大多数神经网络根本 无法适应感官替代。例如,大多数强化学习(RL) 代理都要求其输入采用预先指定的格式,否则它们将失败。它们期望输入大小固定,并假设输入的每个元素都具有精确的含义,例如指定位置的像素强度或状态信息,如位置或速度。在流行的 RL 基准任务(例如Ant或Cart-pole )中,如果使用当前RL 算法训练的代理的感官输入发生变化,或者代理被输入与当前任务无关的额外噪声输入,则该代理将失败。

在NeurIPS 2021的焦点论文 “作为 Transformer 的感觉神经元:用于强化学习的置换不变神经网络”中,我们探索了置换不变神经网络代理,这些代理需要每个感觉神经元(从环境中接收感觉输入的受体)弄清楚其输入信号的含义和上下文,而不是明确假设固定含义。我们的实验表明,此类代理对于包含额外冗余或噪声信息的观察结果以及损坏和不完整的观察结果具有鲁棒性。

适应感官替代的置换不变强化学习代理。左图:每 200 个时间步随机打乱蚂蚁 28 个观察结果的顺序。与标准策略不同,我们的策略不受突然置换的输入的影响。右图:手推车代理给出了许多冗余的噪声输入(交互式网络演示)。

除了适应状态观察环境中的感官替代(如蚂蚁和手推车杆的例子)之外,我们还表明这些代理还可以适应复杂的视觉观察环境中的感官替代(例如仅使用像素观察的CarRacing游戏),并且可以在输入图像流不断重新洗牌时执行:

我们将 CarRacing 的视觉输入划分为 2D 小块网格,并打乱了它们的顺序。无需任何额外训练,即使原始训练背景(左)被新图像(右)替换,我们的代理仍能正常运行。

方法

我们的方法在每个时间步骤中从环境中获取观察结果,并将观察结果的每个元素输入到不同但相同的神经网络(称为“传感神经元”)中,每个神经网络之间没有固定的关系。每个传感神经元随着时间的推移整合来自其特定传感输入通道的信息。由于每个传感神经元只接收全图的一小部分,因此它们需要通过通信进行自我组织,以便出现全局一致的行为。

观察分割的图示。我们将每个输入分割成元素,然后将其馈送到独立的传感神经元。对于输入通常是 1D 向量的非视觉任务,每个元素都是标量。对于视觉任务,我们将每个输入图像裁剪成不重叠的块。

我们通过训练神经元广播信息来鼓励它们相互通信。在本地接收信息的同时,每个单独的传感神经元也会在每个时间步骤不断广播输出消息。这些消息被合并并组合成一个输出向量,称为全局潜在代码,使用类似于Transformer架构中应用的注意机制。然后,策略网络使用全局潜在代码来生成代理将用于与环境交互的操作。此操作还会在下一个时间步骤中反馈到每个传感神经元,从而关闭通信循环。

置换不变强化学习方法概述。我们首先将每个单独的观察结果 (o t ) 馈送到特定的传感神经元(连同代理的先前动作 a t-1)。然后,每个神经元独立生成并广播一条消息,注意力机制将它们汇总为全局潜在代码 (m t ),该代码将提供给代理的下游策略网络 (𝜋) 以生成代理的动作 a t。

为什么这个系统是排列不变的?每个感觉神经元都是一个相同的神经网络,并不局限于只处理来自一个特定感觉输入的信息。事实上,在我们的设置中,每个感觉神经元的输入都是没有定义的。相反,每个神经元必须通过关注其他感觉神经元接收到的输入来弄清楚其输入信号的含义,而不是明确假设一个固定的含义。这鼓励代理将整个输入作为无序集进行处理,使系统对其输入具有排列不变性。此外,原则上,代理可以根据需要使用任意数量的感觉神经元,从而使其能够处理任意长度的观察结果。这两个属性将有助于代理适应感觉替代。

结果

我们在更简单的状态观察环境中展示了这种方法的稳健性和灵活性,其中代理作为输入接收的观察结果是低维向量,其中包含有关代理状态的信息,例如其组件的位置或速度。流行的Ant运动任务中的代理总共有 28 个输入,其中包含位置和速度等信息。我们在试验期间多次打乱输入向量的顺序,并表明代理能够快速适应并且仍然能够向前行走。

在cart-pole中,代理的目标是将安装在手推车中心的手推车杆向上摆动,并使其保持直立。通常情况下,代理只能看到 5 个输入,但我们修改了 cartpole 环境,以提供 15 个经过打乱的输入信号,其中 10 个是纯噪声,其余的是来自环境的实际观测值。代理仍然能够执行任务,表明系统能够处理大量输入,并且只关注它认为有用的通道。这种灵活性可能有助于处理来自定义不明确的系统的大量未指定数量的信号,其中大多数是噪声。

我们还将这种方法应用于高维视觉环境,其中观察是像素图像流。在这里,我们研究基于视觉的 RL 环境的屏幕打乱版本,其中每个观察帧被分成一个块网格,并且像拼图一样,代理必须按打乱的顺序处理块以确定要采取的行动方案。为了展示我们在基于视觉的任务上的方法,我们创建了一个打乱版本的 Atari Pong。

打乱后的 Pong 结果。左图:仅使用 30% 的拼图块训练 Pong 代理,其表现与 Atari 对手相当。右图:无需额外训练,当我们为代理提供更多拼图块时,其表现会提高。

在这里,代理的输入是可变长度的补丁列表,因此与典型的 RL 代理不同,代理只能“看到”屏幕上的补丁子集。在拼图乒乓球实验中,我们向代理传递屏幕上补丁的随机样本,然后在游戏的剩余时间内固定这些补丁。我们发现,我们可以丢弃 70% 的补丁(在这些固定随机位置),并且仍然可以训练代理以在与内置 Atari 对手的比赛中表现出色。有趣的是,如果我们随后向代理透露更多信息(例如,允许它访问更多图像补丁),即使没有额外的训练,它的性能也会提高。当代理以打乱的顺序收到所有补丁时,它将 100% 获胜,与在看到整个屏幕的同时进行训练的代理实现相同的结果。

我们发现,在训练期间使用无序观察增加额外的难度还有额外的好处,比如提高对任务中未见变化的泛化能力,比如当CarRacing训练环境的背景被新图像取代时。

经过打乱的 CarRacing 结果。代理已学会将注意力(由突出显示的补丁表示)集中在道路边界上。左图:训练环境。右图:具有新背景的测试环境。

结论

这里介绍的置换不变神经网络代理可以处理定义不明确、变化的观察空间。我们的代理对于包含冗余或噪声信息的观察,或损坏和不完整的观察具有很强的鲁棒性。我们相信置换不变系统为强化学习开辟了无数的可能性。

如果您有兴趣了解有关这项工作的更多信息,我们邀请读者阅读我们的互动文章(pdf版本)或观看我们的视频。我们还发布了代码来重现我们的实验。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论