使用多游戏决策转换器训练通才代理

1726317968357.jpg

当前的深度强化学习(RL) 方法可以训练出擅长在特定环境中对各种单个任务进行决策的专业人工智能体,例如围棋或星际争霸。然而,将这些结果扩展到不仅能够执行许多不同任务,而且还能在具有潜在不同表现的各种环境中执行的通用智能体方面进展甚微。

纵观自然语言处理、视觉和生成模型(如PaLM、Imagen和Flamingo ) 领域的最新进展,我们发现,通用模型的突破往往是通过扩展基于Transformer的模型并在大型且语义多样化的数据集上进行训练来实现的。我们自然会想,类似的策略是否也可用于构建用于顺序决策的通用代理?这样的模型是否也能像PaLM和Flamingo一样快速适应新任务?

作为回答这些问题的第一步,我们在最近的论文“多游戏决策转换器”中探讨了如何构建一个多面手代理来同时玩多个视频游戏。我们的模型训练了一个代理,它可以同时玩 41 个 Atari 游戏,表现接近人类,并且可以通过微调快速适应新游戏。这种方法大大改进了现有的学习多游戏代理的少数替代方法,例如时间差分(TD) 学习或行为克隆(BC)。

多游戏决策转换器 (MGDT) 可以通过对涵盖各个专业水平的一系列轨迹进行训练,以所需的能力水平玩多种游戏。

不要为了回报而优化,只追求最优

在强化学习中,奖励是指与完成任务相关的激励信号,回报是指代理与其周围环境交互过程中的累积奖励。传统的深度强化学习代理( DQN、SimPLe、Dreamer等)经过训练可以优化决策以实现最佳回报。在每个时间步骤中,代理都会观察环境(有些还会考虑过去发生的交互)并决定采取什么行动来帮助自己在未来的交互中获得更高的回报幅度。

在这项工作中,我们使用决策变压器作为训练强化学习代理的骨干方法。决策变压器是一个序列模型,它通过考虑代理与周围环境之间的过去交互以及(最重要的是)未来交互中要实现的期望回报来预测未来的行动。决策变压器不是像传统强化学习那样学习一种实现高回报幅度的策略,而是在训练期间将从专家级到初学者级的各种经验映射到它们相应的回报幅度。这个想法是,在一系列经验(从初学者到专家级)上训练代理可以让模型接触到更广泛的游戏玩法变化,这反过来有助于它提取有用的游戏规则,使其在任何情况下都能取得成功。因此,在推理过程中,决策变压器可以实现训练期间看到的范围内的任何返回值,包括最佳回报。

但是,您如何知道在给定环境中回报是否既最佳又稳定?决策转换器的先前应用依赖于对每个单独任务的期望回报的自定义定义,这需要手动定义一个合理且信息丰富的标量值范围,这些标量值是每个特定游戏的适当可解释信号——这是一项不简单且相当不可扩展的任务。为了解决这个问题,我们改为根据训练期间与环境的过去交互来建模回报幅度的分布。在推理时,我们只需添加一个最优偏差,以增加生成与更高回报相关的动作的概率。

为了更全面地捕捉代理与环境交互的时空模式,我们还修改了决策转换器架构,以考虑图像块而不是全局图像表示。图像块允许模型专注于局部动态,这有助于更详细地模拟游戏特定信息。

这些部分共同构成了多游戏决策转换器的骨干:

每个观察图像被分成一组M 个像素块,记为O。在每个输入因果序列中,返回R、动作a和奖励r紧随这些图像块之后。训练决策转换器来预测下一个输入(图像块除外)以建立因果关系。

训练多游戏决策转换器同时玩 41 场游戏

我们使用来自 41 款 Atari 游戏的大量(约 1B)广泛游戏体验训练一个决策转换器代理。在我们的实验中,这个我们称之为多游戏决策转换器 (MGDT) 的代理在学习同时玩 41 款游戏方面明显优于现有的强化学习和行为克隆方法(几乎高出 2 倍),并且表现接近人类水平(下图中的 100% 对应于人类游戏水平)。在比较两种设置中的训练方法时,这些结果都成立,在这两种设置中,策略必须从静态数据集(离线)中学习,而新数据可以从与环境的交互中收集(在线)。

每个条形图代表 41 场比赛的综合得分,其中 100% 表示表现达到人类水平。每个蓝色条形图来自同时在 41 场比赛中训练的模型,而每个灰色条形图来自 41 个专业代理。多游戏决策转换器实现了人类水平的表现,明显优于其他多游戏代理,甚至可与专业代理相媲美。

该结果表明决策变压器非常适合多任务、多环境和多体现代理。

同时进行的一项研究“多面手智能体”也得出了类似的结果,表明基于大型 Transformer 的序列模型可以在更多环境中很好地记住专家行为。此外,他们的研究和我们的研究有很好的互补性:他们表明除了 Atari 游戏之外,在各种环境中进行训练也是可能的,而我们则表明在各种体验中进行训练是可能的,而且很有用。

除了上面显示的性能之外,我们还通过实证研究发现,经过各种经验训练的 MGDT 比仅经过专家级演示或简单克隆演示行为训练的 MDGT 更好。

扩大多游戏模型规模以实现更好的性能

可以说,规模已成为近期许多机器学习突破的主要驱动力,而这通常是通过增加基于 Transformer 的模型中的参数数量来实现的。我们对多游戏决策 Transformer 的观察结果类似:随着模型规模的扩大,性能可预测地提高。特别是,它的性能似乎尚未达到上限,与其他学习系统相比,随着模型规模的增加,性能提升更为显著。

多游戏决策转换器(蓝线所示)的性能随着模型尺寸的增大而可预测地增加,而其他模型则不会这样。

经过预先训练的多游戏决策转换器是快速学习者

MGDT 的另一个好处是,它们可以从很少的游戏演示(不需要全部达到专家级)中学习如何玩新游戏。从这个意义上讲,MGDT 可以被视为预训练模型,能够在小型新游戏数据上快速进行微调。与其他流行的预训练方法相比,它在获得更高分数方面明显表现出持续的优势。

多游戏决策变压器预训练(DT预训练,以浅蓝色显示)在适应新任务方面表现出优于其他流行模型的持续优势。

经纪人在看哪里?

除了定量评估之外,可视化代理的行为也很有见地(也很有趣)。通过探测注意力头,我们发现 MGDT 模型始终将视野中的权重放在包含有意义游戏实体的观察图像区域上。我们在预测各种游戏的下一步动作时可视化模型的注意力,发现它始终关注代理的屏幕化身、代理的自由移动空间、非代理对象和关键环境特征等实体。例如,在交互式环境中,拥有准确的世界模型需要知道如何以及何时关注已知对象(例如,当前存在的障碍物)以及对未来未知事物(例如,负空间)的预期和/或规划。这种对每个环境的许多关键组件的注意力的多样化分配最终会提高性能。

在这里我们可以看到模型对游戏场景中每个关键资产的重视程度。红色越亮,表示对该像素块的重视程度越高。

大型通用智能体的未来

这项研究是展示在多种环境、具体化和行为风格中训练通用智能体的可能性的重要一步。我们展示了扩大规模对性能的好处以及进一步扩大规模的潜力。这些发现似乎指向了与视觉和语言等其他领域类似的泛化叙事,这暗示了扩展数据的巨大潜力和从不同经验中学习的有效性。

我们期待未来研究开发适用于多环境和多实例设置的高性能代理。我们的代码和模型检查点可在此处访问。

致谢

我们要感谢该论文的所有其他作者,包括 Igor Mordatch、Ofir Nachum Menjiao Yang、Lisa Lee、Daniel Freeman、Sergio Guadarrama、Ian Fischer、Eric Jang 和 Henryk Michalewski。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论