气球学习环境_数据计算_绿色天空实验室

基准挑战一直是机器学习 (ML) 发展的驱动力。特别是，强化学习 (RL) 的复杂基准环境对于该领域的快速发展至关重要，因为它挑战研究人员克服越来越困难的任务。Arcade学习环境、Mujoco和其他环境已用于推动RL 算法、表示学习、探索等方面的发展。

在两年前发表于《自然》杂志的《利用强化学习实现平流层气球的自主导航》中，我们展示了如何使用深度强化学习来创建高性能飞行代理，该代理可以在现实世界中控制平流层气球。这项研究证实了深度强化学习可以在模拟环境之外成功应用，并为将强化学习算法与复杂的动态系统相结合贡献了实用知识。

今天，我们很高兴地宣布气球学习环境(BLE) 的开源发布，这是一个模拟控制平流层气球的现实问题的新基准。BLE 是一个高保真模拟器，我们希望它能为研究人员提供深度强化学习研究的宝贵资源。

驻留平流层气球

平流层气球内充满浮力气体，可让气球在平流层中漂浮数周或数月，高度约为客机巡航高度的两倍。虽然平流层气球有许多潜在变种，但 BLE 模拟的气球配备了太阳能电池板和电池，可使用电动泵控制压舱物中的空气重量，从而调整高度。然而，气球无法横向推进，这意味着气球会受到周围空气风向的影响。

通过改变高度，平流层气球可以乘着不同方向的风。

BLE 中的代理的目标是保持位置，即控制气球停留在距离固定地面站 50 公里以内，方法是改变气球的高度以捕捉有利的风向。我们通过测量气球在指定半径内停留的时间比例（表示为 TWR50，即在半径 50 公里内停留的时间）来衡量代理保持位置的成功程度。

寻站气球必须穿越不断变化的风场才能停留在地面站上方。左图：定位气球的侧视图。右图：同一气球的鸟瞰图。

保持站点的挑战

为了创建一个逼真的模拟器（不包括大量历史风力数据），BLE 使用基于历史数据训练的变分自动编码器(VAE) 来生成与真实风力特征相匹配的风力预测。然后使用风噪声模型使风场更加逼真，以匹配气球在现实条件下会遇到的情况。

驾驶平流层气球穿越风场可能非常具有挑战性。任何给定高度的风很少能长时间保持理想状态，而优秀的气球控制器需要通过风柱上下移动以发现更合适的风。在 RL 术语中，位置保持问题是部分可观察的，因为代理只能访问预测的风数据来做出这些决定。代理可以访问每个高度的风预报和当前高度的真实风。BLE 返回一个包含风不确定性概念的观察结果。

平流层气球必须探测不同高度的风，才能找到有利的风向。BLE 返回的观测结果包括风向预测和不确定性测量，不确定性测量由风向预测和气球高度测量的风向混合而成。

在某些情况下，气球的风柱中可能没有合适的风。在这种情况下，专家代理仍然能够通过风场采取更迂回的路线飞向车站（一个常见的例子是气球以之字形移动，类似于帆船的转向）。下面我们将演示，即使只是保持在车站范围内通常也需要相当的杂技。

代理必须处理长期规划范围才能成功保持位置。在这种情况下，StationSeeker（专家设计的控制器）直接前往位置保持区域的中心并被推出，而 Perciatelli44（RL 代理）能够提前规划并通过靠近区域边缘来更长时间地停留在范围内。

夜间为 BLE 中的定位增加了新的难度，这反映了夜间物理条件和电力供应变化的现实。白天，气泵由太阳能电池板供电，而晚上，气球则依靠机载电池供电。夜间早些时候使用过多电力通常会导致黎明前几个小时的机动性受限。这时，RL 代理可以发现相当有创意的解决方案——例如在下午降低高度以储存势能。

代理需要在夜间平衡驻留目标和有限的能源余量。

尽管存在所有这些挑战，但我们的研究表明，经过强化学习训练的代理在定位方面的表现可以优于专家设计的控制器。除了 BLE，我们还发布了我们研究中的主要代理：Perciatelli44（RL 代理）和 StationSeeker（专家设计的控制器）。BLE 可以与任何强化学习库一起使用，为了展示这一点，我们加入了Dopamine 的DQN 和 QR-DQN 代理，以及Acme 的QR-DQN 代理（支持使用Launchpad进行独立和分布式训练）。

所含基准代理在 BLE 上的评估性能。“Finetuned”是经过微调的 Perciatelli44 代理，Acme 是使用 Acme 库训练的 QR-DQN 代理。

BLE 源代码包含有关如何开始使用 BLE 的信息，包括训练和评估代理、模拟器各个组件的文档以及示例代码。它还包括用于训练 VAE 的历史风场数据（作为TensorFlow 数据集），以便研究人员尝试使用自己的风场生成模型。我们很高兴看到社区将在这个基准上取得进展。

致谢

我们要感谢 Balloon Learning Environment 团队：Sal Candido、Marc G. Bellemare、Vincent Dumoulin、Ross Goroshin 和 Sam Ponda。我们还要感谢 Tom Small 在本博文中提供的出色动画和图形设计帮助，以及我们的同事 Bradley Rhodes、Daniel Eisenberg、Piotr Staczyk、Anton Raichuk、Nikola Momchev、Geoff Hinton、Hugo Larochelle 和蒙特利尔 Brain 团队的其他成员。

气球学习环境

版权声明

相关推荐

评论