找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

离策略分类——一种新的强化学习模型选择方法

[复制链接]

35

主题

0

回帖

107

积分

注册会员

积分
107
发表于 昨天 16:56 | 显示全部楼层 |阅读模式
强化学习(RL) 是一个让代理从经验中学习决策的框架。RL 的众多变体之一是离策略 RL,其中代理使用其他代理收集的数据(离策略数据)和自身收集的数据的组合进行训练,以学习机器人行走和抓取等可推广的技能。相比之下,完全离策略 RL是一种代理完全从旧数据中学习的变体,这很有吸引力,因为它可以进行模型迭代而不需要物理机器人。使用完全离策略 RL,人们可以在之前的代理收集的相同固定数据集上训练多个模型,然后选择最佳模型。然而,完全离策略 RL 有一个问题:虽然训练可以在没有真实机器人的情况下进行,但模型的评估却不能。此外,使用物理机器人进行真实情况评估效率太低,无法测试需要评估大量模型的有前景的方法,例如使用AutoML的自动架构搜索。
这项挑战激发了离策略评估(OPE) 的诞生,这是一种使用其他代理的数据来研究新代理质量的技术。借助 OPE 的排名,我们可以选择性地在现实世界的机器人上测试最有前途的模型,从而在相同的固定真实机器人预算下显著扩大实验规模。
真实世界模型开发图表。假设我们每天可以评估 10 个模型,如果没有离线策略评估,我们将需要 100 倍的时间来评估我们的模型。
尽管 OPE 框架前景光明,但它假设人们拥有一种能够根据旧数据准确排名性能的离策略评估方法。但是,收集了过去经验的代理的行为可能与新学习的代理截然不同,这使得很难获得良好的性能估计。
在“通过离策略分类进行离策略评估”中,我们提出了一种新的离策略评估方法,称为离策略分类(OPC),该方法通过将评估视为分类问题来评估过去数据中代理的性能,其中操作被标记为可能导致成功或必然导致失败。我们的方法适用于图像(相机)输入,不需要使用重要性采样重新加权数据或使用目标环境的精确模型,这两种方法在先前的工作中很常用。我们表明 OPC 可以扩展到更大的任务,包括现实世界中基于视觉的机器人抓取任务。
OPC 的工作原理
OPC 依赖于两个假设:1)最终任务具有确定性动态,即状态变化不涉及随机性;2)代理在每次试验结束时要么成功要么失败。第二个“成功或失败”假设对于许多任务来说都是很自然的,例如拿起一个物体、走迷宫、赢得游戏等等。因为每次试验都会以确定的方式成功或失败,所以我们可以为每个动作分配二元分类标签。如果一个动作可能导致成功,我们就说它有效,如果它注定会导致失败,我们就说它灾难性的
。OPC利用通过Q 学习算法学习到的Q 函数,如果代理选择从当前状态采取某些行动,它可以估计未来的总奖励。然后,代理将选择具有最大总奖励估计的动作。在我们的论文中,我们证明了代理的性能是通过其选择的操作是有效操作的频率来衡量的,这取决于 Q 函数将操作正确分类为有效操作和灾难性操作的程度。此分类准确度充当了离线策略评估分数。但是,来自先前试验的数据标记只是部分的。例如,如果先前的试验失败了,我们就不会得到负面标签,因为我们不知道哪个操作是灾难性的。为了克服这个问题,我们利用半监督学习的技术,特别是正向无标记学习,从部分标记的数据中获取分类准确度的估计值。这个准确度就是 OPC 分数。模拟到真实学习的离线策略评估在机器人技术中,通常使用模拟数据和
迁移学习技术可以降低学习机器人技能的样本复杂性。这可能非常有用,但调整这些模拟到现实的技术以适应现实世界的机器人技术具有挑战性。与离线策略 RL 非常相似,训练不使用真实机器人,因为它是在模拟中训练的,但对该策略的评估仍然需要使用真实机器人。在这里,离线策略评估可以再次发挥作用——我们可以采用仅在模拟中训练的策略,然后使用以前的现实世界数据对其进行评估,以衡量其向真实机器人的迁移。我们检查完全离线策略 RL 和模拟到现实 RL 中的 OPC。
模拟体验与真实世界体验的不同之处的一个例子。这里,模拟图像(左)的视觉复杂性比真实世界图像(右)低得多。
结果
首先,我们设置了机器人抓取任务的模拟版本,我们可以轻松地在其中训练和评估多个模型,以对离线策略评估进行基准测试。这些模型使用完全离线策略 RL 进行训练,然后使用离线策略评估进行评估。我们发现,在我们的机器人任务中,一种称为 SoftOPC 的 OPC 变体在预测最终成功率方面表现最佳。
在模拟中取得成功后,我们随后在真实世界任务中尝试了 SoftOPC。我们采用了 15 个模型,这些模型经过训练后具有不同程度的稳健性,可以应对模拟与现实之间的差距。在这些模型中,7 个模型纯粹是在模拟中训练的,其余模型则在模拟和真实世界数据的混合中训练。对于每个模型,我们先在离策略真实世界数据上评估 SoftOPC,然后再评估真实世界的抓取成功率,以了解 SoftOPC 对模型性能的预测程度。我们发现,在真实数据上,SoftOPC 确实会产生与真实抓取成功率相关的分数,让我们能够使用过去的真实经验对模拟到真实的技术进行排名。
下面是所有 15 个模型的完整结果的散点图。每个点代表每个模型的离线策略评估分数和真实抓取成功率。我们通过不同评分函数与最终抓取成功的相关性对其进行比较。SoftOPC 与真实抓取成功率并不完全相关,但其分数比时间差分误差(标准 Q 学习损失)等基线方法可靠得多。
未来工作
未来工作的一个有希望的方向是看看我们是否可以放宽对任务的假设,以支持动态更嘈杂的任务,或者我们因几乎成功而获得部分荣誉的任务。但是,即使包含我们的假设,我们也认为结果足以应用于许多现实世界的 RL 问题。
致谢
这项研究由 Alex Irpan、Kanishka Rao、Konstantinos Bousmalis、Chris Harris、Julian Ibarz 和 Sergey Levine 进行。我们要感谢 Razvan Pascanu、Dale Schuurmans、George Tucker 和 Paul Wohlhart 的宝贵讨论。预印本可在arXiv上找到。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-11-21 17:27 , Processed in 0.096244 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表