请选择 进入手机版 | 继续访问电脑版

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 43|回复: 0

学习从稀疏和未明确指定的奖励中进行概括

[复制链接]

304

主题

0

回帖

938

积分

高级会员

积分
938
发表于 2024-11-22 13:54:30 | 显示全部楼层 |阅读模式
强化学习(RL) 为优化目标导向行为提供了一个统一而灵活的框架,并在解决诸如玩视频游戏、连续控制和机器人学习等具有挑战性的任务方面取得了显著的成功。RL 算法在这些应用领域的成功通常取决于高质量和密集的奖励反馈的可用性。然而,将 RL 算法的适用性扩大到奖励稀疏和未指定环境是一项持续的挑战,需要学习代理从有限的反馈中进行概括(即学习正确的行为)。研究 RL 算法在这些问题设置中性能的一种自然方法是通过语言理解任务,其中代理获得自然语言输入,需要生成复杂的响应以实现输入中指定的目标,同时仅接收二进制成功-失败反馈。例如,考虑一个“盲人”代理,其任务是通过遵循一系列自然语言命令(例如, “向右,向上,向上,向右”)
在这些任务中,RL 代理需要学习从稀疏(只有少数轨迹会导致非零奖励)和未充分指定的(没有有目的的成功和偶然的成功之间的区别)奖励中进行概括。重要的是,由于奖励未充分指定,代理可能会因利用环境中的虚假模式而收到正反馈。这可能会导致奖励黑客攻击,在部署到实际系统中时会导致意外和有害的行为。
在“学习从稀疏和未充分指定的奖励中进行概括”中,我们通过开发元奖励学习( MeRL ) 来解决奖励未充分指定的问题,它通过优化辅助奖励函数为代理提供更精确的反馈。MeRL与使用新颖的探索策略收集的成功轨迹的内存缓冲区相结合,以从稀疏奖励中学习。我们的方法的有效性在语义解析上得到了证明,其目标是学习从自然语言到逻辑形式的映射(例如,将问题映射到SQL程序)。在本文中,我们研究了弱监督问题设置,其目标是自动从问答对中发现逻辑程序,而无需任何形式的程序监督。例如,给定问题“哪个国家赢得的银牌最多? ”和相关的维基百科表格,代理需要生成一个类似 SQL 的程序来得出正确答案(即“尼日利亚”)。
所提出的方法在WikiTableQuestions和WikiSQL基准 上取得了最佳结果,比之前的工作分别提高了1.2%和2.4%。MeRL 会自动学习辅助奖励函数,而无需使用任何专家演示(例如,真实程序),使其适用范围更广,并且有别于之前的 奖励 学习方法。
元奖励学习 (MeRL)
MeRL 在处理未指定奖励时的关键见解是,虚假轨迹和获得意外成功的程序会损害代理的泛化性能。例如,代理可能能够解决上述迷宫问题的特定实例。但是,如果它在训练期间学会了执行虚假动作,那么在提供未见过的指令时很可能会失败。为了缓解这个问题,MeRL优化了更精细的辅助奖励函数,该函数可以根据动作轨迹的特征区分意外成功和有目的的成功。通过元学习 最大化训练有素的代理在保留验证集上的表现,可以优化辅助奖励。
从稀疏奖励中学习
要从稀疏奖励中学习,有效的探索对于找到一组成功的轨迹至关重要。我们的论文通过利用Kullback-Leibler (KL) 散度的两个方向来解决这一挑战,KL 散度是衡量两个概率分布差异的指标。在下面的例子中,我们使用 KL 散度来最小化固定双峰(紫色阴影)和学习到的高斯(绿色阴影)分布之间的差异,这可以分别表示代理的最优策略和我们学习到的策略的分布。KL 目标的一个方向学习一种试图覆盖两种模式的分布,而另一个目标学习到的分布则寻求一种特定的模式(即,它更喜欢一种模式而不是另一种模式)。我们的方法利用涵盖KL 关注多个峰值的倾向的模式来收集一组不同的成功轨迹,并利用寻求KL 对轨迹的隐式偏好的模式来学习稳健的策略。
结论
设计能够区分最优和次优行为的奖励函数对于将 RL 应用于实际应用至关重要。这项研究朝着无需任何人工监督的奖励函数建模方向迈出了一小步。在未来的工作中,我们希望从自动学习密集奖励函数的角度来解决 RL 中的信用分配问题。
致谢
这项研究是与 Chen Liang 和 Dale Schuurmans 合作完成的。我们感谢 Chelsea Finn 和 Kelvin Guu 对本文的审阅。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-5 05:11 , Processed in 0.083342 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表