软演员-评论家：机器人深度强化学习

lixia01 · 发表于 2024-12-3 21:48:49

深度强化学习 (RL) 能够使用通用神经网络表示处理复杂的感官输入，因此有望直接从现实世界的经验和交互中完全自动学习机器人行为。然而，许多现有的 RL 算法需要数天或数周（或更长时间）的现实世界数据才能收敛到所需的行为。此外，这种系统很难部署在复杂的机器人系统（如腿式机器人）上，因为这些系统在探索阶段很容易受损，超参数设置可能难以调整，各种安全考虑因素可能会带来进一步的限制。我们最近
与加州大学伯克利分校合作发布了 Soft Actor-Critic (SAC)，这是一种稳定高效的深度 RL 算法，适用于现实世界的机器人技能学习，与机器人实验的要求非常吻合。重要的是，SAC 足够高效，可以在几个小时内解决现实世界的机器人任务，并且可以使用一组超参数在各种环境中工作。下面，我们将讨论 SAC 背后的一些研究，并描述我们最近的一些实验。
现实世界机器人学习的要求
现实世界的机器人实验带来了重大挑战，例如由于硬件故障和手动重置导致数据流不断中断，以及为避免机器人的机械磨损而进行的平稳探索，这给算法及其实现设置了额外的限制，包括（但不限于）：
良好的样本效率，减少学习时间
需要调整的超参数数量最少
在不同场景中重复使用已收集的数据（称为离策略学习）
确保学习和探索不会损坏硬件
软演员-评论家
软演员-评论家基于最大熵强化学习，该框架旨在最大化预期奖励（这是标准 RL 目标）和最大化策略的熵。熵越高的策略越随机，这直观地意味着最大熵强化学习更喜欢仍然能获得高奖励的最随机的策略。
为什么这对机器人学习来说是可取的？最明显的原因是针对最大熵优化的策略将更加稳健：如果策略可以容忍训练期间的高度随机行为，则更有可能在测试时成功应对意外扰动。然而，一个更微妙的原因是，针对最大熵进行训练可以提高算法对超参数的稳健性和样本效率（要了解更多信息，请参阅此BAIR 博客文章和本教程）。
软演员-评论家通过学习将状态映射到动作的随机策略和估计当前策略目标值的Q 函数来最大化熵增强奖励，并使用近似动态规划对其进行优化。在这样做的过程中，SAC 将目标视为一种切实可行的方法，以获得更好的强化学习算法，这些算法性能始终如一，并且样本效率足够高，可应用于现实世界的机器人应用。有关技术细节，请参阅我们的技术报告。SAC
的性能我们通过两项任务评估了 SAC：1) 使用Ghost Robotics
的 Minitaur 机器人进行四足行走，2) 用三指Dynamixel Claw旋转阀门。学习走路是一个巨大的挑战，因为机器人是驱动不足的，因此必须巧妙地平衡腿部的接触力才能向前移动。未经训练的策略可能会失去平衡并跌倒，太多的跌倒最终会损坏机器人，因此样本高效的学习至关重要。虽然我们只在平坦的地形上训练我们的策略，但我们随后在不同的地形和障碍物上对其进行了测试。原则上，使用软演员评论家学习的策略应该对测试时扰动具有鲁棒性，因为它们经过训练以在训练时最大化熵（即注入最大噪声）。事实上，我们观察到，通过我们的方法学习到的策略对这些扰动具有鲁棒性，无需任何额外的学习。
操作任务要求手旋转一个类似阀门的物体，使彩色钉子朝向右侧，如下图所示。这项任务极具挑战性，因为既需要感知挑战，又需要控制具有 9 个自由度的手。为了感知阀门，机器人必须使用右下角插图中显示的原始 RGB 图像。阀门的初始位置在每次实验中都会随机均匀重置，从而迫使策略学习使用原始 RGB 图像来感知当前阀门方向。
Soft actor-critic 快速解决了这两个任务：Minitaur 运动需要 2 小时，而通过图像观察完成阀门转动任务需要 20 小时。我们还通过将实际阀门位置作为策略的观察值来学习无图像的阀门转动任务策略。Soft actor-critic 可以在 3 小时内学习这个更简单的阀门任务版本。相比之下，之前的工作使用自然策略梯度在 7.4 小时内学习了相同的无图像任务。
结论
我们的工作表明，基于最大熵框架的深度强化学习可用于在具有挑战性的现实环境中学习机器人技能。由于这些策略是在现实世界中直接学习的，因此它们对环境变化表现出鲁棒性，否则很难获得。我们还表明我们可以直接从高维图像观察中学习，这代表了传统机器人技术面临的重大挑战。我们希望 SAC 的发布能够帮助其他研究团队在未来采用深度强化学习来完成更复杂的现实任务。
有关更多技术细节，请访问BAIR 博客文章，或阅读运动实验的早期预印本和更完整的算法描述。你可以在GitHub上找到实现。
致谢
这项研究是 Google 和加州大学伯克利分校合作完成的。我们要感谢所有参与的人，包括 Sehoon Ha、Kristian Hartikainen、Jie Tan、George Tucker、Vincent Vanhoucke 和 Aurick Zhou。

		自动登录	找回密码
密码			立即注册