迈向实用机器人：机器人功能中的基础语言_人工智能

过去几年，我们看到机器学习在机器人领域的应用取得了重大进展。然而，如今的机器人系统只能执行非常短的硬编码命令，例如“拿起一个苹果”，因为它们往往在有明确任务和奖励的情况下表现最佳。它们很难学会执行长期任务和推理抽象目标，例如用户提示“我刚刚锻炼过，你能给我拿点健康的零食吗？”

与此同时，语言模型 (LM) 训练方面的最新进展已使系统能够执行广泛的语言理解和生成任务，并取得令人印象深刻的结果。然而，由于这些语言模型的训练过程的性质，它们本质上并不扎根于物理世界：语言模型通常不与其环境交互，也不观察其响应的结果。这可能导致它生成的指令可能不合逻辑、不切实际或不安全，无法让机器人在物理环境中完成。例如，当被提示“我把饮料洒了，你能帮忙吗？”时，语言模型GPT-3会回答“你可以试试用吸尘器”，这个建议对于机器人来说可能不安全或不可能执行。当向FLAN语言模型提出同样的问题时，它会为洒了东西道歉“对不起，我不是故意洒的”，这不是一个非常有用的回答。因此，我们问自己，有没有一种有效的方法将高级语言模型与机器人学习算法结合起来，以充分利用两者的优势？

在“尽我所能，而不是照我说的做：将语言植根于机器人的功能可供性”一文中，我们介绍了一种与Everyday Robots合作开发的新方法，该方法利用先进的语言模型知识使物理代理（如机器人）能够遵循高级文本指令来执行基于物理的任务，同时将语言模型植根于特定现实环境中可行的任务。我们通过将机器人放置在真实的厨房环境中并让它们用自然语言表达的任务来评估我们的方法（我们称之为 PaLM-SayCan）。我们观察到对于时间延长的复杂和抽象任务具有高度可解释性的结果，例如“我刚刚锻炼过，请给我带点零食和饮料来恢复体力”。具体而言，我们证明，将语言模型植根于现实世界可以将非植根基线的错误率减少近一半。我们也很高兴发布一个机器人模拟设置，研究界可以在其中测试这种方法。

通过 PaLM-SayCan，机器人充当语言模型的“手和眼睛”，而语言模型则提供有关任务的高级语义知识。

通过语言模型实现用户与机器人之间的对话

我们的方法使用语言模型 (Say) 中包含的知识来确定和评分对高级指令有用的操作。它还使用可供性函数 (Can)，该函数可以实现现实世界的基础并确定哪些操作可以在给定环境中执行。使用 PaLM 语言模型，我们将其称为 PaLM-SayCan。

我们的方法是根据语言模型对高级教学的有用程度以及可供性模型的得分来选择技能。

我们的系统可以看作是用户和机器人之间的对话，由语言模型促成。用户首先给出指令，语言模型将其转换为机器人要执行的一系列步骤。使用机器人的技能组合过滤此序列，以确定当前状态和环境下最可行的计划。该模型通过将两个概率相乘来确定特定技能成功完成指令的概率：(1)任务基础（即技能语言描述）和 (2)世界基础（即当前状态下的技能可行性）。

我们的方法在安全性和可解释性方面还有其他优势。首先，通过允许语言模型对不同的选项进行评分而不是生成最可能的输出，我们有效地限制了语言模型仅输出预先选择的响应之一。此外，用户可以通过查看单独的语言和可供性分数（而不是单个输出）轻松了解决策过程。

PaLM-SayCan 也是可解释的：在每个步骤中，我们都可以看到它根据语言分数（蓝色）、可供性分数（红色）和综合分数（绿色）考虑的最佳选项。

训练策略和价值函数

代理技能集中的每项技能都定义为一项策略，其中包含简短的语言描述（例如“拿起罐子”），以嵌入表示，以及一个可供性函数，该函数指示从机器人的当前状态完成技能的概率。为了学习可供性函数，我们使用稀疏奖励函数，成功执行时设置为 1.0，否则设置为 0.0。

我们使用基于图像的行为克隆(BC) 来训练语言条件策略，使用基于时间差异(TD) 的强化学习 (RL) 来训练价值函数。为了训练策略，我们收集了 10 个机器人在 11 个月内执行的 68,000 个演示的数据，并添加了 12,000 个成功的情节，这些情节是从一组自主学习到的策略情节中筛选出来的。然后，我们在Everyday Robots模拟器中使用MT-Opt学习语言条件价值函数。模拟器使用技能和环境的模拟版本补充了我们的真实机器人舰队，并使用RetinaGAN对其进行了转换，以缩小模拟与真实的差距。我们通过使用演示来提供初步成功，从而引导模拟策略的性能，然后通过在模拟中在线收集数据不断提高 RL 性能。

给定一个高级指令，我们的方法将语言模型中的概率与价值函数 (VF) 中的概率相结合，以选择下一个要执行的技能。这个过程会重复，直到高级指令成功完成。

时间扩展、复杂和抽象指令上的性能

为了测试我们的方法，我们使用了 Everyday Robots 的机器人与PaLM配对。我们将机器人放置在包含常见物体的厨房环境中，并根据 101 条指令对它们进行评估，以测试它们在各种机器人和环境状态、指令语言复杂性和时间范围内的性能。具体来说，这些指令旨在展示语言的模糊性和复杂性，而不是提供简单的命令式查询，从而实现诸如“我刚刚锻炼过，你能给我拿点零食和饮料来恢复体力吗？”这样的查询，而不是“你能给我拿水和苹果吗？”

我们使用两个指标来评估系统的性能：（1）计划成功率，表示机器人是否为指令选择了正确的技能，以及（2）执行成功率，表示机器人是否成功执行了指令。我们比较了两种语言模型，PaLM和FLAN（一种针对指令回答进行微调的小型语言模型），它们具有和不具有可供性基础，以及直接与自然语言一起运行的底层策略（下表中的行为克隆）。结果表明，使用具有可供性基础的 PaLM 的系统（PaLM-SayCan）在 84% 的时间内选择了正确的技能序列，并在 74% 的时间内成功执行，与 FLAN 和没有机器人基础的 PaLM 相比，错误减少了 50%。这特别令人兴奋，因为它代表了我们第一次能够看到语言模型的改进如何转化为机器人技术的类似改进。这一结果表明，机器人技术在未来可能会乘上我们在语言模型中观察到的进步浪潮，从而使这些研究子领域更加紧密地联系在一起。

算法计划执行

PaLM-SayCan 84％ 74％

棕榈 67% -

FLAN-SayCan 70％ 61％

法兰 38% -

行为克隆 0％ 0％

与不具备可供性的 PaLM 相比以及与 101 项任务中的 FLAN 相比，PaLM-SayCan 将错误减少了一半。

SayCan 与 PaLM 结合使用时，成功规划了 101 条测试指令中的 84%。

如果您有兴趣从研究人员那里了解有关该项目的更多信息，请观看以下视频：

结论和未来工作

我们很高兴看到 PaLM-SayCan 取得的进展，这是一种可解释的通用方法，利用语言模型中的知识，使机器人能够遵循高级文本指令来执行基于物理的任务。我们对许多现实世界的机器人任务进行的实验表明，它能够以很高的成功率规划和完成长期、抽象的自然语言指令。我们相信，PaLM-SayCan 的可解释性可以让现实世界中的用户与机器人进行安全交互。在探索这项工作的未来方向时，我们希望更好地了解如何利用通过机器人的现实世界经验获得的信息来改进语言模型，以及自然语言在多大程度上是编程机器人的正确本体。我们已经开源了一个机器人模拟设置，我们希望它能为研究人员提供宝贵的资源，用于将机器人学习与高级语言模型相结合的未来研究。研究界可以访问该项目的GitHub 页面和网站了解更多信息。

致谢

我们要感谢我们的合作者 Michael Ahn、Anthony Brohan、Noah Brown、Yevgen Chebotar、Omar Cortes、Byron David、Chelsea Finn、Kelly Fu、Keerthana Gopalakrishnan、Alex Herzog、Daniel Ho、Jasmine Hsu、Julian Ibarz、Alex Irpan、Eric Jang、Rosario Jauregui Ruano、Kyle Jeffrey、Sally Jesmonth、Nikhil J Joshi、Ryan Julian、Dmitry Kalashnikov、Yuheng Kuang、Kuang-Huei Lee、Sergey Levine、Yao Lu、Linda Luu、Carolina Parada、Peter Pastor、Jornell Quiambao、Kanishka Rao、Jarek Rettinghouse、Diego Reyes、Pierre Sermanet、Nicolas Sievers、Clayton Tan、Alexander Toshev、Vincent Vanhoucke、Fei Xia、Ted Xiao、Peng Xu、Sichun Xu、Mengyuan Yan 和 Andy Zeng。我们还要感谢 Yunfei Bai、Matt Bennice、Maarten Bosma、Justin Boyd、Bill Byrne、Kendra Byrne、Noah Constant、Pete Florence、Laura Graesser、Rico Jonschkowski、Daniel Kappler、Hugo Larochelle、Benjamin Lee、Adrian Li、Maysam Moussalem、Suraj Nair、Krista Reymann、Jeff Seto、Dhruv Shah、Ian Storz、Razvan Surdulescu 和 Vincent Zhao 在项目各个方面提供的帮助和支持。我们还要感谢 Tom Small 为本文制作了许多动画。

迈向实用机器人：机器人功能中的基础语言

版权声明

相关推荐

评论