Google 研究，2022 年及以后：机器人技术_人工智能

在我们的有生之年，我们将看到机器人技术能够帮助人们完成日常活动，提高人类的生产力和生活质量。在机器人技术能够广泛用于以人为本的空间（为人而非机器设计的空间）中完成日常实际任务之前，它们需要能够安全且有效地为人们提供帮助。

2022 年，我们专注于让机器人更好地帮助人类所带来的挑战：1）让机器人和人类更高效、更自然地交流；2）让机器人能够理解常识并在现实世界中运用；3）扩大机器人在非结构化环境中有效执行任务所需的低级技能数量。

过去一年的暗流是探索如何将大型通用模型（如PaLM）与其他方法结合起来，使机器人能够从广泛的人类知识中学习，并让人们更自然地与机器人互动。在此过程中，我们将机器人学习转变为可扩展的数据问题，以便我们可以扩展对通用低级技能（如操纵）的学习。在这篇博文中，我们将回顾 2022 年探索中的关键学习和主题。

将法学硕士的能力引入机器人技术

大型语言模型 (LLM) 的一个令人难以置信的特性是，它们能够将描述和上下文编码为人类和机器都能理解的格式。当应用于机器人技术时，LLM 让人们能够更轻松地用自然语言向机器人发出任务 — 只需询问即可。当与视觉模型和机器人学习方法相结合时，LLM 让机器人能够理解人类请求的上下文，并决定应采取哪些行动来完成该请求。

其中一个基本概念是使用 LLM 提示其他预训练模型获取信息，这些信息可以构建场景中正在发生的事情的背景并对多模式任务做出预测。这类似于教学中的苏格拉底式方法，老师会向学生提问，引导他们进行理性的思考过程。在“苏格拉底模型”中，我们展示了这种方法可以在零样本图像字幕和视频到文本检索任务中实现最先进的性能。它还支持新功能，例如回答有关视频的自由形式问题和预测未来活动、多模式辅助对话，以及我们接下来将讨论的机器人感知和规划。

在“迈向实用机器人：将语言融入机器人功能”中，我们与Everyday Robots合作，将 PaLM 语言模型融入机器人功能模型，以规划长期任务。在之前的机器学习方法中，机器人只能使用简短的硬编码命令，例如“拿起海绵”，因为它们很难推理完成任务所需的步骤，而当任务以抽象目标给出时，例如“你能帮忙清理一下溢出物吗？”，这甚至更加困难。

通过 PaLM-SayCan，机器人充当语言模型的“手和眼睛”，而语言模型则提供有关任务的高级语义知识。

要使这种方法奏效，我们需要一个能够预测完成长期任务的步骤顺序的 LLM和一个表示机器人在特定情况下可以实际执行的技能的可供性模型。在“从价值函数中提取以技能为中心的状态抽象”中，我们展示了强化学习 (RL) 模型中的价值函数可用于构建可供性模型 - 机器人在不同状态下可以执行的操作的抽象表示。这让我们能够将现实世界任务的长期性（例如“整理客厅”）与完成任务所需的短期性技能（例如正确挑选、放置和整理物品）联系起来。

拥有 LLM 和可供性模型并不意味着机器人实际上能够成功完成任务。然而，通过Inner Monologue，我们利用其他信息源（如人类反馈或场景理解）完成了基于 LLM 的任务规划闭环，以检测机器人何时无法正确完成任务。使用Everyday Robots的机器人，我们展示了 LLM 可以在当前或之前的规划步骤失败时有效地重新规划，从而使机器人能够从故障中恢复并完成复杂的任务，例如“将可乐放入最上面的抽屉”，如下面的视频所示。

通过 PaLM-SayCan，机器人充当语言模型的“手和眼睛”，而语言模型则提供有关任务的高级语义知识。

我们在《内心独白》中看到的 LLM 任务规划闭环所带来的一项新兴能力是，机器人可以对任务中高级目标的变化做出反应。例如，一个人可能会告诉机器人在发生行为时改变其行为，方法是提供快速纠正或将机器人重定向到另一项任务。当机器人在人类附近工作时，这种行为尤其有用，可以让人们以交互方式控制和定制机器人任务。

虽然自然语言使人们能够更轻松地指定和修改机器人任务，但挑战之一是能够实时响应人们用来描述机器人能够执行的任务的全部词汇。在“实时与机器人对话”中，我们展示了一个大规模模仿学习框架，用于生产实时、开放词汇、语言可调的机器人。通过一项策略，我们能够处理超过 87,000 条独特指令，估计平均成功率为 93.5%。作为该项目的一部分，我们发布了Language-Table，这是最大的可用语言注释机器人数据集，我们希望这将推动对实时语言可控机器人的进一步研究。

在实时人类语言指导下实现的长远目标的例子。

我们还对 LLM 编写控制机器人动作的代码的潜力感到兴奋。代码编写方法（如“编写自己代码的机器人”）有望通过自主生成新代码来增加机器人可以完成的任务的复杂性，这些新代码可以重新组合 API 调用、合成新功能并表达反馈循环以在运行时组装新行为。

Code as Policies 使用代码编写语言模型将自然语言指令映射到机器人代码以完成任务。生成的代码可以调用现有的感知操作 API、第三方库或在运行时编写新函数。

将机器人学习转变为可扩展的数据问题

大型语言和多模态模型可帮助机器人理解其运行的环境，例如场景中正在发生的事情以及机器人需要做什么。但机器人还需要具备低级身体技能才能完成物理世界中的任务，例如拾取和精确放置物体。

虽然我们经常认为这些身体技能是理所当然的，每天不假思索地执行数百次，但它们对机器人来说却是一个重大挑战。例如，为了拿起一个物体，机器人需要感知和理解环境，推理其抓手和物体之间的空间关系和接触动力学，精确地驱动高自由度的手臂，并施加适当的力量以稳定地抓住物体而不将其弄坏。学习这些低级技能的困难被称为莫拉维克悖论：推理需要很少的计算，但感觉运动和感知技能需要大量的计算资源。

受 LLM 最近成功的启发，该成功表明基于 Transformer 的大型模型的泛化和性能会随着数据量的增加而扩展，我们采用数据驱动的方法，将学习低级身体技能的问题转变为可扩展的数据问题。借助Robotics Transformer-1 (RT-1)，我们使用来自Everyday Robots 的13 个机器人组成的队列，在大规模真实世界机器人数据集上训练了机器人操作策略，该数据集包含 13 万个情节，涵盖 700 多项任务，并显示了机器人的相同趋势 - 增加数据的规模和多样性可以提高模型泛化到新任务、环境和对象的能力。

例如，PaLM-SayCan-RT1 在真实厨房中执行长期任务。

这两种语言模型以及我们的许多机器人学习方法（如RT-1）的背后都是Transformers，它使模型能够理解互联网规模的数据。与 LLM 不同，机器人技术面临的挑战是不断变化的环境的多模态表示和有限的计算能力。2020 年，我们引入了Performers作为一种提高 Transformers 计算效率的方法，这对机器人技术以外的许多应用都有影响。在Performer-MPC中，我们应用它引入了一类新的隐式控制策略，将模仿学习的好处与模型预测控制(MPC) 对系统约束的稳健处理相结合。与标准 MPC 策略相比，我们显示，机器人在实现目标方面提高了 40% 以上，在绕过人类时社交指标提高了 65% 以上。Performer-MPC 为 8.3M 参数模型提供了 8 毫秒的延迟，使在机器人上部署 Transformers 变得切实可行。

导航机器人使用以下方法在高度受限的空间中移动：常规 MPC、显式策略和 Performer-MPC。

在过去的一年里，我们的团队已经证明了数据驱动方法普遍适用于不同环境中的不同机器人平台，以学习各种任务，包括移动操控、导航、运动和乒乓球。这为我们学习低级机器人技能指明了一条清晰的前进道路：可扩展的数据收集。与互联网上丰富的视频和文本数据不同，机器人数据极其稀缺且难以获取。找到收集和有效使用代表现实世界交互的丰富数据集的方法是数据驱动方法的关键。

模拟是一种快速、安全且易于并行化的选项，但很难在模拟中复制完整的环境，尤其是物理和人机交互。在i-Sim2Real中，我们展示了一种解决模拟与现实差距的方法，通过从简单的人类行为模型引导并在模拟训练和现实世界部署之间交替，学习如何与人类对手打乒乓球。在每次迭代中，人类行为模型和策略都会得到改进。

学习与人类对手打乒乓球。

虽然模拟很有帮助，但在现实世界中收集数据对于微调模拟策略或在新环境中调整现有策略至关重要。在学习过程中，机器人很容易出现故障，这可能会对自身和周围环境造成损害——尤其是在学习的早期阶段，它们正在探索如何与世界互动。我们需要安全地收集训练数据，即使在机器人学习时也是如此，并使机器人能够自主从故障中恢复。在“在现实世界中安全地学习运动技能”中，我们引入了一个安全的 RL 框架，该框架在优化以执行所需任务的“学习者策略”和防止机器人处于不安全状态的“安全恢复策略”之间切换。在“不断学习的腿式机器人”中，我们训练了一个重置策略，以便机器人可以从故障中恢复，例如学会在跌倒后自己站起来。

自动重置策略使机器人能够在没有人工监督的情况下以终身方式继续学习。

虽然机器人数据稀缺，但人类执行不同任务的视频却非常丰富。当然，机器人并不是像人一样制造的——因此，机器人向人学习的想法提出了跨不同化身迁移学习的问题。在“机器人看，机器人做”中，我们开发了跨化身逆向强化学习，通过观察人类来学习新任务。我们不是试图完全按照人的方式复制任务，而是学习高级任务目标，并以奖励函数的形式总结这些知识。这种演示学习可以让机器人通过观看互联网上随时可用的视频来学习技能。

我们也在努力使我们的学习算法更加数据高效，这样我们就不会仅仅依赖于扩展数据收集。我们通过结合先验信息（包括预测信息、对抗性运动先验和指导策略）提高了 RL 方法的效率。通过利用新颖的结构化动态系统架构并将RL 与轨迹优化相结合，并由新颖的求解器支持，可以实现进一步的改进。这些类型的先验信息有助于缓解探索挑战，充当良好的正则化器，并显著减少所需的数据量。此外，我们的团队在数据效率更高的模仿学习方面投入了大量资金。我们证明了一种简单的模仿学习方法BC-Z可以实现对训练期间未见过的新任务的零样本泛化。我们还引入了一种迭代模仿学习算法GoalsEye，它将从游戏中学习和目标条件行为克隆相结合，用于高速和高精度乒乓球比赛。在理论方面，我们研究了动态系统稳定性，以表征模仿学习的样本复杂性，以及捕获演示数据中的故障和恢复的作用，以更好地从较小的数据集进行离线学习。

结束语

人工智能领域大型模型的进步推动了机器人学习能力的飞跃。在过去的一年里，我们看到 LLM 中捕捉到的情境感和事件顺序有助于解决机器人的长期规划问题，并使机器人更容易与人互动和执行任务。我们还看到了一条可扩展的途径，即通过将 Transformer 模型架构应用于机器人学习，来学习稳健且可推广的机器人行为。我们继续开源数据集，例如“扫描对象：3D 扫描常见家居用品数据集”和模型，例如RT-1，以参与更广泛的研究社区。我们很高兴在来年以这些研究主题为基础，打造出有用的机器人。

致谢

我们要感谢所有支持我们研究的人。其中包括整个 Google 机器人团队，以及来自 Everyday Robots 和 Google Research 的合作者。我们还要感谢我们的外部合作者，包括加州大学伯克利分校、斯坦福大学、Gatech、华盛顿大学、麻省理工学院、卡内基梅隆大学和宾夕法尼亚大学。

Google 研究，2022 年及以后：机器人技术

版权声明

相关推荐

评论