构建具身人工智能的基础模型

1722918724(1).jpg

  具身人工智能 (EAI) 涉及将人工智能嵌入有形实体(例如机器人),使其具备感知、学习和动态参与周围环境的能力。在本文中,我们将深入探讨为 EAI 系统构建基础模型的关键权衡。

  1. 具身人工智能的基础模型

  此前,我们概述了开发具身人工智能 (EAI) 系统的三个指导原则 [1]。EAI 系统不应依赖预定义的复杂逻辑来处理特定场景。相反,它们必须结合进化学习机制,以不断适应其操作环境。此外,环境不仅会显著影响物理行为,还会显著影响认知结构。第三个原则侧重于模拟,而前两个原则则强调构建能够从 EAI 系统的操作环境中学习的 EAI 基础模型。

  EAI 基础模型的常用方法是直接利用预训练的大型模型。例如,预训练的 GPT 模型可以作为基线,然后进行微调和上下文学习 (ICL) 以提高性能 [9]。这些大型模型通常拥有大量参数来编码广泛的世界知识,并具有较小的上下文窗口以实现快速响应时间。这种广泛的预编码使这些模型能够提供出色的零样本性能。然而,它们有限的上下文窗口对从 EAI 系统的操作环境中持续学习和连接各种使用场景构成了挑战。

  另外,另一种方法是利用参数少得多但上下文窗口更大的模型。这些模型不是对综合的世界知识进行编码,而是专注于学习如何学习,或元学习 [2]。借助大型上下文窗口,这些模型可以执行通用上下文学习 (GPICL),从而能够从其操作环境中持续学习并在广泛的上下文中建立联系。

  图 1 说明了这两种不同的方法。元训练 + GPICL 方法虽然表现出较差的零样本性能且模型尺寸较小,但它擅长从环境中不断学习,最终使 EAI 系统专门用于特定任务。相比之下,预训练 + 微调 + ICL 方法的特点是模型尺寸较大且上下文窗口较小,它提供了优越的零样本性能,但学习能力较差。

  GPT-3 论文提供了支持这一观点的经验证据,其中 7B 的 Few-Shot 模型优于 175B 的 Zero-Shot 模型 [3]。如果用长上下文窗口取代少样本学习,使 EAI 系统能够从其操作环境中学习,性能可能会进一步提高。

  我们设想了一个理想的 EAI 基础模型,该模型应满足几个关键标准。首先,它应该能够从复杂的指令、演示和反馈中进行普遍学习,而无需依赖精心设计的优化技术。其次,它应该在学习和适应过程中表现出较高的样本效率。第三,它必须具备通过上下文信息不断学习的能力,从而有效避免灾难性遗忘的问题。因此,我们得出结论,元学习 + GPICL 方法适用于 EAI 系统。但是,在决定采用这种方法之前,让我们先检查一下这两种方法之间的权衡。

  2. 关键权衡

  在本节中,我们回顾了预训练大型模型与元训练 + GPICL 作为 EAI 的基础模型之间的权衡 [4]。结果总结在表 1 中。

  对于零样本能力,预训练 + 微调 + ICL 方法 [9] 提供了高性能,允许模型很好地推广到新任务,而无需任何特定于任务的微调。相比之下,元训练 + GPICL 方法表现出较低的零样本能力,因为它专注于使用上下文学习而不是零样本泛化来学习适应各种各样的任务。

  在泛化能力方面,预训练+微调+ICL方法在分布内任务上表现良好,但对于分布外任务的能力尚不成熟。另一方面,元训练+GPICL由于注重在不同情境下进行元训练,因此在分布外任务上表现出多样化和复杂的泛化能力。

  Pretraining + Fine-Tuning + ICL 的可扩展性增强方法包括扩展参数和预训练数据集以提高性能。Meta-Training + GPICL 通过扩展元训练任务、上下文长度、记忆和隐藏状态来增强可扩展性,从而提高模型的适应性。

  在任务适应方面,预训练+微调+ICL依赖于数据收集和微调,效率可能较低。相比之下,元训练+GPICL利用非常复杂的指令,并自动从不同的环境中学习。

  在预训练或元训练阶段,预训练 + 微调 + ICL 侧重于世界知识和对硬件的理解。元训练 + GPICL 强调在各种任务上学习、记忆和抽象的能力。

  在后训练阶段,预训练+微调+ICL涉及将模型与特定的以人为中心的任务对齐,强调以人为本和特定任务的知识。元训练+GPICL继续强调世界知识、以人为本和特定任务的知识。

  对于预训练 + 微调 + ICL,推理延迟通常较低,因为模型参数在训练后是固定的。但是,对于元训练 + GPICL,由于需要动态利用和更新内存和隐藏状态,推理速度可能会更慢。

  预训练 + 微调 + ICL 所需的内存大小较小,因为大多数知识都嵌入在固定的模型参数中。相反,元训练 + GPICL 需要大量内存来处理复杂的指令、扩展上下文和隐藏状态。

  元训练 + GPICL 的优势在于,它使系统能够通过上下文不断学习各种任务,即学会持续学习 [7]。这本质上要求系统能够学习新任务而不会忘记旧任务,这通常对基于梯度的微调(灾难性遗忘 [8])构成巨大挑战,但对于上下文学习来说,挑战可能较小。

  3. 克服计算和内存瓶颈

  从上述比较中可以看出,元训练与 GPICL 相结合,在各种复杂任务中提供了出色的适应性和泛化能力。然而,这种方法需要更高的资源,这对大多数 EAI 系统来说是一个挑战,因为这些系统通常是实时边缘设备,计算能力和内存有限。这种方法所需的大型上下文窗口会显著增加推理时间和内存占用,可能会阻碍其用于 EAI 基础模型的可行性。

  幸运的是,最近的进展引入了创新的解决方案来扩展基于 Transformer 的大型语言模型 (LLM),以处理无限长的输入,同时保持有限的内存和计算效率。一个值得注意的创新是 Infini-attention 机制,它将掩蔽局部注意力和长期线性注意力集成在单个 Transformer 块中。这使得能够高效处理短期和长期上下文依赖关系。此外,压缩内存系统允许模型以有限的存储和计算成本维护和检索信息,重用旧的键值 (KV) 状态来提高内存效率并实现快速流式推理。实验结果表明,Infini-attention 模型在长上下文语言建模基准中的表现优于基线模型,在涉及极长输入序列(最多 100 万个标记)的任务中表现出色,并且内存效率和困惑度分数有显著提高。

  同样,StreamingLLM 框架使使用有限注意力窗口训练的大型模型能够推广到无限序列长度,而无需进行微调。这是通过保留初始标记的键和值 (KV) 状态作为注意力接收器以及最新标记来实现的,从而稳定注意力计算并保持扩展文本的性能。StreamingLLM 擅长对多达 400 万个标记的文本进行建模,速度提高了 22.2 倍。

  4。结论

  总之,我们认为从环境中学习是 EAI 系统的基本特征,因此元训练 + GPICL 方法有望成为构建 EAI 基础模型的良方,因为它能够提供更好的长期适应性和泛化能力。尽管目前这种方法在计算和内存使用方面面临着重大挑战,但我们相信,Infini-attention 和 StreamingLLM 等创新将很快使这种方法适用于实时、资源受限的环境。

  参考

  具身人工智能简史及其展望,ACM 通讯,https://cacm.acm.org/blogcacm/a-brief-history-of-embodied-artificial-intelligence-and-its-future-outlook/

  Kirsch, L.、Harrison, J.、Sohl-Dickstein, J. 和 Metz, L.,2022 年。元学习转换器的通用上下文学习。arXiv 预印本 arXiv:2212.04458。

  Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, JD, Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A. 和 Agarwal, S., 2020. 语言模型是少样本学习器。神经信息处理系统的发展,33,第 1877-1901 页。

  Wang, F., Lin, C., Cao, Y., 和 Kang, Y., 2024. 通用情境学习基准测试。arXiv 预印本 arXiv:2405.17234。

  Munkhdalai, T.、Faruqui, M. 和 Gopal, S.,2024 年。不遗漏任何上下文:具有无限注意力机制的高效无限上下文转换器。arXiv 预印本 arXiv:2404.07143。

  Xiao, G., Tian, Y., Chen, B., Han, S. 和 Lewis, M., 2023. 具有注意力集中的高效流式语言模型。arXiv 预印本 arXiv:2309.17453。

  Beaulieu, Shawn 等人。学会持续学习。ECAI  2020。IOS Press,2020 年。992-1001。

  French, Robert M. 联结网络中的灾难性遗忘。 认知科学趋势 3.4 (1999): 128-135。

  欧阳龙等,“通过人类反馈训练语言模型以遵循指令。” 神经信息处理系统进展 35 (2022): 27730-27744。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论