Pathways 语言模型 (PaLM):扩展至 5400 亿个参数,实现突破性性能

1727066293768.jpg

近年来,经过训练用于语言理解和生成语言的大型神经网络在各种任务中都取得了令人瞩目的成果。GPT -3首次表明,大型语言模型 (LLM) 可用于小样本 学习,并且可以在无需大规模特定任务数据收集或模型参数更新的情况下取得令人瞩目的成果。GLaM 、LaMDA、Gopher和Megatron-Turing NLG等较新的 LLM通过扩展模型大小、使用稀疏激活模块以及在来自更多不同来源的更大数据集上进行训练,在许多任务上取得了最先进的小样本学习结果。然而,随着我们突破模型规模的极限,在理解小样本学习所带来的能力方面仍有许多工作要做。

去年,谷歌研究院宣布了Pathways的愿景,即一个可以跨领域和任务泛化且高效的单一模型。实现这一愿景的一个重要里程碑是开发新的Pathways 系统来协调加速器的分布式计算。在“ PaLM:使用 Pathways 扩展语言建模”一文中,我们介绍了 Pathways 语言模型 (PaLM),这是一个使用Pathways 系统训练的 5400 亿个参数、密集的解码器专用Transformer模型,它使我们能够在多个TPU v4 Pod上高效地训练单一模型。我们在数百个语言理解和生成任务上对 PaLM 进行了评估,发现它在大多数任务中都实现了最先进的少样本性能,在许多情况下甚至有显著的优势。

随着模型规模的增加,各项任务的性能都会得到提升,同时也会释放出新的功能。

使用 Pathways 训练 5400 亿参数语言模型

PaLM 展示了 Pathways 系统的首次大规模使用,该系统将训练扩展到 6144 个芯片,这是迄今为止用于训练的最大的基于 TPU 的系统配置。训练在两个Cloud TPU v4 Pod上使用 Pod 级别的数据并行性进行扩展,同时在每个 Pod 内使用标准数据和模型并行性。与大多数之前的 LLM 相比,这是一个显着的规模提升,之前的 LLM 要么在单个 TPU v3 Pod(例如GLaM、LaMDA)上进行训练,要么使用流水线并行性在 GPU 集群(Megatron-Turing NLG)上扩展到 2240 个 A100 GPU,要么使用多个 TPU v3 Pod(Gopher),最大规模为 4096 个 TPU v3 芯片。

PaLM 的训练效率达到了 57.8% 的硬件 FLOP 利用率,这是该规模 LLM 中迄今为止达到的最高水平。这是由于并行策略与Transformer 模块的重新表述相结合,允许注意力层和前馈层并行计算,从而实现 TPU 编译器优化带来的加速。

PaLM 的训练使用了英语和多语言数据集,其中包括高质量的网络文档、书籍、维基百科、对话和 GitHub 代码。我们还创建了一个“无损”词汇表,该词汇表保留了所有空格(这对于代码尤其重要),将词汇表之外的 Unicode 字符拆分为字节,并将数字拆分为单独的标记,每个数字一个标记。

语言、推理和代码任务的突破性能力

PaLM 在许多非常困难的任务上展现了突破性的能力。我们在下面重点介绍了一些语言理解和生成、推理和代码相关任务的示例。

语言理解与生成

我们对 29 个广泛使用的英语自然语言处理 (NLP) 任务中的 PaLM 进行了评估。在 29 个任务中的 28 个任务中,PaLM 540B 超越了之前的大型模型(例如GLaM、GPT-3、Megatron-Turing NLG、Gopher、Chinchilla和LaMDA)的少量样本性能,这些任务涵盖问答任务(开放域闭书变体)、完形填空和句子完成任务、Winograd风格任务、上下文阅读理解任务、常识推理任务、SuperGLUE任务和自然语言推理任务。

PaLM 540B 在 29 项基于英语的 NLP 任务上的性能优于之前的最先进 (SOTA) 结果。

除了英语 NLP 任务外,PaLM 在包括翻译在内的多语言 NLP 基准测试中也表现出色,尽管训练语料中只有 22% 是非英语的。

我们还在Beyond the Imitation Game Benchmark (BIG-bench)(最近发布的一套包含 150 多个新语言建模任务的套件)上探索了 PaLM 的新兴和未来功能,发现 PaLM 取得了突破性的性能。我们将 PaLM 的性能与Gopher和Chinchilla进行了比较,取其中 58 个任务的共同子集的平均值。有趣的是,我们注意到 PaLM 的性能随规模变化遵循与先前模型类似的对数线性行为,这表明规模带来的性能改进尚未达到稳定水平。PaLM 540B 5-shot 也比被要求解决相同任务的人的平均表现更好。

PaLM 在 58 个 BIG-bench 任务子集上的扩展行为。 

PaLM 在多个 BIG-bench 任务中展示了出色的自然语言理解和生成能力。例如,该模型可以区分因果关系、理解适当语境中的概念组合,甚至可以根据表情符号猜出电影。

展示 PaLM 540B 在 BIG-bench 任务上的 1-shot 性能的示例:标记因果关系、概念理解、根据表情符号猜测电影以及查找同义词和反事实。

推理

通过将模型规模与思路链提示相结合, PaLM 在需要多步算术或常识推理的推理任务上展现出突破性的能力。之前的 LLM,如Gopher,在提高绩效方面从模型规模中获益较少。

标准提示与思路链提示,用于解决小学数学问题。思路链提示将多步骤推理问题的提示分解为中间步骤(以黄色突出显示),类似于人们处理该问题的方式。

我们观察到,PaLM 540B 与思路链提示相结合,在三个算术数据集和两个常识推理数据集上表现出色。例如,在 8 次提示下,PaLM 解决了GSM8K中 58% 的问题,这是数千道具有挑战性的小学数学问题的基准,超过了之前通过使用 7500 个问题的训练集对 GPT-3 175B 模型进行微调并将其与外部计算器和验证器相结合而取得的 55% 的最高分。

这个新分数尤其有趣,因为它接近 9-12 岁儿童解答问题的 60% 平均值,而 9-12 岁儿童是该问题集的目标受众。我们怀疑 PaLM 词汇表中的数字单独编码有助于实现这些性能改进。

值得注意的是,PaLM 甚至可以为需要多步逻辑推理、世界知识和深度语言理解的复杂组合的场景生成明确的解释。例如,它可以为网络上找不到的新奇笑话提供高质量的解释。

PaLM 通过两次提示解释了一个原创笑话。

代码生成

法学硕士 (LLM) 也被证明 [ 1 , 2 , 3 , 4 ] 能够很好地应用于编码任务,例如根据自然语言描述编写代码(文本到代码)、将代码从一种语言翻译成另一种语言,以及修复编译错误(代码到代码)。

PaLM 540B 在单个模型中表现出色,在编码任务和自然语言任务中表现出色,尽管它在预训练数据集中只有 5% 的代码。它的少样本性能尤其出色,因为它与经过微调的 Codex 12B相当,但训练时使用的Python代码却少了 50 倍。这一结果强化了先前的发现,即较大的模型比较小的模型具有更高的样本效率,因为它们可以更有效地迁移来自其他编程语言和自然语言数据的学习。

在文本到代码任务(例如GSM8K- Python 和HumanEval)以及代码到代码任务(例如Transcoder )上经过微调的 PaLM 540B 模型的示例。

我们还发现,通过在纯 Python 代码数据集(我们称之为 PaLM-Coder)上对 PaLM 进行微调,性能得到了进一步提升。对于名为DeepFix的示例代码修复任务,其目标是修改最初损坏的C程序,直到它们成功编译,PaLM-Coder 540B 表现出了令人印象深刻的性能,实现了 82.1% 的编译率,超过了之前 71.7% 的领先水平。这为修复软件开发过程中出现的更复杂的错误提供了机会。

DeepFix 代码修复任务的一个示例。经过微调的 PaLM-Coder 540B 将编译错误(左,红色)修复到可编译的代码版本(右)。

伦理考量

最近的研究强调了使用网络文本训练的 LLM 的各种潜在风险。通过透明的工件(例如模型卡和数据表)分析和记录这些潜在的不良风险至关重要,这些工件还包括有关预期用途和测试的信息。为此,我们的论文提供了数据表、模型卡和 Responsible AI 基准测试结果,并报告了对数据集和模型输出的偏差和风险的全面分析。虽然分析有助于概述模型的一些潜在风险,但特定领域和任务的分析对于真正校准、情境化和减轻可能的危害至关重要。进一步了解这些模型的风险和好处是一个正在进行的研究主题,同时开发可扩展的解决方案,可以防止语言模型的恶意使用。

结论和未来工作

PaLM 通过使用经过充分研究、成熟的密集解码器专用 Transformer 模型配方,高效训练 5400 亿个参数模型,展示了Pathways 系统在两个 TPU v4 Pod 上扩展至数千个加速器芯片的能力。突破模型规模的极限,使 PaLM 在各种自然语言处理、推理和代码任务中实现了突破性的少量性能。

PaLM 将扩展功能与新颖的架构选择和训练方案相结合,为更强大的模型铺平了道路,并使我们更接近Pathways愿景:

“使单个人工智能系统能够概括数千或数百万个任务,理解不同类型的数据,并以卓越的效率完成这些任务。”

致谢

PaLM 是 Google Research 和 Alphabet 内部众多团队共同努力的成果。我们非常感谢整个 PaLM 团队的贡献:Jacob Devlin、Maarten Bosma、Gaurav Mishra、Adam Roberts、Paul Barham、Hyung Won Chung、Charles Sutton、Sebastian Gehrmann、Parker Schuh、Kensen Shi、Sasha Tsvyashchenko、Joshua Maynez、Abhishek Rao、Parker Barnes、Yi Tay、Noam Shazeer、Vinodkumar Prabhakaran、Emily Reif、Nan Du、Ben Hutchinson、Reiner Pope、James Bradbury、Jacob Austin、Michael Isard、Guy Gur-Ari、Pengcheng Yin、Toju Duke、Anselm Levskaya、Sanjay Ghemawat、Sunipa Dev、Henryk Michalewski、Xavier Garcia、Vedant Misra、Kevin Robinson、Liam Fedus、Denny Zhou、Daphne Ippolito、David Luan、Hyeontaek Lim、Barret Zoph、Alexander Spiridonov、Ryan Sepassi、David Dohan、Shivani Agrawal、Mark Omernick、Andrew Dai、Thanumalayan Sankaranarayana Pillai、Marie Pellat、Aitor Lewkowycz、Erica Moreira、Rewon Child、Oleksandr Polozov、Katherine Lee、Zongwei Zhou、Xuezhi Wang、Brennan Saeta、Mark Diaz、Orhan Firat、Michele Catasta 和 Jason Wei。PaLM 建立在 Google 众多团队的工作基础之上,我们特别要感谢 T5X 团队、Pathways 基础设施团队、JAX 团队、Flaxformer 团队、XLA 团队、Plaque 团队、Borg 团队和数据中心网络基础设施团队。我们要感谢本博文的合著者 Alexander Spiridonov 和 Maysam Moussalem,以及为本博文提供图片和动画的 Josh Newlan 和 Tom Small。最后,我们要感谢该项目的顾问:Noah Fiedel、Slav Petrov、Jeff Dean、Douglas Eck 和 Kathy Meier-Hellstern。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论