UL2 20B:开源统一语言学习器

1726127373887.jpg

构建能够很好地理解和生成自然语言的模型是机器学习 (ML) 研究的宏伟目标之一,并且对构建用于日常应用的智能系统有直接影响。提高语言模型的质量是研究人员朝着这一目标前进的关键目标。

构建和训练语言模型的最常见范例是使用自回归仅解码器架构(例如PaLM或GPT-3),其中模型被训练为预测给定前缀短语的下一个单词,或者使用基于跨度损坏的编码器-解码器架构(例如T5、ST-MoE),其中训练目标是恢复从输入中屏蔽掉的单词子集。一方面,类似 T5 的模型在监督微调任务上表现良好,但在小样本上下文学习中表现不佳。另一方面,自回归语言模型非常适合开放式生成(例如使用LaMDA进行对话生成)和基于提示的学习(例如使用 PaLM 进行上下文学习),但在微调任务上的表现可能不是最优的。因此,仍然有机会为预训练模型创建一个有效的统一框架。

在“统一语言学习范式”中,我们提出了一种称为统一语言学习器(UL2)的新型语言预训练范式,它可以在各种数据集和设置中普遍提高语言模型的性能。UL2 将用于训练语言模型的不同目标函数构建为去噪任务,其中模型必须恢复给定输入的缺失子序列。在预训练期间,它使用一种新颖的混合去噪器,从一组不同的目标中采样,每个目标都有不同的配置。我们证明使用 UL2 框架训练的模型在各种语言领域都表现良好,包括基于提示的少量学习和针对下游任务微调的模型。此外,我们还表明 UL2 在生成、语言理解、检索、长文本理解和问答任务方面表现出色。最后,我们很高兴公开发布我们表现最佳的 UL2 200 亿参数模型的 检查点。

背景:语言建模目标和架构

训练语言模型的常见目标函数大多可以定义为学习将输入映射到目标的数据转换。该模型以不同形式的输入为条件来预测目标标记。为此,不同的目标利用输入的不同属性。

标准因果语言建模目标 (CausalLM) 经过训练可预测完整序列长度,因此仅识别目标输出中的标记。前缀语言建模目标 (PrefixLM) 通过从给定的标记化文本中随机抽取k 个标记的连续跨度来修改此过程,以形成模型的输入,称为“前缀”。跨度损坏目标会从输入中屏蔽连续跨度,并训练模型以预测这些被屏蔽的跨度。

在下表中,我们列出了最先进的语言模型的常见训练目标以及输入的不同特征,即如何将其呈现给模型。此外,我们根据模型利用来自单个输入的监督信号的能力来描述每个目标的示例效率,例如,输入标记中有多少对损失的计算有贡献。

目标

函数 输入

(双向) 目标

(因果) 输入

属性 示例

效率

因果语言模型 没有任何 文本 不适用 完整序列长度

前缀LM 文本

(直到位置k) 文本

(位置k之后) 连续的 序列长度-k

跨度损坏 蒙版文字 masked_tokens 不连续,可能是双向的 通常低于其他人

当今语言模型中使用的常见目标。全文中的“文本”表示标记化文本。

UL2 通过一个可以泛化每个目标函数的框架来充分利用每个目标函数的优势,从而能够推理和统一常见的预训练目标。基于这个框架,训练语言模型的主要任务是学习将输入标记序列转换为目标标记序列。然后,上面介绍的所有目标函数都可以简单地归结为生成输入和目标标记的不同方式。例如,PrefixLM 目标可以看作是一种将一段k 个连续标记从输入移动到目标的转换。同时,跨度损坏目标是一种数据转换,它破坏跨度(输入中的标记子序列),用移动到目标的掩码标记替换它们。

值得注意的是,我们可以将模型架构与训练模型的目标函数分离开来。因此,我们可以用任意目标来训练不同的架构,例如常见的单栈解码器模型和双栈编码器-解码器模型。

降噪器混合物

UL2 框架可用于在混合预训练目标上训练模型,并为其提供来自不同预训练任务的功能和归纳偏差优势。在混合目标上进行训练有助于模型利用不同任务的优势并减轻其他任务的弱点。例如,与仅跨度损坏的 T5 模型相比,混合降噪器目标可以大大提高模型基于提示的学习能力。

UL2 使用三种去噪任务的混合进行训练:(1) R 去噪(或常规跨度损坏),模拟标准 T5 跨度损坏目标;(2) X 去噪(或极端跨度损坏);(3) S 去噪(或顺序 PrefixLM)。在预训练期间,我们根据用户指定的比率(即 R、X 和 S 去噪器的不同组合)从可用的去噪任务中采样,并适当准备输入和目标。然后,将范式标记附加到输入(

[R]

[X]

或 之一

[S]

)指示手头的去噪任务。

UL2 混合降噪器中使用的降噪目标概述。

改善学习范式之间的权衡

许多现有的常用语言学习范式通常擅长某一类型的任务或应用,例如微调性能或基于提示的上下文学习。在下图中,我们展示了与 UL2 相比在不同任务上的基线目标函数:CausalLM(称为GPT-like)、PrefixLM、Span Corrupt(在图中也称为 T5 )以及UniLM提出的基线目标函数。我们使用这些目标来训练仅解码器架构(绿色)和编码器-解码器架构(蓝色),并在两个主要任务集上评估目标函数和架构的不同组合:

通过测量SuperGLUE上的性能进行微调(下图的 y 轴)

通过测量模型在一系列 1-shot GEM 任务(例如XSUM、SGD 或 Schema 引导对话和TOTTO)上的性能(下图的 x 轴),实现情境学习。

对于大多数现有的语言学习范式,这两组任务的模型质量之间存在权衡。我们表明,UL2 在上下文学习和微调之间弥合了这种权衡。

在仅使用解码器和使用编码器-解码器的设置中,与以前的方法相比,UL2 在微调判别任务和基于提示的 1 次开放式文本生成之间实现了性能的显著平衡。(所有模型在计算成本方面都相当,即 FLOP(EncDec 模型为 300M,Dec 模型为 150M 个参数)。

UL2 用于小样本提示和思维链推理

我们扩大了 UL2,并在公共C4 语料库上训练了一个 200 亿参数的编码器-解码器模型,并展示了 UL2 20B 模型的一些令人印象深刻的功能。

UL2 是一款功能强大的上下文学习器,在小样本和思路链(CoT) 提示方面均表现出色。在下表中,我们将 UL2 与其他最先进的模型(例如T5 XXL和PaLM)在 XSUM 摘要数据集上的小样本提示方面进行了比较。我们的结果表明,UL2 20B 的表现优于 PaLM 和 T5,而这两者在计算成本方面都差不多。

模型 ROUGE-1 ROUGE-2 红-L

拉马达 137B – 5.4 –

帕尔姆62B – 11.2 –

帕姆 540B – 12.2 –

帕姆8B – 4.5 –

T5 XXL 11B 0.6 0.1 0.6

T5 XXL 11B + LM 13.3 2.3 10.7

UL2 20B 25.5 8.6 19.8

就ROUGE-1/2/L而言,将 UL2 与T5 XXL、PaLM和LamDA 137B在一次摘要(XSUM )上的比较(分数越高越好),通过将生成的摘要与黄金摘要进行比较来捕捉质量。

大多数 CoT 提示结果都是使用更大的语言模型获得的,例如 GPT-3 175B、PaLM 540B 或 LaMDA 137B。我们表明,使用 UL2 20B 可以实现通过 CoT 提示进行推理,该模型既是公开可用的,又比利用思路链提示的先前模型小几倍。这为研究人员开辟了一条以可访问的规模对 CoT 提示和推理进行研究的开放途径。在下表中,我们表明,对于 UL2,在具有一系列难度的数学应用题(GSM8K、SVAMP、ASDiv、AQuA和MAWPS)上,CoT 提示的表现优于标准提示。我们还表明,自洽性进一步提高了性能。

五个算术推理基准的思路链 (CoT) 提示和自我一致性(SC) 结果。

结论和未来方向

UL2 在大量微调和小样本任务中表现出色。我们公开发布了性能最佳的 UL2 模型的检查点,该模型具有 200 亿个参数,我们希望这能激发整个机器学习社区在开发更好的语言模型方面取得更快进展。

致谢

我很荣幸能够与 Vinh Q. Tran、Xavier Garcia、Jason Wei、Xuezhi Wang、Hyung Won Chung、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Denny Zhou、Neil Houlsby 和 Donald Metzler 合作完成这项研究。我们还要感谢 Alexey Gritsenko、Andrew M. Dai、Jacob Devlin、Jai Gupta、William Fedus、Orhan Firat、Sebastian Gerhmann、Nan Du、Dave Uthus、Siamak Shakeri、Slav Petrov 和 Quoc Le 的支持和讨论。我们感谢 Jax 和 T5X 团队构建了如此出色的基础设施,使这项研究成为可能。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论