教授语言模型进行算法推理

70T5%}@]W@Z{YNG_NDW)[{3.png

大型语言模型 (LLM),例如GPT-3和PaLM,近年来取得了令人瞩目的进展,这得益于模型规模和训练数据规模的扩大。尽管如此,长期以来一直存在一个争论,即 LLM 是否可以进行符号推理(即根据逻辑规则操纵符号)。例如,当数字较小时,LLM 能够执行简单的算术运算,但对于大数字则难以执行。这表明 LLM 尚未学习执行这些算术运算所需的底层规则。

尽管神经网络具有强大的模式匹配能力,但它们容易对数据中的虚假统计模式进行过度拟合。当训练数据量大且多样化且评估在分布内时,这并不妨碍良好的性能。然而,对于需要基于规则推理的任务(如加法),LLM 难以实现分布外的泛化,因为训练数据中的虚假相关性通常比真正的基于规则的解决方案更容易被利用。因此,尽管在各种自然语言处理任务中取得了重大进展,但在加法等简单算术任务上的表现仍然是一个挑战。即使GPT-4在MATH数据集上有所改进,错误仍然主要是由于算术和计算错误造成的。因此,一个重要的问题是 LLM 是否能够进行算法推理,即通过应用一组定义算法的抽象规则来解决任务。

在“通过情境学习教授算法推理”中,我们描述了一种利用情境学习来实现 LLM 中的算法推理能力的方法。情境学习是指模型在看到模型情境中的一些示例后执行任务的能力。该任务是使用提示指定给模型的,无需更新权重。我们还提出了一种新颖的算法提示技术,使通用语言模型能够在比提示中看到的更难的算术问题上实现强大的泛化。最后,我们证明,通过选择适当的提示策略,模型可以可靠地对分布外的示例执行算法。

通过提供算法提示,我们可以通过情境学习教会模型算术规则。在这个例子中,LLM(单词预测器)在提示一个简单的加法问题(例如 267+197)时输出正确答案,但在询问具有较长数字的类似加法问题时失败。然而,当更难的问题附加上加法的算法提示时(单词 预测器下方显示带有白色 + 的蓝色框),模型能够正确回答。此外,该模型能够通过编写一系列加法计算来模拟乘法算法( X )。

教授算法作为一项技能

为了将算法作为一项技能教给模型,我们开发了算法提示,它建立在其他增强理论的方法(例如,草稿本和思维链)的基础上。算法提示从法学硕士中提取算法推理能力,与其他提示方法相比有两个显着的区别:(1)它通过输出算法解决方案所需的步骤来解决任务,(2)它充分详细地解释每个算法步骤,因此法学硕士不会产生误解。

为了获得算法提示的直觉,让我们考虑两个数字加法的任务。在便笺式提示中,我们从右到左处理每个数字,并在每个步骤中跟踪进位值(即,如果当前数字大于 9,我们将 1 添加到下一个数字)。但是,在仅查看几个进位值示例后,进位规则就变得模棱两可。我们发现,包括描述进位规则的明确方程有助于模型关注相关细节并更准确地解释提示。我们利用这一见解开发了一个两个数字加法的算法提示,其中我们为每个计算步骤提供明确的方程,并以非歧义格式描述各种索引操作。

说明各种加法提示策略。

我们仅使用三个加法提示示例(答案长度最多为五位数字)来评估最多 19 位数字的加法性能。准确度是通过在答案长度上均匀采样的总共 2,000 个示例来测量的。如下所示,使用算法提示可以保持比提示中显示的内容长得多的问题的高准确度,这表明该模型确实通过执行与输入无关的算法来解决任务。

测试不同提示方法下长度不断增加的加法问题的准确性。

利用算法技能作为工具

为了评估模型是否能够在更广泛的推理过程中利用算法推理,我们使用小学数学应用题 ( GSM8k ) 来评估性能。我们特别尝试用算法解决方案替换 GSM8k 中的加法计算。

受上下文长度限制以及不同算法之间可能存在的干扰的启发,我们探索了一种策略,让不同提示的模型相互作用以解决复杂任务。在 GSM8k 的背景下,我们有一个模型专门使用思路链提示进行非正式数学推理,还有一个模型专门使用算法提示进行加法。非正式数学推理模型被提示输出专门的标记,以便调用加法提示的模型执行算术步骤。我们提取标记之间的查询,将它们发送到加法模型并将答案返回给第一个模型,之后第一个模型继续输出。我们使用 GSM8k(GSM8k-Hard)中的一个难题来评估我们的方法,我们随机选择 50 个仅限加法的问题并增加问题中的数值。

来自 GSM8k-Hard 数据集的一个示例。思路链提示用括号括起来,以指示何时应执行算法调用。

我们发现,使用具有专门提示的单独上下文和模型是解决 GSM8k-Hard 的有效方法。下面,我们观察到具有算法调用的加法模型的性能是思路链基线的 2.3 倍。最后,该策略通过上下文学习促进专门针对不同技能的 LLM 之间的交互,展示了解决复杂任务的一个例子。

有或没有算法调用的 GSM8k-Hard 上的思路链 (CoT) 性能。

结论

我们提出了一种利用情境学习和新颖的算法提示技术来解锁法学硕士中的算法推理能力 的方法。我们的结果表明,通过提供更详细的解释,可以将较长的情境转化为更好的推理性能。因此,这些发现表明,使用或以其他方式模拟长情境并生成更具信息量的理由的能力是有前途的研究方向。

致谢

我们感谢我们的合著者 Behnam Neyshabur、Azade Nova、Hugo Larochelle 和 Aaron Courville 对本文的宝贵贡献以及博客上的精彩反馈。我们感谢 Tom Small 为本文制作动画。这项工作是在 Hattie Zhou 在 Google Research 实习期间完成的。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论