Minerva:利用语言模型解决定量推理问题

1726673433412.jpg

语言模型在各种自然语言任务上都表现出色——事实上,从BERT、GPT-3、Gopher和PaLM等许多作品中可以得到一个普遍的教训:以无监督的方式对大规模多样化数据进行训练的神经网络可以在各种任务上表现良好。

定量推理是语言模型仍远未达到 人类水平的 一个领域。解决数学和科学问题需要多种技能,包括用自然语言和数学符号正确解析问题、回忆相关公式和常量,以及生成涉及数值计算和符号操作的分步解决方案。由于这些挑战,人们通常认为,使用机器学习解决定量推理问题将需要在模型架构和训练技术方面取得重大进步,使模型能够访问 Python 解释器等外部工具,或者可能需要更深刻的范式转变。

在“使用语言模型解决定量推理问题”中,我们介绍了 Minerva,这是一种能够使用分步推理解决数学和科学问题的语言模型。我们表明,通过专注于收集与定量推理问题相关的训练数据、大规模训练模型以及采用一流的推理技术,我们在各种困难的定量推理任务中取得了显着的性能提升。Minerva 通过生成包含数值计算和符号运算的解决方案来解决此类问题,而无需依赖计算器等外部工具。该模型使用自然语言和数学符号的混合来解析和回答数学问题。Minerva 结合了几种技术,包括少量提示、思路链或便笺簿提示和多数投票,以在 STEM 推理任务上实现最先进的性能。您可以使用我们的交互式示例资源管理器探索 Minerva 的输出!

解决多步骤问题:MATH 数据集中的一个问题和 Minerva 的解决方案。该模型写下一个直线方程,简化它,代入一个变量,然后求解 y。

为多步骤定量推理构建的模型

为了促进定量推理,Minerva 以Pathways 语言模型(PaLM) 为基础,并使用来自arXiv预印本服务器的 118GB 科学论文数据集和包含使用LaTeX、MathJax或其他数学排版格式的数学表达式的网页进行进一步训练。标准文本清理程序通常会删除对数学表达式的语义含义至关重要的符号和格式。通过在训练数据中保留这些信息,该模型可以学习使用标准数学符号进行对话。

每年有近 200 万名印度高中生参加 2020 年联合入学考试主要数学考试的例题,这些学生打算学习工程学和类似领域(左),每年约有 27 万名高中生参加波兰国家数学考试(2022 年 5 月)(右)。

用于定量推理的数据集:仔细的数据处理可以保留数学信息,使模型能够在更高的层次上学习数学。

Minerva 还采用了最新的提示和评估技术来更好地解决数学问题。这些技术包括思路链或便笺簿提示(在向 Minerva 提出新问题之前,会先提示 Minerva 对现有问题的几个分步解决方案)和多数投票。与大多数语言模型一样,Minerva 会为不同的可能输出分配概率。在回答问题时,Minerva 不会采用 Minerva 认为最有可能的单一解决方案,而是通过从所有可能的输出中随机抽样来生成多个解决方案。这些解决方案各不相同(例如,步骤不相同),但往往会得出相同的最终答案。Minerva 对这些抽样解决方案使用多数投票,将最常见的结果作为最终结论。

多数投票:Minerva 为每个问题生成多个解决方案,并选择最常见的答案作为解决方案,从而显著提高性能。

STEM 基准评估

为了测试 Minerva 的定量推理能力,我们根据 STEM 基准对该模型进行了评估,其难度范围从小学水平的问题到研究生水平的课程。

数学:高中数学竞赛级问题

MMLU-STEM:大规模多任务语言理解基准的一个子集,专注于 STEM,涵盖高中和大学水平的工程、化学、数学和物理等主题。

GSM8k:涉及基本算术运算的小学水平数学问题,有天赋的中学生都应该能够解决。

我们还在 OCWCourses 上对 Minerva 进行了评估,OCWCourses 是我们从MIT OpenCourseWare 收集的大学和研究生水平的问题集合,涵盖了各种 STEM 主题,例如固态化学、天文学、微分方程和狭义相对论。

在所有情况下,Minerva 都能获得最先进的结果,有时甚至领先幅度很大。

MATH 和 MMLU-STEM 的评估结果,其中包括涵盖一系列 STEM 主题的高中和大学水平的问题。

模型   数学    MMLU-STEM    OCW课程    GSM8k  

密涅瓦 50.3% 75% 30.8% 78.5%

已发表的最新成果    6.9% 55% - 74.4%

Minerva 540B 显著提高了 STEM 评估数据集上的最新性能。

Minerva 的错误之处

Minerva 仍然会犯不少错误。为了更好地确定模型可以改进的地方,我们分析了模型出错的样本问题,发现大多数错误都很容易解释。大约一半是计算错误,另一半是推理错误,即解答步骤不遵循逻辑思路。

模型也有可能得出正确的最终答案,但推理有误。我们将这种情况称为“误报”,因为它们会错误地计入模型的整体性能得分。在我们的分析中,我们发现误报率相对较低(Minerva 62B 在 MATH 上产生的误报率不到 8%)。

以下是该模型所犯的几个示例错误。

计算错误:模型错误地取消了等式两边的平方根。

推理错误:模型计算了第四次练习的罚球次数,但随后将该数字作为第一次练习的最终答案。

限制

我们的定量推理方法并非以形式数学为基础。Minerva 使用自然语言和LaTeX数学表达式的混合来解析问题并生成答案,没有明确的基础数学结构。这种方法有一个重要的局限性,即模型的答案无法自动验证。即使最终答案是已知的并且可以验证,模型也可能使用不正确的推理步骤得出正确的最终答案,而这些步骤无法自动检测到。这种限制在定理证明的形式化方法中并不存在(例如,参见Coq、Isabelle、HOL、Lean、Metamath和Mizar)。另一方面,非正式方法的一个优点是它可以应用于可能不适合形式化的一系列高度多样化的问题。

未来方向

虽然机器学习模型已成为许多科学学科中令人印象深刻的工具,但它们通常仅限于解决特定任务。我们希望能够解决定量推理问题的通用模型将有助于推动科学和教育的前沿。能够进行定量推理的模型有许多潜在的应用,包括作为研究人员的有用辅助工具,以及为学生提供新的学习机会。我们将 Minerva 作为朝这个方向迈出的一小步。要查看 Minerva 的更多示例(例如下面的示例),请访问交互式示例浏览器!

使用微积分和三角学解决问题:MATH 数据集中的一道题要求计算圆周运动中粒子的速度。Minerva 找到了正确的分步解决方案。在此过程中,Minerva 计算时间导数并应用三角恒等式。

致谢

Minerva 是 Google Research 多个团队共同努力的成果。我们要感谢我们的合著者 Aitor Lewkowycz、Ambrose Slone、Anders Andreassen、Behnam Neyshabur、Cem Anil、David Dohan、Henryk Michalewski、Imanol Schlag、Theo Gutman-Solo、Vedant Misra、Vinay Ramasesh 和 Yuhuai Wu,以及我们的合作者 Eric Zelikman 和 Yasaman Razeghi。Minerva 建立在 Google 许多其他人的工作基础之上,我们要感谢 PaLM 团队、T5X 团队、Flaxformer 团队和 JAX 团队的努力。我们感谢 Tom Small 设计了这篇文章中的动画。我们还要特别感谢 Vedant Misra 开发了 Minerva 样本浏览器。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论