引入 ASPIRE 进行 LLM 选择性预测

DCE0C4T]`[JHCSZRP)F_TUU.png

在快速发展的人工智能领域,大型语言模型 (LLM) 彻底改变了我们与机器交互的方式,将自然语言理解和生成的界限推向了前所未有的高度。然而,进入高风险决策应用的鸿沟仍然太大,这主要是由于模型预测固有的不确定性。传统的 LLM 以递归方式生成响应,但它们缺乏为这些响应分配置信度分数的内在机制。虽然可以通过将序列中各个标记的概率相加来得出置信度分数,但传统方法通常无法可靠地区分正确和错误答案。但如果 LLM 可以衡量自己的信心并仅在确定时做出预测,情况会怎样?

选择性预测旨在通过使 LLM 输出答案以及选择分数来实现这一点,选择分数表示答案正确的概率。通过选择性预测,我们可以更好地了解部署在各种应用中的 LLM 的可靠性。先前的研究(例如语义不确定性和自我评估)试图在 LLM 中实现选择性预测。一种典型的方法是使用启发式提示(例如“提出的答案是对还是错?”)来触发 LLM 中的自我评估。但是,这种方法可能不适用于具有挑战性的问答(QA) 任务。

OPT-2.7B模型错误地将TriviaQA数据集中的一个问题“哪种维生素有助于调节血液凝固?”回答为“维生素 C”。如果没有选择性预测,LLM 可能会输出错误答案,在这种情况下,这可能会导致用户服用错误的维生素。有了选择性预测,LLM 将输出答案以及选择分数。如果选择分数较低(0.1),LLM 将进一步输出“我不知道!”,以警告用户不要相信它或使用其他来源验证它。

在EMNLP 2023 的成果中,我们介绍了 ASPIRE — 一种精心设计的新框架,旨在增强 LLM 的选择性预测能力。ASPIRE 通过参数高效的微调对 QA 任务上的 LLM 进行微调,并训练它们评估其生成的答案是否正确。ASPIRE 允许 LLM 输出答案以及该答案的置信度分数。我们的实验结果表明,ASPIRE 在各种 QA 数据集(例如CoQA 基准)上的表现明显优于最先进的选择性预测方法。

ASPIRE 的机制

想象一下,教授法学硕士不仅要回答问题,还要评估这些答案——就像学生在课本后面核实他们的答案一样。这就是 ASPIRE 的本质,它涉及三个阶段:(1) 针对特定任务的调整,(2) 答案抽样,以及 (3) 自我评估学习。

特定于任务的调整:ASPIRE 执行特定于任务的调整以训练适应性参数(θ p),同时冻结 LLM。给定一个生成任务的训练数据集,它会对预训练的 LLM 进行微调以提高其预测性能。为此,可以采用参数高效的调整技术(例如软提示调整和LoRA)来调整预训练的 LLM 以适应任务,因为它们能够有效地使用少量目标任务数据获得强泛化。具体而言,冻结 LLM 参数(θ)并添加适应性参数(θ p)进行微调。仅更新 θ p以最小化标准 LLM 训练损失(例如交叉熵)。这种微调可以提高选择性预测性能,因为它不仅可以提高预测准确性,还可以提高正确输出序列的可能性。

答案抽样:在针对特定任务进行调整后,ASPIRE 使用具有学习到的 θ p的 LLM为每个训练问题生成不同的答案,并创建用于自我评估学习的数据集。我们的目标是生成具有高可能性的输出序列。我们使用波束搜索作为解码算法来生成高可能性的输出序列,并使用Rouge-L度量来确定生成的输出序列是否正确。

自我评估学习:在对每个查询进行高似然输出采样后,ASPIRE 添加可适应参数(θ s)并仅微调 θ s以学习自我评估。由于输出序列生成仅取决于 θ 和 θ p,因此冻结 θ 和学习到的 θ p可以避免在学习自我评估时改变 LLM 的预测行为。我们优化 θ s,以便适应后的 LLM 可以自行区分正确和错误答案。

ASPIRE 框架的三个阶段。

在所提出的框架中,θ p和 θ s可以使用任何参数高效的调整方法进行训练。在这项工作中,我们使用软提示调整,这是一种简单而有效的学习“软提示”的机制,用于调节冻结的语言模型,使其比传统的离散文本提示更有效地执行特定的下游任务。这种方法背后的驱动力在于认识到,如果我们能够开发出有效刺激自我评估的提示,那么就应该能够通过软提示调整结合有针对性的训练目标来发现这些提示。

通过软提示调整实现 ASPIRE 框架。我们首先使用第一个软提示生成问题的答案,然后使用第二个软提示计算学习到的自我评估分数。

在训练完 θ p和 θ s之后,我们通过集束搜索解码获得查询的预测。然后,我们定义一个选择分数,该分数将生成的答案的可能性与学习到的自我评估分数(即,查询的预测正确的可能性)相结合,以进行选择性预测。

结果

为了证明 ASPIRE 的有效性,我们使用各种开放式预训练转换器(OPT) 模型 在三个问答数据集(CoQA、TriviaQA和SQuAD )上对其进行了评估。通过使用软提示调整训练 θ p,我们观察到 LLM 的准确率大幅提高。例如,使用 ASPIRE 调整的OPT-2.7B模型比使用 CoQA 和 SQuAD 数据集的较大的预训练 OPT-30B 模型表现出更好的性能。这些结果表明,通过适当的调整,较小的 LLM 在某些情况下可能有能力匹配或可能超越较大模型的准确率。

在深入研究具有固定模型预测的选择分数计算时,ASPIRE 在所有数据集上获得的AUROC分数(随机选择的正确输出序列具有比随机选择的错误输出序列更高的选择分数的概率)均高于基线方法。例如,在 CoQA 基准测试中,与基线相比,ASPIRE 将 AUROC 从 51.3% 提高到了 80.3%。

TriviaQA 数据集评估中出现了一个有趣的模式。虽然预训练的 OPT-30B 模型表现出更高的基线准确率,但当应用传统的自我评估方法(自我评估和 P(True))时,其在选择性预测方面的表现并没有显著提高。相比之下,较小的 OPT-2.7B 模型在使用 ASPIRE 增强后,在这方面表现更佳。这种差异强调了一个重要的见解:使用传统自我评估技术的较大 LLM 在选择性预测方面可能不如较小的 ASPIRE 增强模型有效。

我们对 ASPIRE 的实验历程凸显了 LLM 领域的一个重要转变:语言模型的容量并不是其性能的全部。相反,模型的有效性可以通过战略调整得到显著提高,即使在较小的模型中也能做出更精确、更自信的预测。因此,ASPIRE 证明了 LLM 的潜力,它可以明智地确定自己的确定性,并在选择性预测任务中果断胜过更大的同类模型。

结论

总之,ASPIRE 不仅仅是一个框架,它代表着未来的愿景:法学硕士 (LLM) 可以成为决策过程中值得信赖的合作伙伴。通过提高选择性预测性能,我们距离在关键应用中充分发挥 AI 的潜力又近了一步。

我们的研究打开了新的大门,我们邀请社区在此基础上继续发展。我们很高兴看到 ASPIRE 将如何激励下一代法学硕士及以后的学生。要了解有关我们的研究结果的更多信息,我们鼓励您阅读我们的论文,并与我们一起踏上创造更可靠、更有自我意识的人工智能的激动人心的旅程。

致谢

我们衷心感谢 Sayna Ebrahimi、Sercan O Arik、Tomas Pfister 和 Somesh Jha 的贡献。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论