表链:在推理链中不断发展的表格,用于表格理解

V8)H@@$V@H@(`UB2]KUI~$1.png

我们提出了一个框架来解决表格理解任务,在这个框架中,我们训练 LLM 逐步概述其推理过程,迭代更新给定的表格以反映思维过程的每个部分。这使 LLM 能够将表格转换为更简单、更易于管理的部分,以便它能够深入理解和分析表格的每个部分。

人们每天都会使用表格来以结构化、易于访问的格式组织和解释复杂信息。由于这种表格无处不在,对表格数据的推理长期以来一直是自然语言处理(NLP) 的核心主题。该领域的研究人员一直致力于利用语言模型帮助用户回答问题、验证语句并分析基于表格的数据。然而,语言模型是通过大量纯文本进行训练的,因此表格数据固有的结构化性质可能难以让语言模型完全理解和利用。

最近,大型语言模型(LLM)通过生成可靠的推理链,在各种自然语言理解(NLU) 任务中取得了出色的表现,如Chain-of-Thought和Least-to-Most等作品所示。然而,LLM 对表格数据进行推理的最合适方式仍是一个悬而未决的问题。

在“表链:表格理解推理链中的表格演变”中,我们提出了一个框架来解决表理解任务,我们训练 LLM 逐步概述其推理,迭代更新给定的表格以反映思维过程的每个部分,类似于人们解决基于表格的问题的方式。这使 LLM 能够将表格转换为更简单、更易于管理的部分,以便它可以深入理解和分析表格的每个部分。这种方法取得了显着的改进,并在WikiTQ、TabFact和FeTaQA基准上取得了新的最先进结果。下图显示了所提出的表链和其他方法的高级概述。

表格理解方法

假设有一个复杂的表格,其中自行车手的国籍和姓名位于同一个单元格中,(a) 通用的多步骤推理无法提供正确答案 (b) 程序辅助推理会生成并执行程序(例如 SQL 查询)来提供答案,但无法准确解决问题。相比之下,(c) 表链会迭代采样一系列操作,从而有效地将复杂的表格转换为专门针对问题的版本。

表链

在 Chain-of-Table 中,我们使用上下文学习指导 LLM迭代生成操作并更新表格以表示其在表格数据上的推理链。这使 LLM 能够根据先前操作的结果动态规划下一个操作。表格的这种持续演变形成了一个链,它为给定问题提供了更结构化和更清晰的推理过程表示,并使 LLM 能够做出更准确和可靠的预测。

例如,当被问到“哪位演员获得的 NAACP 形象奖最多?”时,Chain-of-Table 框架会提示 LLM 生成与表格推理过程相似的表格操作。它首先识别相关列。然后,根据共享内容聚合行。最后,它对聚合结果进行重新排序,以生成最终表格,明确回答所提出的问题。

这些操作将表格转换为与所提出的问题一致。为了在大型表格上平衡性能和计算成本,我们根据表格行的子集构建操作链。同时,通过展示表格操作的中间结果,逐步操作揭示了底层推理过程,从而增强了可解释性和理解性。

表链式表格推理

Chain-of-Table 主要包括三个阶段,第一阶段,通过情境学习,指导 LLM 动态规划下一步操作。具体来说,该提示包括三个组件,如下图所示:

问题Q:“哪个国家有最多的自行车选手进入前三名?”

操作历史链:f_add_col(Country)和f_select_row(1, 2, 3)。

最新的中间表T:转换后的中间表。

通过在提示中提供三元组(T,Q,chain),LLM可以观察之前的表格推理过程,并从操作池中选择下一个操作,从而一步步完成推理链。

表链操作

说明 Chain-of-Table 如何从操作池中选择下一个操作并为该操作生成参数。(a)Chain-of-Table 从操作池中抽取下一个操作。(b)它将选定的操作作为输入并生成其参数。

确定下一个操作f之后,在第二阶段,我们需要生成参数。如上所述,Chain-of-Table 考虑了提示中的三个组成部分(如图所示):(1)问题,(2)所选操作及其所需的参数,以及(3)最新的中间表。

例如,当选择操作f_group_by时,它需要一个标题名称作为其参数。

LLM 在表中选择一个合适的表头。Chain-of-Table 带着所选的操作和生成的参数执行操作,并构建一个新的中间表,用于后续推理。

Chain-of-Table 迭代前两个阶段以规划下一个操作并生成所需的参数。在此过程中,我们创建一个操作链作为表格推理步骤的代理。这些操作生成中间表,向 LLM 呈现每个步骤的结果。因此,输出表包含有关表格推理中间阶段的全面信息。在我们的最后阶段,我们使用此输出表来制定最终查询,并提示 LLM 以及问题以获得最终答案。

实验设置

我们使用PaLM 2-S和GPT 3.5作为主干 LLM,并在三个公共表格理解基准上进行实验:WikiTQ、TabFact和FeTaQA。WikiTQ和 FeTaQA 是基于表格的问答数据集。TabFact 是一个基于表格的事实验证基准。在这篇博文中,我们将重点关注 WikiTQ 和 TabFact 上的结果。我们将 Chain-of-Table 与通用推理方法(例如,End-to-End QA、Few-Shot QA 和Chain-of-Thought)和程序辅助方法(例如,Text-to-SQL、Binder和Dater)进行了比较。

更准确的答案

与通用推理方法和程序辅助推理方法相比,Chain-of-Table 在PaLM 2和GPT 3.5上取得了更好的性能。这归功于动态采样的操作和信息丰富的中间表。

结果 - 1

与各种模型相比,了解使用 PaLM 2 和 GPT 3.5 对 WikiTQ 和 TabFact 的结果。

对较难的问题有更好的稳健性

在 Chain-of-Table 中,操作链越长,问题和对应表格的难度和复杂度就越高。我们根据 Chain-of-Table 中的操作长度对测试样本进行分类。我们将 Chain-of-Table 与 Chain-of-Thought 和 Dater 进行比较,作为具有代表性的通用和程序辅助推理方法。我们使用WikiTQ上PaLM 2的结果来说明这一点。

结果 - 2

对于需要不同长度操作链的问题,WikiTQ 上的 Chain-of-Thought、Dater 和建议的 Chain-of-Table 的性能。我们建议的原子操作比通用和程序辅助推理方法的性能有了显著提高。

值得注意的是,Chain-of-Table 在所有操作链长度上始终优于两种基线方法,与Chain-of-Thought相比,其优势高达 11.6%,与Dater相比,其优势高达 7.9% 。此外,与其他基线方法相比,Chain-of-Table 的性能随着操作数量的增加而平稳下降,当操作数量从四个增加到五个时,性能仅出现微小的下降。

表越大,稳定性越好

我们根据 token 数量将WikiTQ中的表分为三组:小型(<2000 个 token)、中型(2000 到 4000 个 token)和大型(>4000 个 token)。然后,我们将 Chain-of-Table 与Dater和Binder(两个最新且最强大的基线)进行比较。

结果 - 3

Binder、Dater 和所提出的 Chain-of-Table 在 WikiTQ 的小型(<2000 个标记)、中型(2000 到 4000 个标记)和大型(>4000 个标记)表上的性能。我们观察到,输入表越大,性能越低,而 Chain-of-Table 的性能下降幅度却很小,与竞争方法相比取得了显著的改进。(如上所述,带下划线的文本表示第二好的性能;粗体表示最佳性能。)

正如预期的那样,由于模型需要通过更长的上下文进行推理,因此输入表越大,性能就越低。尽管如此,所提出的 Chain-of-Table 的性能却下降得非常平缓,在处理大型表格时,其性能比排名第二的竞争方法提高了 10% 以上。这证明了推理链在处理长表格输入方面的有效性。

结论

我们提出的表格链方法利用表格结构来表达基于表格的推理的中间步骤,从而增强了 LLM 的推理能力。它指示 LLM 根据输入表及其相关问题动态规划操作链。这种不断发展的表格设计为促进 LLM 进行表格理解提供了新的见解。

致谢

本研究由 Zilong Wang、Hao Zhang、Chun-Liang Li、Julian Martin Eisenschlos、Vincent Perot、Zifeng Wang、Lesly Miculicich、Yasuhisa Fujii、Jingbo Shang、Chen-Yu Lee 和 Tomas Pfister 进行。感谢 Chih-Kuan Yeh 和 Sergey Ioffe 提供的宝贵反馈。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论