多语言法学硕士 (LLM) 应用中的预翻译与直接推理_商业应用

@ZP6)BFS0[8_T0]IY0$[~77.png

对 PaLM2 在多语言任务上的预翻译和直接推理进行了全面评估，结果表明，与预翻译成英语相比，使用源语言直接推理的性能有所提高。PaLM2 模型不需要预翻译即可在多语言任务中表现出色，这在对直接推理和预翻译进行了全面评估后得到了证明。

大型语言模型 (LLM) 正在成为解决各种问题的无处不在的工具。然而，它们在处理多种语言方面的有效性受到训练数据固有限制的阻碍，训练数据通常偏向英语。为了解决这个问题，预翻译已成为一种标准做法，即将输入的内容翻译成英语，然后再输入到 LLM。

先前的研究已经证明了预翻译对于GPT-3 / 3.5 / 4、ChatGPT、PaLM和其他模型的最佳 LLM 性能的有效性。虽然预翻译有助于解决语言偏见问题，但它带来了复杂性和低效率，并可能导致信息丢失。随着在大量多语言数据集上训练的新型强大 LLM 的推出，是时候重新审视预翻译的必要性了。

在我们最近的论文《打破语言障碍：在多语言 LLM 应用中，直接推理能否胜过预翻译？》（将在NAACL'24上发表）中，我们重新评估了使用PaLM2进行预翻译的必要性，PaLM2 已被证实在多语言任务中表现出色。我们的研究结果挑战了先前研究中建立的预翻译范式，并突出了 PaLM2 中直接推理的优势。具体而言，我们证明 PaLM2-L 在 108 种语言中的 94 种语言中始终优于预翻译，在多语言环境中提供了更高效、更有效的应用程序，同时释放了语言真实性并缓解了预翻译的局限性。

重新思考多语言法学硕士 (LLM) 评估

先前对评估预翻译影响的研究主要集中在判别性（封闭式）任务上，例如多项选择题问答(QA)，对于这些任务，答案的语言大多无关紧要。对于评估生成性（开放式）任务，例如文本摘要或归因 QA，输出需要采用源语言，以便将其与基本事实(GT) 进行比较。这需要添加额外的推理后翻译步骤。对于源语言推理评估（下图中的a），推理直接与源语言中的 GT 进行比较，而对于预翻译评估（b），LLM 推理被翻译回源语言（c.1）。

BtLB-1-源

对源语言的直接推理与预翻译的比较评估。

这种评估方案的一个缺点是，使用标准词汇度量（例如ROUGE和F1）将模型输出与不同语言的 GT 进行比较会依赖语言并导致不一致。这种方法的另一个问题是，开放式任务中的 GT 答案主要依赖于所提供上下文中存在的信息。具体而言，在阅读理解问答基准中，GT 通常作为原始上下文的子字符串。这对预翻译来说是一个潜在的缺点，因为预翻译无法访问提取 GT 的原始上下文。

为了解决这两个问题，我们通过将 GT 和直接推理结果翻译成英语，用英语进行了补充评估。在这里，我们不是将预翻译的推理翻译回源语言，而是将直接推理输出和 GT 翻译成英语（如下图c.2和c.3所示）。然后用英语对 GT 进行评估。

BtLB-2-英语

英语直接推理与预翻译的比较评价。

此外，我们发现，像之前的方法一样，对不同语言的 LLM 准确度指标进行平均可能会产生误导，掩盖关键细节。为了获得更细致的理解，我们引入了语言比率指标作为常用词汇指标的替代聚合。它被定义为直接推理比预翻译产生更好结果的语言百分比。

可以针对单一推理模式（直接和预翻译）和语言，针对任何所选准确度得分（例如 F1 或 Rouge）计算语言比率。通过检查一种方法优于另一种方法的语言比例，而不是平均语言偏差得分，可以进行更公平的整体比较，并更详细地了解不同语言之间的相对优势和劣势。

直接推理占主导地位

我们的分析涵盖了各种任务和语言。我们采用了六个公开可用的基准来评估 PaLM2 在 108 种语言的判别性（XCOPA、XStoryCLoze和BeleBele基准）和生成性任务（XLSum、TyDiQA-GP和XQuAD）中的表现。评估了 PaLM2 的两个变体：PaLM2-S（小型 - Bison）和 PaLM2-L（大型 - Unicorn），同时使用Google Translation API进行翻译前和翻译后处理。

BtLB-4-结果

PaLM2-S（左）和 PaLM2-L（右）评估结果，比较预翻译（蓝色）和直接推理（红色）。生成（开放式）任务的模型性能在源语言和英语中均进行了评估。顶部：在各种基准上测量的准确度指标（准确度、Rouge-L、F1）。底部：语言比率指标。

该结果与先前文献中报道的其他模型的结果截然不同。

在所评估的 108 种语言中，PaLM2-L 在 94 种语言的直接推理中始终取得了更好的表现。在所有基准测试中，无论是封闭式任务还是开放式任务，PaLM2-L 都表现出了优势。在所有评估中，结果都是一致的——无论是在源语言还是英语中，使用标准指标（准确率/F1/Rouge）和语言比率。

PaLM2-S 在所有基准中也都支持直接推理，但 XQuAD 基准的结果不太确定。使用直接推理可以获得更好的平均 F1 分数（因为中文和泰语有显著的改进），但语言比率对于预翻译来说更好，这强调了该指标的补充价值。

直接推理即使在资源匮乏的语言（LRL）中也能产生优异的结果。这对于促进代表性不足的语言中的交流和信息获取尤为重要。

以语言为中心的分析

虽然 PaLM2-L 在大多数语言中使用直接推理时表现明显更好，但预翻译在 7 种语言中表现出一致的优越性（跨基准）：班巴拉语、库斯科-科劳克丘亚语、林加拉语、奥罗莫语、旁遮普语、提格里尼亚语和聪加语。这 7 种语言都是 LRL，其中 4 种是非洲语言，其中林加拉语是最大的语言，使用人数超过 4000 万。有趣的是，大多数（85%）的 LRL 都受益于使用 PaLM2 的直接推理。

BtLB-5-性能

PaLM2-L 的平均直接推理提升优于 LRL 上的翻译前推理。大多数语言（超过 85%）都受益于使用 PaLM2 的直接推理，其中 63% 的语言提升超过 5%（虚线）。

多语言交流的未来

我们在本研究中进行的全面比较分析表明，经过海量多语言数据集训练的新一代 LLM 可以更好地处理跨语言的信息和交流，从而无需对某些语言进行预先翻译。

我们致力于该领域的持续研究，重点提高所有语言的法学硕士成绩，并促进多语言交流更具包容性的未来。

致谢

本文描述的研究是 Verily AI 和 Google Research 的合作成果。我们要感谢我们论文的所有合著者：Yotam Intrator、Matan Halfon、Reut Tsarfaty、Matan Eyal、Ehud Rivlin 和 Yossi Matias。我们感谢 Avi Caciularu 审阅并对手稿提出意见。

多语言法学硕士 (LLM) 应用中的预翻译与直接推理

版权声明

相关推荐

评论