多语言法学硕士 (LLM) 应用中的预翻译与直接推理

@ZP6)BFS0[8_T0]IY0$[~77.png

对 PaLM2 在多语言任务上的预翻译和直接推理进行了全面评估,结果表明,与预翻译成英语相比,使用源语言直接推理的性能有所提高。PaLM2 模型不需要预翻译即可在多语言任务中表现出色,这在对直接推理和预翻译进行了全面评估后得到了证明。

大型语言模型 (LLM) 正在成为解决各种问题的无处不在的工具。然而,它们在处理多种语言方面的有效性受到训练数据固有限制的阻碍,训练数据通常偏向英语。为了解决这个问题,预翻译已成为一种标准做法,即将输入的内容翻译成英语,然后再输入到 LLM。

先前的研究已经证明了预翻译对于GPT-3 / 3.5 / 4、ChatGPT、PaLM和其他模型的最佳 LLM 性能的有效性。虽然预翻译有助于解决语言偏见问题,但它带来了复杂性和低效率,并可能导致信息丢失。随着在大量多语言数据集上训练的新型强大 LLM 的推出,是时候重新审视预翻译的必要性了。

在我们最近的论文《打破语言障碍:在多语言 LLM 应用中,直接推理能否胜过预翻译? 》(将在NAACL'24上发表)中,我们重新评估了使用PaLM2进行预翻译的必要性,PaLM2 已被证实在多语言任务中表现出色。我们的研究结果挑战了先前研究中建立的预翻译范式,并突出了 PaLM2 中直接推理的优势。具体而言,我们证明 PaLM2-L 在 108 种语言中的 94 种语言中始终优于预翻译,在多语言环境中提供了更高效、更有效的应用程序,同时释放了语言真实性并缓解了预翻译的局限性。

重新思考多语言法学硕士 (LLM) 评估

先前对评估预翻译影响的研究主要集中在判别性(封闭式)任务上,例如多项选择题问答(QA),对于这些任务,答案的语言大多无关紧要。对于评估生成性(开放式)任务,例如文本摘要或归因 QA,输出需要采用源语言,以便将其与基本事实(GT) 进行比较。这需要添加额外的推理后翻译步骤。对于源语言推理评估(下图中的a),推理直接与源语言中的 GT 进行比较,而对于预翻译评估(b),LLM 推理被翻译回源语言(c.1)。

BtLB-1-源

对源语言的直接推理与预翻译的比较评估。

这种评估方案的一个缺点是,使用标准词汇度量(例如ROUGE和F1)将模型输出与不同语言的 GT 进行比较会依赖语言并导致不一致。这种方法的另一个问题是,开放式任务中的 GT 答案主要依赖于所提供上下文中存在的信息。具体而言,在阅读理解问答基准中,GT 通常作为原始上下文的子字符串。这对预翻译来说是一个潜在的缺点,因为预翻译无法访问提取 GT 的原始上下文。

为了解决这两个问题,我们通过将 GT 和直接推理结果翻译成英语,用英语进行了补充评估。在这里,我们不是将预翻译的推理翻译回源语言,而是将直接推理输出和 GT 翻译成英语(如下图c.2和c.3所示)。然后用英语对 GT 进行评估。

BtLB-2-英语

英语直接推理与预翻译的比较评价。

此外,我们发现,像之前的方法一样,对不同语言的 LLM 准确度指标进行平均可能会产生误导,掩盖关键细节。为了获得更细致的理解,我们引入了语言比率指标作为常用词汇指标的替代聚合。它被定义为直接推理比预翻译产生更好结果的语言百分比。

可以针对单一推理模式(直接和预翻译)和语言,针对任何所选准确度得分(例如 F1 或 Rouge)计算语言比率。通过检查一种方法优于另一种方法的语言比例,而不是平均语言偏差得分,可以进行更公平的整体比较,并更详细地了解不同语言之间的相对优势和劣势。

直接推理占主导地位

我们的分析涵盖了各种任务和语言。我们采用了六个公开可用的基准来评估 PaLM2 在 108 种语言的判别性(XCOPA、XStoryCLoze和BeleBele基准)和生成性任务(XLSum、TyDiQA-GP和XQuAD)中的表现。评估了 PaLM2 的两个变体:PaLM2-S(小型 - Bison)和 PaLM2-L(大型 - Unicorn),同时使用Google Translation API进行翻译前和翻译后处理。

BtLB-4-结果

PaLM2-S(左)和 PaLM2-L(右)评估结果,比较预翻译(蓝色)和直接推理(红色)。生成(开放式)任务的模型性能在源语言和英语中均进行了评估。 顶部: 在各种基准上测量的准确度指标(准确度、Rouge-L、F1)。 底部:语言比率指标。

该结果与先前文献中报道的其他模型的结果截然不同。

在所评估的 108 种语言中,PaLM2-L 在 94 种语言的直接推理中始终取得了更好的表现。在所有基准测试中,无论是封闭式任务还是开放式任务,PaLM2-L 都表现出了优势。在所有评估中,结果都是一致的——无论是在源语言还是英语中,使用标准指标(准确率/F1/Rouge)和语言比率。

PaLM2-S 在所有基准中也都支持直接推理,但 XQuAD 基准的结果不太确定。使用直接推理可以获得更好的平均 F1 分数(因为中文和泰语有显著的改进),但语言比率对于预翻译来说更好,这强调了该指标的补充价值。

直接推理即使在资源匮乏的语言(LRL)中也能产生优异的结果。这对于促进代表性不足的语言中的交流和信息获取尤为重要。

以语言为中心的分析

虽然 PaLM2-L 在大多数语言中使用直接推理时表现明显更好,但预翻译在 7 种语言中表现出一致的优越性(跨基准):班巴拉语、库斯科-科劳克丘亚语、林加拉语、奥罗莫语、旁遮普语、提格里尼亚语和聪加语。这 7 种语言都是 LRL,其中 4 种是非洲语言,其中林加拉语是最大的语言,使用人数超过 4000 万。有趣的是,大多数(85%)的 LRL 都受益于使用 PaLM2 的直接推理。

BtLB-5-性能

PaLM2-L 的平均直接推理 提升优于 LRL 上的翻译前推理。大多数语言(超过 85%)都受益于使用 PaLM2 的直接推理,其中 63% 的语言提升超过 5%(虚线)。

多语言交流的未来

我们在本研究中进行的全面比较分析表明,经过海量多语言数据集训练的新一代 LLM 可以更好地处理跨语言的信息和交流,从而无需对某些语言进行预先翻译。

我们致力于该领域的持续研究,重点提高所有语言的法学硕士成绩,并促进多语言交流更具包容性的未来。

致谢

本文描述的研究是 Verily AI 和 Google Research 的合作成果。我们要感谢我们论文的所有合著者:Yotam Intrator、Matan Halfon、Reut Tsarfaty、Matan Eyal、Ehud Rivlin 和 Yossi Matias。我们感谢 Avi Caciularu 审阅并对手稿提出意见。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论