稳健的神经机器翻译

近年来,使用Transformer 模型的神经机器翻译(NMT)取得了巨大成功。基于深度神经网络的NMT 模型通常以完全数据驱动的方式在非常大的平行语料库(输入/输出文本对)上进行端到端训练,而无需强加明确的语言规则。 尽管取得了巨大的成功,但 NMT 模型对输入的细微扰动仍然很敏感,这些扰动可能表现为各种不同的错误,例如翻译不足、翻译过度或误译。例如,给定一个德语句子,最先进的 NMT 模型Transformer将给出正确的翻译。

“Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, Falls sich die geladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen。”

(机器翻译为英文:“调查委员会发言人已宣布,如果被传唤的证人继续拒绝作证,他将被带上法庭。”),

但是,当我们对输入句子进行细微的改变时,比如从geladenen 变为同义词 vorgeladenen,翻译就会变得非常不同(在本例中是错误的):

“Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, Falls sich die vorgeladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen”。

(机器翻译为英文:“调查委员会已宣布,如果被邀请的证人继续拒绝作证,他将被绳之以法。”)。

NMT 模型缺乏稳健性,这使得许多商业系统无法应用于无法容忍这种程度的不稳定性的任务。因此,学习稳健的翻译模型不仅是可取的,而且在许多情况下往往是必需的。然而,虽然计算机视觉界已经广泛研究了神经网络的稳健性,但在文献中只能找到少数关于学习稳健 NMT 模型的先前研究。

在“具有双重对抗输入的稳健神经机器翻译”(即将在ACL 2019上发表)中,我们提出了一种方法,该方法使用生成的对抗性示例来提高机器翻译模型对输入中的小扰动的稳定性。我们学习了一个稳健的 NMT 模型,以直接克服利用模型知识生成的对抗性示例,这些示例的目的是扭曲模型预测。我们表明,这种方法提高了 NMT 模型在标准基准上的性能。

使用 AdvGen 训练模型

理想的 NMT 模型会为表现出细微差异的单独输入生成相似的翻译。我们的方法背后的想法是使用对抗性输入来扰乱翻译模型,以期提高模型的鲁棒性。它使用一种称为对抗生成 (AdvGen ) 的算法来实现这一点,该算法生成合理的对抗性示例来扰乱模型,然后将它们反馈到模型中进行防御性训练。虽然这种方法受到生成对抗网络(GAN) 思想的启发,但它并不依赖于鉴别器网络,而只是在训练中应用对抗性示例,从而有效地多样化和扩展了训练集。

第一步是使用 AdvGen 扰乱模型。我们首先使用 Transformer 根据源输入句、目标输入句和目标输出句计算翻译损失。然后 AdvGen 随机选择源句中的一些单词,假设分布均匀。每个单词都有一个关联的相似单词列表,即可用于替换的候选单词,AdvGen 从中选择最有可能在 Transformer 输出中引入错误的单词。然后,将生成的对抗句反馈到 Transformer 中,启动防御阶段。

1732023693354.jpg

首先,将 Transformer 模型应用于输入句子(左下),并结合目标输出句子(右上)和目标输入句子(中间右侧; 以占位符“<sos>”开头),计算翻译损失。然后,AdvGen 函数将源句子、单词选择分布、单词候选和翻译损失作为输入,以构建对抗性源示例。

在防御阶段,对抗性句子被反馈到 Transformer 模型中。再次计算翻译损失,但这次使用对抗性源输入。使用与上述相同的方法,AdvGen 使用目标输入句子、单词替换候选、注意力矩阵计算出的单词选择分布和翻译损失来构建对抗性目标示例。

1732023638868.jpg

在防御阶段,对抗源示例作为 Transformer 模型的输入,并计算翻译损失。AdvGen 然后使用与上述相同的方法从目标输入生成对抗目标示例。

最后,将对抗性句子反馈到 Transformer 中,并利用对抗性源示例、对抗性目标输入示例和目标句子计算鲁棒性损失。如果扰动导致的损失较大,则将损失最小化,以便模型在面临类似扰动时不会重犯同样的错误。另一方面,如果扰动导致的损失较低,则什么也不会发生,表明模型已经可以处理这种扰动。

模型性能

我们通过将我们的方法应用于标准的中英和英德翻译基准来证明其有效性。与竞争性 Transformer 模型相比,我们观察到分别显着提高了 2.8 和 1.6 BLEU点,实现了新的最佳性能。

1732023626392.jpg

标准基准上的 Transformer 模型(Vaswani 等,2017)的比较。

然后,我们在一个嘈杂的数据集上评估我们的模型,该数据集使用与 AdvGen 中描述的程序类似的过程生成。我们采用干净的输入数据集(例如标准翻译基准中使用的数据集),并随机选择单词进行类似的单词替换。我们发现,与其他近期模型相比,我们的模型表现出更好的稳健性。

1732023612797.jpg

Transformer、Miyao 等人和Cheng 等人对人工噪声输入的比较。

这些结果表明,我们的方法能够克服输入句子中的小扰动并提高泛化性能。它的表现优于竞争性翻译模型,并在标准基准上实现了最先进的翻译性能。我们希望我们的翻译模型将成为改进许多下游任务的强大基石,尤其是当这些任务对不完美的翻译输入敏感或无法容忍时。

致谢

这项研究由 Yong Cheng、Lu Jiang 和 Wolfgang Macherey 进行。另外感谢我们的领导 Andrew Moore 和 Julia (Wenli) Zhu‎。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论