Google 翻译应用中的转录功能 可用于为会议和演讲等活动创建实时翻译的转录,或者只是为您在餐桌上讲的您听不懂的语言的故事创建转录。在这种情况下,及时显示翻译的文本非常有用,有助于让读者保持专注并专注于当下。
然而,该功能的早期版本会造成译文经过多次实时修订,这可能会分散注意力。这是因为源文本和译文之间存在非单调关系,源句子末尾的单词会影响译文开头的单词。
转录(旧)——左图:语音识别后的源转录文本。右图:显示给用户的翻译文本。频繁的翻译修改影响了阅读体验。
今天,我们很高兴地介绍 Google 翻译应用中最近发布的转录功能更新背后的一些技术,该更新显著减少了翻译修改并改善了用户体验。实现这一目标的研究成果发表在两篇论文中。第一篇论文制定了针对实时翻译的评估框架,并开发了减少不稳定性的方法。第二篇论文表明,与其他方法相比,这些方法表现非常出色,同时仍保留了原始方法的简单性。生成的模型更加稳定,并显著改善了 Google 翻译中的阅读体验。
转录(新)——左图:语音识别后的源转录。右图:显示给用户的翻译。虽然会有些许延迟,但翻译现在几乎不需要纠正。
评估实时翻译
在尝试进行任何改进之前,首先要了解并量化衡量用户体验的不同方面,目标是最大限度地提高质量,同时最大限度地减少延迟和不稳定性。在“长篇同声口语翻译的重新翻译策略”中,我们开发了一个实时翻译评估框架,该框架自此指导了我们的研究和工程工作。这项工作使用以下指标提出了一种性能衡量标准:
擦除:衡量由于不稳定而给用户带来的额外阅读负担。这是最终翻译中每个单词被擦除和替换的单词数。
滞后:测量用户说出一个单词到屏幕上显示的单词翻译稳定下来之间的平均时间。要求稳定性可以避免奖励那些只能通过频繁校正才能快速运行的系统。
BLEU 分数:衡量最终翻译的质量。通过结合所有指标来捕捉中间翻译的质量差异。
认识到这些不同质量方面之间的内在权衡非常重要。Transcribe通过将机器翻译堆叠在实时自动语音识别之上来实现实时翻译。对于识别的转录本的每次更新,都会实时生成新的翻译;每秒可以进行多次更新。这种方法将Transcribe置于三维质量框架的一个极端:它表现出最小的滞后和最好的质量,但也有很高的擦除率。了解这一点使我们能够努力寻找更好的平衡。
稳定再翻译
减少擦除的一个直接解决方案是降低翻译更新的频率。按照这种方式,“流式翻译”模型(例如STACL和MILk)可以智能地学习识别何时已收到足够的源信息以安全地扩展翻译,因此翻译永远不需要更改。通过这样做,流式翻译模型能够实现零擦除。
这种流式翻译模型的缺点是它们再次采取了极端立场:零擦除需要牺牲 BLEU 和延迟。与完全消除擦除相比,为偶尔的不稳定性预留少量预算可能会带来更好的 BLEU 和延迟。更重要的是,流式翻译需要重新训练和维护专门用于实时翻译的专用模型。这在某些情况下排除了使用流式翻译的可能性,因为对于像 Google Translate 这样支持 100 多种语言的产品来说,保持精简的流程是一项重要的考虑因素。
在我们的第二篇论文《同声传译的重译与流式传输》中,我们展示了我们原始的实时翻译“重译”方法可以进行微调,以减少擦除并实现更有利的擦除/延迟/BLEU 权衡。在没有训练任何专门模型的情况下,我们将一对推理时间启发式方法应用于原始机器翻译模型——掩蔽和偏差。
正在进行的翻译的结尾往往会闪烁,因为它更有可能依赖于尚未到达的源词。我们通过从翻译中截断一些单词来减少这种情况,直到观察到源句子的结尾。因此,这种掩蔽过程以延迟换取稳定性,而不会影响质量。这与Wait-k等流式方法中使用的基于延迟的策略非常相似,但仅在推理期间应用,而不在训练期间应用。
神经机器翻译经常在同样好的翻译之间“摇摆不定”,从而导致不必要的擦除。我们通过使输出偏向我们已经向用户展示的内容来提高稳定性。除了减少擦除之外,偏差还可以通过更早地稳定翻译来减少滞后。偏差与掩蔽很好地相互作用,因为掩蔽可能不稳定的单词也可以防止模型偏向它们。然而,这个过程确实需要仔细调整,因为高偏差加上不足的掩蔽可能会对质量产生负面影响。
屏蔽和偏置相结合,可产生高质量、低延迟的重新翻译系统,同时几乎消除擦除。下表显示了指标对我们引入的启发式方法的反应,以及它们与上面讨论的其他系统的比较。图表表明,即使擦除预算非常小,重新翻译也优于专门针对实时翻译进行训练的零闪烁流式翻译系统(MILk 和 Wait-k)。
系统 布鲁 滞后(秒) 擦除
重新翻译(旧) 20.4 4.1 2.1
+ 稳定性(新) 20.2 4.1 0.1
评估在有和没有推理时间稳定启发式掩蔽和偏差的情况下对IWSLT 测试 2018 英语-德语(TED 演讲)进行重新翻译的效果。稳定可大幅减少擦除。翻译质量(以 BLEU 衡量)受偏差影响很小。尽管有掩蔽,但有效滞后保持不变,因为翻译更早稳定下来。
在WMT 14 英语-德语上,将重新翻译与稳定模型和专门的流式模型(Wait-k 和 MILk)进行比较。重新翻译的 BLEU-lag 权衡曲线是通过偏差和掩码的不同组合获得的,同时保持每生成 10 个单词擦除少于 2 个单词的擦除预算。与无法进行更正且需要针对每个权衡点进行专门训练的流式模型相比,重新翻译提供了更好的 BLEU/lag 权衡。
结论
上述解决方案可以非常快速地返回不错的翻译,同时允许在说出更多源句子时对其进行修改。重新翻译的简单结构使我们能够以最小的努力应用我们最好的语音和翻译模型。然而,减少擦除只是故事的一部分——我们还期待通过新技术改善整体语音翻译体验,这种技术可以减少口语翻译时的延迟,或者在多人说话时实现更好的转录。
致谢
感谢 Te I、Dirk Padfield、George Foster、Wolfgang Macherey、Pallavi Baljekar、Sami Iqram、John Richardson、Kuang-Che Lee、Bryan Lin、Mengmeng Niu、Nathan Bain、Lindsey Boran、Shilip Vaishnav、Kannu Mehta、Chris Kau、Tom Small、Jeff Pitman 和 Macduff Hughes。
评论