高质量、强大且负责任的直接语音到语音翻译

语音到语音翻译 (S2ST) 是打破世界各地人们之间语言障碍的关键。自动 S2ST 系统通常由语音识别、机器翻译和语音合成子系统的级联组成。然而,这种级联系统可能会遭受较长的延迟、信息丢失(尤其是副语言和非语言信息)以及子系统之间复合错误的影响。

2019 年,我们推出了Translatotron,这是有史以来第一个能够直接在两种语言之间翻译语音的模型。这种直接 S2ST 模型能够进行高效的端到端训练,并且还具有在翻译语音中保留源说话者声音(非语言信息)的独特能力。然而,尽管它能够以高保真度生成听起来自然的翻译语音,但与强大的基线级联 S2ST 系统(例如,由直接语音到文本翻译模型 [ 1 , 2 ] 和Tacotron 2 TTS 模型组成)相比,它的表现仍然不佳。

在“ Translatotron 2:强大的直接语音到语音翻译”中,我们描述了 Translatotron 的改进版本,它显著提高了性能,同时还应用了一种新方法将源说话者的声音转换为翻译后的语音。即使输入语音包含多个说话者轮流说话,改进后的语音转换方法也能成功,同时还降低了误用的可能性,更好地符合我们的AI 原则。在三个不同语料库上进行的实验一致表明,Translatotron 2 在翻译质量、语音自然度和语音稳健性方面都远远优于原始 Translatotron。

翻译器 2

Translatotron 2 由四个主要组件组成:语音编码器、目标音素解码器、目标语音合成器以及将它们连接在一起的注意模块。编码器、注意模块和解码器的组合类似于典型的直接语音到文本翻译 (ST) 模型。合成器以解码器和注意的输出为条件。

1728374205601.jpg

Translatotron 2(用于将西班牙语语音翻译成英语语音)的模型架构。

Translatotron 和 Translatotron 2 之间有三个新颖的变化,这是提高性能的关键因素:

虽然目标音素解码器的输出在原始 Translatotron 中仅用作辅助损失,但它是 Translatotron 2 中频谱图合成器的输入之一。这种强大的条件作用使 Translatotron 2 更容易训练并获得更好的性能。

原始 Translatotron 中的声谱图合成器是基于注意力机制的,类似于 Tacotron 2 TTS 模型,因此,它也存在 Tacotron 2 所表现出的稳健性问题。相比之下,Translatotron 2 中使用的声谱图合成器是基于持续时间的,类似于非注意力型 Tacotron所使用的声谱图合成器,这大大提高了合成语音的稳健性。

Translatotron 和 Translatotron 2 都使用基于注意力机制的连接来与编码后的源语音建立联系。不过,在 Translatotron 2 中,这种注意力机制由音素解码器而非声谱图合成器驱动。这可确保声谱图合成器看到的声学信息与其合成的翻译内容保持一致,从而有助于在说话者轮换时保留每个说话者的声音。

更强大、更负责任的声音保留

原始的 Translatotron 能够通过将其解码器调整为由单独训练的说话人编码器生成的说话人嵌入,在翻译的语音中保留源说话人的声音。但是,如果目标说话人的录音片段被用作说话人编码器的参考音频,或者目标说话人的嵌入可直接使用,则这种方法也使其能够以不同的说话人的声音生成翻译的语音。虽然此功能非常强大,但它有可能被滥用来伪造具有任意内容的音频,这对生产部署构成了担忧。

为了解决这个问题,我们在设计 Translatotron 2 时只使用一个语音编码器,该编码器负责语言理解和语音捕捉。这样,训练后的模型就无法被引导去重现非源语音。这种方法也可以应用于原始的 Translatotron。

为了在翻译过程中保留说话者的声音,研究人员通常倾向于在两侧使用相同说话者声音的平行话语上训练 S2ST 模型。这种两侧都有人工录音的数据集极难收集,因为它需要大量流利的双语说话者。为了避免这种困难,我们使用了PnG NAT的修改版本,这是一种能够进行跨语言语音传输的 TTS 模型,可以合成此类训练目标。我们修改后的 PnG NAT 模型以与我们之前的 TTS 工作相同的方式(与原始 Translatotron 使用的策略相同)合并了单独训练的说话者编码器,因此它能够进行零样本语音传输。

表现

Translatotron 2 在我们测量的各个方面都比原版 Translatotron 好很多:更高的翻译质量(以BLEU衡量,越高越好)、语音自然度(以MOS衡量,越高越好)和语音鲁棒性(以UDR衡量,越低越好)。它在更难的Fisher 语料库上表现尤为出色。Translatotron 2 在翻译质量和语音质量上的表现接近强基线级联系统,并且在语音鲁棒性上优于级联基线。

在两个西班牙语-英语语料库上评估的翻译质量(以 BLEU 衡量,值越高越好)。

1728374160318.jpg

在两个西班牙语-英语语料库上评估了语音自然度(以 MOS 衡量,分数越高越好)。

1728374144391.jpg

在两个西班牙语-英语语料库上评估了语音鲁棒性(以 UDR 衡量,值越低越好)。

1728374113326.jpg

多语言语音翻译

除了西班牙语到英语的 S2ST,我们还在多语言设置中评估了 Translatotron 2 的性能,在该设置中,模型接收来自四种不同语言的语音输入并将其翻译成英语。输入语音的语言没有提供,这迫使模型自行检测语言。

源语言 法国 德 西文 钙

翻译器 2 27.0 18.8 27.7 22.5

翻译器 18.9 10.8 18.8 13.9

ST(Wang等人,2020 年) 27.0 18.9 28.0 23.9

训练目标 82.1 86.0 85.1 89.3

多语言 X=>En S2ST 在CoVoST 2语料库上的表现。

在这项任务中,Translatotron 2 再次以较大优势超越了原始的 Translatotron。尽管 S2ST 和 ST 之间的结果无法直接比较,但接近的数字表明 Translatotron 2 的翻译质量与基线语音到文本翻译模型相当,这些结果表明 Translatotron 2 在多语言 S2ST 上也非常有效。

致谢

本论文的直接贡献者包括 Ye Jia、Michelle Tadmor Ramanovich、Tal Remez、Roi Pomerantz。我们还要感谢 Chung-Cheng Chiu、Quan Wang、Heiga Zen、Ron J. Weiss、Wolfgang Macherey、Yu Zhang、Yonghui Wu、Hadar Shemtov、Ruoming Pang、Nadav Bar、Hen Fitoussi、Benny Schlesinger 和 Michael Hassid 提供的有益讨论和支持。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论