Tacotron 2：从文本生成类似人类的语音

lixia01 · 发表于 2024-12-13 23:35:19

从文本生成听起来非常自然的语音（文本转语音，TTS）几十年来一直是一个研究目标。过去几年，TTS 研究取得了巨大进展，完整 TTS 系统的许多各个部分都得到了极大改进。结合Tacotron和WaveNet等以往研究的思路，我们进行了更多改进，最终形成了新系统Tacotron 2。我们的方法不使用复杂的语言和声学特征作为输入。相反，我们使用仅使用语音示例和相应的文本记录训练的神经网络从文本生成类似人类的语音。
有关我们新系统的完整描述，请参阅我们的论文“通过对梅尔声谱图预测进行 WaveNet 调节实现自然 TTS 合成”。简而言之，它的工作原理如下：我们使用针对 TTS 优化的序列到序列模型将字母序列映射到对音频进行编码的特征序列。这些特征是 80 维音频频谱图，每 12.5 毫秒计算一帧，不仅可以捕捉单词的发音，还可以捕捉人类语音的各种细微差别，包括音量、速度和语调。最后，使用类似WaveNet的架构将这些特征转换为 24 kHz 波形。
详细了解 Tacotron 2 的模型架构。图片的下半部分描述了将字母序列映射到声谱图的序列到序列模型。有关技术细节，请参阅论文。
您可以收听一些Tacotron 2 音频样本，这些样本展示了我们最先进的 TTS 系统的结果。在一项评估中，我们要求人类听众对生成的语音的自然度进行评分，我们获得的分数与专业录音相当。
虽然我们的样本听起来很棒，但仍有一些难题需要解决。例如，我们的系统难以发出复杂的单词（例如“ decorum ”和“ merlot ”），在极端情况下，它甚至会随机产生奇怪的声音。此外，我们的系统还不能实时生成音频。此外，我们还不能控制生成的语音，例如让它听起来快乐或悲伤。这些本身就是一个有趣的研究问题。
致谢
Jonathan Shen、Ruoming Pang、Ron J. Weiss、Mike Schuster、Navdeep Jaitly、Zongheng Yang、Zhifeng Chen、Yu Zhang、Yuxuan Wang、RJ Skerry-Ryan、Rif A. Saurous、Yannis Agiomyrgiannakis、Yonghui Wu、声音理解团队、TTS 研究团队和 TensorFlow 团队。

		自动登录	找回密码
密码			立即注册