找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 28|回复: 0

使用 Tacotron 进行富有表现力的语音合成

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-12 13:28:35 | 显示全部楼层 |阅读模式
在 Google,我们对基于神经网络的文本转语音 (TTS) 研究的快速进展感到兴奋。特别是端到端架构,例如我们去年发布的Tacotron系统,既可以简化语音构建流程,又可以生成听起来自然的语音。这将帮助我们构建更好的人机界面,如对话助手、有声读物旁白、新闻阅读器或语音设计软件。然而,要发出真正像人类一样的声音,TTS 系统必须学会对韵律进行建模,韵律是语音的表达因素的集合,例如语调、重音和节奏。大多数当前的端到端系统(包括 Tacotron)都没有明确地对韵律进行建模,这意味着它们无法准确控制生成的语音应该如何发音。这可能会导致语音听起来单调,即使模型是在非常富有表现力的数据集(例如有声读物)上进行训练,这些数据集通常包含具有显著变化的角色声音。今天,我们很高兴分享两篇解决这些问题的新论文。
我们的第一篇论文《使用 Tacotron 实现富有表现力的语音合成的端到端韵律转换》介绍了韵律嵌入的概念。我们在 Tacotron 架构中添加了一个额外的韵律编码器,该编码器可以根据一段人类语音(参考音​​频)计算出低维嵌入。
我们为 Tacotron 添加了韵律编码器。图片的下半部分是原始的 Tacotron 序列到序列模型。有关技术细节,请参阅论文。
这种嵌入可以捕捉音频中独立于语音信息和说话者个性特征的特征,这些特征包括重音、语调和节拍等属性。在推理时,我们可以使用此嵌入进行韵律转换,以完全不同的说话者的声音生成语音,但展现参考的韵律。
嵌入还可以将精细的时间对齐韵律从一个短语转移到略有不同的短语,但当参考短语和目标短语的长度和结构相似时,这种技术效果最佳。       
令人兴奋的是,即使参考音频来自 Tacotron 训练数据中没有的说话者,我们也能观察到韵律转移。
这是一个很有希望的结果,因为它为语音交互设计师使用自己的声音定制语音合成铺平了道路。您可以在此网页上收听“使用 Tacotron 实现富有表现力的语音合成的端到端韵律迁移”的完整音频演示。尽管上述论文中的嵌入能够以高保真度迁移韵律,但它们并不能完全将韵律与参考音频片段的内容区分开来。(这解释了为什么它们将韵律迁移到具有相似结构和长度的短语上效果最好。)此外,它们在推理时需要参考音频片段。一个自然而然的问题出现了:我们能否开发出一种可以缓解这些问题的富有表现力的语音模型?在我们的第二篇论文“风格标记:端到端语音合成中的无监督风格建模、控制和迁移”中,我们就是这样做的。基于第一篇论文中的架构,我们提出了一种新的无监督方法来建模语音的潜在“因素”。该模型的关键在于,它不是学习精细的时间对齐韵律元素,而是学习可以在任意不同短语之间迁移的更高级说话风格模式。 该模型的工作原理是向 Tacotron 添加额外的注意机制,迫使它将任何语音片段的韵律嵌入表示为一组固定基础嵌入的线性组合。我们将这些嵌入称为全局风格标记(GST),并发现它们可以学习说话者风格(柔和、高音、强烈等)中与文本无关的变化,而无需明确的风格标签。
全局风格标记的模型架构。韵律嵌入被分解为“风格标记”,以实现无监督的风格控制和迁移。有关技术细节,请参阅论文。
在推理时,我们可以选择或修改 token 的组合权重,这样我们就可以强制 Tacotron 使用特定的说话风格,而无需参考音频片段。例如,使用 GST,我们可以让不同长度的不同句子听起来更“生动”、“愤怒”、“哀叹”等:
文字:从洛杉矶飞往新奥尔良的联合航空五六三号航班已降落。
GST 的文本独立性使其成为风格转换的理想选择,风格转换会获取以特定风格朗读的参考音频片段,并将其风格转换为我们选择的任何目标短语。为此,我们首先进行推理,以预测我们想要模仿其风格的话语的 GST 组合权重。然后,我们可以将这些组合权重输入模型,以合成风格相同的完全不同的短语,即使这些短语的长度和结构差别很大。
最后,我们的论文表明,全局风格标记可以模拟的不仅仅是说话风格。在使用来自未标记说话者的嘈杂 YouTube 音频进行训练时,支持 GST 的 Tacotron 会学习将噪声源和不同的说话者表示为单独的标记。这意味着,通过选择我们在推理中使用的 GST,我们可以合成没有背景噪音的语音,或者合成来自数据集的特定未标记说话者的声音的语音。这一令人兴奋的结果为高度可扩展但强大的语音合成提供了一条途径。您可以在此网页上收听“风格标记:端到端语音合成中的无监督风格建模、控制和迁移”的完整演示。我们对这两组研究成果可能带来的应用和机遇感到十分兴奋。与此同时,还有一些重要的新研究问题需要解决。我们想扩展第一篇论文中的技术,以支持目标说话者自然音高范围内的韵律迁移。我们还想开发一些技术,以便自动从上下文中选择合适的韵律或说话风格,例如,将自然语言理解与 TTS 相结合。最后,虽然我们的第一篇论文提出了韵律迁移的一组初步客观和主观指标,但我们希望进一步开发这些指标,以帮助建立普遍接受的韵律评估方法。致谢这些项目是由多个 Google 团队共同完成的。贡献者包括 RJ Skerry-Ryan、Yuxuan Wang、Daisy Stanton、Eric Battenberg、Ying Xiao、Joel Shor、Rif A. Saurous、Yu Zhang、Ron J. Weiss、Rob Clark、Fei Ren 和 Ye Jia。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-28 02:47 , Processed in 0.076754 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表