请选择 进入手机版 | 继续访问电脑版

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 231|回复: 0

面向低资源语言的文本转语音(第 4 集):完成一项,还有 299 项

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-10 16:39:31 | 显示全部楼层 |阅读模式
这是系列文章的第四集,该系列文章介绍了我们为资源匮乏的语言构建文本转语音 (TTS) 系统所做的工作。在第一集中,我们描述了为 Project Unison 进行的众包声学数据收集工作。在第二集中,我们描述了如何基于这些数据构建参数化语音。在第三集中,我们描述了为 TTS 系统编写发音词典的过程。在这一集中,我们描述了如何让单个 TTS 系统能够说多种语言。
为任何一种语言开发 TTS 系统都是一项重大挑战,需要大量高质量的声学记录和语言注释。正因为如此,这些系统仅适用于世界上一小部分语言。在这种情况下,一个自然而然的问题是,我们能否以某种方式将来自多个说话者的单语数据组合起来,构建一个可以说任何语言的多语言声音,而不是像前三集中描述的那样,尝试使用来自多个说话者的单语数据为一种语言构建高质量声音?在初步研究如何创建一个可以从单一模型合成多种语言语音的多语言 TTS 系统的
基础上,我们开发了一个新模型,该模型对所有语言使用统一的音位表示——国际音标(IPA)。使用这种表示训练的模型可以合成训练数据中看到的语言以及训练中未观察到的语言。这有两个主要好处:首先,汇集相关语言的训练数据可以增加音素覆盖率,从而提高训练中观察到的语言的合成质量。最后,由于该模型包含许多汇集在一起​​的语言,因此“未见过的”语言更有可能在模型中存在“相关”语言,从而指导和帮助合成。探索印度尼西亚的密切相关语言 我们首先将这种多语言方法应用于印度尼西亚的语言,其中标准印尼语是官方国家语言,有超过 2 亿人以标准印尼语为母语或将其作为第二语言。爪哇语有大约 9000 万母语使用者,而巽他语
约有 4000 万母语使用者,是印度尼西亚最大的两种区域性语言。与多年来受到计算语言学家和语音科学家广泛关注的印尼语不同,爪哇语和巽他语目前资源匮乏,因为缺乏公开的高质量语料库。我们与印度尼西亚的大学合作,收集众包的爪哇语和巽他语录音。
由于我们的标准印尼语语料库规模更大,并且是在专业录音室录制的,因此我们假设,将三种语言结合起来可能会比使用“经典”单语方法构建的系统带来显著的改进。为了验证这一点,我们首先分析了这三种语言音系之间的相似之处和关键差异(如下所示),并利用这些信息设计了音系表示,以允许语言之间最大程度的共享,同时保留它们的关键差异。
用国际音标符号表示的印尼语、爪哇语和巽他语的联合音素清单。
与标准印尼语联合训练后的爪哇语和巽他语语音表现远远优于我们用作基准的相应单语多说话人语音。这使我们能够在 Google 产品(如Google 翻译和Android )中推出爪哇语和巽他语 TTS 。
扩展到更多样化的南亚语系
接下来,我们关注跨越两个截然不同语系的南亚语言:印度-雅利安语和达罗毗荼语。与上面描述的印尼语不同,这些语言的多样性要大得多。特别是,它们在音系上的重叠明显较小。下表显示了我们实验中的语言超集,包括使用的各种正字法,以及与梵语“文化”一词相关的现代词汇。这些语言在每个组内都表现出相当大的差异,但不同组之间也表现出这样的相似性。
梵语中“文化”一词的后裔跨越了多种语言。
在这项工作中,我们利用上面提到的统一音系表征来充分利用我们拥有的数据并消除某些音素数据稀缺的问题。这是通过将相似的音素合并为多语言音素库中的单个代表性音素来实现的。在可能的情况下,我们对音系相近的语言使用相同的库。例如,我们为泰卢固语和卡纳达语准备了相同的音素库,为西孟加拉语和奥迪亚语准备了另一个音素库。对于古吉拉特语和马拉地语等其他语言对,我们将一种语言的库复制到另一种语言,但做了一些更改以反映它们的音素库的差异。对于这些实验中的所有语言,我们保留了一个通用的底层表征,将相似的音素映射到不同的库中,这样我们仍然可以使用一种语言的数据来训练其他语言。
此外,我们确保我们的表征是由使用的音系而不是正字法驱动的。例如,尽管马拉地语中长元音和短元音有不同的字母,但它们在语言学意义上并不具有对比性,因此我们对它们使用单​​一表示,从而提高了训练数据的稳健性。同样,如果两种语言使用历史上与同一梵语字母相关的一个字符来表示不同的声音或使用不同的字母来表示相似的声音,我们的映射反映了音系接近性,而不是历史或正字法表示。描述统一音素库的所有特征超出了本文的范围,详细信息可以在我们最近的论文中找到。
图表展示了我们的多语言文本转语音方法。输入的文本查询由特定于语言的语言前端处理,以生成共享音素表示中的发音,作为与语言无关的声学模型的输入。然后,该模型为相应的查询生成音频。
我们的实验重点是印度孟加拉语、古吉拉特语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、泰卢固语和乌尔都语。对于大多数语言(孟加拉语和马拉地语除外),录音数据和转录都是众包的。对于每种语言,我们都使用所有可用数据构建了一个多语言声学模型。此外,声学模型还包括之前众包的尼泊尔语和僧伽罗语数据,以及印地语和孟加拉语孟加拉语。
结果令人鼓舞:对于大多数语言,多语言语音的表现优于使用传统单语方法构建的语音。我们对没有训练数据的奥迪亚语进行了进一步实验,尝试使用南亚多语言模型合成该语言。主观听力测试显示,奥迪亚语母语人士认为生成的音频可以接受且清晰易懂。在最近的“ Google for India ”活动中,我们宣布了使用多语言方法与语音团队合作构建的马拉地语、泰米尔语、泰卢固语和马拉雅拉姆语的语音,这些语音目前已为 Google 翻译和其他 Google 产品提供支持。
使用众包数据收集从研究角度来看很有趣,而且在与母语人士社区建立卓有成效的合作关系方面也很有意义。我们对马来-波利尼西亚语、印度-雅利安语和达罗毗荼语系进行的实验表明,在大多数情况下,使用深度学习技术在单个多语言声学模型中跨多种语言谨慎共享数据,可以缓解一些困扰资源匮乏语言的严重数据稀缺问题,并产生用于 Google 产品中的高质量语音。
这项 TTS 研究是将语音和语言技术应用于更多世界语言的第一步,我们希望其他人也能加入我们的努力。为了回馈研究界,我们在SLTU和Interspeech会议结束后开放了尼泊尔语、僧伽罗语、孟加拉语、高棉语、爪哇语和巽他语的语料库,并与其他研究人员讨论了这项工作。我们计划在未来的项目中继续发布其他语言的额外数据集。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2025-1-22 05:16 , Processed in 0.080683 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表