使用流式端到端模型进行大规模多语言语音识别_商业应用

Google 的使命不仅是整合全球信息，还要让全球所有人都能访问这些信息，这意味着要确保我们的产品能够支持尽可能多的全球语言。理解人类语音是 Google Assistant 的核心功能，而要扩展到更多语言则是一项挑战：高质量的自动语音识别(ASR) 系统需要大量的音频和文本数据，而数据密集型神经模型正在不断革新这一领域，因此更是如此。然而，许多语言的数据很少。

我们想知道如何才能让数据稀缺语言的使用者也能享受高质量的语音识别。研究界的一个重要见解是，神经网络从数据丰富的语言的音频数据中学习到的大部分“知识”都可以被数据稀缺的语言重复使用；我们不需要从头开始学习一切。这促使我们研究多语言语音识别，即一个模型学习转录多种语言。在Interspeech 2019

上发表的 “使用流式端到端模型的大规模多语言语音识别”中，我们展示了一个作为单一模型训练的端到端 (E2E) 系统，该系统可实现实时多语言语音识别。我们使用九种印度语言，证明了几种数据稀缺语言的 ASR 质量有了显著提高，同时仍提高了数据丰富语言的性能。印度：语言之国在本次研究中，我们重点研究了印度，这是一个天生多语言的社会，拥有三十多种语言，至少有一百万人以该语言为母语。由于母语使用者的地理位置接近且文化历史相同，许多语言在声学和词汇内容上存在重叠。此外，许多印度人会说双语或三语，因此在对话中使用多种语言是一种常见现象，也是训练单一多语言模型的自然情况。在这项工作中，我们结合了九种主要印度语言，即印地语、马拉地语、乌尔都语、孟加拉语、泰米尔语、泰卢固语、卡纳达语、马拉雅拉姆语和古吉拉特语。低延迟全神经多语言模型传统 ASR 系统包含用于声学、发音和语言模型的独立组件。虽然有人尝试将部分或全部传统 ASR 组件变为多语言 [ 1、2、3、4 ] ，但这种方法可能很复杂且难以扩展。E2E ASR 模型将这三个组件组合成一个神经网络，并保证了可扩展性和易于参数共享。最近的研究已将 E2E 模型扩展为多语言[ 1、2

]，但它们没有解决实时语音识别的需求，这是 Assistant、语音搜索和GBoard 听写等应用程序的关键要求。为此，我们转向了Google最近的一项研究，该研究使用循环神经网络传感器(RNN-T) 模型来实现流式 E2E ASR。RNN-T 系统一次输出一个字符的单词，就像有人在实时打字一样，但这不是多语言的。我们在此架构的基础上开发了一种用于多语言语音识别的低延迟模型。

[左]传统的单语言语音识别器，由每种语言的声学、发音和语言模型组成。[中]传统的多语言语音识别器，其中声学和发音模型是多语言的，而语言模型是特定于语言的。[右] E2E 多语言语音识别器，其中声学、发音和语言模型组合成单个多语言模型。

大规模数据挑战

使用大规模真实数据训练多语言模型因数据不平衡而变得复杂。鉴于不同语言的使用者分布和语音产品成熟度存在巨大差异，每种语言的转录数据量各不相同也就不足为奇了。因此，多语言模型往往会受到训练集中过多语言的影响。这种偏差在 E2E 模型中更为明显，与传统 ASR 系统不同，E2E 模型无法访问额外的语言文本数据，而是仅从音频训练数据中学习语言的词汇特征。

九种语言的训练数据直方图显示了可用数据的严重偏差。

我们通过一些架构修改解决了这个问题。首先，我们提供了一个额外的语言标识符输入，这是一个从训练数据的语言区域设置中派生出来的外部信号；即个人手机中设置的语言偏好。此信号与音频输入相结合作为独热特征向量。我们假设该模型不仅能够使用语言向量来消除语言歧义，而且还能够根据需要为不同的语言学习单独的特征，这有助于解决数据不平衡问题。

基于全局模型中语言特定表示的想法，我们通过以残差适配器模块的形式为每种语言分配额外参数，进一步增强了网络架构。适配器有助于在每种语言上微调全局模型，同时保持单个全局模型的参数效率，进而提高性能。

[左]带有语言标识符的多语言 RNN-T 架构。[中]编码器内的残差适配器。对于泰米尔语话语，每个激活仅应用泰米尔语适配器。[右]残差适配器模块的架构细节。有关更多详细信息，请参阅我们的论文。

综合考虑所有这些因素，我们的多语言模型的表现优于所有单一语言识别器，尤其是在数据稀缺的语言（如卡纳达语和乌尔都语）方面有显著提升。此外，由于它是一个流式 E2E 模型，因此简化了训练和服务，也可用于 Assistant 等低延迟应用程序。在此基础上，我们希望继续研究针对其他语言群体的多语言 ASR，以更好地帮助我们日益壮大的多元化用户群体。

致谢

我们要感谢以下人员对本研究的贡献：Tara N. Sainath、Eugene Weinstein、Bo Li、Shubham Toshniwal、Ron Weiss、Bhuvana Ramabhadran、Yonghui Wu、Ankur Bapna、Zhifeng Chen、Seungji Lee、Meysam Bastani、Mikaela Grace、Pedro Moreno、Yanzhang (Ryan) He、Khe Chai Sim。

使用流式端到端模型进行大规模多语言语音识别

版权声明

相关推荐

评论