通用语音模型 (USM)：适用于 100 多种语言的最先进的语音 AI_人工智能

去年 11 月，我们宣布了“千种语言计划”，这是一项雄心勃勃的承诺，旨在构建一个机器学习 (ML) 模型，支持世界上使用最广泛的一千种语言，让全球数十亿人能够更好地融入社会。然而，其中一些语言的使用人数不足 2000 万，因此，核心挑战是如何支持使用人数相对较少或可用数据有限的语言。

今天，我们很高兴与大家分享有关通用语音模型(USM) 的更多信息，这是支持 1,000 种语言的关键第一步。USM 是一系列最先进的语音模型，拥有 2B 个参数，这些模型基于 1200 万小时的语音和 280 亿句文本进行训练，涵盖 300 多种语言。USM 用于 YouTube（例如用于隐藏字幕），不仅可以对英语和普通话等广泛使用的语言执行自动语音识别 (ASR)，还可以对阿姆哈拉语、宿务语、阿萨姆语和阿塞拜疆语等资源匮乏的语言执行自动语音识别(ASR)。在“ Google USM：将自动语音识别扩展到 100 种语言之外”中，我们展示了利用大量未标记的多语言数据集对模型编码器进行预训练，并在较小的标记数据集上进行微调，使我们能够识别代表性不足的语言。此外，我们的模型训练过程可以有效地适应新的语言和数据。

USM 支持的语言示例。

当前 ASR 面临的挑战

为了实现这一雄心勃勃的目标，我们需要解决 ASR 中的两个重大挑战。

首先，传统的监督学习方法缺乏可扩展性。将语音技术扩展到多种语言的一个基本挑战是获取足够的数据来训练高质量的模型。使用传统方法，音频数据需要手动标记，这既耗时又费钱，或者从已有转录的来源收集，而对于缺乏广泛代表性的语言来说，这些转录更难找到。相比之下，自监督学习可以利用纯音频数据，这种数据在各种语言中都大量存在。这使得自监督成为实现我们扩展到数百种语言的目标的更好方法。

另一个挑战是，在我们扩大语言覆盖范围和质量的同时，模型必须以计算效率的方式得到改进。这要求学习算法灵活、高效且可推广。更具体地说，这种算法应该能够使用来自各种来源的大量数据，无需完全重新训练即可更新模型，并可推广到新的语言和用例。

我们的方法：自我监督学习和微调

USM 使用标准的编码器-解码器架构，其中解码器可以是CTC、RNN-T或LAS。对于编码器，USM 使用Conformer或卷积增强转换器。Conformer 的关键组件是 Conformer 块，它由注意力、前馈和卷积模块组成。它将语音信号的 log- mel 频谱图作为输入并执行卷积子采样，然后应用一系列 Conformer 块和投影层来获得最终的嵌入。

我们的训练流程从第一步开始，即对涵盖数百种语言的语音音频进行自监督学习。在第二个可选步骤中，可以通过使用文本数据的额外预训练步骤来提高模型的质量和语言覆盖率。是否纳入第二步取决于是否有文本数据。USM 在第二个可选步骤中表现最佳。训练流程的最后一步是使用少量监督数据对下游任务（例如 ASR 或自动语音翻译）进行微调。

第一步，我们使用BEST-RQ，它已经在多语言任务上展示了最先进的结果，并且在使用大量无监督音频数据时被证明是有效的。

在第二步（可选）中，我们使用多目标监督预训练来整合来自其他文本数据的知识。该模型引入了一个额外的编码器模块，以将文本作为输入，并引入了额外的层来组合语音编码器和文本编码器的输出，并在未标记语音、标记语音和文本数据上联合训练模型。

在最后阶段，USM 针对下游任务进行微调。整体训练流程如下图所示。借助预训练期间获得的知识，USM 模型仅使用来自下游任务的少量监督数据即可实现良好的质量。

USM 的整体培训流程。

主要结果

YouTube 字幕在多种语言中的表现

我们的编码器通过预训练整合了 300 多种语言。我们通过在 YouTube Caption 的多语言语音数据上进行微调来证明预训练编码器的有效性。监督式 YouTube 数据包含 73 种语言，每种语言平均数据量不到三千小时。尽管监督数据有限，但该模型在 73 种语言中平均实现了不到 30% 的字错误率(WER；越低越好)，这是我们从未达到过的里程碑。对于 en-US，与当前内部最先进的模型相比，USM 的 WER 相对低 6%。最后，我们与最近发布的大型模型Whisper (large-v2 ) 进行了比较，该模型使用了超过 40 万小时的标记数据进行训练。为了进行比较，我们仅使用 Whisper 可以成功解码且 WER 低于 40% 的 18 种语言。对于这 18 种语言，我们的模型与 Whisper 相比平均 WER 相对低 32.7%。

USM 支持 YouTube 字幕测试集中的所有 73 种语言，并且在其支持的语言上表现优于 Whisper，WER 低于 40%。WER 越低越好。

推广至下游 ASR 任务

在公开可用的数据集上，我们的模型在CORAAL（非裔美国人白话英语）、SpeechStew（en-US）和FLEURS（102 种语言）上表现出比 Whisper 更低的 WER。我们的模型在有和没有域内数据训练的情况下都实现了更低的 WER。在 FLEURS 上的比较报告了与 Whisper 模型支持的语言重叠的语言子集（62 种）。对于 FLEURS，没有域内数据的 USM 与 Whisper 相比 WER 相对低 65.8%，有域内数据的 USM WER 相对低 67.8%。

比较 USM（有或没有域内数据）和 Whisper 在 ASR 基准上的结果。WER 越低越好。

自动语音翻译 (AST) 的表现

对于语音翻译，我们在CoVoST 数据集上对 USM 进行了微调。我们的模型通过管道的第二阶段包含文本，在有限的监督数据下实现了最佳质量。为了评估模型性能的广度，我们根据资源可用性将 CoVoST 数据集中的语言分为高、中、低，并计算每个部分的BLEU分数（越高越好）。如下所示，USM 在所有部分的表现都优于 Whisper。

CoVoST BLEU 分数。BLEU 越高越好。

迈向 1000 种语言

USM 的开发是 Google 实现其使命（即整合全球信息，让全球所有人都能访问）的重要举措。我们相信，USM 的基础模型架构和训练流程为我们提供了基础，让我们能够将语音建模扩展到接下来的 1,000 种语言。

了解更多

点击此处查看我们的论文。研究人员可以点击此处请求访问 USM API 。

致谢

我们感谢所有为该项目和论文做出贡献的共同作者，包括 Andrew Rosenberg、Ankur Bapna、Bhuvana Ramabhadran、Bo Li、Chung-Cheng Chiu、Daniel Park、Françoise Beaufays、Hagen Soltau、Gary Wang、Ginger Perng、James Qin、Jason Riesa、Johan Schalkwyk、Ke Hu、Nanxin Chen、Parisa Haghani、Pedro Moreno Mengibar、Rohit Prabhavalkar、Tara Sainath、Trevor Strohman、Vera Axelrod、Wei Han、Yonghui Wu、Yongqiang Wang、Yu Zhang、Zhehuai Chen 和 Zhong Meng。

我们还要感谢 Alexis Conneau、Min Ma、Shikhar Bharadwaj、Sid Dalmia、Jiahui Yu、Jian Cheng、Paul Rubenstein、Ye Jia、Justin Snyder、Vincent Tsang、Yuanzhong Xu 和 Tao Wang 的有益讨论。

我们感谢 Eli Collins、Jeff Dean、Sissie Hsiao、Zoubin Ghahramani 的宝贵反馈和支持。特别感谢 Austin Tarango、Lara Tumeh、Amna Latif 和 Jason Porta 对负责任的 AI实践的指导。我们感谢 Elizabeth Adkison 和 James Cokerille 帮助命名模型，感谢 Tom Small 制作动画图形，感谢 Abhishek Bapna 提供编辑支持，感谢 Erica Moreira 提供资源管理。我们感谢 Anusha Ramesh 提供的反馈、指导和出版策略协助，感谢 Calum Barnes 和 Salem Haykal 提供的宝贵合作。

通用语音模型 (USM)：适用于 100 多种语言的最先进的语音 AI

版权声明

相关推荐

评论