找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

SpecAugment:一种用于自动语音识别的新型数据增强方法

[复制链接]

35

主题

0

回帖

107

积分

注册会员

积分
107
发表于 昨天 17:10 | 显示全部楼层 |阅读模式
自动语音识别 (ASR) 是将音频输入转录为文本的过程,它极大地受益于深度神经网络的不断发展。因此,ASR 已在许多现代设备和产品中无处不在,例如 Google Assistant、Google Home 和 YouTube。尽管如此,开发基于深度学习的 ASR 系统仍然存在许多重大挑战。其中一个挑战是,具有许多参数的 ASR 模型往往会过度拟合训练数据,并且当训练集不够广泛时,很难推广到看不见的数据。
在缺乏足够量的训练数据的情况下,可以通过数据增强过程来增加现有数据的有效大小,这有助于显著提高深度网络在图像分类领域的性能。在语音识别的情况下,增强传统上涉及以某种方式变形用于训练的音频波形(例如,通过加快或减慢速度)或添加背景噪音。这可以使数据集实际上变得更大,因为在训练过程中,单个输入的多个增强版本被输入到网络中,并且通过强制网络学习相关特征,还有助于网络变得健壮。但是,现有的传统音频输入增强方法会带来额外的计算成本,有时还需要额外的数据。
在我们最近的论文“ SpecAugment:一种用于自动语音识别的简单数据增强方法”中,我们采用了一种新方法来增强音频数据,将其视为视觉问题而不是音频问题。SpecAugment 不是像传统方式那样增强输入音频波形,而是将增强策略直接应用于音频频谱图(即波形的图像表示)。这种方法简单、计算成本低,并且不需要额外的数据。它在提高 ASR 网络的性能方面也出奇地有效,在 ASR 任务LibriSpeech 960h和Switchboard 300h上展示了最先进的性能。
SpecAugment
在传统 ASR 中,音频波形通常被编码为视觉表示,例如频谱图,然后作为网络的训练数据输入。训练数据的增强通常在将波形音频转换为频谱图之前应用于波形音频,这样每次迭代之后都必须生成新的频谱图。在我们的方法中,我们研究了增强频谱图本身而不是波形数据的方法。由于增强直接应用于网络的输入特征,因此可以在训练期间在线运行,而不会显著影响训练速度。
SpecAugment 通过在时间方向上扭曲 频谱图、屏蔽连续频道块以及屏蔽时间上的话语块来修改频谱图。选择这些增强是为了帮助网络抵抗时间方向上的变形、频率信息的部分丢失以及输入的小段语音的部分丢失。下面显示了此类增强策略的一个示例。
为了测试 SpecAugment,我们对 LibriSpeech 数据集进行了一些实验,其中我们采用了三个Listen Attend and Spell (LAS) 网络(通常用于语音识别的端到端网络),并比较了使用和不使用增强功能训练的网络之间的测试性能。ASR 网络的性能通过网络生成的转录本相对于目标转录本的字错误率(WER) 来衡量。在这里,所有超参数都保持不变,只有输入到网络的数据发生了变化。我们发现 SpecAugment 可以提高网络性能,而无需对网络或训练参数进行任何额外的调整。
更重要的是,SpecAugment 通过故意向网络提供损坏的数据来防止网络过度拟合。作为一个例子,下面我们展示了训练集和开发集的 WER 如何通过有和没有增强的训练而演变。我们看到,在没有增强的情况下,网络在训练集上实现了近乎完美的表现,而在干净和嘈杂的开发集上表现都严重不佳。另一方面,在增强的情况下,网络在训练集上的表现很难达到同样好,但实际上在干净的开发集上表现出更好的性能,在嘈杂的开发集上表现出相当的性能。这表明网络不再过度拟合训练数据,并且提高训练性能将带来更好的测试性能。
最佳结果现在我们可以专注于提高训练性能,这可以通过增加网络容量来实现。通过这样做并增加训练时间,我们能够在LibriSpeech 960h和Switchboard 300h
任务上获得最佳 (SOTA) 结果。
我们使用的简单增强方案非常强大 - 我们能够大幅提高端到端 LAS 网络的性能,以至于它超越了传统 ASR 模型,而传统 ASR 模型在较小的学术数据集(如 LibriSpeech 或 Switchboard)上的表现通常要好得多。
语言模型
语言模型(LM) 在更大的纯文本数据语料库上进行训练,通过利用从文本中学习到的信息,在提高 ASR 网络性能方面发挥了重要作用。但是,LM 通常需要与 ASR 网络分开训练,并且占用的内存非常大,因此很难安装在手机等小型设备上。我们研究的一个意外结果是,使用 SpecAugment 训练的模型即使在没有语言模型的帮助下也比所有先前的方法表现更好。虽然我们的网络仍然受益于添加 LM,但我们的结果令人鼓舞,因为它表明有可能训练可以在没有 LM 帮助的情况下用于实际目的的网络。
过去,ASR 的大部分工作都集中在寻找更好的网络来训练。我们的工作表明,寻找更好的网络训练方法是一个有前途的替代研究方向。
致谢
我们要感谢论文的共同作者 Chung-Cheng Chiu、Ekin Dogus Cubuk、Quoc Le、Yu Zhang 和 Barret Zoph。我们还要感谢 Yuan Cao、Ciprian Chelba、Kazuki Irie、Ye Jia、Anjuli Kannan、Patrick Nguyen、Vijay Peddinti、Rohit Prabhavalkar、Yonghui Wu 和 Shuyuan Zhang 的有益讨论。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-11-21 14:37 , Processed in 0.083923 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表