语音辅助技术使用户能够使用语音命令与设备交互,依靠准确的语音识别来确保对特定用户的响应。但在许多实际用例中,此类技术的输入通常由重叠语音组成,这对许多语音识别算法构成了巨大挑战。2018 年,我们发布了VoiceFilter 系统,该系统利用 Google 的Voice Match来个性化与辅助技术的交互,允许人们输入自己的声音。
虽然 VoiceFilter 方法非常成功,实现了比传统方法更好的源失真比(SDR),但高效的设备流式语音识别需要解决模型大小、CPU 和内存限制等限制,以及电池使用考虑和延迟最小化。
在“ VoiceFilter-Lite:用于设备语音识别的流式定向语音分离”中,我们介绍了用于设备使用的VoiceFilter的更新,它可以通过利用所选说话者的已注册语音来显著改善重叠语音的语音识别。重要的是,此模型可以轻松与现有的设备语音识别应用程序集成,让用户即使在没有互联网连接的情况下,也可以在极其嘈杂的条件下访问语音辅助功能。我们的实验表明,2.2MB 的 VoiceFilter-Lite 模型可将重叠语音的字错误率(WER) 提高 25.1%。
改进设备上的语音识别虽然原始的 VoiceFilter 系统在将目标说话者的语音信号与其他重叠源分离方面非常成功,但其模型大小、计算成本和延迟对于移动设备上的语音识别
来说是不可行的。
新的VoiceFilter-Lite系统经过精心设计,适合设备端应用。VoiceFilter-Lite 不处理音频波形,而是采用与语音识别模型(堆叠对数梅尔滤波器组)完全相同的输入特征,并通过实时滤除不属于目标说话者的成分来直接增强这些特征。再加上对网络拓扑的多项优化,运行时操作的数量大幅减少。使用TensorFlow Lite库量化神经网络后,模型大小仅为 2.2 MB,适合大多数设备端应用。
为了训练 VoiceFilter-Lite 模型,将噪声语音的滤波器组与表示目标说话者身份的嵌入向量(即d 向量)一起作为输入输入到网络。网络预测一个掩码,该掩码逐元素乘以输入以生成增强滤波器组。定义损失函数以最小化训练期间增强滤波器组和干净语音滤波器组之间的差异。
VoiceFilter-Lite 系统的模型架构。
VoiceFilter-Lite 是一种即插即用模型,如果说话者没有注册自己的声音,则允许实施该模型的应用程序轻松绕过它。这也意味着语音识别模型和 VoiceFilter-Lite 模型可以单独训练和更新,从而大大降低了部署过程中的工程复杂性。
作为即插即用模型,如果说话者没有登记自己的声音,VoiceFilter-Lite 很容易被绕过。
应对过度抑制的挑战
当使用语音分离模型来改进语音识别时,可能会出现两种类型的错误:抑制不足,即模型无法从信号中滤除噪声成分;过度抑制,即模型无法保留有用信号,导致一些单词从识别的文本中丢失。过度抑制尤其成问题,因为现代语音识别模型通常已经使用大量增强数据(例如房间模拟和SpecAugment)进行训练,因此对抑制不足更具鲁棒性。
VoiceFilter-Lite 通过两种新颖的方法解决了过度抑制问题。首先,它在训练过程中使用非对称损失,这样模型对过度抑制的容忍度就会低于对抑制不足的容忍度。其次,它在运行时预测噪声类型,并根据此预测自适应地调整抑制强度。
当检测到重叠语音时,VoiceFilter-Lite 会自适应地应用更强的抑制强度。
借助这两种解决方案,VoiceFilter-Lite 模型在其他场景(例如安静或各种噪音条件下的单说话人语音)的流式语音识别中仍保持出色的性能,同时在重叠语音方面仍能提供显着的改进。从我们的实验中,我们观察到在将 2.2MB VoiceFilter-Lite 模型应用于加性重叠语音后,单词错误率提高了 25.1%。对于混响重叠语音(这是模拟智能家居扬声器等远场设备的更具挑战性的任务),我们还观察到使用 VoiceFilter-Lite 后单词错误率提高了 14.7%。
未来工作
虽然 VoiceFilter-Lite 已在各种设备上的语音应用中展现出巨大潜力,但我们也在探索其他几个方向,以使 VoiceFilter-Lite 更加实用。首先,我们当前的模型仅使用英语语音进行训练和评估。我们很高兴能够采用相同的技术来改善更多语言的语音识别。其次,我们希望在 VoiceFilter-Lite 训练期间直接优化语音识别损失,这有可能进一步改善重叠语音以外的语音识别。
致谢
本文中描述的研究是 Google 内部多个团队共同努力的成果。贡献者包括 Quan Wang、Ignacio Lopez Moreno、Mert Saglam、Kevin Wilson、Alan Chiao、Renjie Liu、Yanzhang He、Wei Li、Jason Pelecanos、Philip Chao、Sinan Akay、John Han、Stephen Wu、Hannah Muckenhirn、Ye Jia、Zelin Wu、Yiteng Huang、Marily Nika、Jaclyn Konzelmann、Nino Tasca 和 Alexander Gruenstein。
评论