Lyra:一种用于语音压缩的新型超低比特率编解码器

通过语音和视频通话在线联系他人已成为日常生活中日益重要的一部分。实现这一目标的实时通信框架(如WebRTC)依赖于高效的压缩技术编解码器来对信号进行编码(或解码)以进行传输或存储。编解码器是数十年来媒体应用程序的重要组成部分,它使高带宽应用程序能够高效地传输数据,并让人们期待随时随地都能获得高质量的通信。

因此,开发视频和音频编解码器的持续挑战是提供更高的质量、使用更少的数据并最大限度地减少实时通信的延迟。尽管视频似乎比音频占用更多的带宽,但现代视频编解码器可以达到比当今使用的一些高质量语音编解码器更低的比特率。结合低比特率视频和语音编解码器即使在低带宽网络中也可以提供高质量的视频通话体验。然而,从历史上看,音频编解码器的比特率越低,语音信号就越难理解,越机械化。此外,虽然有些人可以访问一致的高质量、高速网络,但这种连接水平并不普遍,即使是那些在连接良好的地区的人有时也会遇到质量差、带宽低和网络连接拥塞的情况。

为了解决这个问题,我们创建了Lyra,这是一款高质量、极低比特率的语音编解码器,即使在最慢的网络上也能实现语音通信。为此,我们应用了传统的编解码器技术,同时利用机器学习 (ML) 的进步以及经过数千小时数据训练的模型,创建了一种压缩和传输语音信号的新方法。

Lyra 概览

Lyra 编解码器的基本架构非常简单。每 40 毫秒从语音中提取一次特征或独特的语音属性,然后进行压缩以进行传输。这些特征本身是对数梅尔频谱图,即表示不同频带中语音能量的数字列表,传统上由于它们是根据人类听觉响应建模的,因此它们因其感知相关性而被使用。另一方面,生成模型使用这些特征来重建语音信号。从这个意义上讲,Lyra 与其他传统参数编解码器(例如MELP)非常相似。

1729182547704.jpg

然而,传统的参数编解码器只是从语音中提取关键参数,然后在接收端使用这些参数重建信号,虽然比特率较低,但听起来往往很机械、不自然。这些缺点促使人们开发出新一代高质量音频生成模型,这些模型不仅能够区分信号,还能生成全新的信号,从而彻底改变了该领域。DeepMind 的WaveNet是第一个这样的生成模型,为未来的许多模型铺平了道路。此外,目前在 Duo 中使用的基于生成模型的数据包丢失隐藏系统WaveNetEQ已经展示了如何在真实场景中使用这项技术。

使用 Lyra 进行压缩的新方法

以这些模型为基础,我们开发了一种能够使用最少数据量重建语音的新模型。Lyra 利用这些新的自然声音生成模型的强大功能,在保持参数编解码器的低比特率的同时实现高质量,与当今大多数流媒体和通信平台使用的最先进的波形编解码器相当。波形编解码器的缺点是,它们通过逐个样本压缩和发送信号来实现这种高质量,这需要更高的比特率,而且在大多数情况下,这对于实现自然声音的语音来说并不是必需的。

生成模型的一个问题是其计算复杂性。Lyra 通过使用更便宜的循环生成模型(WaveRNN变体)来避免这个问题,该模型以较低的速率工作,但会并行生成不同频率范围内的多个信号,然后将其组合成具有所需采样率的单个输出信号。这一技巧使 Lyra 不仅可以在云服务器上运行,还可以在中端手机上实时运行(处理延迟为 90 毫秒,与其他传统语音编解码器一致)。然后,该生成模型在数千小时的语音数据上进行训练,并进行优化(类似于 WaveNet),以准确重现输入音频。

与现有编解码器的比较

自 Lyra 诞生以来,我们的使命一直是使用替代方案的一小部分比特率数据来提供最优质的音频。目前,免版税的开源编解码器Opus是基于 WebRTC 的VOIP应用程序最广泛使用的编解码器,音频速率为 32kbps,通常可获得透明的语音质量,即与原始语音无法区分。然而,虽然 Opus 可以在带宽受限的环境中使用,低至 6kbps,但它的音频质量开始下降。其他编解码器能够以与 Lyra 相当的比特率运行(Speex、MELP、AMR),但每个编解码器都存在伪影增加的问题,导致声音听起来像机器人。

Lyra 目前设计为以 3kbps 的速度运行,听音测试表明,Lyra 在该比特率下的表现优于任何其他编解码器,并且在 8kbps 下与 Opus 相比毫不逊色,从而实现了 60% 以上的带宽节省。当带宽条件不足以支持更高比特率且现有的低比特率编解码器无法提供足够的质量时,可以使用 Lyra。

1729182507204.jpg

确保公平

与任何基于机器学习的系统一样,模型必须经过训练才能确保适用于所有人。我们使用开源音频库,用来自 70 多种语言的数千小时音频训练了 Lyra,然后通过专家和众包听众验证了音频质量。Lyra 的设计目标之一是确保所有人都能获得高质量的音频体验。Lyra 在包括多种语言的说话者在内的广泛数据集上进行训练,以确保编解码器能够应对可能遇到的任何情况。

社会影响以及我们的未来发展

无论是短期还是长期,Lyra 等技术的影响都是深远的。借助 Lyra,新兴市场的数十亿用户可以使用高效的低比特率编解码器,从而获得比以往更高质量的音频。此外,Lyra 可用于云环境,使具有各种网络和设备功能的用户能够无缝地相互聊天。将 Lyra 与AV1等新视频压缩技术配对,即使对于通过 56kbps 拨入调制解调器连接到互联网的用户,也可以进行视频聊天。

Duo已使用 ML 来减少音频中断,目前正在推出 Lyra 来提高极低带宽连接下的音频通话质量和可靠性。我们将继续优化 Lyra 的性能和质量,以确保该技术的最大可用性,并研究通过 GPU 和 TPU 进行加速。我们也开始研究这些技术如何实现低比特率通用音频编解码器(即音乐和其他非语音用例)。

致谢

感谢所有使 Lyra 成为可能的人,包括 Jan Skoglund、Felicia Lim、Michael Chinen、Bastiaan Kleijn、Tom Denton、Andrew Storus、Yero Yeh (Chrome Media)、Henrik Lundin、Niklas Blum、Karl Wiberg (Google Duo)、Chenjie Gu、Zach Gleicher、Norman Casagrande 和 Erich Elsen (DeepMind)。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论