在人工耳蜗中应用先进的语音增强技术

对于全球约 4.66 亿失聪或听力障碍的人来说,无法轻松获得无障碍服务可能会成为他们参与日常口头对话的一大障碍。虽然助听器可以帮助缓解这一问题,但仅仅放大声音对很多人来说是不够的。另一种可行的选择是人工耳蜗(CI),这是一种通过手术插入内耳耳蜗的电子设备,通过外部声音处理器以电刺激听觉神经。虽然许多植入人工耳蜗的人可以学会将这些电刺激解读为可听见的语音,但聆听体验可能非常多样化,在嘈杂的环境中尤其具有挑战性。

现代人工耳蜗使用由外部声音处理器计算的脉动信号(即离散刺激脉冲)来驱动电极。CI 领域仍然面临的主要挑战是如何以最佳方式处理声音(将声音转换为电极上的脉冲),以便用户更容易理解。最近,为了促进这一问题的进展,工业界和学术界的科学家组织了一场CI Hackathon,以向更广泛的想法开放这一问题。

在这篇文章中,我们分享了一项探索性研究,该研究表明语音增强预处理器(具体来说,噪声抑制器)可用于 CI 处理器的输入,以增强用户在嘈杂环境中对语音的理解。我们还讨论了我们如何在CI Hackathon 的 参赛作品中继续这项工作,以及我们将如何继续开发这项工作。

通过噪声抑制改善 CI

2019 年,一个小型内部项目展示了 CI 处理器输入端的噪声抑制优势。在这个项目中,参与者聆听了 60 个预先录制和预处理的音频样本,并根据他们的聆听舒适度对其进行了排名。CI 用户使用其设备现有的产生电脉冲的策略来收听音频。

无背景噪音的音频

带有背景噪音的音频

带背景噪音 + 噪音抑制的音频

如下所示,当使用噪声抑制处理带有噪声的语音(最浅的条)时,聆听舒适度和清晰度通常都会提高,有时甚至会显著提高。

在早期研究中,CI 用户在尝试聆听应用噪声抑制的嘈杂语音音频样本时,听力舒适度有所提高——定性评分从“非常差”(0.0)到“还行”(0.5)再到“非常好”(1.0)——并且语音清晰度(即,句子中正确转录的单词比例)。

对于 CI Hackathon,我们在上述项目的基础上,继续利用噪声抑制器,同时探索计算脉冲的方法

处理方法概述

黑客马拉松考虑了具有 16 个电极的 CI。我们的方法将音频分解为 16 个重叠的频带,与耳蜗中电极的位置相对应。接下来,由于声音的动态范围很容易超出我们预期电极所代表的范围的多个数量级,因此我们通过应用“每通道能量归一化”(PCEN)积极压缩信号的动态范围。最后,范围压缩后的信号用于创建电图(即 CI 在电极上显示的内容)。

此外,黑客马拉松要求在多个音频类别中评估提交的内容,包括音乐,这是 CI 用户享受的重要但众所周知的困难声音类别。但是,语音增强网络经过训练可以抑制非语音声音,包括噪音和音乐,因此我们需要采取额外措施来避免抑制器乐(请注意,一般来说,某些用户在某些情况下可能更喜欢音乐抑制)。为此,我们将原始音频与降噪音频进行了“混合”,以便足够多的音乐可以通过以保持可听性。我们根据开源 YAMNet 分类器对输入是语音还是非语音的每隔约 1 秒的音频窗口的估计,实时将原始音频的混合比例从 0% 变为 40%(如果所有输入都被估计为语音,则为 0%,如果输入被估计为非语音,则最高可达 40% )。

Conv-TasNet 语音增强模型

为了实现一个抑制非语音声音(如噪音和音乐)的语音增强模块,我们使用了Conv-TasNet模型,该模型可以分离不同种类的声音。首先,将原始音频波形转换并处理成神经网络可以使用的形式。该模型使用可学习的分析变换对输入音频的短 2.5 毫秒帧进行转换,以生成针对声音分离而优化的特征。然后,网络根据这些特征生成两个“掩码”:一个用于语音,一个用于噪声。这些掩码表示每个特征与语音或噪声的对应程度。通过将掩码与分析特征相乘,将合成变换应用回音频域帧,并将得到的短帧拼接在一起,将分离的语音和噪声重建回音频域。最后一步,语音和噪声估计由混合一致性层处理,该层通过确保它们加起来等于原始输入混合波形来提高估计波形的质量。

基于 Conv-TasNet 的语音增强系统框图。

该模型既具有因果性又具有低延迟性:对于每 2.5 毫秒的输入音频,该模型都会生成分离语音和噪声的估计值,因此可以实时使用。对于黑客马拉松,为了展示未来硬件的计算能力增强后可能实现的功能,我们选择使用具有 290 万个参数的模型变体。这个模型太大,目前无法在 CI 中实际实现,但它展示了未来使用更强大的硬件可以实现什么样的性能。

聆听结果

在优化模型和整体解决方案的过程中,我们使用了 hackathon 提供的声码器(需要固定时间间隔的电脉冲)来生成模拟 CI 用户可能感知到的音频。然后,我们以典型听力用户的身份进行了盲 AB 听力测试。

聆听下面的声码器模拟,当输入声音不包含太多背景噪音时,重建的声音(来自声码器处理电图)中的语音相当清晰,但语音清晰度仍有提升空间。我们的提交在噪声语音类别中表现良好,并获得了总体第二名。

具有固定时间间隔的模拟音频

声码器模拟 CI 用户从具有固定时间间隔的电图音频中感知到的内容,并应用了背景噪声和噪声抑制。

质量的一个瓶颈是刺激脉冲的固定时间间隔牺牲了音频的精细时间结构。改变处理方式以产生与滤波后的声音波形峰值同步的脉冲,可以捕获比传统植入刺激模式中更多的关于声音音调和结构的信息。

具有自适应间距和精细时间结构的模拟音频

声码器模拟,使用与上述相同的声码器,但在经过修改的处理的电图上,将刺激脉冲与声音波形的峰值同步。

值得注意的是,第二个声码器输出对于真实 CI 用户的声音效果过于乐观。例如,这里使用的简单声码器没有模拟耳蜗中电流的扩散如何模糊刺激,这使得分辨不同频率变得更加困难。但这至少表明保留精细时间结构是有价值的,并且电图本身并不是瓶颈。

理想情况下,所有处理方法都应由广泛的 CI 用户进行评估,并将电图直接在他们的 CI 上实现,而不是依赖于声码器模拟。

结论和合作呼吁

我们计划从两个主要方向跟进这一经验。首先,我们计划探索噪声抑制在其他听力辅助模式中的应用,包括助听器、转录和振动触觉替代。其次,我们将深入研究人工耳蜗的电图模式的创建,利用行业标准的 CIS(连续交错采样)模式所不具备的精细时间结构。根据Louizou 的说法:“一些单通道患者在接收到的频谱信息有限的情况下如何表现如此出色仍然是一个谜。”因此,使用精细时间结构可能是实现改进 CI 体验的关键一步。

Google 致力于与残障人士共同开发技术,为他们服务。

致谢

我们非常感谢 Cochlear Impact 黑客马拉松组织者给予我们这次机会并与我们合作。Google 内部的参赛团队包括 Samuel J. Yang、Scott Wisdom、Pascal Getreuer、Chet Gnegy、Mihajlo Velimirović、Sagar Savla 和 Richard F. Lyon,由 Dan Ellis 和 Manoj Plakal 指导。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论