利用监督学习实现准确的在线说话人分类

lixia01 · 发表于 2024-12-5 09:11:28

说话人日记是语音识别系统的重要组成部分，即将包含多个人的音频流划分为与每个人相关的同类片段。通过解决“谁在何时说话”的问题，说话人日记可用于许多重要场景，如理解医学对话、视频字幕等。然而，用监督学习方法训练这些系统具有挑战性——与标准监督分类任务不同，健壮的日记模型需要能够将新个体与训练中未涉及的不同语音片段关联起来。重要的是，这限制了在线和离线日记系统的质量。在线系统通常受到的影响更大，因为它们需要实时的日记结果。
在“完全监督的说话人分类”中，我们描述了一种新模型，该模型旨在更有效地利用监督的说话人标签。这里的“完全”意味着说话人分类系统中的所有组件（包括说话人数量的估计）都经过监督训练，因此它们可以从增加可用的标记数据量中受益。在NIST SRE 2000 CALLHOME基准测试中，我们的分类错误率 (DER) 低至 7.6%，而我们之前基于聚类的方法的 DER 为 8.8% ，深度神经网络嵌入方法的 DER 为 9.9% 。此外，我们的方法基于在线解码实现了更低的错误率，特别适合实时应用。因此，我们开源了论文中的核心算法，以加速该方向的更多研究。
聚类与交错状态 RNN
现代说话人分类系统通常基于聚类算法，例如k 均值或谱聚类。由于这些聚类方法是无监督的，因此它们无法充分利用数据中可用的监督说话者标签。此外，在线聚类算法在具有流式音频输入的实时分类应用中通常质量较差。我们的模型与常见聚类算法之间的主要区别在于，在我们的方法中，所有说话者的嵌入都由参数共享循环神经网络(RNN) 建模，并且我们使用不同的 RNN 状态来区分不同的说话者，这些 RNN 状态在时间域中交错
。要了解其工作原理，请考虑下面的示例，其中有四个可能的说话者：蓝色、黄色、粉色和绿色（这是任意的，实际上可能还有更多——我们的模型使用中餐馆流程来容纳未知数量的说话者）。每个说话者都从自己的 RNN 实例开始（所有说话者共享一个共同的初始状态），并根据来自该说话者的新嵌入不断更新 RNN 状态。在下面的例子中，蓝色说话者不断更新其 RNN 状态，直到另一个说话者黄色加入。如果蓝色稍后再次说话，它将继续更新其 RNN 状态。（这只是下图中语音片段y 7的可能性之一。如果有新的说话人绿色进入，它将从一个新的 RNN 实例开始。）
将说话者表示为 RNN 状态使我们能够使用 RNN 参数学习不同说话者和话语之间共享的高级知识，这有望提高更多标记数据的实用性。相比之下，常见的聚类算法几乎总是独立处理每个单独的话语，因此很难从大量标记数据中获益。
所有这些的结果是，给定带时间戳的说话者标签（即我们知道谁在什么时候说话），我们可以使用标准随机梯度下降算法训练模型。训练后的模型可用于对未听过的说话者的新话语进行说话者分类。此外，使用在线解码使其更适合延迟敏感的应用程序。
未来工作
虽然我们已经通过该系统实现了令人印象深刻的分类性能，但我们目前仍在探索许多令人兴奋的方向。首先，我们正在改进我们的模型，以便它可以轻松集成上下文信息来执行离线解码。这可能会进一步降低 DER，这对延迟不敏感的应用程序更有用。其次，我们希望直接对声学特征进行建模，而不是使用 d 向量。这样，整个说话人分类系统就可以以端到端的方式进行训练。
要了解有关这项工作的更多信息，请参阅我们的论文。要下载该系统的核心算法，请访问Github 页面。
致谢
这项工作是 Google AI 和 Speech & Assistant 团队密切合作完成的。贡献者包括 Aonan Zhang（实习生）、Quan Wang、Zhengyao Zhu 和 Chong Wang。

		自动登录	找回密码
密码			立即注册