找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 28|回复: 0

聆听:视听语音分离

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-12 13:24:31 | 显示全部楼层 |阅读模式
人们非常善于在嘈杂的环境中将注意力集中在某个人身上,在心理上“屏蔽”所有其他声音。这种能力被称为鸡尾酒会效应,对我们人类来说是与生俱来的。然而,自动语音分离——将音频信号分离成单独的语音源——虽然是一个研究得很好的问题,但对计算机来说仍然是一项重大挑战。
在即将于今年夏天在SIGGRAPH 2018上发表的 “鸡尾酒会上的聆听”中,我们展示了一种深度学习视听模型,用于从其他声音和背景噪音等混合声音中分离出单个语音信号。在这项工作中,我们能够通过计算制作视频,其中特定人物的语音得到增强,而所有其他声音都被抑制。我们的方法适用于单音轨的普通视频,用户只需在视频中选择他们想听到的人的脸,或者根据上下文通过算法选择这样的人。我们相信这种能力可以有广泛的应用,从视频中的语音增强和识别,到视频会议,再到改进的助听器,特别是在有多人说话的情况下。
我们的技术的一个独特之处在于结合输入视频的听觉和视觉信号来分离语音。直观地说,例如,一个人嘴巴的运动应该与这个人说话时发出的声音相关,这反过来可以帮助识别音频的哪些部分与这个人相对应。视觉信号不仅可以在混合语音的情况下显著提高语音分离质量(与仅使用音频进行语音分离相比,正如我们在论文中所展示的那样),而且重要的是,它还将分离出的清晰语音轨道与视频中可见的说话者联系起来。
我们的方法的输入是一段视频,视频中有一个或多个人在说话,其中感兴趣的语音会受到其他说话者和/或背景噪音的干扰。输出是将输入音轨分解为清晰的语音音轨,每个音轨对应视频中检测到的每个人。
音频-视频语音分离模型
为了生成训练样本,我们首先从 YouTube 上收集了 100,000 个高质量的讲座和演讲视频。从这些视频中,我们提取了语音清晰的片段(例如没有混合音乐、观众声音或其他演讲者),并且视频帧中只有一个演讲者。这产生了大约 2000 小时的视频剪辑,每个剪辑中都有一个人出现在摄像头中,并且没有背景干扰。然后,我们使用这些干净的数据来生成“合成鸡尾酒会”——混合了来自不同视频源的面部视频和相应的语音,以及我们从AudioSet获得的非语音背景噪音。
利用这些数据,我们能够训练一个基于多流卷积神经网络的模型,将合成的混合声音分割成视频中每个说话者的单独音频流。网络的输入是从每帧检测到的说话者的脸部缩略图中提取的视觉特征,以及视频音轨的声谱图表示。在训练期间,网络学习视觉和听觉信号的(单独)编码,然后将它们融合在一起形成联合的视听表征。利用该联合表征,网络学会输出每个说话者的时频掩模。输出掩模乘以噪声输入声谱图并转换回时域波形,以获得每个说话者的独立、干净的语音信号。有关完整详细信息,请参阅我们的论文。
我们的多流、基于神经网络的模型架构。
以下是我们的方法产生的更多语音分离和增强结果,首先播放混杂或嘈杂语音的输入视频,然后播放我们的结果。除选定的说话者之外的其他人的声音可以被完全抑制或抑制到所需的水平。
语音识别应用
我们的方法还可以用作语音识别和自动视频字幕的预处理。处理重叠的说话者是自动字幕系统面临的一个已知挑战,将音频分离到不同的源可能有助于呈现更准确且易于阅读的字幕。
您也可以在播放视频时打开 YouTube 播放器中的隐藏式字幕(播放器右下角的“cc”按钮),同样地查看和比较本帖中以及我们网站上的所有其他视频中语音分离前后的字幕。
在我们的项目网页上,您可以找到更多结果,以及与最先进的纯音频语音分离和其他近期的视听语音分离工作的比较。事实上,随着深度学习的最新进展,学术界对视听分析的兴趣明显日益浓厚。例如,与我们的工作独立且同时进行的加州大学伯克利分校的这项工作探索了一种用于分离屏幕内/屏幕外说话者的语音的自监督方法,而麻省理工学院的这项工作解决了分离多个屏幕物体(例如乐器)的声音的问题,同时定位声音来源的图像区域。
我们设想这项技术将有广泛的应用。我们目前正在探索将其融入各种 Google 产品的机会。敬请期待!
致谢
本文中描述的研究由 Ariel Ephrat(实习生)、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、Bill Freeman 和 Michael Rubinstein 完成。我们要感谢 Yossi Matias 和 Google Research Israel 对该项目的支持,以及 John Hershey 提供的宝贵反馈。我们还要感谢 Arkady Ziefman 对动画和图表的帮助,以及 Rachel Soh 帮助我们获得结果中视频内容的许可。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-28 18:00 , Processed in 0.125713 second(s), 30 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表