使用卷积神经网络对座头鲸进行声音检测

lixia01 · 发表于 2024-12-5 09:14:57

过去几年，Google AI 感知团队开发了音频事件分析技术，这些技术已应用于 YouTube 的非语音字幕、视频分类和索引。此外，我们还发布了AudioSet评估集并开源了一些模型代码，以进一步推动社区研究。最近，我们越来越意识到许多保护组织正在收集大量声学数据，并想知道是否有可能将这些相同的技术应用于这些数据，以协助野生动物监测和保护。作为我们AI for Social Good
计划的一部分，我们与美国国家海洋和大气管理局(NOAA)太平洋岛屿渔业科学中心合作，开发了算法来识别太平洋多个地点 15 年水下录音中的座头鲸叫声。这项研究的结果提供了有关座头鲸存在、季节性、日常叫声行为和种群结构的新的重要信息。这在偏远无人居住的岛屿中尤其重要，因为科学家们迄今为止对此一无所知。此外，由于数据集涵盖了很长一段时间，了解座头鲸鸣叫的时间和地点将提供有关这些动物多年来是否改变了分布的信息，尤其是与人类海洋活动增加有关的信息。这些信息将是有效减轻人类对座头鲸影响的关键因素。
被动声学监测和 NOAA HARP 数据集
被动声学监测是使用水下麦克风（称为水听器）聆听海洋哺乳动物的过程，水听器可用于记录信号，以便离线完成检测、分类和定位任务。与船上视觉调查相比，它具有一些优势，包括能够探测到水下动物、探测范围更广、监测周期更长。自 2005 年以来，NOAA 已在太平洋岛屿地区的 12 个地点收集了海底水听器的录音，该地区是某些座头鲸种群的冬季繁殖和产犊目的地。
数据记录在称为高频声学记录包或 HARP 的设备上（Wiggins 和 Hildebrand，2007；全文 PDF ）。总的来说，NOAA 提供了大约 15 年的音频，在从 200 kHz抽取到 10kHz后为 9.2 TB 。（由于座头鲸叫声中的大部分声能都在 100Hz-2000Hz 范围内，因此使用较低的采样率几乎不会造成损失。）
从研究角度来看，在如此大量的数据中识别感兴趣的物种是重要的第一阶段，可为更高级别的种群丰度、行为或海洋学分析提供输入。但是，即使借助目前可用的计算机辅助方法，手动标记座头鲸叫声也非常耗时。
监督学习：优化座头鲸检测的图像模型
我们通常选择将音频事件检测视为图像分类问题，其中图像是声谱图——在时频轴上绘制的声功率直方图。
这是图像分类器的良好表示，其目标是进行区分，因为不同的频谱（频率分解）及其时间变化（这是不同声音类型的特征）在频谱图中表示为视觉上不同的模式。对于图像模型本身，我们使用了ResNet-50，这是一种通常用于图像分类的卷积神经网络架构，已证明在对非语音音频进行分类方面取得了成功。这是一种监督学习设置，其中只有手动标记的数据可用于训练（整个数据集的 0.2% - 在下一节中，我们将描述一种利用未标记数据的方法。）
从波形到频谱图的过程涉及参数和增益缩放函数的选择。常见的默认选择（其中之一是对数压缩）是一个很好的起点，但需要一些特定领域的调整来优化对鲸鱼叫声的检测。座头鲸的叫声多种多样，但持续的、频率调制的音调单元在时间上经常出现。
如果频率完全没有变化，声调单元在声谱图中会显示为水平条。由于呼叫是频率调制的，我们实际上看到的是弧线而不是条，但部分弧线接近水平。
此数据集的一个特殊挑战是窄带噪声，通常是由附近的船只和设备本身引起的。在声谱图中，它显示为水平线，早期版本的模型会将其与座头鲸呼叫混淆。这促使我们尝试每通道能量归一化(PCEN)，它可以抑制平稳的窄带噪声。事实证明，这是至关重要的，可将鲸鱼呼叫检测的错误率降低 24%。
除了 PCEN 之外，对较长时间段内的预测取平均值可以提高准确率。这种效果同样适用于一般的音频事件检测，但对于座头鲸叫声，准确率的提高幅度惊人。一个可能的解释是，我们数据集中的发声主要发生在鲸鱼歌曲的背景下，这是一种结构化的单元序列，可以持续超过 20 分钟。在歌曲中一个单元结束时，另一个单元很有可能在两秒钟内开始。图像模型的输入涵盖了一个较短的时间窗口，但由于歌曲很长，来自更远时间窗口的模型输出提供了额外的信息，可用于对当前时间窗口做出正确的预测。
总体而言，在我们的 75 秒音频片段测试集上进行评估，该模型以超过 90% 的准确率和 90% 的召回率识别片段是否包含座头鲸叫声。但是，人们应该谨慎解读这些结果；训练和测试数据来自类似的设备和环境条件。话虽如此，对一些非 NOAA 来源的初步检查看起来很有希望。
无监督学习：用于查找相似歌曲单元的表示法
解决“这些数据中所有座头鲸声音在哪里？ ”这个问题的另一种方法是从座头鲸声音的几个示例开始，然后针对每个示例，在数据集中找到更多与该示例相似的示例。此处相似的定义可以通过我们在将其视为监督问题时使用的相同 ResNet 来学习。在那里，我们使用标签在 ResNet 输出之上学习分类器。在这里，当相应的音频示例在时间上接近时，我们鼓励一对 ResNet 输出向量在欧几里得距离上接近。使用该距离函数，我们可以检索更多与给定音频相似的音频示例。将来，这可能是区分不同座头鲸单元类型的分类器的有用输入。为了学习距离函数，我们使用了“语义音频表示的无监督学习
” 中描述的方法，该方法基于时间上的接近与意义上的接近相关的想法。它随机抽取三元组样本，其中每个三元组定义为由一个锚点、一个正样本和一个负样本组成。对正样本和锚样本进行采样，以便它们大约在同一时间开始。在我们的应用中，三元组的一个例子是座头鲸单元（锚样本）、同一鲸鱼可能重复的同一单元（正样本）和其他月份的背景噪音（负样本）。将 3 个样本通过 ResNet（具有绑定权重）将它们表示为 3 个向量。最小化迫使锚点-负样本距离超过锚点-正样本距离的损失，可以学习到忠实于语义相似性的距离函数。对标记点样本进行
主成分分析(PCA) 让我们可以看到结果。座头鲸和非座头鲸之间的分离是显而易见的。使用TensorFlow Embedding Projector自行探索。尝试将颜色更改为class_label和site中的每一个。此外，尝试在投影仪中将 PCA 更改为t-SNE，以获得优先保留相对距离而不是样本方差的可视化。
给定单个“查询”单元，我们使用嵌入向量之间的欧几里德距离在整个语料库中检索最近的邻居。在某些情况下，我们以良好的精度找到了数百个相同单元的实例。
使用无监督表示手动选择查询单元（框选）和最近邻居。
我们打算在未来使用这些来构建一个训练集，用于区分歌曲单元的分类器。我们还可以使用它们来扩展用于学习座头鲸探测器的训练集。
监督分类器对整个数据集的预测
我们绘制了按时间和位置分组的模型输出摘要。并非所有站点在所有年份都有部署。工作循环（例如：5 分钟开启，15 分钟关闭）允许在有限的电池电量下进行更长时间的部署，但时间表可能会有所不同。为了处理这些变化源，我们考虑了检测到座头鲸叫声的采样时间占一个月内记录的总时间的比例：
科纳和塞班岛站点在年/月轴上的存在时间密度。
这种明显的季节性变化与已知的模式相一致，即座头鲸种群夏季在阿拉斯加附近觅食，然后迁徙到夏威夷群岛附近繁殖和生育。这是对模型的一次很好的健全性检查。
我们希望对完整数据集的预测将使 NOAA 的专家能够更深入地了解这些种群的状况以及人类活动对它们的影响程度。我们还希望这只是 Google 致力于加速将机器学习应用于世界上最大的人道主义和环境挑战的一系列成功中的前几个成功案例之一。要了解这个项目是如何启动的，请阅读研究海洋学家 Ann Allen 撰写的NOAA 渔业博客文章。
致谢
我们要感谢 Ann Allen（NOAA 渔业）提供大量地面实况数据、多轮有用的反馈以及本文中的一些文字。Karlina Merkens（NOAA 分支机构）提供了进一步的有用指导。我们还要感谢 NOAA 太平洋岛屿渔业科学中心收集和分享声学数据。
在 Google 内部，Jiayang Liu、Julie Cattiau、Aren Jansen、Rif A. Saurous 和 Lauren Harrell 为这项工作做出了贡献。特别感谢 Lauren，她设计了分析部分的图表并使用 ggplot 实现了它们。

		自动登录	找回密码
密码			立即注册