BirdCLEF 2023 挑战赛:推动生物多样性监测的前沿

1725522181146.jpg

全球鸟类数量正在以惊人的速度下降,已知或疑似约 48% 的现存鸟类数量正在下降。例如,美国和加拿大报告的鸟类数量自 1970 年以来减少了29%。

有效监测鸟类种群对于制定促进保护的解决方案至关重要。监测可以让研究人员更好地了解特定鸟类种群问题的严重程度,并评估现有的干预措施是否有效。为了扩大监测规模,鸟类研究人员已经开始使用鸟类声音记录远程分析生态系统,而不是通过被动声学监测进行现场物理分析。研究人员可以使用远程录音设备收集数千小时的音频,然后使用机器学习 (ML) 技术来处理数据。虽然这是一个令人兴奋的进展,但由于鸟类物种多样性较高且鸟类声音重叠,现有的 ML 模型在处理热带生态系统音频数据时遇到了困难。

需要注释的音频数据来了解现实世界中的模型质量。然而,创建高质量的注释数据集(尤其是对于生物多样性高的地区)可能既昂贵又繁琐,通常需要专家分析师花费数十个小时的时间来注释一小时的音频。此外,现有的注释数据集很少见,仅覆盖一小片地理区域,例如Sapsucker 森林或秘鲁雨林。世界上仍有数千个独特的生态系统需要分析。

为了解决这个问题,在过去 3 年中,我们与专注于高影响力生态学的专业组织合作,在Kaggle上举办了 ML 竞赛。在每场比赛中,参赛者面临的挑战是构建 ML 模型,该模型可以从生态特定的数据集中获取声音,并通过声音准确识别鸟类。最好的参赛者可以用有限的训练数据训练出可靠的分类器。去年的比赛重点关注夏威夷鸟类,它们是世界上最濒危的鸟类之一。

2023 年 BirdCLEF ML 竞赛

今年,我们与康奈尔鸟类学实验室的 K. Lisa Yang 保护生物声学中心和NATURAL STATE合作举办了2023 年 BirdCLEF ML 竞赛,重点关注肯尼亚鸟类。总奖金池为 50,000 美元,参赛截止日期为 2023 年 5 月 17 日,最终提交截止日期为 2023 年 5 月 24 日。有关要使用的数据集、时间表和规则的详细信息, 请参阅竞赛网站。

肯尼亚是1,000 多种鸟类的 家园,覆盖了广泛的生态系统,从马赛马拉的大草原到卡卡梅加雨林,甚至乞力马扎罗山和肯尼亚山的高山地区。使用机器学习追踪如此众多的物种可能具有挑战性,尤其是在许多物种可用的训练数据非常有限的情况下。

NATURAL STATE 正在肯尼亚北部山区周围的试点地区开展工作,以测试各种管理制度和退化状态对牧场系统中鸟类生物多样性的影响。通过使用在本次竞赛范围内开发的机器学习算法,NATURAL STATE 将能够证明这种方法在衡量修复项目的成功性和成本效益方面的有效性。此外,以经济高效的方式监测修复工作对生物多样性的影响的能力将使 NATURAL STATE 能够测试和建立一些首批以生物多样性为重点的金融机制,以将急需的投资引导到许多人赖以生存的这片土地的修复和保护中。这些工具对于以经济高效的方式将该项目扩展到项目区域之外并实现大规模恢复和保护地球的愿景是必不可少的。

在之前的比赛中,我们使用了F1 分数之类的指标,这需要为模型选择特定的检测阈值。这需要付出巨大的努力,并且很难评估底层模型的质量:好的模型上的坏阈值策略可能会表现不佳。今年我们使用无阈值的模型质量指标:类平均平均精度。该指标将每种鸟类的输出视为单独的二元分类器,以计算每种鸟类的平均AUC 分数,然后对这些分数取平均值。切换到未校准的指标应该会更加关注核心模型的质量,因为无需选择特定的检测阈值。

如何开始

这将是第一个 Kaggle 竞赛,参赛者可以使用最近推出的Kaggle Models平台,该平台提供 2,300 多个公共预训练模型,包括大多数TensorFlow Hub模型。这一新资源将与 Kaggle 的其他部分进行深度集成,包括Kaggle 笔记本、数据集和竞赛。

如果您有兴趣参加本次比赛,那么快速入门的一个好方法是使用我们最近开源的鸟类发声分类器模型,该模型可在 Kaggle Models 上找到。这种全球鸟类嵌入和分类模型为超过 10,000 种鸟类提供了输出逻辑,还创建了可用于其他任务的嵌入向量。按照下图所示的步骤在 Kaggle 上使用鸟类发声分类器模型。

要在 Kaggle 上尝试该模型,请导航到此处的模型。1 )单击“新笔记本”;2 )单击“复制代码”按钮复制加载模型所需的示例代码行;3)单击“添加模型”按钮将此模型作为数据源添加到您的笔记本;4)将示例代码粘贴到编辑器中以加载模型。

另外,竞赛入门笔记本包含模型和额外的代码,以便更轻松地生成竞赛提交内容。

我们邀请研究界考虑参加BirdCLEF 竞赛。我们希望通过这项努力,研究人员和保护从业者能够更轻松地调查鸟类种群趋势并制定有效的保护策略。

致谢

汇编这些海量数据集是一项艰巨的任务,我们非常感谢众多领域专家帮助收集和手动注释本次比赛的数据。具体来说,我们要感谢(按字母顺序排列的机构和个人贡献者):Brain 团队的 Julie Cattiau 和 Tom Denton、开姆尼茨工业大学的 Maximilian Eibl 和 Stefan Kahl 、康奈尔鸟类学实验室 K. Lisa Yang 保护生物声学中心的Stefan Kahl 和 Holger Klinck 、 LifeCLEF的 Alexis Joly 和 Henning Müller 、 NATURAL STATE的 Jonathan Baillie 、 OekoFor GbR的 Hendrik Reers、Alain Jacot 和 Francis Cherutich以及xeno-canto的 Willem-Pier Vellinga 。我们还要感谢康奈尔鸟类学实验室的 Ian Davies 允许我们在本文中使用英雄形象。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论