在开放图像扩展数据集中向更具包容性的人物注释迈进了一步

2016 年,我们推出了 Open Images,这是一个协作发布的约 900 万张图像,这些图像带有涵盖数千个对象类别的图像标签和 600 个类别的边界框注释。从那时起,我们进行了多次更新,包括向Open Images Extended集合发布众包数据以提高对象注释的多样性。虽然这些数据集提供的标签很广泛,但它们并未关注人的敏感属性,而这些属性对于许多机器学习 (ML)公平性任务至关重要,例如公平性评估和偏见缓解。事实上,找到包含此类敏感属性的完整标签的数据集很困难,尤其是在计算机视觉领域。

今天,我们在 Open Images Extended 合集中引入了更具包容性的人物注释(MIAP) 数据集。该合集包含10 万张包含人物的图像中人物类别层次结构的更完整边界框注释。每个注释还标有与公平相关的属性,包括感知的性别表现和感知的年龄范围。随着人们越来越关注减少不公平偏见作为负责任的 AI 研究的一部分,我们希望这些注释能够鼓励已经利用 Open Images 的研究人员将公平分析纳入他们的研究中。

1728749518591.jpg

MIAP 中新框的示例。每个子图中的洋红色框来自原始 Open Images 数据集,而黄色框是 MIAP 数据集添加的附加框。原始照片来源 —左: 波士顿公共图书馆;中: jen robinson;右: Garin Fons ;

开放图像中的注释

原始 Open Images 数据集中的每幅图像都包含图像级注释,这些注释广泛描述了图像和围绕特定对象绘制的边界框。为了避免在同一对象周围绘制多个框,会从标签候选集中临时删除不太具体的类别,我们将这一过程称为分层去重。例如,带有标签动物、猫和洗衣机 的图像具有针对猫和洗衣机 的边界框注释,但没有针对冗余类别动物 的边界框注释。

MIAP 数据集涵盖了原始 Open Images 数据集中人物层次结构 的五个类别:人物、男人、女人、男孩、女孩。这些标签的存在使得 Open Images 数据集对于推动负责任的 AI 的研究具有独特的价值,使人们能够训练通用人物检测器,并可以使用特定于性别和年龄范围的标签来进行公平性分析和偏见缓解。

然而,我们发现,分层去重和社会强加的“女人/女孩”和“男人/男孩”之间的区别给原始注释带来了局限性。例如,如果要求注释者为“女孩”类别画框,他们不会在图像中的男孩周围画框。他们可能会或可能不会在女人周围画框,这取决于他们对个人年龄的评估以及他们对女孩概念的文化理解。这些决定可能会在不同图像之间不一致地应用,具体取决于个人注释者的文化背景、个人的外貌和场景环境。因此,一些图像中的边界框注释不完整,一些看起来很突出的人没有被注释。

MIAP 中的注释

新的 MIAP 注释 旨在解决这些限制,并履行 Open Images 作为数据集的承诺,这将推动机器学习公平性研究取得新的进展。我们不是要求注释者为层次结构中最具体的类别(例如,女孩)绘制边界框,而是反转了该过程,始终请求与性别和年龄无关的人员类别的边界框。然后,所有人员框分别与感知的性别表现(以女性为主、以男性为主或未知)和年龄表现(年轻、中年、老年或未知)的标签相关联。我们认识到性别不是二元的,个人的性别认同可能与他们感知或想要的性别表现不符,为了减轻无意识偏见对注释的影响,我们提醒注释者,性别表达的规范因文化而异,并且会随着时间而改变。

此过程添加了大量先前缺失的盒子。

在包含人物的 10 万张图像中,人物边界框的数量从约 358k 增加到约 454k。每个感知性别表现和感知年龄表现的边界框数量持续增加。这些新注释为训练人物检测器提供了更完整的基本事实,并为将公平性纳入计算机视觉研究提供了更准确的子组标签。

1728749503969.jpg

原始 Open Images 和新 MIAP 数据集之间的人体边界框数量比较。

预期用途

我们在人物边界框中 添加了感知年龄范围和性别表现的注释,因为我们认为这些注释对于提高更好地理解、努力减轻和消除图像理解领域内受保护子群体之间的不公平偏见或不同表现的能力是必不可少的。我们注意到,标签仅根据视觉线索捕获第三方评估的性别和年龄范围表现,而不是个人自我认定的性别或实际年龄。我们不支持或纵容构建或部署根据这些注释训练的性别和/或年龄表现分类器,因为我们认为在公平性研究之外使用这些技术的 风险大于任何潜在好处。

致谢

这项工作的核心团队包括 Utsav Prabhu、Vittorio Ferrari 和 Caroline Pantofaru。我们还要感谢 Alex Hanna、Reena Jana、Alina Kuznetsova、Matteo Malloci、Stefano Pellegrini、Jordi Pont-Tuset 和 Mahima Pushkarna 为该项目做出的贡献。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论