Open Images V7 — 现在具有点标签

1726077200254.jpg

Open Images是一个计算机视觉数据集,涵盖约 900 万张图像,标签涵盖数千个对象类别。世界各地的研究人员使用 Open Images 来训练和评估计算机视觉模型。自2016 年首次发布Open Images(其中包含涵盖 6000 个类别的图像级标签)以来,我们已多次更新以丰富注释并扩展数据集的潜在用例。通过多次发布,我们在所有图像上添加了超过 20000 个类别的图像级标签,并在 190 万张图像的子集上添加了边界框注释、视觉关系、实例分割和本地化叙述(同步语音、鼠标轨迹和文本标题)。

今天,我们很高兴地宣布发布Open Images V7 ,它通过一种称为点级标签的新注释类型进一步扩展了 Open Images 数据集,并包含一个新的一体化可视化工具,可以更好地探索丰富的可用数据。

点标签

收集新的点级标签注释的主要策略是利用机器学习 (ML) 模型和人工验证的建议。首先,ML 模型选择兴趣点并提出是或否的问题,例如“这个点在南瓜上吗?”。然后,人工注释者平均花费 1.1 秒回答是或否问题。我们汇总了不同注释者对同一问题的回答,并为每个注释点分配最终的“是”、“否”或“不确定”标签。

注释界面的插图。

对于每张带注释的图像,我们提供一组点,每个点都带有给定类别的“是”或“否”标签。这些点提供了可用于语义分割任务的稀疏信息。我们总共收集了 3860 万个新点注释(1240 万个带有“是”标签),涵盖 5800 个类别和 140 万张图像。

通过关注点标签,我们扩大了注释图像的数量和覆盖的类别。我们还集中了注释者的努力来高效收集有用信息。与我们的实例分割相比,新的点包含的类别增加了 16 倍,覆盖的图像也增加了 9 倍。与现有的分割数据集(如PASCAL VOC、COCO、Cityscapes、LVIS或ADE20K )相比,我们的注释比以前的工作覆盖了更多的类别和图像。新的点标签注释是 Open Images 中第一种提供事物(可数物体,如汽车、猫和双体船)和物品类别(不可数物体,如草、花岗岩和砾石)的定位信息的注释类型。总体而言,新收集的数据大致相当于两年的人工注释工作。

我们的初步实验表明,这种类型的稀疏数据既适合训练也适合评估分割模型。直接在稀疏数据上训练模型可以让我们达到与在密集注释上训练相当的质量。同样,我们表明可以直接计算稀疏数据上的传统语义分割交并比(IoU) 指标。不同方法之间的排名得以保留,稀疏 IoU 值是其密集版本的准确估计。有关更多详细信息, 请参阅我们的论文。

下面,我们展示了四幅示例图像及其点级标签,以说明这些注释提供的丰富多样的信息。圆圈⭘ 表示“是”标签,方块☐表示“否”标签。

带有点级标签的四个示例图像。

新的可视化工具

除了新发布的数据外,我们还扩展了Open Images 注释的可用可视化功能。Open Images 网站现在包含专用的可视化工具,用于探索局部叙述注释、新的点级注释和新的一体化视图。这种新的一体化视图适用于 190 万张密集注释图像的子集,并允许人们探索 Open Images 在七个版本中积累的丰富注释。平均而言,这些图像每张图像有 6.7 个图像标签(类)、8.3 个框、1.7 个关系、1.5 个掩码、0.4 个局部叙述和 34.8 个点标签的注释。

下面,我们在一体化可视化工具中展示了两个带有各种注释的示例图像。这些图显示了图像级标签、边界框、框关系、实例掩码、局部叙述鼠标轨迹和标题以及点级标签。+类具有正注释(任何类型),而-类只有负注释(图像级或点级)。

一体式可视化工具中的两个示例图像带有各种注释。

结论

我们希望此次发布的新数据能够让计算机视觉研究覆盖更加多样化和更具挑战性的场景。随着自动语义分割模型的质量相对于常见类别不断提高,我们希望向视觉概念的长尾方向发展,而稀疏点注释是朝着这个方向迈出的一步。越来越多的研究正在探索如何使用这种稀疏注释(例如,作为实例分割或语义分割的监督),而 Open Images V7 为这一研究方向做出了贡献。我们期待看到您接下来会构建什么。

致谢

感谢Vittorio Ferrari、Jordi Pont-Tuset、Alina Kuznetsova、Ashlesha Sadras 和注释团队对创建此新数据发布的支持。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论