流畅注释：一种基于机器学习的探索性界面，可实现更快的图像注释

lixia01 · 发表于 2024-12-5 09:17:35

现代基于深度学习的计算机视觉模型（例如由TensorFlow Object Detection API实现的模型）的性能取决于日益庞大的带标签训练数据集（例如Open Images）的可用性。然而，获取高质量的训练数据正迅速成为计算机视觉领域的一个主要瓶颈。对于自动驾驶、机器人和图像搜索等应用中使用的逐像素预测任务（例如语义分割）尤其如此。事实上，传统的手动标记工具需要注释者仔细点击边界来勾勒出图像中的每个对象，这非常繁琐：在COCO + Stuff数据集中标记单张图像需要 19 分钟，而标记整个数据集则需要超过 53,000 小时！
在2018 年 ACM 多媒体会议的Brave New Ideas专题上发表的“流畅注释：用于完整图像注释的人机协作界面”中，我们探索了一种由机器学习驱动的界面，用于注释图像中每个对象和背景区域的类标签和轮廓，将标记数据集的创建速度提高 3 倍。流畅注释从强大的语义分割模型的输出开始，人类注释者可以使用自然用户界面通过机器辅助编辑操作对其进行修改。我们的界面使注释者能够选择要纠正的内容和顺序，从而使他们能够有效地将精力集中在机器尚不知道的领域。
更准确地说，要注释图像，我们首先将其运行在预先训练的语义分割模型（Mask-RCNN）中。这将生成大约 1000 个图像片段，并带有类别标签和置信度分数。置信度最高的片段用于初始化呈现给注释者的标签。之后，注释者可以：（1）从机器生成的候选列表中选择，更改现有片段的标签。（2）添加一个片段来覆盖缺失的对象。机器会识别最有可能的预生成片段，注释者可以通过这些片段滚动并选择最佳片段。（3）删除现有片段。（4）更改重叠片段的深度顺序。
流畅注释是让图像注释更快、更简单的第一步探索。在未来的工作中，我们的目标是改进对象边界的注释，通过包含更多机器智能来加快界面速度，并最终扩展界面以处理以前未见过的类，这些类最需要高效的数据收集。
致谢
这项工作是与 Misha Andriluka 合作完成的。特别感谢 Christine Sugrue 创建了流畅注释演示。我们还要感谢 Anna Ukhanova 和 Damien Henry 的宝贵意见。

		自动登录	找回密码
密码			立即注册