介绍 Google 通用图像嵌入挑战

1726316637744.jpg

计算机视觉模型每天都会应用于各种各样的任务,从对象识别到基于图像的 3D 对象重建。实例级识别 (ILR)是计算机视觉问题中一种具有挑战性的类型— 给定一个对象的图像,任务不仅要确定对象的通用类别(例如拱门),还要确定对象的具体实例(“法国巴黎凯旋门”)。

以前,ILR 是使用深度学习方法解决的。首先,收集大量图像。然后训练一个深度模型,将每幅图像嵌入到高维空间中,其中相似的图像具有相似的表示。最后,该表示用于解决与分类(例如,使用在嵌入之上训练的浅层分类器)或检索(例如,在嵌入空间中 使用最近邻搜索)相关的 ILR 任务。

由于世界上有许多不同的对象域,例如地标、产品或艺术品,因此将它们全部捕获到单个数据集中并训练可以区分它们的模型是一项相当具有挑战性的任务。为了将问题的复杂性降低到可管理的水平,迄今为止的研究重点是一次解决单个域的 ILR。为了推进该领域的研究,我们举办了多场 Kaggle 竞赛,重点是地标图像的识别和检索。2020 年,亚马逊加入了这项工作,我们超越了地标领域,扩展到艺术品和产品实例识别领域。下一步是将 ILR 任务推广到多个领域。

为此,我们很高兴地宣布,由Kaggle与Google Research和Google Lens联合主办的Google 通用图像嵌入挑战赛将举行。在本次挑战赛中,我们要求参赛者构建一个通用图像嵌入模型,该模型能够在实例级别表示来自多个域的对象。我们相信,这是现实世界视觉搜索应用的关键,例如增强博物馆中的文化展品、组织照片集、视觉商务等。

数据集中表示的一些领域的对象实例的图像1 :服装和配饰、家具和家居用品、玩具、汽车、地标、餐具、艺术品和插图。

不同领域的变异程度

为了表示来自大量领域的对象,我们需要一个模型来学习许多特定领域的子任务(例如,过滤不同类型的噪音或关注特定细节),而这些子任务只能从语义和视觉上多样化的图像集合中学习。解决每个程度的变化对图像收集和模型训练都提出了新的挑战。

第一种变化源于这样一个事实:虽然某些领域包含世界上独一无二的物体(地标、艺术品等),但其他领域包含的物体可能有很多副本(衣服、家具、包装商品、食品等)。由于地标总是被放置在同一个位置,因此周围的环境可能对识别有用。相比之下,即使是特定型号和颜色的产品(例如手机),也可能有数百万个物理实例,因此会出现在许多周围环境中。

另一个挑战是,单个物体可能会因视角、光照条件、遮挡或变形而看起来不同(例如,穿在人身上的衣服可能与挂在衣架上看起来非常不同)。为了让模型学习所有这些视觉模式的不变性,训练数据应该捕捉所有这些模式。

此外,不同领域中对象之间的相似性也不同。例如,为了使表示在产品领域有用,它必须能够区分属于两个不同品牌的类似产品之间的非常精细的细节。然而,在食品领域,两位厨师烹制的同一道菜(例如意大利肉酱面)可能看起来完全不同,但模型区分意大利肉酱面与其他菜肴的能力可能足以使模型有用。此外,高质量的视觉模型应该将相似的表示分配给视觉上更相似的菜肴。

领域   地标   服饰

图像    

实例名称   帝国大厦2   带有 Android 徽标的骑行服3

哪些物理对象属于实例类?   全球首例   许多物理实例;大小或图案可能不同(例如,不同图案的布料剪裁不同)

该物体可能有哪些视图?   外观变化仅基于拍摄条件(例如照明或视点);常见外部视图数量有限;可能存在许多内部视图   可变形的外观(例如,磨损或未磨损);常见视图数量有限:正面、背面、侧面

周围环境如何?对于识别有用吗?   除了每日和每年的周期外,周围环境变化不大;可能有助于验证感兴趣的对象   由于环境差异、额外的衣物或配饰部分遮挡感兴趣的衣物(例如夹克或围巾),周围环境可能会发生巨大变化

哪些情况可能是不属于实例类的棘手情况?   地标复制品(例如拉斯维加斯的埃菲尔铁塔)、纪念品   同款服装,但材质或颜色不同;外观非常相似,但有一个细微的区别细节(例如,一个小的品牌标识);同一模特穿着的不同服装

地标和服装示例领域之间的差异。

学习多领域表征

创建涵盖各种领域的图像集合后,下一个挑战是训练一个通用的模型。某些特征和任务(例如表示颜色)在许多领域都很有用,因此添加来自任何领域的训练数据都可能有助于模型提高区分颜色的能力。其他特征可能更特定于选定的领域,因此添加更多来自其他领域的训练数据可能会降低模型的性能。例如,虽然对于 2D 艺术品来说,模型学习查找近似重复项可能非常有用,但这可能会降低服装的性能,因为需要识别变形和遮挡的实例。

需要学习的输入对象和任务种类繁多,因此需要采用新方法来选择、扩充、清理和加权训练数据。可能需要采用新方法来训练和调整模型,甚至可能需要采用新架构。

通用图像嵌入挑战

为了激励研究界应对这些挑战,我们举办了Google 通用图像嵌入挑战赛。该挑战赛于 7 月在Kaggle上启动,并将持续到 10 月,奖金总额为 5 万美元。获胜团队将被邀请在ECCV 2022 的实例级识别研讨会上展示他们的方法。

参与者将接受检索任务评估,该任务针对约 5,000 张测试查询图像和约 200,000 张索引图像的数据集,从中检索相似的图像。与包含分类标签的ImageNet 不同,此数据集中的图像是在实例级别标记的。

挑战赛的评估数据由以下领域的图像组成:服装和配饰、包装商品、家具和家居用品、玩具、汽车、地标、店面、菜肴、艺术品、模因和插图。

查询图像的域分布。

我们邀请研究人员和机器学习爱好者参加Google 通用图像嵌入挑战赛,并参加ECCV 2022 的实例级识别研讨会。我们希望挑战赛和研讨会能够推动多领域表示方面的最先进技术。

致谢

该项目的核心贡献者包括 Andre Araujo、Boris Bluntschli、Bingyi Cao、Kaifeng Chen、Mário Lipovský、Grzegorz Makosa、Mojtaba Seyedhosseini 和 Pelin Dogan Schönberger。我们要感谢 Sohier Dane、Will Cukierski 和 Maggie Demkin 帮助组织 Kaggle 挑战赛,以及我们的 ECCV 研讨会联合组织者 Tobias Weyand、Bohyung Han、Shih-Fu Chang、Ondrej Chum、Torsten Sattler、Giorgos Tolias、Xu Zhang、Noa Garcia、Guangxing Han、Pradeep Natarajan 和 Sanqiang Zhao。此外,我们还要感谢 Igor Bonaci、Tom Duerig、Vittorio Ferrari、Victor Gomes、Futang Peng 和 Howard Zhou,他们在该项目的各个阶段给予我们反馈、想法和支持。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论