Pic2Word:将图片映射到单词以进行零样本组合图像检索

GWBJ2`DV66ZY{JL[G5F7572.png

图像检索在搜索引擎中起着至关重要的作用。通常,用户依靠图像或文本作为查询来检索所需的目标图像。但是,基于文本的检索有其局限性,因为使用文字准确描述目标图像可能具有挑战性。例如,在搜索时尚物品时,用户可能想要一件特定属性(例如徽标的颜色或徽标本身)与他们在网站上找到的物品不同的物品。然而,在现有搜索引擎中搜索该物品并不是一件容易的事,因为用文字准确描述时尚物品可能具有挑战性。为了解决这一问题,组合图像检索(CIR) 根据结合图像和文本样本的查询来检索图像,该文本样本提供有关如何修改图像以适应预期检索目标的说明。因此,CIR 允许通过结合图像和文本来精确检索目标图像。

然而,CIR 方法需要大量标记数据,即 1) 查询图像、2) 描述和 3) 目标图像的三元组。收集此类标记数据的成本很高,并且基于这些数据训练的模型通常针对特定用例进行量身定制,从而限制了它们推广到不同数据集的能力。

为了应对这些挑战,我们在“ Pic2Word:将图片映射到文字以实现零样本组合图像检索”中提出了一项称为零样本 CIR (ZS-CIR) 的任务。在 ZS-CIR 中,我们旨在构建一个单一的 CIR 模型,该模型可执行各种 CIR 任务,例如对象组合、 属性编辑或域转换,而无需标记的三元组数据。相反,我们建议使用大规模图像-标题对和未标记图像来训练检索模型,这些图像比大规模监督 CIR 数据集更容易收集。为了鼓励可重复性并进一步推进这一领域,我们还发布了代码。

现有的组合图像检索模型的描述。

我们仅使用图像说明数据来训练合成图像检索模型。我们的模型检索与查询图像和文本的合成一致的图像。

方法概述

我们建议在对比语言图像预训练模型(CLIP) 中利用语言编码器的语言功能,该模型擅长为各种文本概念和属性生成语义上有意义的语言嵌入。为此,我们在 CLIP 中使用了一个轻量级映射子模块,旨在将输入图片(例如,猫的照片)从图像嵌入空间映射到文本输入空间中的单词标记(例如,“猫”)。整个网络通过视觉语言对比损失进行优化,以再次确保在给定一对图像及其文本描述的情况下,视觉和文本嵌入空间尽可能接近。然后,可以将查询图像视为一个单词。这使得语言编码器能够灵活无缝地组合查询图像特征和文本描述。我们将我们的方法称为 Pic2Word,并在下图中概述了它的训练过程。我们希望映射的标记s以单词标记的形式表示输入图像。然后,我们训练映射网络来重建语言嵌入p中的图像嵌入。具体来说,我们优化了 CLIP 中提出的对比损失,该损失在视觉嵌入v和文本嵌入p之间计算。

仅使用未标记的图像训练映射网络(fM )。我们仅使用冻结的视觉和文本编码器优化映射网络。

给定训练好的映射网络,我们可以将图像视为一个单词标记,并将其与文本描述配对,以灵活地组成联合图像-文本查询,如下图所示。

通过训练好的映射网络,我们将图像视为一个单词标记,并将其与文本描述配对,以灵活地组成联合图像-文本查询。

评估

我们进行了各种实验来评估 Pic2Word 在各种 CIR 任务上的表现。

域转换

我们首先评估所提方法在域转换上的合成能力——给定一个图像和所需的新图像域(例如雕塑、折纸、卡通、玩具),系统的输出应该是具有相同内容但属于新的所需图像域或风格的图像。如下所示,我们分别评估将给定的类别信息和域描述合成为图像和文本的能力。我们使用ImageNet和ImageNet-R评估从真实图像到四个域的转换。

为了与不需要监督训练数据的方法进行比较,我们选择了三种方法:(i)仅图像仅使用视觉嵌入执行检索,(ii)仅文本仅使用文本嵌入,以及 (iii)图像 + 文本平均视觉和文本嵌入以组成查询。与 (iii) 的比较显示了使用语言编码器组合图像和文本的重要性。我们还与Combiner进行了比较,后者在Fashion-IQ或CIRR上训练 CIR 模型。

我们的目标是将输入查询图像的域转换为用文本描述的域,例如折纸。

如下图所示,我们提出的方法大大优于基线。

用于域转换的组合图像检索的结果(召回率@10,即检索到的前 10 张图像中相关实例的百分比)。

时尚属性构成

接下来,我们使用Fashion-IQ数据集 评估时尚属性的组成,例如衣服的颜色、徽标和袖子的长度。下图说明了查询所需的输出。

时尚属性的 CIR 概述。

在下图中,我们展示了与基线的比较,包括利用三元组训练 CIR 模型的监督基线:(i) CB使用与我们的方法相同的架构,(ii) CIRPLANT、ALTEMIS、MAAF使用较小的主干,例如 ResNet50。与这些方法的比较将使我们了解我们的零样本方法在此任务上的表现如何。

尽管 CB 的表现优于我们的方法,但我们的方法比具有较小主干的监督基线表现更好。这一结果表明,通过利用强大的 CLIP 模型,我们可以训练出高效的 CIR 模型,而无需注释三元组。

Fashion-IQ 数据集的组合图像检索结果(召回率@10,即检索到的前 10 张图像中相关实例的百分比)(越高越好)。浅蓝色条使用三元组训练模型。请注意,我们的方法与这些具有浅(较小)主干的监督基线相当。

定性结果

下图中我们展示了几个例子。与不需要监督训练数据(文本 + 图像特征平均)的基线方法相比,我们的方法在正确检索目标图像方面做得更好。

对不同查询图像和文本描述的定性结果。

结论和未来工作

在本文中,我们介绍了 Pic2Word,一种将图片映射到 ZS-CIR 的单词的方法。我们建议将图像转换为单词标记,以仅使用图像标题数据集来实现 CIR 模型。通过各种实验,我们验证了训练模型在各种 CIR 任务上的有效性,表明在图像标题数据集上进行训练可以构建强大的 CIR 模型。一个潜在的未来研究方向是利用标题数据来训练映射网络,尽管我们在目前的工作中只使用图像数据。

致谢

这项研究由 Kuniaki Saito、Kihyuk Sohn、Xiang Zhang、Chun-Liang Li、Chen-Yu Lee、Kate Saenko 和 Tomas Pfister 进行。同时感谢 Zizhao Zhang 和 Sergey Ioffe 提供的宝贵反馈。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论