锁定图像调整:为图像模型添加语言理解

1726809367917.jpg

深度学习改变了将图像分类的能力。迁移学习也大大加快了这一速度。迁移学习首先在大型数据集(如ImageNet)上对模型进行预训练,以学习视觉表征,然后通过微调将其迁移到数据较少的新任务(例如对动物进行分类)。BiT和ViT等先前的研究采用了这些方法,在各种分类任务(如VTAB 基准)上取得了最先进的性能。

然而,微调有一些缺点:虽然预训练只进行一次,但是必须对每个需要特定于任务的数据的新数据集进行微调。多模态对比学习是一种替代的、最近流行的范式(例如,CLIP、ALIGN),它通过学习如何将自由格式的文本与图像匹配来克服这些问题。然后,这些模型可以通过将新任务重新表述为图像-文本匹配问题来解决新任务,而无需额外的数据(称为“零样本”学习)。对比学习灵活且易于适应新任务,但也有其自身的局限性,即需要大量成对的图像-文本数据并且性能不如迁移学习方法。

考虑到这些限制,我们提出了“ LiT:带锁定图像文本调整的零样本迁移”,该方案将于CVPR 2022上亮相。LiT 模型学习将文本与已经预先训练过的图像编码器进行匹配。这种简单而有效的设置兼具了两全其美的优势:来自预训练的强大图像表示,以及通过对比学习灵活地将零样本迁移到新任务。LiT 实现了最先进的零样本分类准确率,大大缩小了两种学习方式之间的差距。我们认为最好的理解方式是亲自尝试,因此我们在本文末尾附上了 LiT 模型的演示。

微调(左)需要特定于任务的数据和训练,以使预训练模型适应新任务。LiT 模型(右)可用于任何任务,无需进一步的数据或调整。

图像文本数据的对比学习

对比学习模型从“正”和“负”例子中学习表示,使得“正”例子的表示彼此相似但与“负”例子不同。

多模态对比学习将其应用于图像和相关文本对。图像编码器从图像计算表示,文本编码器对文本执行相同操作。鼓励每个图像表示接近其相关文本的表示(“正”),但与数据中其他文本的表示(“负”)不同,反之亦然。这通常是使用随机初始化模型(“从头开始”)完成的,这意味着编码器必须同时学习表示以及如何匹配它们。

多模态对比学习训练模型为紧密匹配的图像和文本产生相似的表示。

这种训练可以在网络上自然出现的嘈杂、松散对齐的图像和文本对上进行。这避免了手动标记的需要,并使数据扩展变得容易。此外,该模型学习了更丰富的视觉概念——它不受分类标签空间中定义的内容的限制。它不是将图像归类为“咖啡”,而是可以理解它是“白色杯子中的小杯浓缩咖啡”还是“红色瓶子中的大杯拿铁”。

训练完成后,将图像和文本对齐的模型可以以多种方式使用。对于零样本分类,我们将类名的图像表征与文本表征进行比较。例如,可以通过计算文本“ jaguar ”和“ wombat ”的表征来构建“wombat vs jaguar”分类器,如果图像的表征与前者更匹配,则将图像归类为美洲虎。这种方法可以扩展到数千个类别,并且可以轻松解决分类任务,而无需微调所需的额外数据。对比模型的另一个应用是图像搜索(又名图像-文本检索),通过查找表征与给定文本最匹配的图像,反之亦然。

锁定图像调优,两全其美

如前所述,迁移学习实现了最先进的准确率,但需要每个任务的标签、数据集和训练。另一方面,对比模型灵活、可扩展且易于适应新任务,但性能不足。相比之下,在撰写本文时,使用迁移学习的 ImageNet 分类的最新水平为90.94%,但最好的对比零样本模型实现了76.4%。

LiT 调优弥补了这一缺陷:我们对比训练文本模型,使其计算出的表征与预训练图像编码器提供的强大表征非常吻合。重要的是,为了使其正常工作,图像编码器应该“锁定”,即:在训练期间不应更新。这可能不符合直觉,因为人们通常希望通过进一步训练获得额外的信息来提高性能,但我们发现锁定图像编码器始终会带来更好的结果。

LiT-tuning 对比训练文本编码器以匹配预先训练的图像编码器。文本编码器学习计算与图像编码器的表示一致的表示。

这可以被视为传统微调阶段的替代方案,其中图像编码器分别适应每个新的分类任务;相反,我们有一个 LiT 调整阶段,之后模型可以对任何数据进行分类。经过 LiT 调整的模型在 ImageNet 分类中实现了 84.5% 的零样本准确率,与以前从头开始训练模型的方法相比有显著的改进,并将微调和对比学习之间的性能差距缩小了一半。

左图:LiT-tuning 显著缩小了最佳对比模型和使用标签微调的最佳模型之间的差距。右图:使用预先训练的图像编码器始终是有帮助的,但令人惊讶的是,锁定它是成功的关键部分;解锁图像模型(虚线)的性能明显较差。

对比模型的一个显著优势是增强了鲁棒性——它们在通常欺骗微调模型(例如ObjectNet和ImageNet-C)的数据集上保持了高精度。同样,经过 LiT 调整的模型在各种具有挑战性的 ImageNet 版本中都具有高性能,例如在 ObjectNet 上实现了最先进的 81.1% 的准确率。

LiT-tuning 还有其他优势。虽然之前的对比研究需要大量数据并需要长时间训练,但 LiT 方法所需的数据要少得多。在 2400 万个公开可用的图像文本对上训练的 LiT 模型的零样本分类性能可与在 4 亿个私有数据的图像文本对上训练的先前模型相媲美。锁定的图像编码器还可以以更小的内存占用实现更快的训练。在更大的数据集上,可以预先计算图像表示;在训练期间不运行图像模型可以进一步提高效率,还可以解锁更大的批量大小,这增加了模型看到的“负片”数量,这是高性能对比学习的关键。该方法适用于各种形式的图像预训练(例如,包括自监督学习)以及许多公开可用的图像模型。我们希望这些优势使 LiT 成为研究人员的绝佳试验台。

结论

我们提出了 Locked-image Tuning (LiT),它对比训练文本编码器以匹配来自强大的预训练图像编码器的图像表示。这种简单的方法数据和计算效率高,与现有的对比学习方法相比,可以显著提高零样本分类性能。

想亲自尝试一下吗?

演示预览:使用它将自由格式的文本描述与图像进行匹配并构建您自己的零样本分类器!

我们准备了一个小型交互式演示来尝试一些 LiT 调优模型。我们还提供了一个Colab,其中包含更高级的用例和更大的模型,这是一个很好的入门方式。

致谢

我们要感谢共同撰写 LiT 论文并参与其开发各个方面的 Xiaohua Zhai、Xiao Wang、Daniel Keysers、Alexander Kolesnikov 和 Lucas Beyer,以及苏黎世的 Brain 团队。我们还要感谢 Tom Small 制作了本博文中使用的动画。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论