F-VLM:基于冻结视觉和语言模型的开放词汇对象检测

1725275154256.jpg

检测是一项基本的视觉任务,旨在定位和识别图像中的物体。然而,手动注释边界框或实例蒙版的数据收集过程繁琐且成本高昂,这将现代检测词汇量的大小限制在大约 1,000 个对象类别。这比人们用来描述视觉世界的词汇量要小几个数量级,而且遗漏了许多类别。最近的视觉和语言模型 (VLM),如CLIP,通过从互联网规模的图像-文本对中学习,已经展示了改进的开放词汇视觉识别能力。这些 VLM 应用于零样本分类,使用冻结的模型权重,而无需微调,这与用于重新训练或微调 VLM 以进行开放词汇检测任务的现有范例形成鲜明对比。

直观地讲,为了在训练期间将图像内容与文本描述对齐,VLM 可以学习可迁移到物体检测的区域敏感和判别性特征。令人惊讶的是,冻结 VLM 的特征包含丰富的信息,这些信息既可以区域敏感地描述物体形状(下面第二列),又可以判别区域分类(下面第三列)。事实上,特征分组可以在没有任何监督的情况下很好地描绘物体边界。这促使我们探索将冻结 VLM 用于开放词汇物体检测,目标是将检测范围扩展到有限的注释类别集之外。

在ICLR 2023上发表的 “ F-VLM:基于冻结视觉和语言模型的开放词汇对象检测”中,我们介绍了一种基于冻结 VLM 的简单且可扩展的开放词汇检测方法。F-VLM 将开放词汇检测器的训练复杂度降低到标准检测器的训练复杂度以下,从而无需知识提炼、针对检测的预训练或弱监督学习。我们证明,通过完全保留预训练 VLM 的知识,F-VLM 保持了与ViTDet类似的理念,并将检测器特定的学习与检测器主干中与任务无关的视觉知识分离。我们还将在我们的项目页面上发布 F-VLM代码以及演示。

基于冻结视觉和语言模型的学习

我们希望尽可能地保留预训练 VLM 的知识,以尽量减少使其适应开放词汇检测所需的工作量和成本。我们使用冻结的 VLM 图像编码器作为检测器主干,并使用文本编码器来缓存离线数据集词汇的检测文本嵌入。我们采用这个 VLM 主干并连接一个检测器头,它可以预测要定位的对象区域并输出检测分数,该分数表示检测到的框属于某个类别的概率。检测分数是区域特征(检测器头输出的一组边界框)和类别文本嵌入的余弦相似度。类别文本嵌入是通过将类别名称输入预训练的 VLM(具有图像和文本模型)的文本模型而获得的。

VLM 图像编码器由两部分组成:1)特征提取器和 2)特征池化层。我们采用特征提取器进行检测头训练,这是我们训练的唯一步骤(在标准检测数据上),使我们能够直接使用冻结权重,从 VLM 主干中继承丰富的语义知识(例如,马提尼酒、软呢帽、三角旗等长尾类别)。检测损失包括框回归和分类损失。

区域级开放词汇识别

在区域级别(即边界框级别而不是图像级别)执行开放词汇识别的能力是 F-VLM 不可或缺的一部分。由于主干特征是冻结的,它们不会过度拟合训练类别(例如甜甜圈、斑马),可以直接裁剪以进行区域级分类。F-VLM 仅在测试时执行这种开放词汇分类。为了获得某个区域的 VLM 特征,我们在裁剪的主干输出特征上应用特征池化层。由于池化层需要固定大小的输入,例如ResNet50 (R50) CLIP主干为 7x7,我们使用ROI-Align 层裁剪和调整区域特征的大小(如下所示)。与现有的开放词汇检测方法不同,我们不会裁剪和调整 RGB 图像区域的大小,也不会在单独的离线过程中缓存它们的嵌入,而是在一个阶段中训练检测器头。这更简单,并且更有效地利用磁盘存储空间。此外,我们不会在训练期间裁剪 VLM 区域特征,因为主干特征被冻结。

尽管从未在区域上进行过训练,裁剪后的区域特征仍保持了良好的开放词汇识别能力。然而,我们观察到裁剪后的区域特征对区域的定位质量不够敏感,即松散定位的框与紧密定位的框都具有相似的特征。这可能有利于分类,但对于检测来说却是有问题的,因为我们需要检测分数来反映定位质量。为了解决这个问题,我们应用几何平均值将VLM 分数与每个区域和类别的检测分数相结合。VLM 分数表示根据预训练的 VLM,检测框属于某个类别的概率。检测分数表示基于区域特征和输入文本嵌入的相似性的每个框的类概率分布。

评估

我们将 F-VLM 应用于流行的LVIS开放词汇检测基准。在系统级,最好的 F-VLM在稀有类别 ( APr ) 上实现了 32.8 的平均精度(AP) ,比最先进的方法高出 6.5 个掩码 APr,并且比许多其他基于知识提炼、预训练或弱监督联合训练的方法更高。F-VLM 在冻结模型容量的情况下表现出强大的扩展属性,而可训练参数的数量是固定的。此外,F-VLM 通过简单地替换词汇表而无需对模型进行微调,在转移检测任务(例如,Objects365和Ego4D数据集)中实现了良好的泛化和扩展。我们在流行的Objects365数据集上测试了 LVIS 训练的模型,并证明该模型无需在域内检测数据上进行训练就能很好地工作。

测任务中的 F-VLM 进行了可视化(如下所示)。在 LVIS 和 Objects365 上,F-VLM 可以正确检测新对象和常见对象。开放词汇检测的一个主要优点是使用用户动态提供的类别对分布外的数据进行测试。有关LVIS、Objects365和Ego4D数据集的更多可视化,请参阅 F-VLM 论文。

训练效率

我们在下表中展示了 F-VLM 能够以更少的计算资源实现最佳性能。与最先进的方法相比, F-VLM 能够以少 226 倍的资源和快 57 倍的挂钟时间实现更好的性能。除了节省训练资源外,F-VLM 还可以通过在推理模式下运行主干,在训练时节省大量内存。F-VLM 系统在推理时的运行速度几乎与标准检测器一样快,因为唯一的增加是在检测到的区域特征上添加一个注意力池层。

方法     四月     训练阶段     培训成本

(每核小时)     节省培训成本     

索塔     26.3     460     8,000     1x     

氟化锂     32.8     118     565     14倍     

氟化锂     31.0     14.7     71     113x     

氟化锂     27.7     7.4     三十五     226x     

我们使用较短的Detectron2训练方案(12 和 36 个时期)提供了额外的结果,并通过使用冻结的主干表现出同样强大的性能。默认设置标记为灰色。

骨干     大规模抖动     #时代     批次大小     四月     

R50         12     16     18.1     

R50         三十六     64     18.5     

R50     ✓     100     256     18.6     

R50x64         12     16     31.9     

R50x64         三十六     64     32.6     

R50x64     ✓     100     256     32.8     

结论

我们提出了 F-VLM——一种简单的开放词汇检测方法,它利用冻结的预训练大型视觉语言模型的强大功能来检测新物体。这无需知识提炼、检测定制预训练或弱监督学习即可完成。我们的方法可显著节省计算资源,并且无需使用图像级标签。F-VLM 在系统级 LVIS 基准上实现了开放词汇检测的最新水平,并在其他数据集上表现出极具竞争力的迁移检测能力。我们希望这项研究既能促进新物体检测的进一步研究,又能帮助社区探索冻结 VLM 以用于更广泛的视觉任务。

致谢

这项工作由 Weicheng Kuo、Yin Cui、Xiuye Gu、AJ Piergiovanni 和 Anelia Angelova 完成。我们要感谢 Google Research 的同事提供的建议和有益的讨论。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论