重写图像标题以创建视觉问答数据

1726672888099.jpg

视觉问答(VQA) 是一项实用的机器学习 (ML) 任务,需要模型来回答有关图像的视觉问题。它的挑战性在于其多任务和开放性;它涉及同时解决计算机视觉和自然语言理解中的多个技术研究问题。然而,这项任务的进展将实现广泛的应用,从协助盲人和视障人士或与机器人交流,到利用外部知识增强用户的视觉体验。

如果没有高质量、语义和风格多样化的大规模图像-问题-答案三元组训练数据,有效且强大的 VQA 系统就无法存在。但是,创建这样的数据既耗时又繁重。也许并不令人意外的是,VQA 社区更专注于复杂的模型开发,而不是可扩展的数据创建。

在NAACL 2022上发表的 《VQA 可能需要的所有东西都是图像标题》中,我们通过提出“带有问答验证的视觉问题生成”(VQ 2 A)来探索 VQA 数据生成,该流程通过将声明性标题重写为多个疑问问答对来工作。更具体地说,我们利用两个现有资产——(i)大规模图像文本数据和(ii)大容量神经文本到文本模型——来实现自动 VQA 数据生成。随着该领域的发展,研究界一直在单独使这些资产变得更大、更强大(用于一般目的,例如学习纯文本或图像文本表示);将它们结合起来,可以实现更多目标,我们将它们调整为 VQA 数据创建目的。我们发现我们的方法可以高精度地生成问答对,并且可以成功使用这些数据来训练 VQA 模型以提高性能。

VQ2A技术通过将每个图像标题重写为多个问答对,实现了从图像标题大规模生成 VQA 数据。

VQ 2概述

VQ 2 A 方法 的第一步是应用基于命名实体识别、词性标记和手动定义规则的启发式方法,从图像标题中生成候选答案。这些生成的候选答案是一些小信息,可能是提出问题的相关主题。我们还向此列表添加了两个默认答案“是”和“否”,这使我们能够生成布尔问题。

然后,我们使用经过微调的T5模型为候选人生成问题,从而得到 [问题,候选答案] 对。然后,我们使用另一个 T5 模型(经过微调以回答问题)筛选出质量最高的对,方法是让该模型根据标题回答问题。也就是说,我们将候选答案与该模型的输出进行比较,如果两个答案足够相似,我们将这个问题定义为高质量并保留它。否则,我们将其过滤掉。

使用问答和问题生成模型来相互检查往返一致性的想法之前已在其他情况下进行了探索。例如,Q 2使用这个想法来评估知识型对话中的事实一致性。最后,如下所示的 VQ 2 A 方法可以生成大量 [图像、问题、答案] 三元组,这些三元组的质量足够高,可以用作 VQA 训练数据。

VQ 2 A 包含三个主要步骤:(i)候选答案提取,(ii)问题生成,(iii)问题回答和答案验证。

结果

下面显示了我们生成的 VQA 数据的两个示例,一个基于人工编写的COCO 字幕(COCO),另一个基于自动收集的概念字幕(CC3M),我们分别将其称为 VQ 2 A-COCO 和 VQ 2 A-CC3M。我们强调了问题类型和风格的多样性,这对 VQA 至关重要。总体而言,字幕越干净(即它们与配对图像的相关性越紧密),生成的三元组就越准确。基于 800 个样本,人类评分者发现 87.3% 的 VQ 2 A-COCO 和 66.0% 的 VQ 2 A-CC3M 有效,这表明我们的方法可以生成高精度的问答对。

根据COCO 标题(顶部)和概念标题(底部)生成的问答对。灰色突出显示表示未出现在VQAv2中的问题,而绿色突出显示表示出现的问题,这表明我们的方法能够生成现有 VQA 数据集所没有的新问题。

最后,我们使用生成的数据来训练 VQA 模型,从而对其进行评估(如下所示)。我们观察到,我们自动生成的 VQA 数据与手动注释的目标VQA 数据相比具有竞争力。首先,当仅使用我们生成的数据进行训练时,我们的 VQA 模型在目标基准上“开箱即用”地实现了高性能(浅蓝色和浅红色 vs. 黄色)。一旦对目标数据进行微调,我们的 VQA 模型在 VQAv2和GQA等大规模基准上的表现略优于仅使用目标进行训练,但在小型、寻求知识的OK-VQA上的表现则明显优于后者(深蓝色/红色 vs. 浅蓝色/红色)。

VQA 在流行基准数据集上的准确度。

结论

VQA 所需的只是图像说明!这项工作表明,可以自动大规模生成高质量的 VQA 数据,作为 VQA 和一般视觉与语言模型(例如ALIGN、CoCa)的基本构建块。我们希望我们的工作能够启发其他以数据为中心的 VQA 工作。

致谢

我们感谢 Roee Aharoni、Idan Szpektor 和 Radu Soricut 对这篇博文的反馈。我们还感谢我们的合著者:Xi Chen、Nan Ding、Idan Szpektor 和 Radu Soricut。我们感谢 Or Honovich、Hagai Taitelbaum、Roee Aharoni、Sebastian Goodman、Piyush Sharma、Nassim Oufattole、Gal Elidan、Sasha Goldshtein 和 Avinatan Hassidim 的贡献。最后,我们感谢Q 2的作者,他们的流程对这项工作产生了很大的影响。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论