通过迭代共标记实现高效的视频文本学习

1726316591009.jpg

视频是一种无处不在的媒体内容来源,涉及人们日常生活的诸多方面。现实世界的视频应用(例如视频字幕、视频内容分析和视频问答(VideoQA))越来越依赖于能够将视频内容与文本或自然语言连接起来的模型。然而,VideoQA 尤其具有挑战性,因为它需要掌握语义信息(例如场景中的对象)和时间信息(例如事物如何移动和交互),而这两者都必须在具有特定意图的自然语言问题的背景下进行。此外,由于视频有许多帧,因此处理所有帧以学习时空信息会非常耗费计算资源。尽管如此,理解所有这些信息可以使模型回答复杂的问题 — — 例如,在下面的视频中,关于倒入碗中的第二种配料的问题需要识别物体(配料)、动作(倒出)和时间顺序(第二)。

VideoQA 任务“倒入碗中的第二种配料是什么?”的示例输入问题,需要对视觉和文本输入有更深入的理解。该视频是50 Salads 数据集中的一个示例,根据Creative Commons 许可使用。

为了解决这个问题,在“使用迭代视频文本共同标记进行视频问答”中,我们引入了一种称为迭代共同标记的视频文本学习新方法,该方法能够有效地融合空间、时间和语言信息以用于 VideoQA。此方法是多流的,使用独立的主干模型处理不同规模的视频,每个模型都生成可捕捉不同特征的视频表示,例如,高空间分辨率或长时间持续时间的特征。然后,该模型应用共同标记模块从融合视频流和文本中学习有效的表示。该模型效率很高,仅使用 67 千兆 FLOP (GFLOP),比以前的方法至少少 50%,同时性能优于其他最先进的模型。

视频-文本迭代共标记

该模型的主要目标是从视频和文本(即用户问题)中生成特征,从而让它们对应的输入进行交互。第二个目标是以高效的方式完成此操作,这对于视频来说非常重要,因为它们包含数十到数百帧作为输入。

该模型学习将视频语言联合输入标记为一组较小的标记,这些标记可以联合有效地表示两种模态。在标记时,我们使用两种模态来生成联合紧凑表示,该表示被馈送到转换器层以生成下一级表示。这里的一个挑战(在跨模态学习中也很常见)是视频帧通常不直接对应于相关文本。我们通过添加两个可学习的线性层来解决这个问题,这两个线性层在标记之前统一了视觉和文本特征维度。这样,我们就可以让视频和文本来决定如何学习视频标记。

此外,单一的标记化步骤无法实现两种模态之间的进一步交互。为此,我们使用这种新的特征表示与视频输入特征进行交互,并生成另一组标记化特征,然后将其输入到下一个转换器层。这个迭代过程允许创建新特征或标记,这些特征代表了两种模态联合表示的不断细化。在最后一步,这些特征被输入到生成文本输出的解码器中。

按照 VideoQA 的惯例,我们会先对模型进行预训练,然后再在各个 VideoQA 数据集上对其进行微调。在这项工作中,我们使用基于语音识别自动标注文本的视频,使用 HowTo100M 数据集,而不是在大型 VideoQA 数据集上进行预训练。这种较弱的预训练数据仍使我们的模型能够学习视频文本特征。

视频文本迭代共标记化方法的可视化。多流视频输入是同一视频输入的多个版本(例如高分辨率、低帧率视频和低分辨率、高帧率视频),它们与文本输入有效融合,由解码器生成基于文本的答案。视频文本迭代共标记化模型不是直接处理输入,而是从融合的视频语言输入中学习数量较少的有用标记。此过程以迭代方式完成,允许当前特征标记化影响下一次迭代中的标记选择,从而优化选择。

高效视频问答

我们将视频语言迭代共标记化算法应用于三个主要的 VideoQA 基准,MSRVTT-QA、MSVD-QA和IVQA,并证明该方法在规模适中的情况下取得了比其他最先进模型更好的结果。此外,迭代共标记化学习可为视频文本学习任务节省大量计算资源。该方法仅使用 67 千兆 FLOP (GFLOPS),是使用流行的3D-ResNet视频模型与文本联合时所需 360 GFLOPS 的六分之一,并且效率是X3D 模型的两倍多。同时产生高度准确的结果,超越了最先进的方法。

将我们的迭代共标记方法与以前的方法(例如MERLOT和VQA-T)以及使用单个 ResNet-3D 或 X3D-XL 的基线进行比较。

多流视频输入

对于 VideoQA 或涉及视频输入的许多其他任务,我们发现多流输入对于更准确地回答有关空间和时间关系的问题非常重要。我们的方法利用三种不同分辨率和帧速率的视频流:低分辨率高帧速率的输入视频流(每秒 32 帧,空间分辨率为 64x64,我们将其表示为 32x64x64);高分辨率低帧速率视频(8x224x224);以及介于两者之间的视频(16x112x112)。尽管使用三种流显然需要处理更多信息,但由于采用了迭代共标记方法,我们获得了非常高效的模型。同时,这些额外的流允许提取最相关的信息。例如,如下图所示,与特定活动相关的问题将在分辨率较低但帧率较高的视频输入中产生更高的激活,而与一般活动相关的问题则可以从分辨率较低但帧率较低的输入中得到回答。该算法的另一个好处是标记化会根据所问的问题而变化。

视频文本共标记化过程中每层学习到的注意力图的可视化。注意力图因针对同一视频提出的问题不同而不同。例如,如果问题与一般活动有关(例如,上图中的冲浪),则高分辨率低帧率输入的注意力图会更加活跃,并且似乎考虑了更多全局信息。而如果问题更具体,例如询问事件发生后会发生什么,则特征图会更加局部化,并且往往在高帧率视频输入中处于活跃状态。此外,我们发现低分辨率、高帧率视频输入提供了更多与视频中的活动相关的信息。

结论

我们提出了一种新的视频语言学习方法,该方法侧重于跨视频文本模式的联合学习。我们解决了视频问答这一重要且具有挑战性的任务。我们的方法既高效又准确,尽管效率更高,但表现优于当前最先进的模型。我们的方法产生了适中的模型大小,并且可以通过更大的模型和数据获得进一步的改进。我们希望这项工作能够激发更多视觉语言学习研究,以实现与基于视觉的媒体的更无缝交互。

致谢

这项工作由 AJ Pierviovanni、Kairo Morton、Weicheng Kuo、Michael Ryoo 和 Anelia Angelova 完成。我们感谢本研究的合作者,感谢 Soravit Changpinyo 提供的宝贵意见和建议,感谢 Claire Cui 提供的建议和支持。我们还感谢 Tom Small 提供的可视化效果。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论