Vid2Seq:用于描述多事件视频的预训练视觉语言模型

1725441562935.jpg

视频已成为我们日常生活中越来越重要的一部分,涉及娱乐、教育和通信等领域。然而,理解视频内容是一项艰巨的任务,因为视频通常包含在不同时间尺度上发生的多个事件。例如,一段狗拉雪橇的人把狗拴在狗拉雪橇上,然后它们全部跑开的视频涉及一个长事件(狗拉雪橇)和一个短事件(狗被拴在雪橇上)。促进视频理解研究的一种方法是通过密集视频字幕任务,这需要在时间上定位和描述几分钟长的视频中的所有事件。这与单图像字幕和标准视频字幕不同,后者用一个句子描述短视频。

密集视频字幕系统具有广泛的应用,例如使有视觉或听觉障碍的人可以观看视频、自动生成视频章节或改进大型数据库中的视频片段搜索。然而,当前的密集视频字幕方法有几个局限性——例如,它们通常包含高度专业化的任务特定组件,这使得将它们集成到强大的基础模型中具有挑战性。此外,它们通常只在手动注释的数据集上进行训练,而这些数据集很难获得,因此不是一种可扩展的解决方案。

在本文中,我们介绍了“ Vid2Seq:用于密集视频字幕的视觉语言模型的大规模预训练”,该模型将于CVPR 2023上发表。Vid2Seq 架构使用特殊的时间标记增强了语言模型,使其能够在同一输出序列中无缝预测事件边界和文本描述。为了预训练这个统一的模型,我们利用未标记的旁白视频,将转录语音的句子边界重新表述为伪事件边界,并使用转录语音句子作为伪事件字幕。在数百万个旁白视频上进行预训练后,生成的 Vid2Seq 模型在各种密集视频字幕基准(包括YouCook2、ViTT和ActivityNet Captions)上提高了最新水平。Vid2Seq 还可以很好地推广到小样本密集视频字幕设置、视频段落字幕任务和标准视频字幕任务。最后,我们还在这里发布了Vid2Seq的代码。

Vid2Seq 是一种视觉语言模型,通过生成单个标记序列来预测视频中的密集事件字幕及其时间基础。

用于密集视频字幕的视觉语言模型

多模态变换器架构已经提升了各种视频任务(例如动作识别)的最新水平。然而,要将这种架构应用于对长达数分钟的视频中的事件进行联合定位和字幕化这一复杂任务并非易事。

为了大致了解我们如何实现这一点,我们用特殊的时间标记(如文本标记)增强了视觉语言模型,这些标记代表视频中的离散时间戳,类似于空间域中的Pix2Seq。给定视觉输入,生成的 Vid2Seq 模型既可以作为输入,也可以生成文本和时间标记序列。首先,这使 Vid2Seq 模型能够理解转录语音输入的时间信息,该输入被转换为单个标记序列。其次,这允许 Vid2Seq 联合预测密集事件字幕并在视频中将它们时间地固定下来,同时生成单个标记序列。

Vid2Seq 架构包括一个视觉编码器和一个文本编码器,它们分别对视频帧和转录的语音输入进行编码。然后将生成的编码转发到文本解码器,该解码器自回归地预测密集事件字幕的输出序列及其在视频中的时间定位。该架构使用强大的视觉主干和强大的语言模型进行初始化。

Vid2Seq 模型概述:我们将密集事件字幕表述为序列到序列问题,使用特殊的时间标记让模型无缝理解和生成包含文本语义信息和时间定位信息的标记序列,为视频中的每个文本句子提供基础。

对未剪辑的旁白视频进行大规模预训练

由于任务的密集性,手动收集密集视频字幕的注释特别昂贵。因此,我们使用易于大规模获取的未标记旁白视频对 Vid2Seq 模型进行预训练。具体来说,我们使用YT-Temporal-1B数据集,其中包括 1800 万个涵盖广泛领域的旁白视频。

我们使用转录的语音句子及其对应的时间戳作为监督,它们被转换为单个标记序列。我们利用生成目标和去噪目标对 Vid2Seq 进行预训练,生成目标教会解码器在仅给定视觉输入的情况下预测转录的语音序列,去噪目标通过要求模型在给定嘈杂的转录语音序列和视觉输入的情况下预测掩蔽标记来鼓励多模态学习。具体而言,通过随机掩蔽标记跨度将噪声添加到语音序列中。

Vid2Seq 在未标记的叙述视频上进行预训练,具有生成目标(顶部)和去噪目标(底部)。

下游密集视频字幕基准测试结果

生成的预训练 Vid2Seq 模型可以在下游任务上使用教师强制(即,根据先前的真实标记预测下一个标记)的简单最大似然目标进行微调。经过微调后,Vid2Seq 显著提高了三个标准下游密集视频字幕基准(ActivityNet Captions、YouCook2和ViTT)和两个视频剪辑字幕基准(MSR-VTT、MSVD)的最新水平。在我们的论文中,我们提供了额外的消融研究、定性结果以及小样本设置和视频段落字幕任务中的结果。

在CIDEr指标上(越高越好) ,与最先进的密集视频字幕方法(左)和视频片段字幕方法(右)进行比较。

结论

我们引入了 Vid2Seq,这是一种用于密集视频字幕的新型视觉语言模型,它简单地将所有事件边界和字幕预测为单个标记序列。Vid2Seq 可以在未标记的旁白视频上进行大规模有效预训练,并在各种下游密集视频字幕基准测试中取得最佳结果。从论文中了解更多信息并在此处获取代码。

致谢

这项研究由 Antoine Yang、Arsha Nagrani、Paul Hongsuck Seo、Antoine Miech、Jordi Pont-Tuset、Ivan Laptev、Josef Sivic 和 Cordelia Schmid 进行。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论