VideoPrism:用于视频理解的基础视觉编码器

VANR(@V%[Z[%MN~_BF@9BYN.png

网络上的视频数量惊人,涵盖了从人们分享的日常时刻到历史时刻再到科学观察的各种内容,每个视频都包含着对世界的独特记录。合适的工具可以帮助研究人员分析这些视频,从而改变我们理解周围世界的方式。

视频提供的动态视觉内容远比静态图像丰富,可以捕捉实体之间的运动、变化和动态关系。分析这种复杂性以及公开视频数据的巨大多样性需要超越传统图像理解的模型。因此,许多在视频理解方面表现最佳的方法仍然依赖于为特定任务量身定制的专用模型。最近,使用视频基础模型 (ViFM)(例如VideoCLIP、InternVideo、VideoCoCa和UMT )在该领域取得了令人兴奋的进展。然而,构建一个能够处理视频数据多样性的 ViFM 仍然是一个挑战。

为了构建一个通用视频理解的单一模型,我们推出了“ VideoPrism:视频理解的基础视觉编码器”。VideoPrism 是一个 ViFM,旨在处理广泛的视频理解任务,包括分类、定位、检索、字幕和问答 (QA)。我们在预训练数据和建模策略方面都提出了创新。我们在海量多样化的数据集上对 VideoPrism 进行了预训练:3600 万个高质量视频文本对和 5.82 亿个带有噪声或机器生成的并行文本的视频片段。我们的预训练方法是为这种混合数据设计的,可以从视频文本对和视频本身中学习。VideoPrism 非常容易适应新的视频理解挑战,并使用单个冻结模型实现最先进的性能。

 

VideoPrism 是一种通用视频编码器,它通过从单个冻结模型生成视频表示,能够在广泛的视频理解任务(包括分类、定位、检索、字幕和问答)中实现最先进的结果。

预训练数据

强大的 ViFM 需要大量视频进行训练 — 与其他基础模型 (FM) 类似,例如大型语言模型 (LLM)。理想情况下,我们希望预训练数据是世界上所有视频的代表性样本。虽然这些视频中的大多数自然没有完美的字幕或描述,但即使不完美的文本也可以提供有关视频语义内容的有用信息。

为了让我们的模型有最好的起点,我们整合了一个庞大的预训练语料库,该语料库由多个公共和私人数据集组成,包括YT-Temporal-180M、InternVid、VideoCC、WTS-70M等。这包括 3600 万个精心挑选的高质量字幕视频,以及另外 5.82 亿个带有不同程度噪音文本的剪辑(如自动生成的成绩单)。据我们所知,这是同类中规模最大、内容最丰富的视频训练语料库。

视频文本预训练数据的统计数据。CLIP 相似度得分的巨大差异 (越高越好)表明我们的预训练数据的字幕质量各不相同,这是用于收集文本的各种方式的副产品。

 

两阶段训练

VideoPrism 模型架构源自标准视觉转换器(ViT),其分解设计遵循ViViT顺序编码空间和时间信息。我们的训练方法利用了上述高质量视频文本数据和带有噪声文本的视频数据。首先,我们使用对比学习(一种最小化正视频文本对之间的距离同时最大化负视频文本对之间的距离的方法)来教我们的模型将视频与其自己的文本描述(包括不完美的文本)进行匹配。这为将语义语言内容与视觉内容进行匹配奠定了基础。

在视频文本对比训练之后,我们利用没有文本描述的视频集合。在这里,我们基于蒙版视频建模框架来预测视频中的蒙版块,并进行了一些改进。我们训练模型来预测第一阶段模型中的视频级全局嵌入和标记嵌入,以有效利用在该阶段获得的知识。然后,我们随机打乱预测的标记,以防止模型学习捷径。

VideoPrism 设置的独特之处在于我们使用两个互补的预训练信号:文本描述和视频中的视觉内容。文本描述通常侧重于事物的外观,而视频内容则提供有关运动和视觉动态的信息。这使得 VideoPrism 能够在需要理解外观和运动的任务中表现出色。

 

结果

我们对 VideoPrism 进行了广泛的评估,涵盖了四大类视频理解任务,包括视频分类和定位、视频文本检索、视频字幕、问答和科学视频理解。VideoPrism 在 33 个视频理解基准测试中的 30 个中都取得了最佳性能 — 所有这些都仅对单个冻结模型进行了最小程度的调整。

VideoPrism 与之前表现最佳的 FM 进行了比较。

 

分类和定位

我们在现有的大规模视频理解基准 ( VideoGLUE ) 上评估了 VideoPrism,该基准涵盖了分类和定位任务。我们发现 (1) VideoPrism 的表现优于所有其他最先进的 FM,并且 (2) 没有其他单一模型始终位居第二。这告诉我们,VideoPrism 已经学会了有效地将各种视频信号打包到一个编码器中——从不同粒度的语义到外观和运动提示——并且它在各种视频源中都能很好地工作。

VideoPrism 在视频理解基准上的表现优于最先进的方法(包括CLIP、VATT、InternVideo和UMT)。在此图中,我们展示了与之前的最佳模型相比的绝对分数差异,以突出 VideoPrism 的相对改进。在Charades、ActivityNet、AVA和AVA-K上,我们使用平均精度(mAP) 作为评估指标。在其他数据集上,我们报告 top-1 准确率。

 

与法学硕士相结合

我们进一步探索将 VideoPrism 与 LLM 相结合,以释放其处理各种视频语言任务的能力。特别是,当与文本编码器(遵循LiT)或语言解码器(如PaLM-2)配对使用时,VideoPrism 可用于视频文本检索、视频字幕和视频 QA 任务。我们在广泛且具有挑战性的视觉语言基准测试中比较了组合模型。VideoPrism 在大多数基准测试中都达到了新的最高水平。从视觉结果中,我们发现 VideoPrism 能够理解视频中的复杂运动和外观(例如,在下面的视觉示例中,该模型可以识别窗口上旋转物体的不同颜色)。这些结果表明 VideoPrism 与语言模型高度兼容。

VideoPrism在多个视频文本检索(顶部)和视频字幕及视频问答(底部)基准测试中取得了与最新方法(包括VideoCoCa、UMT和Flamingo )相当的成绩。我们还展示了与之前最佳模型相比的绝对得分差异,以突出 VideoPrism 的相对改进。我们报告了MASRVTT、VATEX和ActivityNet上的 Recall@1 、MSRVTT-Cap、VATEX-Cap和YouCook2上的CIDEr 分数、 MSRVTT-QA和MSVD-QA上的 top-1 准确率以及NExT-QA上的WUPS 指数。

 

我们展示了使用 VideoPrism 和文本编码器进行视频文本检索(第一行)以及适应语言解码器进行视频问答(第二行和第三行)的定性结果。对于视频文本检索示例,蓝色条表示视频和文本查询之间的嵌入相似性。

 

科学应用

最后,我们在各个领域科学家使用的数据集上测试 VideoPrism,包括动物行为学、行为神经科学和生态学等领域。这些数据集通常需要领域专业知识来注释,为此我们利用社区开源的现有科学数据集,包括Fly vs. Fly、CalMS21、ChimpACT和KABR。VideoPrism不仅表现异常出色,而且实际上超越了专门为这些任务设计的模型。这表明,像 VideoPrism 这样的工具有可能改变科学家分析不同领域视频数据的方式。

VideoPrism 在各种科学基准测试中的表现均优于该领域的专家。我们展示了绝对得分差异,以突出 VideoPrism 的相对改进。我们报告了所有数据集的平均精度 (mAP),但 KABR 除外,它使用类平均 top-1 精度。

 

结论

借助 VideoPrism,我们推出了一款功能强大且用途广泛的视频编码器,为通用视频理解树立了新标准。我们注重构建庞大而多样的预训练数据集和创新建模技术,这一点已通过广泛的评估得到验证。VideoPrism 不仅始终优于强大的基线,而且其独特的泛化能力使其能够很好地处理一系列实际应用。由于其潜在的广泛用途,我们致力于在我们的AI 原则的指导下继续在该领域进行进一步负责任的研究。我们希望 VideoPrism 为未来 AI 和视频分析交叉领域的突破铺平道路,帮助实现 ViFM 在科学发现、教育和医疗保健等领域的潜力。

 

致谢

本博文代表所有 VideoPrism 作者发表:Long Zhao、Nitesh B. Gundavarapu、Liangzhe Yuan、Hao Zhou、Shen Yan、Jennifer J. Sun、Luke Friedman、Rui Qian、Tobias Weyand、Yue Zhao、Rachel Hornung、Florian Schroff、Ming-Hsuan Yang、David A. Ross、Huisheng Wang、Hartwig Adam、Mikhail Sirotenko、Ting Liu 和 Boqing Gong。我们衷心感谢 David Hendon 的产品管理工作,以及 Alex Siegman、Ramya Ganeshan 和 Victor Gomes 的项目和资源管理工作。我们还要感谢 Hassan Akbari、Sherry Ben、Yoni Ben-Meshulam、Chun-Te Chu、Sam Clearwater、Yin Cui、Ilya Figotin、Anja Hauth、Sergey Ioffe、Xuhui Jia、Yeqing Li、Lu Jiang、Zu Kim、Dan Kondratyuk、Bill Mark、Arsha Nagrani、Caroline Pantofaru、Sushant Prakash、Cordelia Schmid、Bryan Seybold、Mojtaba Seyedhosseini、Amanda Sadler、Rif A. Saurous、Rachel Stigler、Paul Voigtlaender、Pingmei Xu、Chaochao Yan、Xuan Yang 和 Yukun Zhu 的讨论、支持和反馈,这些都为这项工作做出了巨大贡献。我们感谢 Jay Yagnik、Rahul Sukthankar 和 Tomas Izo 对这个项目的热情支持。最后,我们感谢 Tom Small、Jennifer J. Sun、Hao Zhou、Nitesh B. Gundavarapu、Luke Friedman 和 Mikhail Sirotenko 对撰写这篇博文提供的巨大帮助。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论