找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 41|回复: 0

将视频蒙版自动编码器扩展至 128 帧

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-9 23:34:38 | 显示全部楼层 |阅读模式
在这项工作中,我们建议通过从强大的标记器中自适应地重建最重要的标记,将蒙版视频建模扩展到长视频。
从视频中学习能够同时捕捉高级语义和细粒度运动的稳健表示是一项重要的研究挑战,它可应用于从视频搜索到机器人和虚拟代理等许多领域。该领域的最新进展得益于强大的自监督学习技术的发展,尤其是蒙版自动编码器(MAE)。例如,VideoMAE通过重建蒙版视频帧在动作识别基准上取得了令人印象深刻的结果,而VideoPrism和InternVideo等视频基础模型则将 MAE 用作其管道的核心部分。然而,由于计算瓶颈,传统的 MAE 在处理长视频方面受到限制,因此只能以短片段作为背景进行训练——它们一次只查看视频的一小部分
在我们的新研究论文《将视频蒙版自动编码器扩展至 128 帧》中,我们开发了一种新颖的方法来减少在较长上下文中训练视频模型的计算负荷,并表明这样做可以显著提高学习表征的质量。通过展示长上下文视频 MAE 训练的实用性并提供使其易于处理的技术工具,我们希望为长视频理解的重大进步铺平道路。
长视频挑战
用于视频理解的传统 MAE通常针对短视频片段进行操作,通常长度为 16 或 32 帧。这种限制源于解码器中使用的自注意力机制的计算需求,该机制随视频长度的扩展性较差。因此,现有方法难以捕捉长距离时间依赖性,而这对于理解较长视频中的复杂动作和事件(例如体操动作或复杂的烹饪过程)至关重要。
我们的解决方案:自适应解码器掩蔽
为了应对长视频带来的挑战,我们引入了一种名为“自适应解码器掩蔽”的新方法。该技术在解码过程中策略性地仅重建视频中最重要的标记,从而降低了计算成本,并使得单台机器能够处理长达 128 帧的视频。
我们的自适应掩码策略利用基于MAGVIT架构的强大标记器。此标记器使用标记评分模块联合学习标记及其重要性,从而使模型能够优先考虑最具信息量的标记以进行重建。此标记器独立于掩码建模框架进行学习。
主要发现
我们对基准数据集(例如EPIC-Kitchens-100和Diving-48)进行了大量实验,以评估我们方法的有效性。以下是我们的一些主要发现:
性能提升:自适应解码器掩蔽策略在准确性方面优于传统的均匀和基于运动的掩蔽策略。
未来方向
尽管使 MAE 能够从 128 帧中学习比以前的技术水平有了很大的飞跃,但在更高的帧速率下,这仍然只能覆盖几秒钟的视频。最终,我们希望能够从几分钟或几小时的视频中学习,同时仍然保持动作识别、视频摘要和世界建模等应用所需的细粒度理解。因此,在未来,我们计划扩展我们的研究,在更大的系统中评估我们的长视频编码器,该系统以块为单位传输视频,并可能用外部 存储器来增强它。我们相信,我们的研究是实现从真正长的视频中学习的愿景的重要第一步,并使 AI 系统能够通过视频更好地理解和与世界互动。
致谢
这项研究是由 Google Research 的一个研究团队进行的[1] 包括 Nitesh B. Gundavarapu、Luke Friedman、Chaitra Hegde、Eirikur Agustsson、Sagar Waghmare、Mikhail Sirotenko、Ming-Hsuan Yang、Tobias Weyand、Boqing Gong,以及不列颠哥伦比亚大学的 Raghav Goyal 和 Leonid Sigal,他们分别在 Google Research 担任学生研究员和客座教授期间进行了合作。我们感谢 Chris Duvarney、Huisheng Wang、Nisarg Kothari、Philip Mansfield 和 Hartwig Adam 的持续支持。Nitesh 想向他的妻子 Sowmya Bhuvanapalli 表示感谢,感谢她在这个项目期间对照顾他们的孩子给予的坚定支持。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 10:04 , Processed in 0.078869 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表