找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 41|回复: 0

通过视频着色进行自监督跟踪

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-12 00:03:59 | 显示全部楼层 |阅读模式
跟踪视频中的物体是计算机视觉中的一个基本问题,对于活动识别、物体交互或视频风格化 等应用至关重要。然而,教会机器视觉跟踪物体是一项艰巨的任务,部分原因是它需要大量带标签的跟踪数据集进行训练,而这些数据集对于大规模注释来说并不实用。
在“通过着色视频实现跟踪”中,我们介绍了一个卷积网络,它可以为灰度视频着色,但只能从单个参考帧复制颜色。在此过程中,网络学会了无人监督地自动视觉跟踪物体。重要的是,尽管该模型从未专门接受过跟踪训练,但它可以跟踪多个物体,在遮挡的情况下进行跟踪,并且在变形时保持稳健,而无需任何带标签的训练数据。
在公开的学术数据集DAVIS 2017上进行跟踪预测的示例。在学习为视频着色后,无需监督即可自动出现跟踪机制。我们在第一帧中指定感兴趣的区域(用不同的颜色表示),我们的模型无需任何额外的学习或监督即可将其向前传播。
学习重新着色视频
我们的假设是,颜色的时间连贯性为教机器跟踪视频中的区域提供了出色的大规模训练数据。显然,颜色在时间上不连贯(例如灯突然亮起)的情况也存在例外,但一般来说,颜色会随时间保持稳定。此外,大多数视频都包含颜色,这提供了可扩展的自监督学习信号。我们对视频进行脱色,然后添加着色步骤,因为可能有多个具有相同颜色的物体,但通过着色,我们可以教机器跟踪特定的物体或区域。
为了训练我们的系统,我们使用来自Kinetics 数据集的视频,这是一个大型公共视频集合,描述了日常活动。我们将除第一帧之外的所有视频帧转换为灰度,并训练卷积网络以预测后续帧中的原始颜色。我们希望模型能够学会跟踪区域,以便准确恢复原始颜色。我们的主要观察是,需要跟踪物体进行着色将导致自动学习物体跟踪模型。
我们使用来自DAVIS 2017 数据集的视频来说明视频重新着色任务。该模型接收一个彩色帧和一个灰度视频作为输入,并预测视频其余部分的颜色。该模型学习从参考帧复制颜色,这使得无需人工监督即可学习跟踪机制。
学习从单个参考帧复制颜色需要模型学习在内部指向正确的区域以复制正确的颜色。这迫使模型学习一种可用于跟踪的明确机制。为了了解视频着色模型的工作原理,我们在下面展示了 Kinetics 数据集中视频的一些预测着色。
使用公开的Kinetics 数据集将彩色参考帧应用于输入视频的预测颜色示例。
尽管网络是在没有真实身份的情况下训练的,但我们的模型学会了跟踪视频第一帧中指定的任何视觉区域。我们可以跟踪视频中的轮廓物体或单个点。我们做的唯一改变是,我们现在传播代表感兴趣区域的标签,而不是在整个视频中传播颜色。
分析跟踪器
由于模型是在大量未标记的视频上训练的,因此我们希望深入了解模型学习的内容。下面的视频展示了一个标准技巧,即使用主成分分析(PCA) 将我们的模型学习到的嵌入投影到三维并将其绘制为 RGB 电影,从而可视化它们。结果表明,学习到的嵌入空间中的最近邻居往往与物体身份相对应,即使在变形和视点变化的情况下也是如此。
跟踪姿势
我们发现,给定初始帧中的关键点,该模型还可以跟踪人体姿势。我们在公开的学术数据集JHMDB上展示了结果,其中我们跟踪了人体关节骨架。
使用模型跟踪人体骨骼运动的示例。在本例中,第一帧的输入是人体姿势,随后的运动会自动跟踪。即使模型从未明确接受过此任务的训练,它也可以跟踪人体姿势。
虽然我们的表现尚未超越严格监督的模型,但着色模型可以很好地学习跟踪视频片段和人体姿势,从而超越基于光流的最新方法。按运动类型细分性能表明,对于许多自然复杂性,例如动态背景、快速运动和遮挡,我们的模型比光流更具鲁棒性。详情请参阅论文。未来工作 我们的结果表明,视频着色提供了一种信号,可用于学习在没有监督的情况下跟踪视频中的物体。此外,我们发现系统的失败与视频着色失败相关,这表明进一步改进视频着色模型可以促进自监督跟踪的发展。致谢这个项目只有在 Google 的多次合作下才得以实现。核心团队包括 Abhinav Shrivastava、Alireza Fathi、Sergio Guadarrama 和 Kevin Murphy。我们还要感谢 David Ross、Bryan Seybold、Chen Sun 和 Rahul Sukthankar。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 10:12 , Processed in 0.087490 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表