找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 69|回复: 0

使用 Google Photos 捕捉特别的视频时刻

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-11-21 19:14:40 | 显示全部楼层 |阅读模式
录制视频,记录难忘时刻,与亲朋好友分享,这已变得司空见惯。但任何拥有庞大视频库的人都会告诉你,从所有原始素材中寻找完美的片段来重温或与家人和朋友分享,是一项耗时的任务。Google Photos 可自动查找视频中的神奇时刻(例如,当您的孩子吹灭蜡烛或您的朋友跳入游泳池时),并根据这些时刻创建动画,让您可以轻松与亲朋好友分享,从而使这项工作变得更容易。
在“重新思考用于时间动作定位的 Faster R-CNN 架构”中,我们通过引入一种改进的方法来识别视频中发生给定动作的确切位置,解决了自动化此任务背后的一些挑战,这些挑战是由于从高度可变的输入数据数组中识别和分类动作的复杂性造成的。我们的时间动作定位网络(TALNet) 汲取了Faster R-CNN网络等基于区域的对象检测方法的进步的灵感。 TALNet 能够识别持续时间变化较大的时刻,与其他方法相比实现了最先进的性能,让 Google Photos 可以推荐视频中最精彩的部分供您与亲朋好友分享。
识别动作以进行模型训练
识别视频中的精彩瞬间的第一步是汇总一份人们可能希望突出显示的动作列表。一些动作示例包括“吹灭生日蜡烛”、“全中(保龄球)”、“猫摇尾巴”等。然后,我们众包注释了一组公开视频中发生这些特定动作的片段,以创建一个大型训练数据集。我们要求评分者查找并标记所有瞬间,以适应可能包含多个瞬间的视频。然后使用这个最终注释的数据集来训练我们的模型,以便它可以识别新的未知视频中的所需动作。
与物体检测的比较
识别这些动作的挑战属于计算机视觉领域,称为时间动作定位,它与更熟悉的物体检测一样,属于视觉检测问题的范畴。给定一个较长的未剪辑视频作为输入,时间动作定位旨在识别整个视频中每个动作实例的开始和结束时间以及动作标签(如“吹灭蜡烛”)。虽然对象检测旨在在 2D 图像中围绕对象生成空间边界框,但时间动作定位旨在在 1D 视频帧序列中生成包含动作的时间段。
我们对 TALNet 的方法受到针对 2D 图像的Faster R-CNN对象检测框架的启发。因此,要理解 TALNet,首先了解 Faster R-CNN 很有用。下图演示了如何使用 Faster R-CNN 架构进行对象检测。第一步是生成一组对象提案,即可用于分类的图像区域。为此,首先通过卷积神经网络(CNN) 将输入图像转换为 2D特征图。然后,区域提案网络在候选对象周围生成边界框。这些框以多种尺度生成,以捕捉自然图像中对象大小的巨大变化。现在定义了对象提案,然后深度神经网络 (DNN) 将边界框中的主体分类为特定对象,例如“人”、“自行车”等。
时间动作定位 时间
动作定位的实现方式与 R-CNN 类似。首先将视频中的输入帧序列转换为编码场景上下文的 1D 特征图序列。该图被传递到片段提议网络,该网络生成候选片段,每个候选片段由开始和结束时间定义。然后,DNN 应用从训练数据集中学习到的表示来对提议的视频片段中的动作进行分类(例如,“扣篮”、“传球”等)。根据每个片段中识别的动作的学习到的表示赋予权重,并选择得分最高的时刻与用户分享。
时间动作定位的特殊注意事项
虽然时间动作定位可以看作是物体检测问题的 1D 对应问题,但必须注意解决动作定位特有的一些问题。具体来说,我们解决了三个具体问题,以便将 Faster R-CNN 方法应用于动作定位领域,并重新设计了架构以专门解决这些问题。
动作的持续时间变化很大
动作的时间范围变化很​​大 — — 从几分之一秒到几分钟。对于长时间动作,了解动作的每一帧并不重要。相反,我们可以通过使用扩张时间卷积快速浏览视频来更好地掌握动作。这种方法使 TALNet 能够在视频中搜索时间模式,同时根据给定的扩张率跳过交替帧。根据锚点段的长度自动选择几种不同的速率来分析视频,可以有效识别长至整个视频或短至一秒的动作。
动作前后的上下文很重要
动作实例前后的时刻包含定位和分类的关键信息,可以说比物体的空间上下文更重要。因此,我们在提案生成阶段和分类阶段,通过将左侧和右侧的提案段长度延长固定百分比的段长度来明确编码时间上下文。
动作需要多模态输入
动作由外观、运动甚至音频信息定义。因此,考虑多种模态特征以获得最佳结果非常重要。我们对提议生成网络和分类网络都使用后期融合方案,其中每种模态都有一个单独的提议生成网络,其输出组合在一起以获得最终的提议集。这些提议使用每种模态的单独分类网络进行分类,然后取平均值以获得最终预测。
TALNet 实际应用这些改进的结果是,TALNet 在THUMOS'14检测基准
上的动作提议和动作定位任务中都取得了最先进的性能,并在ActivityNet挑战赛中取得了具有竞争力的性能。现在,每当人们将视频保存到 Google Photos 时,我们的模型都会识别这些时刻并创建动画来分享。
下一步
我们将继续致力于使用更多的数据、特征和模型来提高动作定位的精确度和召回率。时间动作定位的改进可以推动大量重要主题的进展,包括视频精彩片段、视频摘要、搜索等等。我们希望继续改进这个领域的最新技术,同时为人们提供更多方式来回忆大大小小的记忆。
致谢
特别感谢 Tim Novikoff 和 Yu-Wei Chao,以及 Bryan Seybold、Lily Kharevych、Siyu Gu、Tracy Gu、Tracy Utley、Yael Marzan、Jingyu Cui、Balakrishnan Varadarajan 和 Paul Natsev 对该项目的重要贡献。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-28 19:01 , Processed in 0.080894 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表