找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

移动相机,移动人物:深度预测的深度学习方法

[复制链接]

39

主题

0

回帖

123

积分

注册会员

积分
123
发表于 昨天 17:04 | 显示全部楼层 |阅读模式
人类视觉系统具有从二维投影理解三维世界的非凡能力。即使在有多个移动物体的复杂环境中,人们也能够对物体的几何形状和深度顺序保持可行的解释。计算机视觉领域长期以来一直在研究如何通过计算从二维图像数据重建场景的几何形状来实现类似的功能,但在许多情况下,稳健的重建仍然很困难。
当相机和场景中的物体都在自由移动时,就会出现一种特别具有挑战性的情况。这混淆了基于三角测量的传统三维重建算法,该算法假设可以同时从至少两个不同的视点观察同一个物体。满足这一假设需要多相机阵列(如Google 的 Jump),或者当单个相机穿过时场景保持静止。因此,大多数现有方法要么过滤掉移动物体(为它们分配“零”深度值),要么忽略它们(导致深度值不正确)。
在“通过观察冻结的人来学习移动人物的深度”中,我们通过应用基于深度学习的方法来解决这一基本挑战,该方法可以从普通视频中生成深度图,其中相机和拍摄对象都在自由移动。该模型通过从数据中学习人体姿势和形状的先验知识来避免直接进行 3D 三角测量。虽然最近使用机器学习进行深度预测的现象激增,但这项工作是首次针对相机和人体同时运动的情况量身定制基于学习的方法。在这项工作中,我们特别关注人类,因为他们是增强现实和 3D 视频效果的有趣目标。
获取训练数据
我们以监督的方式训练深度预测模型,这需要移动摄像机捕捉的自然场景视频以及精确的深度图。关键问题是从哪里获取这些数据。合成生成数据需要对各种场景和自然人类行为进行逼真的建模和渲染,这很有挑战性。此外,在这些数据上训练的模型可能难以推广到真实场景。另一种方法可能是使用 RGBD 传感器(例如 Microsoft 的 Kinect)记录真实场景,但深度传感器通常仅限于室内环境,并且有自己的一组 3D 重建问题。
相反,我们利用现有的数据源进行监督:YouTube 视频,其中人们通过冻结各种自然姿势来模仿人体模型,而手持摄像机则巡视场景。由于整个场景是静止的(只有相机在移动),因此基于三角测量的方法(如多视图立体(MVS))有效,我们可以获得整个场景(包括其中的人)的精确深度图。我们收集了大约 2000 个这样的视频,涵盖了各种真实的场景,其中的人们自然地摆出不同的群体姿势。
我们用摄像机巡视场景时人们模仿人体模型的视频进行训练。我们使用传统的 MVS 算法来估计深度,这在我们的深度预测模型训练期间起到监督作用。
推断移动人物的深度
模特挑战赛视频为移动摄像机和“冻结”人物提供深度监督,但我们的目标是处理带有移动摄像机和移动人物的视频。我们需要构建网络输入以弥合这一差距。
一种可能的方法是分别为视频的每一帧推断深度(即,模型的输入只是一帧)。虽然这样的模型已经比最先进的单图像深度预测方法有所改进,但我们可以通过考虑来自多帧的信息进一步改进结果。例如,运动视差,即两个不同视点之间静态物体的相对视运动,提供了强大的深度线索。为了从这些信息中受益,我们计算视频中每个输入帧和另一帧之间的二维光流,它表示两帧之间的像素位移。这个流场取决于场景的深度和相机的相对位置。但是,由于相机位置是已知的,我们可以从流场中去除它们的依赖关系,从而得到初始深度图。此初始深度仅适用于静态场景区域。为了在测试时处理移动的人,我们应用人体分割网络来遮盖初始深度图中的人体区域。然后,我们网络的完整输入包括:RGB 图像、人体遮盖和视差遮盖的深度图。
深度预测网络:模型的输入包括 RGB 图像(第t帧)、人体区域的蒙版以及非人体区域的初始深度,该深度是根据输入帧与视频中另一帧之间的运动视差(光流)计算得出的。该模型输出第t帧的完整深度图。训练的监督由 MVS 计算的深度图提供。
网络的任务是“修复”有人物的区域的深度值,并优化其他地方的深度。直观地说,由于人类具有一致的形状和物理尺寸,网络可以通过观察许多训练示例在内部学习此类先验知识。经过训练后,我们的模型可以处理具有任意相机和人体运动的自然视频。
以下是我们基于视频的深度预测模型结果的一些示例,并与最近最先进的基于学习的方法进行了比较。
使用我们的深度图制作 3D 视频效果
我们预测的深度图可用于制作一系列 3D 视频效果。合成散焦就是其中一种效果。下面是使用我们的深度图从普通视频制作的示例。
我们的深度图的其他可能应用包括从单目视频生成立体视频,以及将合成 CG 对象插入场景。深度图还能够使用视频其他帧中显示的内容填充孔洞和遮挡区域。在下面的示例中,我们在多个帧中合成摆动相机,并使用视频其他帧中的像素填充演员身后的区域。
致谢
本文中描述的研究由 Zhengqi Li、Tali Dekel、Forrester Cole、Richard Tucker、Noah Snavely、Ce Liu 和 Bill Freeman 完成。我们要感谢 Miki Rubinstein 提供的宝贵反馈。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-11-21 18:19 , Processed in 0.084184 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表