DynIBaR:从动态场景视频中合成时空视图

1724638584449.jpg

手机摄像头是捕捉日常瞬间的强大工具。然而,使用单个摄像头捕捉动态场景从根本上来说存在局限性。例如,如果我们想调整录制视频的摄像头运动或时间(例如,在扫描摄像头以突出戏剧性时刻的同时定格时间),我们通常需要昂贵的好莱坞设备以及同步摄像头装置。在没有好莱坞预算的情况下,仅使用手机摄像头拍摄的视频是否能实现类似的效果?

在CVPR 2023最佳论文荣誉奖 “ DynIBaR:基于神经动态图像的渲染”中,我们描述了一种新方法,该方法可以从复杂动态场景的单个视频生成逼真的自由视点渲染。基于神经动态图像的渲染 (DynIBaR) 可用于从用手机相机拍摄的单个视频生成一系列视频效果,例如“子弹时间”效果(时间暂停并且相机以正常速度在场景周围移动)、视频稳定、景深和慢动作。我们证明 DynIBaR 显着推进了复杂移动场景的视频渲染,为新型视频编辑应用程序打开了大门。我们还在DynIBaR项目页面上发布了代码,因此您可以亲自尝试一下。

给定一个复杂动态场景的野外视频,DynIBaR 可以冻结时间,同时允许相机继续在场景中自由移动。

背景

过去几年,计算机视觉技术取得了巨大进步,这些技术利用神经辐射场(NeRF) 来重建和渲染静态(非移动)3D 场景。然而,人们用移动设备拍摄的大多数视频都描绘了移动的 物体,例如人、宠物和汽车。这些移动场景导致了更具挑战性的 4D(3D + 时间)场景重建 问题,无法使用标准视图合成方法来解决。

标准视图合成方法应用于动态场景的视频时会输出模糊、不准确的渲染。

其他近期方法使用时空神经辐射场(即动态神经辐射场)处理动态场景的视图合成,但此类方法仍然存在固有的局限性,阻碍了它们应用于随意拍摄的野外视频。特别是,它们很难从持续时间长、摄像机路径不受控制和物体运动复杂的视频中渲染出高质量的新视图。

主要的缺陷在于它们将复杂的移动场景存储在单一数据结构中。具体来说,它们将场景编码在多层感知器(MLP) 神经网络的权重中。MLP 可以近似任何函数 — 在本例中,是将 4D 时空点 ( x , y , z , t ) 映射到 RGB 颜色和密度的函数,我们可以使用它来渲染场景的图像。然而,这种 MLP 的容量(由其神经网络中的参数数量定义)必须根据视频长度和场景复杂度而增加,因此,在野外视频上训练此类模型在计算上是困难的。结果,我们得到了模糊、不准确的渲染,就像DVS和NSFF生成的渲染一样(如下所示)。DynIBaR 通过采用不同的渲染范式来避免创建如此大的场景模型。

对于复杂动态场景的视频, DynIBaR(下排)与之前的动态视图合成方法(上排)相比,显著提高了渲染质量。之前的方法会产生模糊的渲染,因为它们需要将整个移动场景存储在 MLP 数据结构中。

基于图像的渲染 (IBR)

DynIBaR 背后的一个关键见解是,我们实际上不需要将视频中的所有场景内容存储在巨大的 MLP 中。相反,我们直接使用来自附近输入视频帧的像素数据来渲染新视图。DynIBaR 建立在一种名为IBRNet的基于图像的渲染(IBR) 方法之上,该方法专为静态场景的视图合成而设计。IBR 方法认识到场景的新目标视图应该与附近的源图像非常相似,因此通过动态选择和扭曲附近源帧中的像素来合成目标,而不是提前重建整个场景。特别是,IBRNet 学习将附近的图像混合在一起,以在体积渲染框架内重新创建场景的新视图。

DynIBaR:将 IBR 扩展到复杂、动态的视频

要将 IBR 扩展到动态场景,我们需要在渲染过程中考虑场景运动。因此,作为重建输入视频的一部分,我们求解 每个 3D 点的运动,其中我们使用由 MLP 编码的运动轨迹场表示场景运动。与之前的动态 NeRF 方法将整个场景外观和几何形状存储在 MLP 中不同,我们只存储运动(一种更平滑和稀疏的信号),并使用输入视频帧来确定渲染新视图所需的所有其他内容。

我们针对给定视频优化 DynIBaR,方法是获取每个输入视频帧,使用体积渲染(如NeRF中一样)渲染光线以形成 2D 图像,然后将渲染的图像与输入帧进行比较。也就是说,我们的优化表示应该能够完美地重建输入视频。

我们说明 DynIBaR 如何渲染动态场景的图像。为简单起见,我们展示一个 2D 世界,如上图所示。(a)一组输入源视图(三角形 相机视锥)观察在场景中移动的立方体(动画正方形)。每个相机都标有其时间戳(t -2、t -1 等)。(b )为了在时间t渲染相机的视图,DynIBaR 会通过每个像素发射一条虚拟射线(蓝线),并计算沿该射线的采样点的颜色和不透明度。为了计算这些属性,DynIBaR 通过多视图几何将这些样本投影到其他视图中,但首先,我们必须补偿每个点的估计运动(红色虚线)。(c)使用这个估计的运动,DynIBaR 将 3D 中的每个点移动到相关时间,然后将其投影到相应的源相机中,以采样颜色用于渲染。 DynIBaR 优化每个场景点的运动,作为学习如何合成场景新视图的一部分。

然而,为复杂的移动场景重建和推导新视图是一个高度不适定的问题,因为有许多解决方案可以解释输入视频 — — 例如,它可能会为每个时间步骤创建不连贯的 3D 表示。因此,仅优化 DynIBaR 来重建输入视频是不够的。为了获得高质量的结果,我们还引入了其他几种技术,包括一种称为跨时间渲染的方法。跨时间渲染是指使用我们在某一时刻的 4D 表示的状态来渲染来自不同时刻的图像,这有助于 4D 表示随着时间的推移保持一致。为了进一步提高渲染保真度,我们自动将场景分解为两个部分,一个静态部分和一个动态部分,分别由时不变和时变场景表示建模。

创建视频效果

DynIBaR 支持各种视频效果。我们在下面展示了几个示例。

视频稳定

我们使用摇晃的手持输入视频将 DynIBaR 的视频稳定性能与现有的 2D 视频稳定和动态 NeRF 方法(包括FuSta、DIFRINT、HyperNeRF和NSFF)进行比较。我们证明 DynIBaR 可产生更平滑的输出,具有更高的渲染保真度和更少的伪影(例如闪烁或模糊的结果)。具体来说,FuSta 会产生残留的相机抖动,DIFRINT 会在物体边界周围产生闪烁,而 HyperNeRF 和 NSFF 会产生模糊的结果。

同步视图合成和慢动作

DynIBaR 可以同时在空间和时间上进行视图合成,产生流畅的 3D 电影效果。下面,我们演示了 DynIBaR 可以接收视频输入并使用新颖的摄像机路径渲染出流畅的 5 倍慢动作视频。

视频散景

DynIBaR 还可以通过合成景深动态变化的视频来 生成高质量的视频散景。给定一个全焦输入视频,DynIBar 可以生成具有不同失焦区域的高质量输出视频,以引起人们对场景中移动(例如奔跑的人和狗)和静态内容(例如树木和建筑物)的注意。

结论

DynIBaR 是我们渲染来自新摄像机路径的复杂移动场景能力的一次飞跃。虽然它目前涉及每个视频的优化,但我们设想可以部署在野外视频上的更快版本,以便使用移动设备为消费者视频编辑提供新类型的效果。

致谢

DynIBaR 是 Google Research 和康奈尔大学研究人员合作的成果。本文介绍的工作的主要贡献者包括 Zhengqi Li、Qianqian Wang、Forrester Cole、Richard Tucker 和 Noah Snavely。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论