大型动作帧插值

1726127598955.jpg

帧插值是从给定的一组图像中合成中间图像的过程。该技术通常用于时间上采样,以提高视频的刷新率或创建慢动作效果。如今,有了数码相机和智能手机,我们经常在几秒钟内拍摄多张照片以捕捉最佳照片。在这些“几乎重复”的照片之间进行插值可以产生引人入胜的视频,揭示场景运动,通常比原始照片提供更令人愉悦的瞬间感。

连续视频帧之间的帧插值已被广泛研究,这些视频帧通常具有较小的运动。然而,与视频不同,近乎重复的照片之间的时间间隔可能为几秒钟,中间的运动也相当大,这是现有帧插值方法的主要缺陷。最近的方法试图通过在具有极端运动的数据集上进行训练来处理大运动,尽管对较小的运动效果有限。

在ECCV 2022上发表的 “ FILM:大动作帧插值”中,我们介绍了一种从近乎重复的照片中创建高质量慢动作视频的方法。FILM 是一种新的神经网络架构,在处理大动作时可实现最佳效果,同时还能很好地处理较小的动作。

胶片在两张几乎相同的照片之间进行插值以创建慢动作视频。

FILM 模型概述

FILM 模型将两幅图像作为输入并输出一张中间图像。在推理时,我们递归调用模型来输出中间图像。FILM 有三个组件:(1) 特征提取器,使用深度多尺度(金字塔)特征总结每幅输入图像;(2) 双向运动估计器,计算每个金字塔级别的像素级运动(即流量);(3) 融合模块,输出最终插值图像。我们在常规视频帧三元组上训练 FILM,中间帧作为监督的基准。

对两幅输入图像进行标准特征金字塔提取。每一层的特征都通过一系列卷积进行处理,然后将其下采样至空间分辨率的一半,并作为输入传递到更深的层。

尺度无关的特征提取

大运动通常使用多分辨率特征金字塔的分层运动估计来处理(如上所示)。然而,这种方法很难处理小而快速移动的物体,因为它们可能会在最深的金字塔层级消失。此外,在最深层级上,可用于推导监督的像素要少得多。

为了克服这些限制,我们采用了一种跨尺度共享权重的特征提取器,以创建“尺度无关”的特征金字塔。该特征提取器 (1) 通过将浅层上的大运动与深层上的小运动相等,允许在金字塔层级间使用共享运动估计器(下一节);(2) 创建一个具有较少权重的紧凑网络。

具体来说,给定两个输入图像,我们首先通过依次对每个图像进行下采样来创建图像金字塔。接下来,我们使用共享的U-Net卷积编码器从每个图像金字塔级别(下图中的列)中提取较小的特征金字塔。作为第三步也是最后一步,我们通过水平连接具有相同空间维度的不同卷积层的特征来构建与尺度无关的特征金字塔。请注意,从第三级开始,特征堆栈由同一组共享卷积权重(以相同颜色显示)构建。这可确保所有特征都相似,这使我们能够在后续的运动估计器中继续共享权重。下图使用四个金字塔级别描述了此过程,但实际上我们使用七个。

双向流量估计

特征提取后,FILM 执行基于金字塔的残差流量估计,以计算从尚未预测的中间图像到两个输入的流量。流量估计对每个输入进行一次,从最深层开始,使用卷积堆栈。我们通过向下一个更深层的上采样估计添加残差校正来估计给定级别的流量。此方法将以下内容作为输入:(1) 该级别的第一个输入的特征,以及 (2) 使用上采样估计扭曲后的第二个输入的特征。除两个最精细的级别外,所有级别都共享相同的卷积权重。

共享权重允许将深层小动作的解释与浅层大动作的解释相同,从而增加可用于大动作监督的像素数量。此外,共享权重不仅能够训练可能达到更高峰值信噪比(PSNR) 的强大模型,而且还需要使模型适合实际应用的 GPU 内存。

权重共享对图像质量的影响。左:不共享,右:共享。对于这种消融,我们使用了模型的较小版本(本文中称为 FILM-med ),因为没有权重共享的完整模型会发散,因为权重共享的正则化优势会丢失。

融合与帧生成

一旦估算出双向流,我们就会将两个特征金字塔扭曲成对齐状态。我们通过在每个金字塔层级上堆叠两个对齐的特征图、双向流和输入图像来获得级联特征金字塔。最后,U-Net解码器从对齐和堆叠的特征金字塔中合成插值输出图像。

电影架构。特征提取:我们提取与尺度无关的特征。使用共享权重提取颜色匹配的特征。流量估计:我们使用跨更深金字塔级别的共享权重计算双向流量,并将特征扭曲成对齐。融合:U-Net 解码器输出最终的插值帧。

损失函数

在训练期间,我们通过结合三种损失来监督 FILM。首先,我们使用预测帧和真实帧之间的绝对 L1差异来捕捉输入图像之间的运动。但是,单独使用时会产生模糊的图像。其次,我们使用感知损失来提高图像保真度。这可以最小化从预测帧和真实帧中提取的ImageNet预训练VGG-19特征之间的 L1 差异。第三,我们使用Style 损失来最小化 ImageNet 预训练 VGG-19 特征的Gram 矩阵之间的 L2 差异。Style 损失使网络能够生成清晰的图像和大型预遮挡区域的逼真修复。最后,将损失与经验选择的权重相结合,使得每个损失对总损失的贡献相等。

如下所示,与使用 L1 损失和 VGG 损失训练 FILM 相比,组合损失大大提高了清晰度和图像保真度。组合损失保持了树叶的清晰度。

FILM 的组合损失函数。L1 损失(左)、L1 加 VGG 损失(中)和 Style 损失(右),显示清晰度显著提高(绿色框)。

图像和视频结果

我们在内部近似重复的照片数据集上评估了 FILM,该数据集表现出较大的场景运动。此外,我们将 FILM 与最近的帧插值方法进行了比较:SoftSplat和ABME。在跨较大运动进行插值时,FILM 表现良好。即使存在 100 像素大的运动,FILM 也会生成与输入一致的清晰图像。

使用 SoftSplat(左)、ABME(中)和 FILM(右)进行帧插值,显示出良好的图像质量和时间一致性。

大型运动插值。顶部:64 倍慢动作视频。底部(从左到右):混合的两个输入图像,SoftSplat 插值、ABME 插值和 FILM 插值。FILM 捕捉狗的脸部,同时保留背景细节。

结论

我们引入了 FILM,一种大型运动帧插值神经网络。FILM 的核心是采用与尺度无关的特征金字塔,该金字塔在各个尺度之间共享权重,这使我们能够构建一个“与尺度无关”的双向运动估计器,该估计器从具有正常运动的帧中学习,并很好地推广到具有大运动的帧。为了处理由大场景运动引起的大范围遮挡,我们通过匹配 ImageNet 预训练的 VGG-19 特征的 Gram 矩阵来监督 FILM,从而产生逼真的修复和清晰的图像。FILM 在处理大运动时表现良好,同时也能很好地处理小运动和中等运动,并生成时间上平滑的高质量视频。

亲自尝试一下

您可以使用现在公开提供的 源代码 在您的照片上尝试 FILM 。

致谢

我们要感谢 Eric Tabellion、Deqing Sun、Caroline Pantofaru 和 Brian Curless 的贡献。我们感谢 Marc Comino Trinidad 对尺度无关特征提取器的贡献、Orly Liba 和 Charles Herrmann 对文本的反馈、Jamie Aspinall 为论文提供的图像、Dominik Kaeser、Yael Pritch、Michael Nechyba、William T. Freeman、David Salesin、Catherine Wah 和 Ira Kemelmacher-Shlizerman 的支持。感谢 Tom Small 为本文制作动画图表。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论