MELON:从姿势未知的图像中重建 3D 物体

CSJ)SP]_7$QXZW6ACI~MZ7C.png我们讨论了 MELON,这是一种可以在 3D 中重建物体的同时从头开始确定以物体为中心的相机姿势的技术。MELON 可以轻松集成到现有的 NeRF 方法中,并且只需要 4-6 张物体图像即可。

一个人的先前经验和对世界的理解通常使他们能够轻松推断出一个物体的整体外观,即使只看几张 2D 图片也是如此。然而,计算机仅凭几张图片就能重建物体的 3D 形状的能力多年来一直是算法难题。这项基本的计算机视觉任务的应用范围很广,从创建电子商务 3D 模型到自动驾驶汽车导航。

问题的关键部分是如何确定拍摄图像的确切位置,这称为姿势推断。如果知道相机姿势,一系列成功的技术——例如神经辐射场(NeRF) 或3D 高斯溅射——可以重建 3D 物体。但是如果没有这些姿势,那么我们将面临一个困难的“先有鸡还是先有蛋”问题,如果我们知道 3D 物体,我们就可以确定姿势,但如果我们知道相机姿势,我们无法重建 3D 物体。伪对称性使这个问题变得更加困难,即从不同角度看,许多物体看起来相似。例如,像椅子这样的方形物体每旋转 90° 看起来往往相似。可以通过从各个角度在转盘上渲染物体并绘制其光度自相似图来揭示物体的伪对称性。

MELON-1-自相似性-英雄

玩具卡车模型的自相似图。左图:模型在转盘上从各个方位角θ 渲染。右图:从 θ 渲染与从 θ* 渲染的平均L2 RGB 相似度。伪相似度用红色虚线表示。

上图仅可视化了一个旋转维度。当引入更多自由度时,它会变得更加复杂(并且难以可视化)。伪对称性使问题变得不适定,简单的方法通常会收敛到局部最小值。实际上,这种方法可能会将物体的后视图误认为是前视图,因为它们具有相似的轮廓。以前的技术(例如BARF或SAMURAI)通过依赖接近全局最小值的初始姿势估计来回避这个问题。但是如果没有这些,我们该如何处理这个问题?

GNeRF和VMRF等方法利用生成对抗网络(GAN) 来克服这一问题。这些技术能够人为地“放大”有限数量的训练视图,从而帮助重建。然而,GAN 技术的训练过程通常很复杂,有时还不稳定,因此在实践中很难实现稳健可靠的收敛。一系列其他成功的方法,如SparsePose或RUST,可以从有限数量的视图推断姿势,但需要在大量姿势图像数据集上进行预训练,而这些数据集并不总是可用的,并且在推断不同类型的图像的姿势时可能会受到“领域差距”问题的影响。

在3DV 2024上重点介绍的“ MELON:SO(3) 中带有未摆姿势图像的 NeRF ”中,我们提出了一种技术,该技术可以在 3D 中重建物体的同时从头开始确定以物体为中心的相机姿势。MELON(NeRF 的模等效潜在优化)是首批无需初始姿势相机估计、复杂的训练方案或标记数据预训练即可做到这一点的技术之一。 MELON 是一种相对简单的技术,可以轻松集成到现有的 NeRF 方法中。我们证明 MELON 可以从未摆姿势的图像中重建 NeRF,并且具有最先进的精度,同时只需要 4-6 张物体图像。

我们利用两种关键技术来帮助解决这个不适定问题。第一种是非常轻量级的、动态训练的卷积神经网络(CNN) 编码器,它从训练图像中回归相机姿势。我们将缩小的训练图像传递给四层 CNN,以推断相机姿势。此 CNN 由噪声初始化,无需预训练。它的容量非常小,以至于它会强制相似的图像具有相似的姿势,从而提供隐式正则化,极大地帮助了收敛。

第二种技术是模损失,它同时考虑了对象的伪对称性。我们从一组固定的视点为每张训练图像渲染对象,仅通过最适合训练图像的视图反向传播损失。这有效地考虑了每张图像的多个视图的合理性。在实践中,我们发现在大多数情况下, N =2 个视图(从另一侧查看对象)就足够了,但有时对于方形对象,N =4 会获得更好的结果。

这两种技术都集成到了标准的 NeRF 训练中,不同之处在于,姿势不是固定的相机姿势,而是由 CNN 推断并通过模数损失进行复制。光度梯度通过最佳拟合相机反向传播到 CNN。我们观察到,相机通常会快速收敛到全局最优姿势(见下方动画)。经过神经场训练后,MELON 可以使用标准 NeRF 渲染方法合成新视图。

我们通过使用NeRF-Synthetic数据集来简化问题,该数据集是 NeRF 研究的流行基准,在姿势推理文献中很常见。此合成数据集的摄像头距离精确固定,方向一致,只需推断摄像头的极坐标即可。这相当于地球中心的物体始终被摄像头指向,并沿着表面移动。然后,我们只需要纬度和经度(2 个自由度)即可指定摄像头姿势。

MELON-2-小说观点

MELON 使用动态训练的轻量级 CNN 编码器来预测每幅图像的姿势。预测的姿势由模数损失复制,模数损失仅惩罚与地面真实颜色的最小 L2 距离。在评估时,神经场可用于生成新视图。

结果

我们计算了两个关键指标来评估 MELON 在 NeRF 合成数据集上的表现。地面真实姿势与推断姿势之间的方向误差可以量化为一个角度误差,我们将其对所有训练图像进行平均,即姿势误差。然后,我们通过测量与保持的测试视图相比的峰值信噪比(PSNR) 来测试 MELON 从新视图渲染对象的准确性。我们发现,在训练的前 1,000 步内,MELON 迅速收敛到大多数相机的近似姿势,并在 50k 步后实现了具有竞争力的 27.5 dB 的 PSNR。

优化过程中,MELON 在玩具卡车模型上的收敛。左图:NeRF 渲染图。右图:预测(蓝色 x)和地面真实(红点)相机的极坐标图。

MELON 在 NeRF Synthetic 数据集中的其他场景中也取得了类似的结果。

MELON-3-重建

经过 100k 步训练后,NeRF-Synthetic 场景上的地面实况 (GT) 与 MELON 的重建质量比较。

图像嘈杂

MELON 在从噪声极大、未经摆姿势的图像中执行新视图合成时也表现出色。我们向训练图像中添加了不同量( σ)的高斯白噪声。例如,下图中σ =1.0 中的物体无法辨认,但 MELON 可以确定其姿势并生成该物体的新视图。

MELON-4-从噪声图像中得出的新颖观点

从嘈杂的未调整的 128×128 图像中合成新视图。顶部:训练视图中存在的噪声水平示例。底部:从嘈杂的训练视图和平均角度姿势误差重建的模型。

这也许并不令人惊讶,因为RawNeRF等技术已经证明了 NeRF 在已知相机姿势下具有出色的去噪能力。MELON 对未知相机姿势的噪声图像如此稳健地起作用这一事实出乎意料。

结论

我们介绍了 MELON,这是一种可以确定以物体为中心的相机姿势以重建 3D 物体的技术,无需近似姿势初始化、复杂的 GAN 训练方案或对标记数据进行预训练。MELON 是一种相对简单的技术,可以轻松集成到现有的 NeRF 方法中。虽然我们仅在合成图像上演示了 MELON,但我们正在调整我们的技术以使其适用于现实世界条件。请参阅论文和MELON网站了解更多信息。

致谢

我们要感谢我们的论文合著者 Axel Levy、Matan Sela 和 Gordon Wetzstein,以及 Florian Schroff 和 Hartwig Adam 在构建这项技术方面提供的持续帮助。我们还要感谢 Matthew Brown、Ricardo Martin-Brualla 和 Frederic Poitevin 对论文草稿提供的有益反馈。我们还感谢使用 SLAC 共享科学数据设施 (SDF) 的计算资源。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论