使用文本到图像模型和合成数据顺利编辑物体的材料属性

我们提出了一种方法,通过对任何照片中物体的材料属性(例如颜色、光泽度或透明度)进行参数编辑来增强图像生成模型。通过使用合成数据集进行微调,生成的参数模型充分利用了对生成文本到图像模型的真实理解。

许多现有工具允许我们编辑所拍摄的照片,从使照片中的物体突出到想象一间空房间在淡紫色下会是什么样子。可平滑控制(或参数化)的编辑是理想的选择,因为它们可以精确控制物体(例如咖啡杯)的光泽度或墙壁上油漆的确切色调。然而,在保留照片真实感的同时进行此类编辑通常需要使用现有程序的专家级技能。让用户在保留照片真实感的同时进行此类编辑一直是计算机视觉领域的难题。

先前的方法(例如固有图像分解)将图像分解为表示“基本”视觉成分的图层,例如基色(也称为“反照率”)、镜面反射度和光照条件。这些分解后的图层可以单独编辑并重新组合,以制作出照片般逼真的图像。挑战在于,在确定这些视觉成分时存在很大的模糊性:球的一侧看起来更暗是因为其颜色更暗还是因为被阴影遮挡?那是由于强光而产生的高光,还是那里的表面是白色的?人们通常能够消除这些歧义,但即使我们偶尔也会被愚弄,这使得这对计算机来说是一个难题。

其他近期方法利用生成式文本转图像 (T2I) 模型来编辑图像中的对象,该模型擅长生成照片级逼真的图像。然而,这些方法难以理清材料和形状信息。例如,尝试将房子的颜色从蓝色改为黄色也可能会改变其形状。我们在StyleDrop中观察到了类似的问题,它可以生成不同的外观,但不会保留样式之间的对象形状。我们能否找到一种方法来编辑对象的材料外观,同时保留其几何形状?

在CVPR 2024上发表的“ Alchemist:使用扩散模型对材料属性进行参数控制”中,我们介绍了一种利用 T2I 模型的照片级真实感先验的技术,让用户可以对图像中对象的特定材料属性(粗糙度、金属外观、底色饱和度和透明度)进行参数编辑控制。我们证明了我们的参数编辑模型可以在保留对象几何形状的同时更改对象的属性,甚至可以在对象透明时填充其背后的背景。

方法

我们使用传统的计算机图形和基于物理的渲染技术(这些技术多年来一直使电影和电视中的视觉效果更加逼真)来渲染合成数据集,使我们能够完全控制材质属性。我们首先收集 100 个具有不同几何形状的家用物品的 3D 模型。创建其中一个模型的图像需要选择材质、摄像机角度和照明条件。我们随机选择这些,使我们能够创建每个对象的大量“基础图像”。对于每个基础图像,我们随后更改材质的单个属性(例如粗糙度或透明度),以生成具有各种编辑强度的多个图像版本,同时保持对象形状、照明和摄像机角度相同。我们将编辑强度定义为改变材质属性的标量值。定义这些是一种启发式设计选择,但为简单起见,我们根据属性将 0 设置为“无变化”,-1 设置为“最小变化”,+1 设置为“最大变化”。

来自我们的合成数据集的样本说明了线性属性变化的外观变化。

接下来,我们修改了Stable Diffusion 1.5的架构,这是一个用于 T2I 生成的潜在扩散模型,以接受编辑强度值,从而实现我们所寻求的材料参数的细粒度控制。为了教会模型如何只更改我们想要的材料属性,我们在合成图像数据集上对其进行了微调,这些合成图像仅说明了对所需材料属性的编辑,同时输入了相应的编辑强度。该模型学习如何在给定上下文图像、指令和定义所需相对属性变化的标量值的情况下编辑材料属性。

要编辑真实世界图像中对象的材质属性,我们只需将新的真实世界图像提供给经过训练的模型,并输入用户想要的任何编辑强度。该模型从相对少量的合成数据推广到真实世界图像,解锁真实世界图像的材质编辑,同时保持所有其他属性不变。这种相对简单的在特定任务数据集上进行微调的方法展示了 T2I 模型在广泛的输入图像领域中推广的强大功能。

结果

我们对这种方法的效果印象深刻。当被要求将物体变成金属时,我们的模型有效地改变了物体的外观,同时保持了物体的形状和图像照明不变。当被要求将物体变成透明时,它会逼真地填充物体后面的背景、隐藏的内部结构和焦散效果(穿过物体的折射光)。

编辑示例。 输入显示模型从未见过的新颖的伸出图像。 输出显示模型输出,成功编辑了材料属性。请注意南瓜的焦散照明效果和椅子内部不可见的几何图形。

流畅地编辑材料属性。 输入显示模型从未见过的新颖的突出图像。 输出显示模型输出。观察输出图像如何随着编辑强度的变化而流畅地改变材料属性。

此外,在一项用户研究中,我们将我们的方法与基于相同合成数据集进行训练的基线方法InstructPix2Pix进行了比较。内部志愿者被要求查看 12 对编辑后的图像并选择:(1) 最逼真的图像,以及 (2) 他们喜欢的图像。研究报告称,与基线方法相比,我们的方法具有更多逼真的编辑(69.6% vs. 30.4%),并且总体上更受欢迎(70.2% vs. 29.8%)。

应用

这项技术的潜在用例非常广泛。除了能够更轻松地想象重新粉刷空余房间后的效果外,建筑师、艺术家和设计师还可以更轻松地模拟新产品设计。我们还证明了我们的模型执行的编辑在视觉上是一致的,因此可以将其用于下游 3D 任务。

例如,给定一个场景的多个图像,NeRF重建允许合成新的视图。我们只需编辑相同的输入图像,更改这些输入图像的材质外观。然后我们使用 NeRF 合成场景的新视图。我们在场景中观察到材质属性编辑的 3D 一致渲染。我们在下面展示了此过程的结果。

NeRF 素材编辑。 左上角显示了使用地面实况图像创建的 NeRF。在 中上 和 右上角的图像中,我们使用模型编辑输入图像,然后从头开始训练新的 NeRF。 底部一行显示了对其他场景的类似编辑。

结论

我们提出了一种利用预先训练的文本转图像模型和合成数据的技术,让用户能够以照片般逼真且可控的方式编辑图像中对象的材料属性。尽管该模型在某些情况下难以制作隐藏的细节,但我们对该方法可控材料编辑的潜力感到鼓舞。请参阅论文和项目网站了解更多信息。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论