用于条件性文本到图像生成的设备内扩散插件

Z[38B9T21PP]ST3}T3TV%IA.png

近年来,扩散模型在文本到图像的生成中取得了巨大成功,实现了高图像质量、提升了推理性能,并拓展了我们的创作灵感。然而,有效控制生成仍然具有挑战性,特别是在难以用文字描述的条件下。

今天,我们发布了MediaPipe扩散插件,该插件支持在设备上运行可控的文本到图像生成。在之前针对设备上大型生成模型的 GPU 推理工作的基础上,我们引入了新的低成本可控文本到图像生成解决方案,可将其插入现有的扩散模型及其低秩自适应 ( LoRA ) 变体中。

使用设备上运行的控制插件进行文本到图像的生成。

背景

使用扩散模型,图像生成被建模为一个迭代去噪过程。从噪声图像开始,在每个步骤中,扩散模型逐渐对图像进行去噪,以显示目标概念的图像。研究表明,利用通过文本提示进行的语言理解可以大大改善图像生成。对于文本到图像的生成,文本嵌入通过交叉注意层连接到模型。然而,有些信息很难通过文本提示来描述,例如物体的位置和姿势。为了解决这个问题,研究人员在扩散中添加了额外的模型,以从条件图像中注入控制信息。

受控文本到图像生成的常用方法包括即插即用、 ControlNet和T2I Adapter。即插即用采用了一种广泛使用的去噪扩散隐式模型 ( DDIM ) 反演方法,该方法从输入图像开始反转生成过程以得出初始噪声输入,然后使用扩散模型的副本(稳定扩散 1.5 有 860M 个参数)对输入图像中的条件进行编码。即插即用从复制的扩散中提取具有自注意功能的空间特征,并将其注入文本到图像的扩散中。ControlNet 创建扩散模型编码器的可训练副本,该副本通过具有零初始化参数的卷积层连接以编码传达到解码器层的条件信息。但是,因此,其大小很大,只有扩散模型的一半(稳定扩散 1.5 有 430M 个参数)。T2I Adapter 是一个较小的网络(77M 个参数),在可控生成中实现了类似的效果。 T2I 适配器仅将条件图像作为输入,其输出在所有扩散迭代中共享。然而,适配器模型不是为便携式设备设计的。

MediaPipe 扩散插件

为了使条件生成高效、可定制且可扩展,我们将 MediaPipe 扩散插件设计为一个单独的网络,其特点是:

可插入:可以轻松连接到预先训练的基础模型。

从头开始训练:它不使用来自基础模型的预先训练的权重。

可移植性:它在移动设备上的基础模型之外运行,与基础模型推理相比,成本可以忽略不计。

方法   参数大小     可插拔     从头开始     便携的

即插即用   8.6 亿*     ✔️     ❌     ❌

控制网   4.3 亿*     ✔️     ❌     ❌

T2I 适配器   7700 万     ✔️     ✔️     ❌

MediaPipe 插件   6百万     ✔️     ✔️     ✔️

即插即用、ControlNet、T2I 适配器和 MediaPipe 扩散插件的比较。

* 数量因扩散模型的具体情况而异。

MediaPipe 扩散插件是一种便携式设备模型,用于文本到图像的生成。它从条件图像中提取多尺度特征,并将其添加到相应级别的扩散模型的编码器中。当连接到文本到图像的扩散模型时,插件模型可以为图像生成提供额外的条件信号。我们将插件网络设计为一个只有 6M 个参数的轻量级模型。它使用MobileNetv2中的深度卷积和反向瓶颈,以便在移动设备上进行快速推理。

MediaPipe 扩散模型插件概述。该插件是一个单独的网络,其输出可以插入预先训练的文本到图像生成模型。插件提取的特征应用于扩散模型的相关下采样层(蓝色)。

与 ControlNet 不同,我们在所有扩散迭代中注入相同的控制特征。也就是说,我们只为一次图像生成运行一次插件,从而节省了计算量。下面我们展示了扩散过程的一些中间结果。控制在每个扩散步骤中都有效,即使在早期步骤也能实现受控生成。更多的迭代可以改善图像与文本提示的对齐,并生成更多细节。

使用 MediaPipe 扩散插件的生成过程的说明。

示例

在这项工作中,我们开发了基于扩散的文本到图像生成模型的插件,该模型包含 MediaPipe人脸标志、MediaPipe整体标志、深度图和Canny 边缘。对于每个任务,我们从网络规模的图像文本数据集中选择大约 100K 张图像,并使用相应的 MediaPipe 解决方案计算控制信号。我们使用PaLI的精炼字幕来训练插件。

面部标志

MediaPipe人脸标志点任务计算人脸的 478 个标志点(注意)。我们使用MediaPipe 中的绘图工具来渲染人脸,包括面部轮廓、嘴巴、眼睛、眉毛和虹膜,并使用不同的颜色。下表显示了根据面部网格和提示随机生成的样本。作为比较,ControlNet 和 Plugin 都可以在给定条件下控制文本到图像的生成。

与 ControlNet 相比,Face-landmark 插件用于文本到图像的生成。

整体地标

MediaPipe整体地标任务包括身体姿势、手部和面部网格的地标。下面,我们通过调节整体特征来生成各种风格化的图像。

用于文本到图像生成的 Holistic-landmark 插件。

深度

用于文本到图像生成的深度插件。

精明的边缘

Canny-edge 插件用于文本到图像的生成。

评估

我们对人脸特征点插件 进行了定量研究,以展示模型的性能。评估数据集包含 5K 幅人体图像。我们通过广泛使用的指标Fréchet Inception Distance (FID) 和CLIP分数来比较生成质量。基础模型是预先训练的文本到图像扩散模型。我们在这里使用Stable Diffusion v1.5。

如下表所示,就 FID 和 CLIP 分数而言,ControlNet 和 MediaPipe 扩散插件产生的样本质量都比基础模型好得多。与需要在每个扩散步骤运行的 ControlNet 不同,MediaPipe 插件只需为每个生成的图像运行一次。我们在服务器计算机(配备 Nvidia V100 GPU)和手机(Galaxy S23)上测量了这三个模型的性能。在服务器上,我们以 50 个扩散步骤运行所有三个模型,在移动设备上,我们使用 MediaPipe 图像生成应用程序运行 20 个扩散步骤。与 ControlNet 相比,MediaPipe 插件在保持样本质量的同时,在推理效率方面表现出明显优势。

模型     ↓     剪辑↑     推理时间(秒)

Nvidia V100     Galaxy S23

根据     10.32     0.26     5.0     11.5

基础 + 控制网络     6.51     0.31     7.4(+48%)     18.2(+58.3%)

基础 + MediaPipe 插件     6.50     0.30     5.0(+0.2%)     11.8(+2.6%)

FID、CLIP 和推理时间的定量比较。

我们在从中端到高端的各种移动设备上测试了该插件的性能。我们在下表中列出了一些代表性设备的结果,涵盖了 Android 和 iOS。

设备     安卓     iOS

    像素 4     Pixel 6     Pixel 7     Galaxy S23     iPhone 12 Pro     iPhone 13 Pro

时间(毫秒)     128     68     50     四十八     73     63

插件在不同移动设备上的推理时间(毫秒)。

结论

在这项工作中,我们介绍了 MediaPipe,这是一个用于条件文本到图像生成的便携式插件。它将从条件图像中提取的特征注入到扩散模型,从而控制图像生成。便携式插件可以连接到在服务器或设备上运行的预训练扩散模型。通过完全在设备上运行文本到图像生成和插件,我们可以更灵活地应用生成式 AI。

致谢

我们要感谢所有为这项工作做出贡献的团队成员:Raman Sarokin 和 Juhyun Lee 提供了 GPU 推理解决方案;Khanh LeViet、Chuo-Ling Chang、Andrei Kulik 和 Matthias Grundmann 提供了领导。特别感谢 Jiuqiang Tang 、Joe Zou 和 Lu wang, 他们创造了这项技术并实现了所有在设备上运行的演示。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论