丰富的人类反馈,助力文本到图像的生成

$FU33MISNI_UYM~)9ND2UKN.png

我们为文本到图像 (T2I) 生成提出了丰富的人工反馈,并展示了使用我们的模型和发布的数据集改进 T2I 模型的各种方法。

近期的文本到图像生成 (T2I) 模型(例如Stable Diffusion和Imagen)在基于文本描述生成高分辨率图像方面取得了重大进展。然而,许多生成的图像仍然存在伪影(例如扭曲的物体、文本和身体部位)、与文本描述不一致以及美学质量低下等问题。例如,下图中的提示是“一只骑摩托车的熊猫”,但生成的图像显示了两只熊猫,并带有其他不良伪影,包括扭曲的熊猫鼻子和车轮辐条。

受大型语言模型 (LLM)中强化学习人类反馈(RLHF)成功的启发,我们探索从人类反馈 (LHF) 中学习是否有助于改进图像生成模型。当应用于 LLM 时,人类反馈的范围可以从简单的偏好评级(例如“竖起大拇指或向下”、“A 或 B”)到更详细的响应(例如重写有问题的答案)。然而,目前针对 T2I 的 LHF 工作主要侧重于简单的响应(例如偏好评级),因为修复有问题的图像通常需要高级技能(例如编辑),这使其过于困难且耗时。

在“文本到图像生成的丰富人工反馈”中,我们设计了一个流程来获取针对 T2I 的丰富人工反馈,该反馈既具体(例如,告诉我们图像中哪里出了问题)又易于获取。我们展示了 LHF 对 T2I 的可行性和优势。我们的主要贡献有三点:

我们策划并发布了RichHF-18K,这是一个涵盖稳定扩散变体生成的 18K 图像的人工反馈数据集。

我们训练了一个多模态变换器模型,丰富的自动人机反馈 (RAHF),以预测不同类型的人机反馈,例如不合理分数、工件位置的热图以及缺失或错位的文本/关键字。

我们表明,可以利用预测的丰富的人类反馈来改进图像生成,并且这种改进可以推广到用于数据收集(稳定扩散变体)的模型(例如Muse )。

据我们所知,这是第一个用于最先进的文本到图像生成的丰富反馈数据集和模型。

丰富的人工反馈收集

从Pick-a-Pic训练数据集中选择图像(基于PaLI自动创建的属性),以获得跨类别和类型的各种图像,如下所示,最终得到 17K 幅图像。我们将 17K 样本随机分成一个包含 16K 样本的训练集和一个包含 1K 样本的验证集。此外,我们收集了 Pick-a-Pic 测试集的丰富人工反馈作为我们的测试集。因此,最终的 RichHF-18K 数据集包含 16K 训练样本、1K 验证样本和 1K 测试样本。

RichHF1-PaLI属性

训练集中图像的 PaLI 属性直方图。

对于生成的每幅图像,首先要求注释者检查图像并阅读文本提示。然后,他们在图像上标记点,以指示任何不合理、伪像或与文本提示不一致的位置。最后,注释者在 5 点李克特量表上分别标记不一致的关键字和可信度、图像文本对齐、美观度和整体质量的四种分数。

我们的注释用户界面的插图。

丰富的人工反馈预测

我们的 RAHF 模型架构如下所示。我们采用基于 ViT 和 T5X 模型的视觉语言模型,该模型受到之前大型视觉语言模型研究(PaLI和Spotlight)的启发。文本信息通过自注意力传播到图像标记,用于文本错位分数和热图预测(伪影或错位的问题区域),而视觉信息传播到文本标记以实现更好的视觉感知文本编码来解码文本错位序列。我们最好的模型对每种预测类型使用一个头,如下图所示三个绿色框所示:热图、分数和错位序列。为了向模型告知细粒度的热图或分数类型,我们使用输出类型扩充提示。更具体地说,我们在每个示例的每个特定任务的提示前面添加一个任务字符串(例如“不合理热图”),并使用相应的标签作为训练目标。

我们丰富的反馈模型的架构。

我们的模型对不合理性热图的预测示例如下所示。

不可信热图示例。在 Groundtruth 热图中,颜色表示有多少注释者将该区域标记为不可信。红色/黄色/蓝色分别表示 3/2/1 个注释者标记该区域。在预测中,颜色表示信号强度(概率)。一个区域越热,模型将其预测为不可信的可能性就越大。

下面是一个关于人类手部(这是生成模型最常见的错误来源之一)的案例研究和图表,表明该模型可以成功定位各种情况下的文物。这表明该模型学习了好手和好手指的概念。

人类手和手指的不可信热图案例研究。

作为基准比较,我们使用 RichHF-18K 数据对 ResNet-50 进行了微调。下面的定量分析表明,我们的模型在大多数不合理性热图预测指标上的表现都优于基准。

测试集上的不合理性热图预测结果。该图显示,与基线模型相比,我们的模型在大多数指标上都有所改进。MSE: 均方误差。KLD: KL 散度。NSS: 归一化扫描路径显著性。CC: 相关系数。

下面是我们的模型预测错位热图的示例。蘑菇的顶部被标记为错位区域,因为没有生成蛇。我们可以看到我们的模型可以在此示例中准确预测错位区域。

错位热图示例。提示:“蘑菇上有一条蛇。”

下面我们展示了我们的模型在分数预测方面的表现与基线方法的比较。分数预测的示例可以在我们的论文中找到。

测试集上分数预测结果的 Spearman 相关性。

下图展示了生成的图像和预测的人类反馈的示例,表明 RAHF 可以作为 T2I 生成的评估工具,并具有自动解释功能。

一个生成的图像的示例和 RAHF 预测的丰富人类反馈。

从丰富的人类反馈中学习

预测的丰富的人类反馈(例如分数和热图)可用于改进图像生成。

一种方法是使用预测分数对生成模型进行微调。为此,我们首先通过使用 RAHF 预测分数过滤Muse模型结果来创建高质量数据集。然后通过LoRA微调方法使用此数据集对 Muse 模型进行微调。并行评估表明,使用 RAHF 合理性分数进行微调的 Muse 拥有的伪影明显少于原始 Muse,如下面的示例和结果所示。

Muse 使用经过合理性分数过滤的示例在微调之前和之后生成图像。

人工评估结果。微调后的 Muse 明显优于、略优于、大致相同、略差、明显差于原始 Muse 的示例百分比。

此外,下面我们展示了一个使用 RAHF 美学分数作为潜在扩散模型的分类器指导的示例,表明每个细粒度分数都可以改善生成模型/结果的不同方面。

使用 RAHF 美学评分作为潜在扩散模型分类器指导的示例。提示:“回形针的微距镜头特写”。

使用 RAHF 总体评分作为潜在扩散模型的分类器指导的示例。提示:“小猫寿司彩色玻璃窗日落雾。”

我们还证明了我们模型的预测热图和分数可用于执行区域修复以提高生成图像的质量。对于每张图像,我们首先预测不合理热图,然后通过处理热图(使用阈值和扩张)创建蒙版。在蒙版区域内应用 Muse 修复以生成与文本提示匹配的新图像。生成多张图像,最终图像由我们的 RAHF 根据预测的最高合理性分数选择。下面我们展示了修复后生成的更合理的图像,其中伪影更少。

RichHF14-修复

使用 Muse 生成模型进行区域修复。从左到右,这三幅图分别是:来自 Muse 的带有伪影的原始图像、来自我们模型的预测不合理热图以及使用蒙版的 Muse 区域修复的新图像。

结论

在这项工作中,我们宣布并发布了RichHF-18K,这是第一个用于文本到图像生成的丰富人工反馈数据集。我们设计并训练了一个多模态 Transformer 来预测丰富的人工反馈,并演示了一些使用我们的丰富人工反馈改进图像生成的实例。未来的工作包括改进数据集以获得更好的注释质量(尤其是在错位热图上),并在更广泛的生成模型(例如Imagen和DALL-E)上收集丰富的人工反馈,并研究更多使用丰富人工反馈的方法。我们希望 RichHF-18K 和我们的初始模型能够激发进一步的研究,从人工反馈中学习图像生成的研究方向。

致谢

我们要感谢所有共同作者对本文的贡献:Youwei Liang、Peizhao Li、Arseniy Klimovskiy、Nicholas Carolan、Jiao Sun、Jordi Pont-Tuset、Sarah Young、Feng Yang、Junjie Ke、Krishnamurthy Dj Dvijotham、Katie Collins、Yiwen Luo、Yang Li、Kai J Kohlhoff、Deepak Ramachandran、Vidhya Navalpakkam。我们还要感谢 Tim Fujita 和 Jane Park 对这篇博文的帮助。Junfeng He 和 Gang Li 共同领导了这个项目,并做出了同等的领导/技术贡献。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论