建立预测人类对不同视觉内容反应的统一模型

lixia01 · 发表于 2024-12-2 21:48:16

我们提出了一个统一的模型来理解和预测人类对各种视觉内容（包括图像、UI、网页等）的注意力和反应。我们表明，我们的单一统一模型的性能优于或可与许多现有的基线方法相媲美，而这些基线方法通常专用于一两个任务和数据集。
人类注意力与决策行为（例如主观偏好和评分）密切相关，并会塑造决策行为。然而，先前的研究往往是孤立地研究这些行为。例如，有大量关于人类注意力预测模型的研究，这些模型已知可用于各种应用，从减少视觉干扰到优化交互设计和更快（渐进式）渲染超大图像。此外，还有一项单独的研究，研究明确的后期决策行为模型，例如主观偏好和审美品质。
最近，我们开始将研究重点放在能否同时预测不同类型的人机交互和反馈，以解锁令人兴奋的以人为本的应用。在我们之前的博文中，我们展示了如何通过单个机器学习 (ML) 模型预测生成的图像上的丰富人机反馈（例如，文本与图像错位、美学质量、存在伪影的问题区域以及解释），并使用这些预测来评估和改进图像生成结果。
继此努力之后，我们在“ UniAR：一种用于预测人类对各种视觉内容的注意力和反应的统一模型”中引入了一种多模态模型，该模型试图统一人类视觉行为的各种任务。我们发现其性能可与表现最佳的领域和任务特定模型相媲美。受大型视觉语言模型的最新进展的启发，我们采用了多模态编码器-解码器转换器模型来统一各种人类行为建模任务。
该模型可实现多种应用。例如，它可以提供关于 UI 和视觉内容效果的近乎即时的反馈，使设计师和内容创建模型能够优化其工作以实现以人为本的改进。据我们所知，这是首次尝试统一建模，既包括吸引人们注意力的隐性早期感知行为，也包括对 UI（包括真实图像、移动网页、移动 UI 等）的主观偏好的显性后期决策。
模型架构
该模型使用两种类型的输入：图像和文本提示。其架构由用于图像编码的视觉变换器模型、用于嵌入文本标记的词嵌入层以及用于融合图像和文本表示的T5 变换器编码器组成。
它还有三个独立的预测因子：
注意力的热图预测器（即凝视或人们注视的位置的概率分布）和视觉重要性（人们认为重要的东西），
观看顺序的扫描路径预测器，
以及图像或网页质量（美学）分数的评级预测器。
文本提示对输入域（例如，自然图像、图形设计、网页）、行为任务（例如，预测交互热图、观看顺序、审美分数）的相关信息以及其他与任务相关的信息进行编码，例如观看场景（例如，自由观看、对象搜索）、目标对象名称或要回答的问题（例如，“信息图表是关于什么事件的？”或“图像中的人之间的关系是什么？”）。
我们使用了大规模自然图像数据集 ( WebLI ) 以及网页和移动 UI 图像数据集来预训练模型，并确保模型可以推广到多个领域。与上述数据集的原始论文中一样，预训练中使用了图像和 UI 屏幕区域的字幕任务。对于涉及预测凝视或交互坐标的序列任务（例如扫描路径预测），我们还添加了预训练任务，以根据文本片段和屏幕截图（用于网页和移动界面数据）预测相关项目的边界框的坐标。
在预训练之后，我们进一步使用 11 个公开数据集来训练我们的模型。数据集包括自然图像（大小从 480 到 1,680 像素不等）、图形设计和移动用户界面。在训练期间，我们以相同的采样率从所有训练数据集中随机抽样。样本大小从 121 到 21,622 不等。数据集详细信息可在论文中找到。
我们通过文本提示将特定的任务指令集成到模型中，以增强模型在各种视觉内容和场景中概括的能力。
结果
我们通过典型的评估指标，使用最近的基准对模型进行了比较：皮尔逊相关系数(CC) 用来测量预测和真实显著热图之间所有像素值的线性关系；KL 散度(KLD) 用来测量预测热图和真实热图之间的分布差异，以预测作为目标分布； Judd 等人的变体中的ROC 曲线下面积(AUC ) [35]将热图预测视为具有各种阈值的二元分类；归一化扫描路径显著性(NSS) 表示所有真实注视位置的平均显著性强度（预测热图中的像素值）；斯皮尔曼等级相关系数(SRCC) 和皮尔逊线性相关系数(PLCC) 分别用于量化预测评级的质量。
在热图预测中（见下表），UniAR 与强基线相比取得了最佳性能，并且在七个公共基准测试中在许多情况下超越了之前的最佳性能基准。值得注意的是，它在所有 27 个指标中的 17 个中取得了最佳结果（并且在 27 个指标中的 22 个中排名前两位），并且在移动界面和图形设计数据集的各项指标中超越了之前的基准。
对于扫描路径预测任务，我们的模型在两个数据集中的表现与基线相当，并且在数据集的所有指标上都超越基线，在五个指标中的四个中取得了最佳结果。
对于在任务之间传递知识，我们测试了模型概括和转移到未见过的任务和领域组合的能力，该模型在某些转移设置下显示出有希望的结果（例如，尽管在训练期间没有见过该任务和领域组合，但仍能预测网页上的扫描路径）。
限制
在对人类偏好和行为进行建模时，重要的是承认并仔细考虑此类模型的局限性：
模型预测作为指导：为了确保模型的使用对社会有益且负责任，模型预测旨在作为人类偏好的参考，而不是替代品。
微调以实现更有针对性的预测：为了模拟人们个人偏好的多样性，我们建议在未来的工作中根据用户群体（例如人口统计数据）创建微调模型变体。由于人类偏好会随着时间的推移而演变，因此使用更新的数据使模型保持最新状态将使其能够反映当前的偏好。
扩展数据集：我们的模型基于现有的公开数据集，包括更大的众包数据集。虽然这是一个很好的概念验证和第一步，但未来我们希望扩展以纳入来自更广泛人群的数据，包括通过辅助技术与内容互动的视力低下的注释者。
结论
我们开发了一个统一的多模态模型 UniAR，使用图像文本提示来预测人类对视觉内容的不同类型的隐性和显性反应和反馈（从注意力到主观偏好）。该模型在自然图像、图形设计、网页和 UI 等各种公共数据集上进行了训练，可以有效预测人类注意力热图、扫描路径序列和主观偏好，并在多个基准和任务中取得最佳表现。我们计划在未来的工作中探索更多人类行为任务和领域。
致谢
我们要感谢本文的所有合著者：Gang Li、Rachit Bhargava、Shaolei Shen、Nachiappan Valliappan、Youwei Liang、Hongxiang Gu、Venky Ramachandran、Golnaz Farhadi、Yang Li、Kai J Kohlhoff 和 Vidhya Navalpakkam。此外，我们还要感谢 Mark Simborg、Kimberly Schwede、Tom Small 和 Tim Fujita 帮助准备这篇博文。

		自动登录	找回密码
密码			立即注册