通过人类注意力的预测模型实现愉悦的用户体验

1N~Y$W5$}(899ONVJITYYNU.png

人类具有非凡的能力,能够接收大量信息(估计每秒约有 10 10比特进入视网膜),并选择性地关注一些与任务相关且有趣的区域,以便进一步处理(例如记忆、理解、行动)。因此,对人类注意力进行建模(其结果通常称为显着性模型)一直是神经科学、心理学、人机交互(HCI) 和计算机视觉领域关注的焦点。预测哪些区域可能引起注意的能力在图形、摄影、图像压缩和处理以及视觉质量测量等领域具有许多重要的应用。

我们之前曾讨论过使用机器学习和基于智能手机的凝视估计来加速眼动研究的可能性,而这之前需要专门的硬件,每台成本高达 30,000 美元。相关研究包括“ Look to Speak ”,它可以帮助有无障碍需求的用户(例如ALS患者)用眼睛交流,以及最近发布的“差分隐私热图”技术,用于计算热图(如注意力热图),同时保护用户的隐私。

在此博客中,我们介绍了两篇论文(一篇来自CVPR 2022,一篇刚刚被CVPR 2023接受),重点介绍了我们在人类注意力建模领域的最新研究:“减少视觉干扰的深度显着性先验”和“从独特视角学习:用户感知显着性建模”,以及最近关于显着性驱动的图像压缩渐进式加载的研究(1、2 )。我们展示了人类注意力的预测模型如何实现令人愉悦的用户体验,例如图像编辑以最大限度地减少视觉混乱、干扰或伪影,图像压缩以更快地加载网页或应用程序,以及引导 ML 模型实现更直观的类似人类的解释和模型性能。我们专注于图像编辑和图像压缩,并讨论在这些应用程序背景下建模的最新进展。

注意力引导图像编辑

人类注意力模型通常将图像作为输入(例如,自然图像或网页截图),并预测热图作为输出。图像上的预测热图会根据真实注意力数据进行评估,真实注意力数据通常由眼动仪收集或通过鼠标悬停/单击进行近似计算。以前的模型利用手工制作的特征来获取视觉线索,例如颜色/亮度对比度、边缘和形状,而较新的方法则自动学习基于深度神经网络的判别特征,从卷积和循环神经网络到较新的视觉变换网络。

在“深度显著性先验减少视觉干扰”中(有关此项目网站的更多信息),我们利用深度显著性模型进行戏剧性但视觉上逼真的编辑,这可以显著改变观察者对不同图像区域的注意力。例如,移除背景中的干扰物体可以减少照片中的杂乱,从而提高用户满意度。同样,在视频会议中,减少背景中的杂乱可能会增加对主讲人的关注(示例演示在这里)。

为了探索可以实现哪些类型的编辑效果以及这些效果如何影响观看者的注意力,我们开发了一个优化框架,使用可区分的预测显著性模型来引导图像中的视觉注意力。我们的方法采用了最先进的深度显著性模型。给定一张输入图像和一个表示干扰区域的二值掩码,在预测显著性模型的指导下,掩码内的像素将被编辑,从而降低掩码区域内的显著性。为了确保编辑后的图像自然逼真,我们精心选择了四个图像编辑操作:两个标准的图像编辑操作,即重新着色和图像扭曲(移位);以及两个学习到的操作(我们没有明确定义编辑操作),即多层卷积滤波器和生成模型(GAN)。

借助这些运算符,我们的框架可以产生各种强大的效果,如下图所示,包括重新着色、修复、伪装、对象编辑或插入以及面部属性编辑。重要的是,所有这些效果都完全由单个预先训练的显着性模型驱动,无需任何额外的监督或训练。请注意,我们的目标不是与产生每种效果的专用方法竞争,而是展示如何通过嵌入在深度显着性模型中的知识来指导多种编辑操作。

减少视觉干扰的示例,由具有多个运算符的显著性模型指导。在每个示例中,干扰区域都标记在显著性图(红色边框)的顶部。

通过用户感知显著性建模丰富体验

先前的研究假设整个人群只有一个显着性模型。然而,人类的注意力因人而异——虽然对显着线索的检测相当一致,但它们的顺序、解释和注视分布可能会有很大差异。这为为个人或团体创造个性化用户体验提供了机会。在“从独特视角学习:用户感知显着性建模”中,我们介绍了一个用户感知显着性模型,这是第一个可以使用单一模型预测一个用户、一组用户和一般人群注意力的模型。

如下图所示,该模型的核心是将每个参与者的视觉偏好与每个用户的注意力图和自适应用户掩码相结合。这需要在训练数据中提供每个用户的注意力注释,例如,用于自然图像的 OSIE 移动凝视数据集;用于网页的 FiWI和WebSaliency数据集。该模型不是预测代表所有用户注意力的单个显着性图,而是预测每个用户的注意力图来编码个人的注意力模式。此外,该模型采用用户掩码(大小等于参与者数量的二进制向量)来指示当前样本中参与者的存在,这使得可以选择一组参与者并将他们的偏好组合成单个热图。

用户感知显著性模型框架概述。示例图像来自OSIE图像集。

在推理过程中,用户掩码允许对任何参与者组合进行预测。在下图中,前两行是两组不同的参与者(每组三人)对图像的注意力预测。传统的注意力预测模型将预测相同的注意力热图。我们的模型可以区分这两组(例如,第二组对面部的关注度低于第一组,而对食物的关注度高于第一组)。同样,最后两行是两个不同参与者对网页的预测,我们的模型显示出不同的偏好(例如,第二位参与者比第一位参与者更关注左侧区域)。

预测注意力与基本事实 (GT)。EML-Net:来自最先进模型的预测,该模型对两个参与者/组的预测相同。我们的预测:来自我们提出的用户感知显着性模型的预测,该模型可以正确预测每个参与者/组的独特偏好。第一张图像来自OSIE图像集,第二张图像来自FiWI。

以显著特征为中心的渐进式图像解码

除了图像编辑,人类注意力模型还可以改善用户的浏览体验。浏览时最令人沮丧和恼人的用户体验之一就是等待带有图像的网页加载,尤其是在网络连接较差的情况下。在这种情况下,改善用户体验的一种方法是使用渐进式图像解码,即在下载数据时解码并显示越来越高分辨率的图像部分,直到全分辨率图像准备就绪。渐进式解码通常按顺序进行(例如,从左到右、从上到下)。使用预测注意力模型(1、2 ) ,我们可以根据显著性解码图像,从而可以首先发送显示最显著区域细节所需的数据。例如,在肖像中,脸部的字节可以优先于失焦背景的字节。因此,用户会更早地感受到更好的图像质量,并且等待时间会大大减少。更多详细信息请参阅我们的开源博客文章(文章 1、文章 2)。因此,预测注意力模型可以帮助压缩图像和更快地加载带有图像的网页,改善大图像和流媒体/ VR 应用程序的渲染。

结论

我们已经展示了人类注意力的预测模型如何通过图像编辑等应用实现令人愉悦的用户体验,图像编辑可以为用户减少图像或照片中的杂乱、干扰或伪像,而渐进式图像解码可以大大减少用户在图像完全渲染时感知到的等待时间。我们的用户感知显着性模型可以进一步针对个人用户或群体个性化上述应用程序,从而实现更丰富、更独特的体验。

预测注意力模型的另一个有趣方向是它们是否有助于提高计算机视觉模型在对象分类或检测等任务中的稳健性。例如,在“教师生成的空间注意力标签提升对比模型的稳健性和准确性”中,我们展示了预测人类注意力模型可以指导对比学习模型实现更好的表示并提高分类任务的准确性/稳健性(在ImageNet和ImageNet-C数据集上)。在这个方向上的进一步研究可以实现各种应用,例如利用放射科医生对医学图像的注意力来改善健康筛查或诊断,或在复杂的驾驶场景中使用人类注意力来指导自动驾驶系统。

致谢

这项工作涉及由软件工程师、研究人员和跨职能贡献者组成的多学科团队的协作努力。我们要感谢论文/研究的所有合著者,包括 Kfir Aberman、Gamaleldin F. Elsayed、Moritz Firsching、Shi Chen、Nachiappan Valliappan、Yushi Yao、Chang Ye、Yossi Gandelsman、Inbar Mosseri、David E. Jacobes、Yael Pritch、Shaolei Shen 和 Xinyu Ye。我们还要感谢团队成员 Oscar Ramirez、Venky Ramachandran 和 Tim Fujita 的帮助。最后,我们感谢 Vidhya Navalpakkam 在发起和监督这项工作方面发挥的技术领导作用。


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论