MUSIQ:使用多尺度变换器评估图像美学和技术质量

1726127153417.jpg

了解图像的美学和技术质量对于提供更好的用户视觉体验非常重要。图像质量评估(IQA) 使用模型在图像和用户对其质量的主观感知之间架起桥梁。在深度学习时代,许多 IQA 方法(例如NIMA )通过利用卷积神经网络(CNN)的强大功能取得了成功。然而,基于 CNN 的 IQA 模型通常受到批量训练中固定大小输入要求的限制,即, 输入图像需要调整大小或裁剪为固定大小的形状。这种预处理对于 IQA 来说是有问题的,因为图像的纵横比和分辨率可能有很大差异。调整大小和裁剪会影响图像构图或引入扭曲,从而改变图像的质量。

在基于 CNN 的模型中,需要调整图像大小或裁剪为固定形状以进行批量训练。然而,这种预处理可能会改变图像的长宽比和构图,从而影响图像质量。原始图像在CC BY 2.0 许可下使用。

在ICCV 2021上发表的 “ MUSIQ:多尺度图像质量变换器”中,我们提出了一种基于块的多尺度图像质量变换器(MUSIQ),以绕过 CNN 对固定输入大小的限制,并有效地预测原始分辨率图像上的图像质量。 MUSIQ 模型支持处理具有不同长宽比和分辨率的全尺寸图像输入,并允许多尺度特征提取以捕获不同粒度的图像质量。 为了支持多尺度表示中的位置编码,我们提出了一种新颖的基于哈希的二维空间嵌入,并结合了捕获图像缩放的嵌入。 我们将 MUSIQ 应用于四个大型 IQA 数据集,在三个技术质量数据集(PaQ-2-PiQ、KonIQ-10k和SPAQ )上展示了一致的最佳结果,并且在美学质量数据集AVA上具有与最先进模型相当的性能。

基于补丁的 MUSIQ 模型可以处理全尺寸图像并提取多尺度特征,从而更好地符合人的典型视觉反应。

在下图中,我们在括号中显示了一组图像样本、它们的 MUSIQ 分数以及来自多位人类评分者的平均意见分数 (MOS)。分数范围从 0 到 100,其中 100 表示感知质量最高。从图中可以看出,MUSIQ 会为美学质量高且技术质量高的图像预测高分,而为不美观(美学质量低)或包含可见扭曲(技术质量低)的图像预测低分。

高质量

76.10[74.36] 69.29 [70.92]

美学品质低

55.37 [53.18] 32.50 [35.47]

技术质量低

14.93 [14.38] 15.24 [11.86]

KonIQ-10k数据集中图像的预测 MUSIQ 得分(和基本事实)。顶部: MUSIQ 预测高质量图像的得分较高。中间: MUSIQ 预测美学质量较低的图像的得分较低,例如构图或光线较差的图像。底部: MUSIQ 预测技术质量较低的图像的得分较低,例如具有可见失真伪影(例如模糊、嘈杂)的图像。

多尺度图像质量变换器

MUSIQ 解决了在全尺寸图像上学习 IQA 的挑战。与通常受限于固定分辨率的 CNN 模型不同,MUSIQ 可以处理具有任意宽高比和分辨率的输入。

为了实现这一点,我们首先对输入图像进行多尺度表示,其中包含原始分辨率图像及其调整大小后的变体。为了保留图像构图,我们在调整大小时保持其纵横比。获得图像金字塔后,我们将不同尺度的图像划分为固定大小的块,并将其输入到模型中。

MUSIQ 中多尺度图像表示的说明。

由于图像块来自不同分辨率的图像,我们需要有效地将多纵横比多尺度输入编码为一系列标记,同时捕获像素、空间和尺度信息。为了实现这一点,我们在 MUSIQ 中设计了三个编码组件,包括:1) 图像块编码模块,用于对从多尺度表示中提取的图像块进行编码;2) 新颖的基于哈希的空间嵌入模块,用于对每个图像块的 2D 空间位置进行编码;3) 可学习的尺度嵌入,用于对不同的尺度进行编码。通过这种方式,我们可以有效地将多尺度输入编码为一系列标记,作为 Transformer 编码器的输入。

为了预测最终的图像质量得分,我们使用标准方法,即添加一个额外的可学习“分类标记”(CLS)。Transformer 编码器输出处的 CLS 标记状态用作最终的图像表示。然后,我们在顶部添加一个完全连接的层来预测 IQS。下图概述了 MUSIQ 模型。

MUSIQ 概述。多尺度多分辨率输入将由三个组件进行编码:尺度嵌入 (SCE)、基于哈希的 2D 空间嵌入 (HSE) 和多尺度块嵌入 (MPE)。

由于 MUSIQ 仅更改输入编码,因此它与任何 Transformer 变体兼容。为了证明所提方法的有效性,我们在实验中使用了经典 Transformer 和相对轻量级的设置,因此模型大小与ResNet-50 相当。

基准与评估

为了评估 MUSIQ,我们在多个大型 IQA 数据集上进行了实验。在每个数据集上,我们报告了模型预测与人类评估者平均意见得分之间的Spearman 等级相关系数(SRCC) 和Pearson 线性相关系数(PLCC)。SRCC 和 PLCC 是相关性指标,范围从 -1 到 1。PLCC 和 SRCC 越高,表示模型预测与人类评估之间的一致性越好。下图显示 MUSIQ 在PaQ-2-PiQ、KonIQ-10k和SPAQ上的表现优于其他方法。

在四个大型 IQA 数据集上对 MUSIQ 与之前最先进的 (SOTA) 方法进行性能比较。在每个数据集上,我们比较模型预测和基本事实的 Spearman 等级相关系数 (SRCC) 和 Pearson 线性相关系数 (PLCC)。

值得注意的是,PaQ-2-PiQ测试集完全由大图片组成,其中至少一个维度超过 640 像素。这对于需要调整大小的传统深度学习方法来说非常具有挑战性。MUSIQ 在全尺寸测试集上的表现可以大幅超越之前的方法,这证明了其稳健性和有效性。

还值得一提的是,以前基于 CNN 的方法在测试期间通常需要对每幅图像进行多达 20 次裁剪。这种多裁剪集成是一种缓解 CNN 模型中固定形状约束的方法。但由于每幅裁剪只是整个图像的一个子视图,因此集成仍然是一种近似方法。此外,基于 CNN 的方法既增加了每幅裁剪的额外推理成本,又因为它们对不同的裁剪进行采样,因此它们会在结果中引入随机性。相比之下,由于 MUSIQ 将全尺寸图像作为输入,它可以直接学习整个图像中的最佳信息聚合,并且只需运行一次推理。

为了进一步验证 MUSIQ 模型在不同尺度上捕捉到不同的信息,我们在不同的尺度上可视化了每张图像上的注意力权重。

从输出标记到多尺度表示的注意力可视化,包括原始分辨率图像和两个按比例调整大小的图像。更亮的区域表示更高的注意力,这意味着这些区域对于模型输出更重要。用于说明的图像取自 AVA数据集。

我们观察到,MUSIQ 倾向于在完整高分辨率图像中关注更详细的区域,而在调整大小的图像中关注更全局的区域。例如,对于上面的花朵照片,模型在原始图像上的注意力集中在花瓣细节上,而在较低分辨率下注意力转移到花蕾上。这表明该模型学会了以不同的粒度捕捉图像质量。

结论

我们提出了一种多尺度图像质量转换器 (MUSIQ),它可以处理具有不同分辨率和长宽比的全尺寸图像输入。通过将输入图像转换为具有全局和局部视图的多尺度表示,该模型可以捕获不同粒度的图像质量。虽然 MUSIQ 是为 IQA 设计的,但它可以应用于任务标签对图像分辨率和长宽比敏感的其他场景。MUSIQ 模型和检查点可在我们的GitHub 存储库中找到。

致谢

这项工作是 Google 多个团队通力合作的结果。我们非常感谢 Qifei Wang、Yilin Wang 和 Peyman Milanfar 的贡献。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论