UVQ:测量 YouTube 的感知视频质量

1726205709208.jpg

在线视频共享平台(例如YouTube)需要了解感知视频质量(即用户对视频质量的主观感知),以便更好地优化和改善用户体验。视频质量评估(VQA)试图通过使用客观数学模型来近似用户的主观意见,在视频信号和感知质量之间架起一座桥梁。传统视频质量指标,例如峰值信噪比(PSNR)和视频多方法评估融合(VMAF),是基于参考的,并关注目标视频和参考视频之间的相对差异。此类指标最适用于专业生成的内容(例如电影),它们假设参考视频具有原始质量,并且可以从相对差异中推断出目标视频的绝对质量。

然而,YouTube 上上传的大多数视频都是用户生成内容(UGC),由于视频内容和原始质量的变化性非常高,这带来了新的挑战。大多数 UGC 上传的视频都是非原始的,相同数量的相对差异可能意味着非常不同的感知质量影响。例如,人们对低质量上传的失真的敏感度往往低于高质量上传。因此,当用于 UGC 案例时,基于参考的质量分数变得不准确且不一致。此外,尽管 UGC 数量巨大,但目前带有质量标签的 UGC 视频质量评估 (UGC-VQA) 数据集有限。现有的 UGC-VQA 数据集要么规模较小(例如,LIVE-Qualcomm有从 54 个独特场景中捕获的 208 个样本),而用于分类和识别的数据集(例如,ImageNet和YouTube-8M)则具有数百万个样本,要么内容多样性不足(不考虑内容信息的采样,如LIVE-VQC和KoNViD-1k)。

在CVPR 2021上发表的《 UGC 视频感知质量评估的丰富特征》 中,我们描述了如何通过构建类似于主观质量评估的通用视频质量 (UVQ) 模型来解决 UGC 质量评估问题。UVQ 模型使用子网络从高级语义信息到低级像素失真来分析 UGC 质量,并提供具有合理性的可靠质量分数(利用全面且可解释的质量标签)。此外,为了推进 UGC-VQA 和压缩研究,我们增强了开源YouTube-UGC数据集,该数据集包含来自 YouTube 上数百万个 UGC 视频(根据知识共享许可分发)的 1.5K 个代表性 UGC 样本。更新后的数据集包含原始视频和相应转码版本的真实标签,使我们能够更好地理解视频内容与其感知质量之间的关系。最后,我们很高兴宣布UVQ 模型的 开源发布。

主观视频质量评估

为了了解感知视频质量,我们利用内部众包平台收集无参考用例的平均意见分数(MOS),其等级为 1-5,其中 1 表示质量最低,5 表示质量最高。我们从 YouTube-UGC 数据集收集真实标签,并将影响质量感知的 UGC 因素分为三个高级类别:(1) 内容、(2) 失真和 (3) 压缩。例如,没有有意义内容的视频不会获得高质量的 MOS。此外,视频制作阶段引入的失真和第三方平台引入的视频压缩伪影(例如转码或传输)会降低整体质量。

MOS= 2.052 MOS=4.457

左:没有有意义内容的视频不会获得高质量的 MOS。右:显示激烈体育赛事的视频获得更高的 MOS。

MOS= 1.242 MOS=4.522

左图:模糊的游戏视频的 MOS 质量非常低。右图:经过专业渲染(高对比度和锐利边缘,通常在视频制作阶段引入)的视频显示出高质量的 MOS。

MOS= 2.372 MOS=4.646

左图:经过大量压缩的视频获得低质量 MOS。右图:没有压缩伪影的视频显示高质量 MOS。

我们证明,上图第二行左侧的游戏视频的 MOS 最低(1.2),甚至低于没有有意义内容的视频。一种可能的解释是,观众对叙事结构清晰的视频(如游戏视频)可能具有更高的视频质量期望,而模糊伪影会显著降低视频的感知质量。

UVQ模型框架

评估视频质量的常用方法是设计复杂的特征,然后将这些特征映射到 MOS。然而,设计有用的手工特征非常困难且耗时,即使对于领域专家来说也是如此。此外,最有用的现有手工特征是从有限的样本中总结出来的,在更广泛的 UGC 案例中可能表现不佳。相比之下,机器学习在 UGC-VQA 中变得越来越突出,因为它可以自动从大规模样本中学习特征。

一种简单的方法是在现有的 UGC 质量数据集上从头开始训练模型。但是,这可能不可行,因为质量 UGC 数据集有限。为了克服这一限制,我们在训练期间将自监督学习步骤应用于 UVQ 模型。这一自监督步骤使我们能够从数百万个原始视频中学习全面的质量相关特征,而无需真实 MOS。

按照从主观 VQA 中总结出来的质量相关类别,我们开发了具有四个新颖子网络的 UVQ 模型。前三个子网络(我们称之为 ContentNet、DistortionNet 和 CompressionNet)用于提取质量特征(即内容、失真和压缩),第四个子网络称为 AggregationNet,它映射提取的特征以生成单个质量分数。ContentNet 采用监督学习的方式进行训练,使用由YouTube-8M模型生成的 UGC 特定内容标签。DistortionNet 经过训练可检测常见的失真,例如原始帧的高斯模糊和白噪声。CompressionNet 专注于视频压缩伪影,其训练数据是使用不同比特率压缩的视频。CompressionNet 使用相同内容的两个压缩变体进行训练,并将其输入到模型中以预测相应的压缩级别(压缩伪影更明显,分数更高),隐含假设比特率较高的版本具有较低的压缩级别。

ContentNet、DistortionNet 和 CompressionNet 子网络是在没有真实质量分数的大规模样本上进行训练的。由于视频分辨率也是一个重要的质量因素,因此分辨率敏感的子网络(CompressionNet 和 DistortionNet)是基于块的(即,每个输入帧被分成多个不相交的块,这些块被单独处理),这使得无需缩小尺寸即可在原始分辨率上捕获所有细节。这三个子网络提取质量特征,然后由第四个子网络 AggregationNet 连接起来,以使用来自 YouTube-UGC 的域真实 MOS 预测质量分数。

UVQ 训练框架。

使用 UVQ 分析视频质量

构建 UVQ 模型后,我们使用它来分析从 YouTube-UGC 中提取的样本的视频质量,并证明其子网络可以提供单一质量分数以及可帮助我们了解质量问题的高级质量指标。例如,DistortionNet 检测到下面中间视频的多个视觉伪影,例如抖动和镜头模糊,而 CompressionNet 检测到底部视频已被严重压缩。

ContentNet 为内容标签分配了括号中相应的概率,即汽车(0.58)、车辆(0.42)、跑车(0.32)、赛车(0.18)、赛车(0.11)。

DistortionNet 检测并分类多种视觉扭曲,括号中给出相应的概率,即抖动(0.112)、颜色量化(0.111)、镜头模糊(0.108)、去噪(0.107)。

CompressionNet 检测到上述视频的压缩级别高达 0.892。

此外,UVQ 还可以提供基于补丁的反馈来定位质量问题。下图中,UVQ 报告称第一个补丁(时间 t = 1 的补丁)的质量良好,压缩级别较低。然而,该模型在下一个补丁(时间 t = 2 的补丁)中识别出严重的压缩伪影。

时间 t = 1 处的补丁 时间 t = 2 处的补丁

压缩级别 = 0.000 压缩级别 = 0.904

UVQ 检测到局部补丁的质量突然下降(高压缩级别)。

在实践中,UVQ 可以生成视频诊断报告,其中包括内容描述(例如,策略视频游戏)、失真分析(例如,视频模糊或像素化)和压缩级别(例如,低压缩或高压缩)。下面,UVQ 报告称,从各个特征来看,内容质量良好,但压缩和失真质量较低。当结合所有三个特征时,整体质量为中低。我们看到这些发现接近内部用户专家总结的理由,表明 UVQ 可以通过质量评估进行推理,同时提供单一的质量分数。

UVQ 诊断报告。ContentNet (CT):视频游戏、策略视频游戏、魔兽世界等。DistortionNet (DT):乘性噪声、高斯模糊、色彩饱和度、像素化等。CompressionNet (CP):0.559(中高压缩)。[1, 5] 中的预测质量得分:(CT,DT,CP)=(3.901,3.216,3.151),(CT+DT+CP)= 3.149(中低质量)。

结论

我们提出了开源UVQ 模型,该模型可生成一份包含质量分数和见解的报告,可用于解释 UGC 视频感知质量。UVQ 从数百万个 UGC 视频中学习全面的质量相关特征,并为无参考和参考情况提供一致的质量解释视图。要了解更多信息,请阅读我们的论文或访问我们的网站以查看 YT-UGC 视频及其主观质量数据。我们还希望增强的YouTube-UGC数据集能够促进该领域的更多研究。

致谢

这项工作是 Google 多个团队通力合作的结果。主要贡献者包括:YouTube 的 Balu Adsumilli、Neil Birkbeck、Joong Gon Yim 和 Google Research 的 Junjie Ke、Hossein Talebi、Peyman Milanfar。感谢 Ross Wolf、Jayaprasanna Jayaraman、Carena Church 和 Jessie Lin 的贡献。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论