约束重新加权用于训练具有噪声标签的深度神经网络

1727196696870.jpg

在过去的几年中,深度神经网络(DNN) 在从图像识别到基因组学等多个实际应用中取得了令人瞩目的性能提升。然而,现代 DNN 的可训练模型参数数量通常远多于训练示例的数量,由此导致的过度参数化网络很容易过度拟合嘈杂或损坏的标签(即,被分配了错误类别标签的示例)。因此,使用嘈杂标签进行训练通常会导致训练模型在干净测试数据上的准确率下降。不幸的是,由于多种因素,例如手动注释中的错误和不一致以及使用固有嘈杂的标签源(例如,互联网或现有系统中的自动标签),噪声标签可能出现在许多现实世界场景中。

早期的 研究表明,通过用噪声数据预训练大型模型所学到的表示法,在用干净数据训练的线性分类器中使用时,可用于预测。原则上,可以直接在噪声数据上训练机器学习 (ML) 模型,而无需采用这种两阶段方法。要取得成功,此类替代方法应具有以下特性:(i) 它们应易于融入标准训练流程,且计算或内存开销很小;(ii) 它们应适用于在训练期间不断添加新数据的“流式”设置;(iii) 它们不需要带有干净标签的数据。

在“标签噪声下用于稳健学习的约束实例和类重新加权”中,我们提出了一种新颖且有原则的方法,称为约束实例重新加权(CIW),该方法具有这些属性,通过动态地为小批量中的各个实例和类标签分配重要性权重来工作,目的是减少潜在噪声示例的影响。我们制定了一系列约束优化问题,可以为这些重要性权重提供简单的解决方案。这些优化问题按小批量求解,从而无需存储和更新整个数据集的重要性权重。该优化框架还为现有的解决标签噪声的标签平滑启发式方法(例如标签 引导)提供了理论视角。我们在标准CIFAR-10 和 CIFAR-100基准上用不同量的合成噪声评估了该方法,并观察到与几种现有方法相比显着的性能提升。

方法

训练 ML 模型涉及最小化损失函数,该函数指示当前参数与给定训练数据的拟合程度。在每个训练步骤中,此损失大致计算为其正在操作的小批量数据中各个实例的损失的(加权)总和。在标准训练中,每个实例都得到同等对待,以更新模型参数,这对应于在小批量中 分配均匀(即相等)的权重。

然而,早期 研究 中的经验观察表明,嘈杂或错误标记的实例往往比干净的实例具有更高的损失值,特别是在训练的早期到中期阶段。因此,为所有实例分配统一的重要性权重意味着,由于它们的损失值较高,嘈杂实例可能会主导干净实例并降低干净测试数据的准确性。

受这些观察结果的启发,我们提出了一系列约束优化问题,通过为数据集中的各个实例分配重要性权重来减少那些可能有噪声的实例的影响,从而解决这个问题。 这种方法可以控制权重偏离均匀分布的程度,通过散度测量来量化。 事实证明,对于几种类型的散度测量,可以获得实例权重的简单公式。 最终损失计算为各个实例损失的加权和,用于更新模型参数。 我们称之为约束实例重新加权 (CIW) 方法。 该方法允许通过选择散度和相应的超参数来控制权重的平滑度或峰值。

所提出的约束实例重新加权 (CIW) 方法的示意图。

2D 数据集上的决策边界图示

为了举例说明此方法的行为,我们考虑了Two Moons 数据集的噪声版本,该数据集由两个半月形的类中随机采样的点组成。我们破坏了 30% 的标签并在其上训练多层感知器网络进行二元分类。我们使用标准二元交叉熵损失和带动量优化器的 SGD来训练模型。在下图(左图)中,我们显示了数据点,并用虚线可视化了将两个类分开的可接受决策边界。上半月中标记为红色的点和下半月中标记为绿色的点表示噪声数据点。

使用二元交叉熵损失训练的基线模型为每个小批量中的实例分配统一的权重,因此最终过度拟合噪声实例并导致较差的决策边界(下图中间面板)。

CIW 方法根据每个小批量中的实例对应的损失值重新加权(下图右侧面板)。它为位于决策边界正确一侧的干净实例分配较大的权重,并抑制导致更高损失值的噪声实例的影响。噪声实例的较小权重有助于防止模型过度拟合它们,从而使使用 CIW 训练的模型能够通过避免标签噪声的影响而成功收敛到良好的决策边界。

在Two Moons 数据集上对基线和所提出的 CIW 方法进行训练时,决策边界的说明。左图: 具有理想决策边界的噪声数据集。中图: 使用交叉熵损失进行标准训练的决策边界。右图:使用 CIW 方法进行训练。(中图)和(右图) 中点的大小与分配给小批量中这些示例的重要性权重成正比。

受约束的类别重新加权

实例重新加权会为损失较大的实例分配较低的权重。我们进一步扩展了这一直觉,为所有可能的类标签分配重要性权重。标准训练使用独热标签向量作为类权重,为标记的类分配 1 的权重,为所有其他类分配 0 的权重。但是,对于可能被错误标记的实例,为可能是真实标签的类分配非零权重是合理的。我们获得这些类权重作为一组约束优化问题的解,其中类权重与标签独热分布的偏差(以选择散度衡量)由超参数控制。

同样,对于几个散度度量,我们可以获得类权重的简单公式。我们将其称为受限实例和类重新加权 (CICW)。当散度被视为总变差距离时,此优化问题的解决方案还恢复了先前 提出的基于静态标签引导(也称为标签平滑)的方法。这为流行的静态标签引导方法提供了理论视角。

将实例权重与 Mixup 结合使用

我们还提出了一种将获得的实例权重与mixup 结合使用的方法,这是一种流行的正则化模型和提高预测性能的方法。它的工作原理是从原始数据集中抽取一对示例,并使用这些示例的随机凸组合生成一个新的人工示例。通过最小化这些混合数据点的损失来训练模型。Vanilla mixup 会忽略单个实例损失,这对于嘈杂的数据可能会有问题,因为 mixup 会平等对待干净和嘈杂的示例。由于使用我们的 CIW 方法获得的高实例权重更有可能表示干净的示例,因此我们使用实例权重对 mixup 进行有偏采样,并使用凸组合中的权重(而不是 vanilla mixup 中的随机凸组合)。这会导致混合示例偏向干净的数据点,我们将其称为 CICW-Mixup。

我们在标准 CIFAR-10 和 CIFAR-100 基准数据集上应用了这些方法,并加入了不同数量的合成噪声(即,每个实例的标签随机翻转为其他标签)。我们展示了在具有对称合成噪声的干净数据上的测试准确率,其中噪声率在 0.2 到 0.8 之间变化。

我们观察到,所提出的 CICW 优于几种方法,并与动态混合 的结果相匹配,后者使用混合在整个训练集上保持重要性权重。在 CICW-M 中使用我们的重要性权重与混合,与这些方法相比,性能显著提高,尤其是对于较大的噪声率(如下图上方和右侧的线条所示)。

在 CIFAR-10 和 CIFAR-100 的训练数据中改变对称合成噪声量的同时,对干净数据测试准确率。比较的方法有:标准交叉熵损失(CE)、双向损失、主动-被动归一化损失、建议的 CICW、Mixup、动态 Mixup和建议的 CICW-Mixup。

总结和未来方向

我们制定了一系列新的约束优化问题来解决标签噪声问题,从而得出了用于重新加权训练实例和类标签的简单数学公式。这些公式还为现有的基于标签平滑的噪声标签学习 方法提供了理论视角。我们还提出了使用混合实例权重的方法,与实例和类重新加权相比,这种方法可以进一步显著提高性能。我们的方法仅在小批量级别上运行,从而避免了像某些近期方法一样维护数据集级别权重的额外开销。

作为未来工作的方向,我们希望在实际大规模环境中遇到的真实噪声标签上评估该方法。我们还认为,研究我们的框架与标签平滑的交互是一个有趣的方向,可以产生标签平滑的损失自适应版本。我们也很高兴发布 CICW 的代码,现在可以在Github上找到。

致谢

我们要感谢 Kevin Murphy 在项目过程中提供建设性的反馈。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论