使用 MinDiff 框架缓解 ML 模型中的不公平偏见

负责任地研究和开发机器学习 (ML) 可以在帮助解决各种社会挑战方面发挥关键作用。在 Google,我们的研究反映了我们的AI 原则,从帮助保护患者免受用药错误的影响和改进洪水预报模型,到提出解决产品(例如Google 翻译)中不公平偏见的方法,以及为其他研究人员提供资源以进行同样的研究。

负责任地应用机器学习的一个大类是分类任务,即将数据分类为带标签类别的系统。在 Google,此类模型用于我们的所有产品,以执行各种政策,从检测仇恨言论到适合年龄的内容过滤。虽然这些分类器发挥着至关重要的作用,但以尽量减少对用户的不公平偏见的方式构建它们也至关重要。

今天,我们宣布推出MinDiff,这是TF 模型修复库中提供的一种新正则化技术,可有效、高效地缓解训练 ML 模型时的不公平偏差。在这篇文章中,我们将讨论这项技术背后的研究,并解释它如何解决 我们在将其纳入 Google 产品时观察到的实际限制和要求。

分类器中的不公平偏见

为了说明如何使用 MinDiff,我们以产品策略分类器为例,该分类器的任务是识别和删除可能被视为有害的文本评论。一个挑战是确保分类器不会对特定用户组提交的内容产生不公平的偏见,这可能会导致错误地删除来自这些组的内容。

学术界为机器学习公平性奠定了坚实的理论基础,对不公平偏见的含义以及评估公平性的不同框架之间的矛盾提供了广泛的视角。最常见的指标之一是机会均等,在我们的例子中,这意味着衡量并寻求最小化各组之间的假阳性率(FPR)差异。在上面的例子中,这意味着分类器不应该更有可能错误地从一个组中删除安全评论而不是另一个组。同样,分类器的假阴性率在各组之间应该相等。也就是说,分类器不应该比对另一个组更容易错过针对一个组的恶意评论。

当最终目标是改进产品时,能够将不公平偏见缓解措施扩展到许多模型非常重要。然而,这带来了许多挑战:

稀疏的人口统计数据:关于机会平等的原始研究提出了一种后处理方法来解决该问题,即在服务时为每个用户组分配不同的分类器阈值,以抵消模型的偏差。然而,由于隐私政策等诸多原因,这在实践中往往是不可能的。例如,人口统计数据通常是由用户自我识别并选择加入来收集的,但尽管有些用户会选择这样做,但其他用户可能会选择退出或删除数据。即使对于过程中的解决方案(即改变模型训练方式的方法),也需要假设大多数数据不会有相关的人口统计数据,因此需要有效利用已知的少数人口统计数据示例。

易用性:任何技术要想得到广泛采用,就必须易于融入现有模型架构,并且对超参数不太敏感。虽然将 ML 公平原则融入应用程序的早期方法是利用对抗性学习,但我们发现,它在训练过程中过于频繁地导致模型退化,这让产品团队难以迭代,也让新产品团队心存疑虑。

质量:消除不公平偏见的方法还应尽可能少地降低整体分类性能(例如准确度)。由于缓解方法导致的准确度下降可能会导致审核模型允许更多恶意评论,因此找到正确的平衡至关重要。

MinDiff 框架

我们在过去几年中不断开发 MinDiff 框架以满足这些设计要求。由于人口统计信息很少为人所知,我们采用了过程内方法,其中模型的训练目标通过一个专门用于消除偏见的目标进行增强。然后,这个新目标针对具有已知人口统计信息的小数据样本进行优化。为了提高易用性,我们从对抗性训练转向了正则化框架,该框架会惩罚无害示例的预测与人口统计信息之间的统计依赖性。这鼓励模型在各组之间均衡错误率,例如,将无害示例归类为有害示例。

有几种方法可以对预测和人口统计信息之间的这种依赖关系进行编码。我们最初的 MinDiff 实现最小化了预测和人口统计组之间的相关性,这本质上优化了预测的平均值和方差,使其在各个组之间相等,即使分布之后仍然不同。此后,我们通过考虑最大均值差异(MMD) 损失进一步改进了MinDiff ,这更接近于优化预测分布以使其独立于人口统计。我们发现这种方法能够更好地消除偏差并保持模型准确性。

1729585743086.jpg

采用 MMD 的 MinDiff 更好地弥补了 FPR 差距,而且准确率的下降幅度较小

(在学术基准数据集上)。

到目前为止,我们已经在 Google 的多个分类器中推出了模型改进,以调节内容质量。我们经过多次迭代,开发出一种强大、可靠且可扩展的方法,解决了研究难题并实现了广泛采用。

分类器错误率的差距是需要解决的一组重要不公平偏见,但并非机器学习应用中出现的唯一问题。对于机器学习研究人员和从业者,我们希望这项工作能够进一步推动研究,以解决更广泛的不公平偏见,并开发可用于实际应用的方法。此外,我们希望 MinDiff 库和相关演示和文档的发布,以及此处分享的工具和经验,能够帮助从业者改进他们的模型和产品。

致谢

这项关于分类中的 ML 公平性的研究工作由 Jilin Chen、Shuo Chen、Ed H. Chi、Tulsee Doshi 和 Hai Qian 共同领导。此外,这项工作还与 Jonathan Bischof、Qiuwen Chen、  Cristos Goodrow、  Pierre Kreitmann 和 Christine Luu 合作完成。MinDiff 基础设施也是与 Nick Blumm、James Chen、Thomas Greenspan、Christina Greer、Lichan Hong、Manasi Joshi、Maciej Kula、Summer Misherghi、Dan Nanas、Sean O'Keefe、Mahesh Sathiamoorthy、Catherina Xu 和 Zhe Zhao 合作开发的。 此外,这篇文章是在 Reena Jana 的大量反馈和指导下撰写的。 (所有姓名均按姓氏字母顺序排列。)

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论