揭示机器学习中的未知未知数

机器学习 (ML) 模型的性能取决于学习算法以及用于训练和评估的数据。算法的作用已得到充分研究,并成为SQuAD、GLUE、ImageNet等众多挑战的焦点。此外,人们也在努力改进数据,包括一系列针对 ML 评估问题的研讨会 。相比之下,专注于用于评估 ML 模型的数据的研究和挑战并不常见。此外,许多评估数据集包含易于评估的项目,例如易于识别的主体照片,因此它们忽略了现实世界背景的自然模糊性。评估中缺乏模糊的现实世界示例会削弱可靠地测试机器学习性能的能力,这使得 ML 模型容易出现“弱点”,即模型难以或不可能准确评估的类示例,因为评估集中缺少该类示例。

为了解决识别机器学习模型中这些弱点的问题,我们最近在HCOMP 2020上发起了机器学习众包不利测试集(CATS4ML) 数据挑战赛(开放至 2021 年 4 月 30 日,面向全球研究人员和开发者)。挑战赛的目标是提高机器学习评估集的标准,并找到尽可能多的令人困惑或对算法造成问题的示例。CATS4ML 依靠人们的能力和直觉来发现机器学习有信心但实际上会错误分类的新数据示例。

机器学习的“弱点”是什么?

弱点有两类:已知的未知数和未知的未知数。已知的未知数是模型无法确定正确分类的示例。研究界继续在称为主动学习的领域研究这一问题,并发现解决方案是,用非常笼统的术语来说,以交互方式向人们征求不确定示例的新标签。例如,如果模型不确定照片的主体是否是猫,则会要求人们验证;但如果系统确定,则不会要求人们验证。虽然这方面还有改进的空间,但令人欣慰的是,模型的置信度与其性能相关,即人们可以看到模型不知道的内容。

另一方面,未知的未知数是指模型对其答案很有信心,但实际上却是错误的例子。主动发现未知的未知数的努力(例如Attenberg 2015和Crawford 2019)已经帮助发现了大量非预期的机器行为。与此类发现未知的未知数的方法相比,生成对抗网络(GAN)为图像识别模型生成未知的未知数,这些未知数会给计算机带来视觉错觉,导致深度学习模型犯下超出人类感知的错误。虽然 GAN 会在发生故意操纵时发现模型漏洞,但现实世界的例子可以更好地突显模型在日常性能中的失败。这些现实世界的例子是 CATS4ML 感兴趣的未知的未知数 — — 该挑战赛旨在收集人类可以可靠解释但许多 ML 模型会自信地不同意未经操纵的例子。

1729242575469.jpg

该示例说明了对抗性噪声导致的计算机视错觉如何帮助 ML 模型发现机器操纵的未知未知数(基于Brown 2018)。

第一版 CATS4ML 数据挑战赛:开放图像数据集

CATS4ML数据挑战赛专注于视觉识别,使用来自Open Images 数据集的图像和标签。挑战赛的目标图像是从 Open Images 数据集中选择的,同时从同一数据集中选择一组 24 个目标标签。挑战赛参与者受邀发明新颖且富有创意的方法来探索这个现有的公开数据集,并专注于预先选定的目标标签列表,发现 ML 模型未知未知数的示例。

1729242387194.jpg

来自开放图像数据集的示例  作为 ML 模型的可能未知的未知数。

CATS4ML是FAIR最近推出的DynaBench动态数据收集研究平台的补充。DynaBench 使用有人类参与的 ML 模型解决静态基准测试的问题,而 CATS4ML 则专注于改进 ML 评估数据集,鼓励探索现有 ML 基准测试中可能存在未知未知数的不利示例。结果将有助于检测和避免未来的错误,还将为模型的可解释性提供见解。

通过这种方式,CATS4ML 旨在通过提供数据集资源来提高人们对问题的认识,开发人员可以使用这些资源来发现其算法的弱点。这还将为研究人员提供如何创建更平衡、更多样化、更具社会意识的机器学习基准数据集的信息。

介入

我们邀请全球 ML 研究人员和从业人员加入我们,共同努力从开放图像数据集中发现有趣且困难的示例。在挑战网站上注册,下载目标图像和标记数据,贡献您发现的图像并参加获胜者的竞赛!

为了在本次比赛中得分,参赛者应提交一组图像标签对,这些图像标签对将由人工评估员确认,其投票应与多个机器学习模型中该标签的平均机器分数不一致。

1729242368207.jpg

提交图像如何得分的示例。同一幅图像可以得分为假阳性(左)和假阴性(右),但标签不同。在这两种情况下,人工验证与机器得分不一致。参与者根据提交的图像标签对进行评分,这意味着同一幅图像可以作为不同标签的 ML 未知未知数的示例。

挑战赛开放至 2021 年 4 月 30 日,面向全球研究人员和开发人员。如需了解有关 CATS4ML 的更多信息以及如何加入,请访问挑战赛网站。

致谢

CATS4ML 数据挑战赛的发布得益于许多人的辛勤工作,包括但不限于以下人员(按姓氏字母顺序排列):Osman Aka、Ken Burke、Tulsee Doshi、Mig Gerard、Victor Gomes、Shahab Kamali、Igor Karpov、Devi Krishna、Daphne Luong、Carey Radebaugh、Jamie Taylor、Nithum Thain、Kenny Wibowo、Ka Wong 和 Tong Zhou。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论