以数据为中心的 ML 基准测试:宣布 DataPerf 的 2023 年挑战

1725440875772.jpg

机器学习 (ML) 具有巨大的潜力,从诊断癌症到设计安全的自动驾驶汽车,再到提高人类生产力。然而,要发挥这种潜力,组织需要可靠的 ML 解决方案以及可预测和可处理的 ML 解决方案开发。两者的关键在于更深入地了解 ML 数据 — 如何设计训练数据集以生成高质量的模型,以及如何设计测试数据集以提供我们距离解决目标问题还有多远的准确指标。

创建高质量数据集的过程非常复杂,而且容易出错,从最初的原始数据选择和清理,到标记数据并将其拆分为训练集和测试集。一些专家认为,设计 ML 系统的大部分工作实际上是数据的获取和准备。每个步骤都可能引入问题和偏差。甚至我们今天使用的许多标准数据集也被证明包含错误标记的数据,这可能会破坏既定的 ML 基准。尽管数据对 ML 至关重要,但它现在才开始受到与过去十年模型和学习算法同等程度的关注。

为了实现这一目标,我们推出了DataPerf,这是一组新的以数据为中心的 ML 挑战,旨在推动数据选择、准备和获取技术的最新发展,这些挑战由业界和学术界的广泛合作设计和构建。DataPerf 的初始版本包含四个挑战,重点关注三个应用领域的三个常见以数据为中心的任务:视觉、语音和自然语言处理 (NLP)。在这篇博文中,我们概述了研究人员面临的数据集开发瓶颈,并讨论了基准和排行榜在激励研究人员应对这些挑战方面的作用。我们邀请学术界和业界的创新者来衡量和验证以数据为中心的 ML 的突破,通过这些基准展示他们的算法和技术在创建和改进数据集方面的强大功能。

数据是机器学习的新瓶颈

数据是新的代码:训练数据决定了 ML 解决方案的最高质量。模型仅决定了实现最高质量的程度;从某种意义上说,模型是数据的有损编译器。尽管高质量的训练数据集对于 ML 领域的持续发展至关重要,但该领域目前所依赖的大部分数据都是近十年前的数据(例如ImageNet或LibriSpeech)或从网络上抓取的,内容过滤非常有限(例如LAION或The Pile)。

尽管数据非常重要,但迄今为止,机器学习研究主要还是以模型为重点。在现代深度神经网络 (DNN) 出现之前,没有足以匹配人类行为的机器学习模型来完成许多简单任务。这种初始条件导致了一种以模型为中心的范式,其中 (1) 训练数据集和测试数据集是“冻结”的产物,目标是开发更好的模型,(2) 出于统计原因,测试数据集是从与训练集相同的数据池中随机选择的。不幸的是,冻结数据集忽略了使用更好的数据来提高训练准确性和效率的能力,而使用从与训练数据相同的池中抽取的测试集会将数据拟合与实际解决潜在问题混为一谈。

由于我们现在正在为日益复杂的任务开发和部署机器学习解决方案,因此我们需要设计能够充分捕捉现实世界问题的测试集和能够与高级模型结合提供有效解决方案的训练集。我们需要从当今以模型为中心的范式转变为以数据为中心的范式,我们认识到,对于大多数机器学习开发人员来说,创建高质量的训练和测试数据将是一个瓶颈。

从当今的以模型为中心的范式转变为以数据为中心的范式,这种范式是由质量数据集和以数据为中心的算法(例如 DataPerf 中所测量的算法)实现的。

要使 ML 开发人员能够创建更好的训练和测试数据集,需要更深入地了解 ML 数据质量,并开发用于优化它的算法、工具和方法。我们可以从识别数据集创建中的常见挑战开始,并为解决这些挑战的算法开发性能指标。例如:

数据选择:通常,我们拥有的数据量比我们能够有效标记或训练的数据量要大。我们如何选择最重要的数据来训练我们的模型?

数据清理:人工标注员有时会犯错误。机器学习开发人员无法承担让专家检查和纠正所有标签的费用。我们如何选择最有可能被错误标记的数据进行纠正?

我们还可以创建奖励优秀数据集工程的激励措施。我们预计经过精心挑选和标记的高质量训练数据将成为许多行业的宝贵产品,但目前缺乏一种方法来评估不同数据集的相对价值,而无需对相关数据集进行实际训练。我们如何解决这个问题并实现质量驱动的“数据获取”?

DataPerf:第一个数据排行榜

我们相信,良好的基准和排行榜可以推动以数据为中心的技术的快速进步。学术界的 ML 基准对于促进该领域的进步至关重要。请看以下图表,它显示了流行的 ML 基准(MNIST、ImageNet、SQuAD、GLUE、Switchboard)随时间推移的进展:

热门基准测试随时间推移的性能,初始性能为负一,人类性能为零。(来源:Douwe 等人,2021 年;已获许可使用。)

在线排行榜为基准测试 结果提供官方验证,并激发社区优化基准测试的热情。例如,Kaggle 拥有超过 1000 万注册用户。MLPerf官方基准测试结果已帮助将关键基准测试的 训练性能提高了 16 倍以上。

DataPerf 是第一个为数据基准构建排行榜的社区和平台,我们希望对以数据为中心的 ML 的研究和开发产生类似的影响。DataPerf 的初始版本包含四项挑战的排行榜,这些挑战侧重于三个应用领域(视觉、语音和 NLP)的三个以数据为中心的任务(数据选择、清理和获取):

训练数据选择(愿景):设计一个数据选择策略,从大量弱标记训练图像候选池中选择最佳训练集。

训练数据选择(语音):设计一个数据选择策略,从大量自动提取的口语单词片段候选池中选择最佳训练集。

训练数据清理(愿景):设计一种数据清理策略,从一些标签不正确的“嘈杂”训练集中选择样本进行重新标记。

训练数据集评估 (NLP):构建高质量数据集的成本可能很高,而且正成为有价值的商品。设计一个数据获取策略,根据有关数据的有限信息选择“购买”哪个训练数据集。

对于每项挑战,DataPerf 网站都会提供设计文档,定义问题、测试模型、质量目标、规则以及如何运行代码和提交的指南。实时排行榜托管在Dynabench平台上,该平台还提供在线评估框架和提交跟踪器。Dynabench 是一个开源项目,由MLCommons 协会主办,专注于为训练和测试数据以及以数据为中心的算法提供以数据为中心的排行榜。

如何参与

我们是机器学习研究人员、数据科学家和工程师社区的一部分,致力于提高数据质量。我们邀请学术界和业界的创新者通过 DataPerf 基准来衡量和验证以数据为中心的算法和技术,以创建和改进数据集。第一轮挑战的截止日期为 2023 年 5 月 26 日。

致谢

DataPerf 基准测试由来自 Coactive.ai、苏黎世联邦理工学院 (ETH)、谷歌、哈佛大学、Meta、ML Commons、斯坦福大学的工程师和科学家于去年创建。此外,如果没有来自卡内基梅隆大学、Digital Prism Advisors、Factored、Hugging Face、人类和机器认知研究所、Landing.ai、圣地亚哥超级计算中心、汤森路透实验室和埃因霍温理工大学的 DataPerf 工作组成员的支持,这一成果也难以实现。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论