数据卡手册:数据集文档透明度工具包

1726076361375.jpg

随着机器学习 (ML) 研究转向能够执行众多下游任务的大规模模型,对数据集的起源、开发、意图和演变的共同理解对于负责任且明智地开发 ML 模型变得越来越重要。然而,关于数据集的知识(包括使用和实现)通常分布在团队、个人甚至时间之间。今年早些时候,在ACM 公平、问责和透明度会议(ACM FAccT) 上,我们发布了数据卡,这是一个数据集文档框架,旨在提高数据集生命周期的透明度。数据卡是一种透明度工件,它提供 ML 数据集的结构化摘要,并解释塑造数据的过程和原理,并描述如何使用数据来训练或评估模型。数据卡至少包括以下内容:(1) 上游来源,(2) 数据收集和注释方法,(3) 训练和评估方法,(4) 预期用途,以及 (5) 影响模型性能的决策。

在实践中,有两个关键因素决定了透明度成果的成功,即识别决策者使用的信息的能力以及获取该信息所需的流程和指导的建立。我们在论文中开始探索这个想法,使用三个“支架”框架,旨在使数据卡适应各种数据集和组织环境。这些框架帮助我们创建了边界基础设施,即补充技术和功能基础设施的流程和参与模型,这些基础设施对于在实践社区之间传递信息必不可少。边界基础设施使数据集利益相关者能够找到共同点,用于为数据集的创建、记录和使用决策提供不同的意见。

今天,我们推出了数据卡手册,这是一个自导式工具包,可供各种团队应对 ML 数据集的透明度挑战。手册采用以人为本的设计方法进行文档编制 - 从规划透明度策略和定义受众到编写以读者为中心的复杂数据集摘要 - 以确保记录的数据集的可用性和实用性得到充分理解。我们创建了参与式活动来应对在建立数据集透明度工作中遇到的典型障碍,创建了可以将数据透明度扩展到新数据类型的框架,并提供了研究人员、产品团队和公司可以用来制作反映其组织原则的数据卡的指南。

数据卡剧本融合了公平性、责任感和透明度方面的最新研究成果。

数据卡手册

我们采用多管齐下的方法创建了 Playbook,包括调查、工件分析、访谈和研讨会。我们研究了 Google 人想要了解的有关数据集和模型的哪些信息,以及他们如何在日常工作中使用这些信息。在过去的两年中,我们部署了 Google 十五个团队使用的透明度工件模板,当出现瓶颈时,我们会与这些团队合作确定适当的解决方法。然后,我们创建了二十多个数据卡,描述生产环境中的图像、语言、表格、视频、音频和关系数据集,其中一些现在可以在 GitHub 上找到。这种多方面的方法提供了对文档工作流程、协作信息收集实践、下游利益相关者的信息请求以及每个 Google 团队的审查和评估实践的洞察。

此外,我们还与业界和学术界的设计、政策和技术专家进行了交流,以获取他们对我们创建的数据卡的独特反馈。我们还结合了 2021 年 ACM FAccT 一系列研讨会上的经验。在 Google 内部,我们与机器学习研究人员、数据科学家、工程师、AI 伦理审查员、产品经理和领导层一起评估了我们解决方案的有效性和可扩展性。在数据卡手册中,我们将成功的方法转化为可重复的实践,可以轻松适应独特的团队需求。

活动、基础和透明度模式

数据卡手册以冲刺和共同设计实践为蓝本,因此跨职能团队及其利益相关者可以共同定义透明度,同时着眼于他们在创建数据集文档和治理解决方案时遇到的实际问题。三十三个可用活动邀请来自各种利益相关者的广泛、批判性观点,因此数据卡可用于整个数据集生命周期的决策。我们与 Google 负责任的 AI 团队的研究人员合作,创建了可以反映公平性和问责制考虑的活动。例如,我们将ML 实践中的评估差距改编为工作表,以获得更完整的数据集文档。

下载随时可用的活动模板,以便在您的组织中使用数据卡手册。

我们制定了基于证据的指导方针,帮助预测制作透明文档时面临的挑战,提供提高透明度的最佳实践,并使数据卡对不同背景的读者有用。这些挑战及其解决方法基于 Google 员工、行业专家和学术研究的数据和见解。

模式通过推荐的做法、对常见陷阱的警示以及对障碍的建议替代方案来帮助团队解除障碍。

该手册还包括基础部分,这些基础部分是可扩展的概念和框架,随着数据模式和机器学习的新环境的出现,它们探索了透明度的基本方面。每个基础部分都支持不同的产品开发阶段,并包括关键要点、团队行动和实用资源。

剧本模块

该手册分为四个模块:(1) 询问、(2) 检查、(3) 回答和 (3) 审计。每个模块都包含一个不断增长的材料库,团队可以在其工作流程中使用它们来应对经常同时发生的透明度挑战。由于数据卡在创建时就考虑到了可扩展性和可扩展性,因此模块利用了团队可能已经使用的发散-收敛思维,因此文档并不是事后才想到的。询问和检查模块有助于根据组织需求和原则创建和评估数据卡模板。回答和审计模块可帮助数据团队完成模板并评估生成的数据卡。

在Ask中,团队定义透明度并优化其数据集文档,以便进行跨职能决策。参与式活动为数据卡阅读者创造了机会,让他们对数据集文档中的透明度构成有发言权。这些活动解决了特定的挑战,并根据不同的强度和持续时间进行评级,因此团队可以根据自己的需求混合搭配活动。

检查 模块包含从以用户为中心和以数据集为中心的角度识别数据集透明度和流程中的差距和机会的活动。它支持团队在整个组织内完善、验证和实施数据卡模板,以便读者能够对所述数据集得出合理的结论。

答案 模块包含透明度模式和数据集探索活动,用于回答具有挑战性和模糊性的问题。涵盖的主题包括为透明度做准备、在文档中编写以读者为中心的摘要、解析数据集的可用性和实用性以及随着时间的推移维护数据卡。

审计 模块可帮助数据团队和组织在发布已完成的数据卡之前设置流程以对其进行评估。它还包含指导,用于衡量和跟踪组织内多个数据集的透明度工作如何扩展。

实践

Google 的一个数据运营团队使用了 Ask 模块中Lenses和Scopes活动 的早期版本来创建自定义数据卡模板。有趣的是,我们看到他们在整个工作流程中都使用此模板,直到数据集被交出。他们使用数据卡来接收来自研究团队的数据集请求,跟踪创建数据集的各种流程,从负责注释的供应商处收集元数据,并管理审批。他们与专家一起迭代和管理更新的经验反映在我们的透明度模式中。

另一个数据治理小组使用更高级的活动版本来采访利益相关者,以了解他们的 ML 健康相关计划。通过这些描述,他们确定了利益相关者,共同创建他们的数据卡模式。通过对镜头进行投票,可以排除典型的文档问题,并确定特定于其数据类型的非典型文档需求,这对于 ML 领导层和团队中的战术角色经常做出的决策非常重要。然后,这些问题用于定制其数据存储库中现有的元数据模式。

结论

我们推出了数据卡手册,这是一种持续且情境化的数据集透明度方法,它慎重考虑了所有相关材料和背景。借助这种方法,我们希望建立和促进以实践为导向的透明度基础,为研究人员开发负责任且造福社会的机器学习系统和数据集铺平道路。

除了上述四个 Playbook 模块之外,我们还开源了一个卡片生成器,它可以从 Markdown 文件生成交互式数据卡。您可以在GEM Benchmark 项目的数据卡中看到生成器的实际运行情况。创建的数据卡是此 Playbook活动的成果,其中 GEM 团队确定了各个维度的改进,并创建了一个围绕范围设计的交互式收集工具。

我们承认,这本身并不是公平、问责或透明度的全面解决方案。我们将继续利用经验教训改进 Playbook。我们希望数据卡 Playbook 可以成为一个强大的平台,以协作推进透明度研究,并邀请您将其作为自己的平台。

致谢

这项工作是与 Reena Jana、Vivian Tsai 和 Oddur Kjartansson 合作完成的。我们要感谢 Donald Gonzalez、Dan Nanas、Parker Barnes、Laura Rosenstein、Diana Akrong、Monica Caraway、Ding Wang、Danielle Smalls、Aybuke Turker、Emily Brouillet、Andrew Fuchs、Sebastian Gehrmann、Cassie Kozyrkov、Alex Siegman 和 Anthony Keene 的巨大贡献;以及 Meg Mitchell 和 Timnit Gebru 对这项工作的支持。

我们还要感谢 Adam Boulanger、Lauren Wilcox、Roxanne Pinto、Parker Barnes 和 Ayça Çakmakli 的反馈;感谢 Tulsee Doshi、Dan Liebling、Meredith Morris、Lucas Dixon、Fernanda Viegas、Jen Gennai 和 Marian Croak 的支持。如果没有我们的研讨会和研究参与者以及众多合作伙伴,这项工作就不可能实现,他们的见解和经验塑造了这本剧本。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论