使用 MLCommons 支持 AI 安全基准

1724373086634.jpg

标准基准是衡量重要产品质量的一致方法,它们存在于许多领域。一些标准基准衡量安全性:例如,当汽车制造商宣称“五星级整体安全评级”时,他们引用的是基准。机器学习 (ML) 和人工智能技术领域已经存在标准基准:例如,MLCommons协会运营的MLPerf基准可以衡量 Google 的 TPU 等尖端人工智能硬件的速度。然而,尽管在人工智能安全方面已经取得了重大进展,但目前还没有类似的人工智能安全标准基准。

我们很高兴能够支持非营利性 MLCommons 协会制定标准 AI 安全基准的新举措。制定有效且值得信赖的基准需要推进 AI 安全测试技术并纳入广泛的观点。MLCommons 计划旨在汇集学术界和业界的专家研究人员,制定标准基准,以将 AI 系统的安全性衡量为每个人都能理解的分数。我们鼓励整个社区,从 AI 研究人员到政策专家,加入我们,为这项努力做出贡献。

为什么要制定人工智能安全基准?

与大多数先进技术一样,人工智能具有带来巨大好处的潜力,但如果不加以适当保护,也可能导致负面结果。例如,人工智能技术可以在广泛的活动中提高人类的生产力(例如,改善健康诊断和疾病研究,分析能源使用情况等)。然而,如果没有足够的预防措施,人工智能也可能被用来支持有害或恶意的活动,并以有偏见或攻击性的方式做出回应。

通过提供涵盖有害使用、超出范围的响应、人工智能控制风险等类别的标准安全措施,标准人工智能安全基准可以帮助社会从人工智能中获益,同时确保采取足够的预防措施来减轻这些风险。最初,新兴的安全基准可以帮助推动人工智能安全研究并为负责任的人工智能开发提供信息。随着时间的推移和成熟,它们可以帮助告知人工智能系统的用户和购买者。最终,它们可能成为政策制定者的宝贵工具。

在计算机硬件领域,基准测试(例如SPEC、TPC)已显示出惊人的能力,可以协调整个行业的研究、工程甚至营销以追求进步,我们相信标准的人工智能安全基准测试可以帮助在这个重要领域做到同样的事情。

什么是标准的人工智能安全基准?

学术界和企业研究机构已经尝试了一系列 AI 安全测试(例如RealToxicityPrompts、斯坦福 HELM公平性、偏见、毒性测量以及Google 的生成式 AI 护栏)。然而,这些测试中的大多数都侧重于向 AI 系统提供提示,并通过算法对输出进行评分,这是一个有用的开始,但仅限于测试提示的范围。此外,他们通常使用开放数据集作为提示和响应,这些数据集可能已经(通常是无意中)被纳入训练数据中。

MLCommons 提出了一个多利益相关方流程,用于选择测试并将其分组为子集,以衡量特定 AI 用例的安全性,并将这些测试的高技术结果转化为每个人都能理解的分数。MLCommons 建议创建一个平台,将这些现有测试集中到一个地方,并鼓励创建更严格的测试,以推动最先进的技术发展。用户将能够通过在线测试访问这些测试,在线测试可以生成和查看分数,离线测试可以使用引擎进行私人测试。

人工智能安全基准应是集体努力的结果

负责任的人工智能开发人员会使用各种安全措施,包括自动测试、手动测试、红队测试(其中人类测试人员试图产生对抗性结果)、软件施加的限制、数据和模型最佳实践以及审计。然而,确定已采取足够的预防措施可能具有挑战性,尤其是在提供人工智能系统的公司社区不断壮大和多样化的情况下。标准人工智能基准可以提供一种强大的工具,帮助社区负责任地成长,既可以帮助供应商和用户衡量人工智能的安全性,也可以鼓励专注于提高人工智能安全性的资源和专业提供商生态系统。

与此同时,如果没有社区的参与,就不可能开发出既有效又值得信赖的成熟人工智能安全基准。这项工作需要研究人员和工程师齐心协力,为安全测试技术提供创新而实用的改进,使测试更加严格和高效。同样,公司也需要齐心协力,提供测试数据、工程支持和资金支持。人工智能安全的某些方面可能是主观的,建立得到广泛共识支持的可信基准需要结合多种观点,包括公众倡导者、政策制定者、学者、工程师、数据工作者、商业领袖和企业家的观点。

Google 对 MLCommons 的支持

基于我们于 2018 年发布的AI 原则,Google 致力于采取具体措施,以安全、可靠和值得信赖的方式开发和使用 AI(请参阅我们的2019 年、2020 年、2021 年、2022 年更新)。我们还在关键承诺方面取得了重大进展,这将有助于确保以大胆和负责任的方式开发 AI,造福所有人。

谷歌正在通过多种方式支持 MLCommons 协会制定人工智能安全基准的努力。

测试平台:我们正在与其他公司合作提供资金支持测试平台的开发。

技术专长和资源:我们提供技术专长和资源,例如Monk Skin Tone Examples Dataset,以帮助确保基准测试设计良好且有效。

数据集:我们正在贡献一个用于多语言表征偏差的内部数据集,以及已经外部化的刻板印象危害测试,例如SeeGULL和SPICE。此外,我们还在分享专注于负责任和包容地收集人工注释的数据集,例如DICES和SRP。

未来方向

我们相信,这些基准对于推进人工智能安全研究和确保以负责任的方式开发和部署人工智能系统非常有用。人工智能安全是一个集体行动问题。前沿模型论坛和人工智能伙伴关系等组织也在领导重要的标准化举措。我们很高兴从一开始就成为这些组织和 MLCommons 的一部分。我们期待进一步共同努力,促进负责任地开发新的生成式人工智能工具。

致谢

非常感谢为这项工作做出贡献的 Google 团队:Peter Mattson、Lora Aroyo、Chris Welty、Kathy Meier-Hellstern、Parker Barnes、Tulsee Doshi、Manvinder Singh、Brian Goldman、Nitesh Goyal、Alice Friend、Nicole Delange、Kerry Barker、Madeleine Elish、Shruti Sheth、Dawn Bloxwich、William Isaac 和 Christina Butterfield。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论