Google Research 的负责任 AI:对抗性测试确保生成式 AI 安全

1724292558(1).jpg

Google Research 的负责任 AI 和以人为本的技术(RAI-HCT) 团队致力于通过文化意识研究的视角推进负责任的以人为本的 AI 的理论和实践,以满足当今数十亿用户的需求,并为更好的 AI 未来开辟道路。RAI-HCT 内的 BRAIDS(构建负责任的 AI 数据和解决方案)团队旨在通过利用可扩展的工具、高质量的数据、精简的流程和新颖的研究来简化 RAI 实践的采用,目前重点是解决生成式 AI (GenAI) 带来的独特挑战。

GenAI 模型实现了前所未有的功能,从而导致创新应用的快速增长。Google 积极利用GenAI来增强其产品的实用性并改善生活。虽然 GenAI 带来巨大的好处,但也存在虚假信息、偏见和安全风险。2018 年,Google 率先推出了AI 原则,强调有益使用和预防危害。从那时起,Google 一直致力于通过以下方式在负责任的 AI 实践中有效实施我们的原则:1) 全面的风险评估框架,2) 内部治理结构,3) 教育,使 Google 员工能够将 AI 原则融入他们的工作中,以及 4) 开发流程和工具,以识别、衡量和分析 AI 驱动产品整个生命周期中的道德风险。BRAIDS 团队专注于最后一个领域,创建用于识别 GenAI 产品中的道德和安全风险的工具和技术,使 Google 内部的团队能够采取适当的缓解措施。

是什么使得负责任地构建 GenAI 变得具有挑战性?

GenAI 模型前所未有的能力伴随着一系列新的潜在故障,这凸显了在广泛使用模型之前,迫切需要采用全面而系统的 RAI 方法来了解和缓解潜在的安全问题。用于了解潜在风险的一项关键技术是对抗性测试,即系统地评估模型,以了解它们在各种情况下受到恶意或无意中有害输入时的行为。为此,我们的研究重点是三个方向:

大规模对抗数据生成

鉴于用户群体、用例和行为的多样性,在推出产品或服务之前很难全面识别关键安全问题。通过创建包含各种各样且可能不安全的模型输入的测试集,在逆境下强调模型能力,大规模对抗数据生成通过人为参与满足了这一需求。我们在 BRAIDS 中的独特重点在于识别受我们模型影响的不同用户群体的社会危害。

自动测试集评估和社区参与

自动化测试集评估有助于扩展测试流程,以便快速评估数千个模型响应,了解模型在各种潜在有害场景中的响应情况。除了使用对抗性测试集进行测试外,社区参与也是我们识别“未知的未知数”和启动数据生成过程的方法的关键组成部分。

评估员多样性

安全评估依赖于人类判断,而人类判断受社区和文化的影响,很难实现自动化。为了解决这个问题,我们优先研究评估员多样性。

规模化对抗数据生成

高质量、全面的数据是 Google 众多关键项目的基础。最初,我们依赖于手动数据生成,但如今,我们在自动化对抗性数据生成流程方面取得了重大进展。我们提供了一个集中式数据存储库,其中包含用例和符合政策的提示,可帮助您快速生成新的对抗性测试。我们还开发了多种基于大型语言模型 (LLM) 的合成数据生成工具,这些工具优先生成反映不同社会背景的数据集,并整合数据质量指标,以提高数据集的质量和多样性。

我们的数据质量指标包括:

语言风格的分析,包括查询长度、查询相似度、语言风格的多样性。

利用SeeGULL、SPICE、社会背景存储库等数据集,对广泛的社会和多元文化维度进行测量。

衡量与 Google生成式 AI 政策和预期用例的一致性。

对抗性分析确保我们检查显式(输入显然设计为产生不安全的输出)和隐式(输入无害但输出有害)查询。

我们在AI 辅助红队(AART) 论文中展示了一种大规模数据生成方法。AART 生成具有高度多样性的评估数据集(例如,特定于广泛文化和地理区域的敏感和有害概念),由 AI 辅助配方引导,在应用环境中定义、确定范围和确定多样性的优先级。与一些最先进的工具相比,AART 在概念覆盖率和数据质量方面显示出令人鼓舞的结果。此外,我们还与 MLCommons 合作,为 AI 安全的公共基准做出贡献。

对抗性测试和社区洞察

使用对抗性测试集评估模型输出使我们能够在部署之前发现关键的安全问题。我们最初的评估完全依赖于人工评分,由于缺乏标准化的安全定义和政策,导致周转时间缓慢且不一致。我们通过引入符合政策的评分指南来提高人工评分的准确性,从而提高了评估质量,并且正在研究其他改进措施,以更好地反映不同社区的观点。此外,使用基于 LLM 的自动评分器的自动测试集评估可以提高效率和可扩展性,同时使我们能够将复杂或模糊的案例交给人工进行专家评分。

除了使用对抗性测试集进行测试之外,收集社区见解对于不断发现“未知的未知数”也至关重要。为了提供推动规模化流程所需的高质量人工输入,我们与公平人工智能研究圆桌会议(EARR) 等团体以及我们的内部道德和分析团队合作,以确保我们代表使用我们模型的不同社区。对抗性 Nibbler 挑战赛吸引外部用户参与,以了解不安全、有偏见或暴力的输出对大规模最终用户的潜在危害。我们持续致力于社区参与,包括收集来自不同社区的反馈并与研究社区合作,例如在计算语言学协会会议亚太分会 (IJCNLP-AACL 2023) 的 ART of Safety 研讨会期间,以解决GenAI的对抗性测试挑战。

安全性评估中的评估者多样性

理解和减轻 GenAI 安全风险既是一项技术挑战,也是一项社会挑战。安全认知本质上是主观的,受到各种交叉因素的影响。我们对人口统计学对安全认知的影响进行了深入研究,探讨了评估者人口统计学(例如种族/民族、性别、年龄)和内容特征(例如伤害程度)对 GenAI 输出安全评估的交叉影响。传统方法在很大程度上忽略了固有的主观性和评估者之间的系统性分歧,这可能会掩盖重要的文化差异。我们的分歧分析框架揭示了来自不同背景的评估者之间的各种分歧模式,包括“地面实况”专家评级。这为评估人工注释和模型评估质量的新方法铺平了道路,而不仅仅是简单地使用黄金标签。我们的NeurIPS 2023 出版物介绍了DICES(对话式 AI 安全评估多样性)数据集,该数据集有助于对 LLM 进行细致入微的安全评估,并考虑了不同文化背景下的差异、模糊性和多样性。

概括

GenAI 带来了技术变革,即使没有编码,也为快速开发和定制提供了可能性。然而,它也伴随着产生有害输出的风险。我们的主动对抗测试程序可识别并减轻 GenAI 风险,以确保包容性模型行为。对抗测试和红队测试是安全策略的重要组成部分,全面开展这些测试至关重要。创新步伐的加快要求我们不断挑战自我,与内部合作伙伴、不同的用户社区和其他行业专家合作,寻找“未知的未知数”。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论