大型语言模型中的隐私考虑

经过训练可以预测句子中下一个单词的基于机器学习的语言模型变得越来越强大、普遍和有用,从而为问答、翻译等应用带来了突破性的改进。但随着语言模型的不断发展,新的和意想不到的风险可能会暴露出来,这就要求研究界积极努力开发新方法来缓解潜在问题。

其中一个风险是模型可能会泄露其训练数据的详细信息。虽然这可能是所有大型语言模型都担心的问题,但如果使用私人数据训练的模型被公开,则可能出现其他问题。由于这些数据集可能很大(数百 GB)并且来自各种来源,因此它们有时可能包含敏感数据,包括个人身份信息 (PII) — 姓名、电话号码、地址等,即使是使用公开数据进行训练。这就增加了使用此类数据训练的模型在其输出中反映部分私人详细信息的可能性。因此,重要的是识别和尽量降低此类泄漏的风险,并制定策略来解决未来模型的问题。

1729582850255.jpg

如果有人用前缀“East Stroudsburg Stroudsburg...”提示GPT-2语言模型,它将自动完成一长段文本,其中包含 GPT-2 训练数据中包含的特定人的全名、电话号码、电子邮件地址和实际地址。

在与OpenAI、Apple、斯坦福、伯克利和东北大学合作的 “从大型语言模型中提取训练数据”中,我们证明,只要能够查询预先训练的语言模型,就可以提取模型记忆的特定训练数据。因此,训练数据提取攻击对最先进的大型语言模型构成了现实威胁。这项研究是早期的关键一步,旨在让研究人员了解这类漏洞,以便他们可以采取措施缓解这些弱点。

语言模型攻击的伦理问题

当训练数据提取攻击应用于公开可用但训练所用数据集不公开的模型时,其危害最大。但是,由于在这样的数据集上进行这项研究可能会产生有害后果,因此我们转而对GPT -2 发起概念验证训练数据提取攻击,GPT-2是 OpenAI 开发的大型公开语言模型,仅使用公开数据进行训练。虽然这项研究专门针对 GPT-2,但结果适用于了解大型语言模型通常可能存在的隐私威胁。

与其他隐私和安全相关的研究一样,在实际执行此类攻击之前,考虑其道德问题非常重要。为了将这项工作的潜在风险降至最低,这项工作中的训练数据提取攻击是使用公开数据开发的。此外,GPT-2 模型本身于 2019 年由 OpenAI 公开,用于训练 GPT-2 的训练数据是从公共互联网收集的,任何遵循GPT-2 论文中记录的数据收集过程的人都可以下载。

此外,根据负责任的计算机安全披露规范,我们跟踪了 PII 被提取的个人,并在发布引用这些数据之前征得了他们的许可。此外,在这项工作的所有出版物中,我们都删除了任何可能识别个人身份的信息。我们还与 OpenAI 密切合作,对 GPT-2 进行了分析。

训练数据提取攻击

语言模型的设计使得生成大量输出数据变得非常容易。通过向模型中植入随机短语,该模型可以生成数百万个连续词,即可能完成句子的短语。大多数情况下,这些连续词将是合理的文本的良性字符串。例如,当被要求预测字符串“ Mary had a little… ”的连续词时,语言模型将高度确信下一个标记是单词“ lamb ”。但是,如果某个特定的训练文档恰好多次 重复了字符串“ Mary had a little wombat ”,则该模型可能会预测该短语。

训练数据提取攻击的目标是筛选语言模型的数百万个输出序列,并预测哪些文本会被记住。为了实现这一点,我们的方法利用了这样一个事实:模型往往对直接从训练数据中捕获的结果更有信心。这些成员推理攻击使我们能够通过检查模型对特定序列的置信度来预测结果是否用于训练数据。

这项工作的主要技术贡献是开发了一种高精度推断成员的方法,以及从模型中抽样的技术,以鼓励输出记忆的内容。我们测试了许多不同的抽样策略,其中最成功的策略是根据各种输入短语生成文本。然后,我们比较了两个不同语言模型的输出。当一个模型对某个序列的置信度很高,而另一个(同样准确的)模型对某个序列的置信度很低时,很可能第一个模型已经记住了数据。

结果

在 GPT-2 语言模型的 1800 个候选序列中,我们从公共训练数据中提取了 600 多个记忆序列,总数因需要手动验证而受到限制。记忆的示例涵盖了广泛的内容,包括新闻标题、日志消息、JavaScript 代码、PII 等。许多这些示例虽然在训练数据集中出现的频率不高,但都被记住了。例如,我们提取的许多 PII 样本仅在数据集中的单个文档中找到。然而,在大多数情况下,原始文档包含 PII 的多个实例,因此,模型仍然将其学习为高可能性文本。

最后,我们还发现语言模型越大,就越容易记住训练数据。例如,在一项实验中,我们发现 15 亿参数的 GPT-2 XL 模型比 1.24 亿参数的 GPT-2 Small 模型记住的信息多 10 倍。鉴于研究界已经训练了 10 到 100 倍大的模型,这意味着随着时间的推移,需要做更多的工作来监控和缓解越来越大的语言模型中的这一问题。

课程

虽然我们专门针对 GPT-2 演示了这些攻击,但它们表明所有大型生成语言模型都存在潜在缺陷。这些攻击是可能的,这一事实对未来使用这些类型的模型的机器学习研究具有重要影响。

幸运的是,有几种方法可以缓解这个问题。最直接的解决方案是确保模型不在任何可能有问题的数据上进行训练。但这在实践中很难做到。

使用差分隐私,可以在不透露任何单个训练示例细节的情况下对数据集进行训练,这是训练具有隐私性的机器学习模型的最主要技术之一。在 TensorFlow 中,可以使用tensorflow/privacy 模块(或 PyTorch 或 JAX 的类似模块)来实现这一点,它是现有优化器的直接替代品。即使这样也可能有局限性,并且无法阻止记忆经常重复的内容。如果这不可能,我们建议至少测量一下记忆的程度,以便采取适当的措施。

语言模型继续展现出巨大的实用性和灵活性——然而,与所有创新一样,它们也可能带来风险。负责任地开发它们意味着主动识别这些风险并开发减轻风险的方法。我们希望,这一旨在突出大型语言建模当前弱点的努力将提高更广泛的机器学习社区对这一挑战的认识,并激励研究人员继续开发有效的技术来训练减少记忆的模型。

致谢

该作品由 Florian Tramer、Eric Wallace、Matthew Jagielski、Ariel Herbert-Voss、Katherine Lee、Adam Roberts、Tom Brown、Dawn Song、Ulfar Erlingsson、Alina Oprea 和 Colin Raffel 共同完成。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论