找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 65|回复: 0

弥合差异隐私模型训练的差距

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-2 22:00:28 | 显示全部楼层 |阅读模式
我们发现了一种广泛使用的神经网络私有训练方法的实施与隐私分析之间存在差距,证明了这种差距的影响,并提出了一种减轻其影响的方法。
在当今世界,机器学习 (ML) 模型变得越来越普遍。虽然它们提供了很大的实用性,但这些模型有时可能会意外地记住训练数据中的敏感信息。差分隐私(DP) 提供了一个严格的数学框架,通过在模型训练过程中注入“噪音”来保护用户隐私,使模型更难记住各个数据点特有的信息。希望有能够在任何指定的隐私级别提供最佳模型效用的技术。
随机梯度下降(SGD) 是一种常用的机器学习模型训练算法。它的工作原理是将数据分成小批量,并根据每批数据按步骤顺序更新模型。一种名为DP-SGD 的隐私保护版本会在此学习过程中添加噪声以保护单个数据点。DP-SGD 广泛用于图像 分类、广告预测、生成合成数据等任务,并可在TensorFlow Privacy、PyTorch Opacus和JAX Privacy等流行工具中使用。
在ICML 2024 上发表的“ DP-SGD 实现的私密性如何? ”中,我们发现了此方法的典型实现方式中存在潜在的隐私漏洞。该漏洞源于理论假设与训练过程中数据随机分成小批量的实际实现之间的不匹配。在NeurIPS 2024 上发表的“可扩展 DP-SGD:改组与泊松子采样”中,我们展示了此漏洞对神经网络模型私密训练的影响,并建议使用Map-Reduce 框架采用泊松子采样实现 DP-SGD 的可扩展方法以减轻这种影响。
DP-SGD 隐私分析中的脆弱性差距
DP-SGD 的大多数实际实现都会对训练示例进行打乱,并将其划分为固定大小的小批量,但直接分析此过程的隐私性具有挑战性。由于小批量具有固定大小,如果我们知道某个示例位于小批量中,则其他示例位于同一小批量中的概率较小。因此,训练示例有可能泄露彼此的信息。
因此,使用隐私分析来假设批次是使用泊松子采样生成的,其中每个示例以一定的概率独立包含在每个小批次中已成为一种常见做法。这样可以将训练过程视为一系列独立的步骤,从而更容易使用组合定理来分析整体隐私成本,组合定理是各种开源隐私会计方法中广泛使用的方法,包括由Google和Microsoft开发的方法。但一个自然而然的问题出现了:上述假设合理吗?
差分隐私的保证可以用两个参数(ε、δ)来量化,它们共同代表算法的“隐私成本”。ε和δ越小,算法的隐私性就越强。我们建立了一种技术来证明使用混排时隐私成本的下限,这意味着算法的隐私性不会比我们计算出的下限更高(即 ε 、δ值不会更小)。
大规模实施泊松子采样
泊松子采样在实践中很少实现,因为它会产生可变大小的批次,这在典型的深度学习系统中不方便处理。此外,现有的实现仅适用于允许高效随机访问的数据集(例如,可以完全加载到内存中的数据集),就像在PyTorch Opacus 库中所做的那样。作为一种解决方法,大多数使用 DP 的深度学习系统通过全局打乱数据集中的示例来生成固定大小的批次,但报告隐私参数假设使用了泊松子采样。
我们使用Map-Reduce框架生成批次,以可扩展的方式实现泊松子采样。我们使用 Python 中的Apache beam,它可以在分布式平台上实现,例如Apache Flink、Apache Spark和Google Cloud Dataflow。为了生成下游训练所需的固定大小批次,我们还修改了隐私分析以处理截断的批次并将批次填充到固定大小。下图显示了这一点。
基于 Map-Reduce 的泊松子采样实现的可视化。第一个“Map”操作为每个示例采样一组其所属批次的索引(每个索引以一定的概率独立包含)。“Reduce”操作将属于同一批次的所有示例分组。最后的“Map”操作截断超过预先指定的最大大小的批次,或将虚拟元素(权重 = 0)填充到小于最大值的批次。
实验评估
我们使用Criteo Display Ads pCTR 数据集在JAX中运行 DP-SGD 训练,该数据集包含一周 Criteo 广告流量中的约 4600 万个示例。每个示例都有 13 个整数特征和 26 个分类特征,目标是根据这些特征预测点击广告的概率。我们使用以下批量采样算法评估 DP-SGD:(i) 确定性批次,按给定顺序将数据分成批次;(ii) 泊松子采样批次;(iii) 使用隐私分析下限的混洗批次。
正如预期的那样,训练期间注入的噪声越高,训练后的模型性能就越差。也就是说,我们发现,对于相同的参数设置,以曲线下面积(AUC) 衡量的模型性能在噪声规模较大时越差。我们观察到,在高隐私(小 ε )制度下,带改组的 DP-SGD(使用我们的下限分析)比泊松子采样的性能更差。使用正确的隐私核算的带改组的 DP-SGD 实现必须至少添加这么多的噪声,因此这表明,在正确的相应隐私分析下,带改组的 DP-SGD 的性能只会更差。
结论
我们的工作确定了 DP-SGD 实施隐私分析中的一个关键漏洞。我们表明,将训练数据混编为固定大小的小批量的常见做法可能会导致隐私保护比以前假设的更弱。这种弱点源于实际实施与理论分析之间的不匹配,后者通常依赖于泊松子采样假设来构建小批量。
为了解决这个问题,我们提出了一种使用 Map-Reduce 框架的可扩展泊松子采样实现方法。我们在广告点击预测数据集上进行的实验评估表明,与传统的改组技术相比,这种方法在相同的隐私保证下提供了更好的模型性能,特别是在ε值较小的高隐私制度中。这些发现强调了严格分析和实施隐私保护 ML 算法以确保对用户数据进行可靠保护的重要性。
致谢
这项工作是与 Badih Ghazi、Ravi Kumar、Pasin Manurangsi、Amer Sinha 和 Chiyuan Zhang 合作完成的。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 10:18 , Processed in 0.079837 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表