生产设备上语言模型的私人训练取得进展

TX[`R9HV1%N1}NDQC30TQWF.png

语言模型 (LM) 经过训练可以预测给定输入文本的下一个单词,这是许多应用程序的关键技术 [ 1、2 ]。在Gboard中,LM 通过支持下一个单词预测(NWP)、智能撰写、智能完成和建议、滑动输入和校对等功能来改善用户的打字体验。在用户设备而不是企业服务器上部署模型具有延迟更低、模型使用隐私性更好等优势。虽然直接从用户数据训练设备上的模型可以有效提高 NWP 和智能文本选择等应用程序的实用性能,但保护模型训练的用户数据隐私也很重要。

Gboard 功能由设备上的语言模型提供支持。

在这篇博客中,我们讨论了自2017 年联邦学习(FL) 的概念验证开发和2022 年正式的差分隐私(DP) 保证以来,多年的研究进展如何为 Gboard LM 的私人训练提供动力。FL使手机能够协作学习模型,同时将所有训练数据保留在设备上,而DP 则提供了可量化的数据匿名化措施。正式地,DP 通常以 ( ε , δ ) 为特征,值越小,保证越强。机器学习 (ML) 模型被认为对 ε=10 具有合理的 DP 保证,对ε=1 具有强大的 DP 保证(δ较小)。

截至目前,Gboard 中的所有 NWP 神经网络 LM 均使用 FL 进行训练,并具有正式的 DP 保证,并且未来所有使用用户数据进行训练的 Gboard LM 的发布都需要 DP。这 30 多个 Gboard 设备上的 LM 已在 7 种以上的语言和 15 多个国家/地区发布,并且满足 ( ɛ , δ )-DP 保证,即δ为 10 -10且 ɛ 介于 0.994 和 13.69 之间。据我们所知,这是 Google 或其他任何地方已知的最大规模的用户级 DP 生产部署,也是首次宣布对直接使用用户数据进行训练的模型提供ɛ < 1 的强大 DP 保证。

Gboard 中的隐私原则和做法

在“ Gboard 中的隐私联邦学习”中,我们讨论了目前不同的隐私原则如何体现在生产模型中,其中包括:

透明度和用户控制:我们披露使用了哪些数据、用于什么目的、如何在各个渠道处理数据,以及 Gboard 用户如何在学习模型中轻松配置数据使用情况。

数据最小化:FL 立即聚合仅针对特定模型进行改进的重点更新。安全聚合(SecAgg) 是一种加密方法,可进一步保证只能访问临时更新的聚合结果。

数据匿名化:服务器应用DP来防止模型记住单个用户训练数据中的独特信息。

可审计性和可验证性:我们已经在开源代码中公开了关键算法方法和隐私核算(TFF 聚合器、TFP DPQuery、DP 核算和FL 系统)。

历史简介

近年来,FL 已成为从用户数据训练Gboard 设备上 LM 的默认方法。2020 年,在西班牙训练西班牙语 LM 时,使用了一种 DP 机制来防止记忆,该机制会剪辑并在模型更新中添加噪声,从而满足有限 DP 保证(“如何 DP-fy ML”指南中描述的Tier 3 )。2022 年,在DP-Follow-The-Regularized-Leader (DP-FTRL) 算法的帮助下,西班牙 LM 成为第一个直接在用户数据上训练的生产神经网络,其正式 DP 保证为 (ε=8.9, δ=10 -10 )-DP(相当于报道的ρ=0.81零集中差异隐私),因此满足合理的隐私保证(Tier 2)。

联邦学习中默认的差异隐私

在“具有差异隐私的 Gboard 语言模型的联邦学习”中,我们宣布 Gboard 中的所有 NWP 神经网络 LM 都具有 DP 保证,并且未来推出的所有基于用户数据训练的 Gboard LM 都需要 DP 保证。通过应用以下实践,可以在 FL 中启用 DP:

使用多语言 C4数据集对模型进行预训练。

通过在公共数据集上进行模拟实验,找到一个较大的 DP 噪声与信号比,以实现较高的效用。增加参与一轮模型更新的客户端数量可以提高隐私性,同时保持噪声比固定以获得良好的效用,直到达到 DP 目标,或达到系统和人口规模允许的最大值。

根据FL 系统中的计算预算和估计人口,配置参数来限制每个客户端可以贡献的频率(例如,每隔几天一次)。

运行DP-FTRL训练,限制每个设备更新的幅度,可以通过自适应剪辑来选择,或根据经验进行固定。

SecAgg 还可以通过采用改进计算和通信方面的进展来提高规模和灵敏度。

具有差异隐私的联合学习和(SecAgg)。

报告DP担保

下面的条形图直观地显示了已推出的 Gboard NWP 语言模型的 DP 保证。x轴显示按语言区域标记并在相应人群中训练的语言模型;y轴显示当(ε, δ)-DP 的δ固定为10 -10的小值时(越低越好)的ε值。根据 A/B 测试期间的用户交互指标衡量,这些模型的实用性要么明显优于之前生产中的非神经模型,要么与之前没有 DP 的语言模型相当。例如,通过应用最佳实践,西班牙模型的 DP 保证从ε=8.9提高到ε =5.37。SecAgg 还用于训练西班牙的西班牙语模型和美国的英语模型。有关 DP 保证的更多详细信息,请参阅附录,其中遵循“如何对 ML 进行 DP 化”中概述的指导原则。

迈向更强有力的DP保障

许多已发布的语言模型所提供的ε ~10 DP 保证在实践中已被认为是机器学习模型的合理指标,而 Gboard 中 DP FL 的征程仍在继续,旨在改善用户的输入体验,同时保护数据隐私。我们很高兴地宣布,巴西葡萄牙语和拉丁美洲西班牙语的生产级语言模型首次以 ε ≤ 1 的 DP 保证进行训练和发布,满足1 级强隐私保证。具体来说,通过运行先进的矩阵分解 DP-FTRL (MF-DP-FTRL) 算法实现了( ε =0.994, δ =10 -10 )-DP 保证,每轮服务器模型更新都有 12,000+ 台设备参与,远大于常见的 6500+ 台设备,并且经过精心配置的策略限制每个客户端在巴西庞大的葡萄牙语用户群中,14 天内最多参与两次总共 2000 轮训练。使用类似的设置,es-US 西班牙语 LM 在结合拉丁美洲多个国家的大型人群中进行了训练,以实现 ( ε = 0.994, δ =10 -10 )-DP。ε ≤ 1 的 es-US 模型显著提高了许多国家的效用,并在哥伦比亚、厄瓜多尔、危地马拉、墨西哥和委内瑞拉推出。对于西班牙较小的人群,es-ES LM 的 DP 保证从ε=5.37提高到ε =3.42,只需将DP-FTRL替换为MF-DP-FTRL,而无需增加每轮参与的设备数量。隐私核算的colab中披露了更多技术细节。

Gboard NWP LM 的 DP 保证(紫色条代表 es-ES 首次推出 ε=8.9;青色条代表使用MF-DP-FTRL训练的模型的隐私改进;层级来自“如何 DP-fy ML ”指南;en-US* 和 es-ES* 还使用 SecAgg 进行了额外训练)。

讨论和后续步骤

我们的经验表明,在实践中,DP 可以通过在客户端参与的情况下进行系统算法协同设计来实现,并且当人群庞大且大量设备的贡献被汇总时,隐私和效用都可以很强。通过使用公开数据、新的 MF-DP-FTRL 算法和严格会计,可以改善隐私-效用-计算权衡。利用这些技术,可以实现ε ≤ 1的强 DP 保证,但仍然具有挑战性。对实证隐私审计的积极研究表明 [ 1、2 ],DP 模型可能比最坏情况的 DP 保证所暗示的更具私密性。在我们不断推动算法前沿的同时,应该优先考虑隐私-效用-计算的哪个维度?

我们正在积极研究机器学习的所有隐私方面,包括将 DP-FTRL 扩展到分布式 DP并提高可审计性和可验证性。可信执行环境为大幅增加具有可验证隐私的模型大小提供了机会。大型 LM(LLM)的最新突破促使我们重新思考在私人训练中使用公共信息,以及未来 LLM、设备上 LM 和 Gboard 生产之间的更多互动。

致谢

作者要感谢 Peter Kairouz、Brendan McMahan 和 Daniel Ramage 对本博文的早期反馈,感谢 Shaofeng Li 和 Tom Small 对动画人物的帮助,以及 Google 团队在算法设计、基础设施实施和生产维护方面的帮助。以下合作者对本文的结果做出了直接贡献:

研究和算法开发:Galen Andrew、Stanislav Chiknavaryan、Christopher A. Choquette-Choo、Arun Ganesh、Peter Kairouz、Ryan McKenna、H. Brendan McMahan、Jesse Rosenstock、Timon Van Overveldt、Keith Rush、Shuang Song、Thomas Steinke、Abhradeep Guha Thakurta、Om Thakkar 和 Yuanbo Zhang。

基础设施、制作和领导支持:Mingqing Chen、Stefan Dierauf、Billy Dou、Hubert Eichner、Zachary Garrett、Jeremy Gillula、Jianpengeng Hou、Hui Li、Xu Liu、Wenzhi Mao、Brett McLarnon、Mengchen Pei、Daniel Ramage、Swaroop Ramaswamy、海城孙、Andreas Terzis、王云、吴珊珊、肖宇、翟淑敏。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论