EHR-Safe:生成高保真且保护隐私的合成电子健康记录

1725869571473.jpg

电子健康记录 ( EHR ) 分析在增强患者护理、定量衡量临床实践绩效和促进临床研究方面具有巨大潜力。在 EHR 数据上训练的统计估计和机器学习 ( ML ) 模型可用于预测各种疾病(如糖尿病)的概率、跟踪患者健康状况以及预测患者对特定药物的反应。对于此类模型,研究人员和从业人员需要访问 EHR 数据。但是,在确保数据隐私并遵守患者保密法规(如HIPAA )的同时利用 EHR 数据可能具有挑战性。

传统的匿名化数据方法(例如去身份识别)通常繁琐且成本高昂。此外,它们可能会扭曲原始数据集的重要特征,从而大大降低数据的实用性;它们还可能容易受到隐私攻击。或者,基于生成合成数据的方法可以同时保留重要的数据集特征和隐私。

为此,我们在“ EHR-Safe:生成高保真且保护隐私的合成电子健康记录”中提出了一种新颖的生成建模框架。通过 EHR-Safe 中的创新方法,我们表明合成数据可以满足两个关键属性:(i)高保真度(即,它们对于感兴趣的任务很有用,例如在对诊断模型进行训练时具有相似的下游性能),(ii)满足某些隐私措施(即,它们不会泄露任何真实患者的身份)。我们最先进的结果源于用于编码/解码特征、规范化复杂分布、条件对抗训练和表示缺失数据的新方法。

使用 EHR-Safe 从原始数据生成合成数据。

生成真实的合成 EHR 数据的挑战

生成合成 EHR 数据面临多项基本挑战。EHR 数据包含具有不同特征和分布的异构特征。其中可能包括数值特征(例如血压)和具有多个或两个类别的分类特征(例如医疗代码、死亡率结果)。其中一些可能是静态的(即在建模窗口期间不变),而另一些则是随时间变化的,例如定期或不定期的实验室测量。分布可能来自不同的家族——分类分布可能高度不均匀(例如,对于代表性不足的群体),数值分布可能高度倾斜(例如,一小部分值非常大,而绝大多数值很小)。根据患者的病情,就诊次数也可能有很大差异——有些患者只去诊所一次,而有些患者则去数百次,导致序列长度的差异通常比其他时间序列数据高得多。由于并非收集了所有实验室测量值或其他输入数据,因此不同患者和时间步骤中缺失特征的比例可能很高。

真实 EHR 数据的示例:时间数值特征(上)和时间分类特征(下)。

EHR-Safe:合成 EHR 数据生成框架

EHR-Safe 由顺序编码器-解码器架构和生成对抗网络(GAN) 组成,如下图所示。由于 EHR 数据是异构的(如上所述),因此直接对原始 EHR 数据进行建模对于 GAN 来说具有挑战性。为了解决这个问题,我们建议使用顺序编码器-解码器架构,以学习从原始 EHR 数据到潜在表示的映射,反之亦然。

EHR-Safe 框架的框图。

在学习映射时,数值和分类特征的深奥分布带来了巨大挑战。例如,某些值或数值范围可能主导分布,但对罕见情况进行建模的能力至关重要。提出的特征映射和随机归一化(将原始特征分布转换为均匀分布而不会丢失信息)是处理此类数据的关键,通过将其转换为编码器-解码器和 GAN 的训练更稳定的分布(详细信息可在论文中找到)。然后,将编码器生成的映射潜在表示用于 GAN 训练。在训练编码器-解码器框架和 GAN 之后,EHR-Safe 可以从任何输入生成合成的异构 EHR 数据,我们为其提供随机采样的向量。请注意,只有经过训练的生成器和解码器才用于生成合成数据。

数据集

我们专注于两个现实世界的 EHR 数据集来展示 EHR-Safe 框架,即MIMIC-III和eICU。两者都是由不同长度的序列组成的住院数据集,并包含多个缺少成分的数值和分类特征。

富达结果

保真度指标通过测量合成数据的真实性来关注合成数据的质量。保真度越高,区分合成数据和真实数据就越困难。我们通过多种定量和定性分析来评估合成数据的保真度。

可视化

对于合成数据生成而言,拥有相似的覆盖范围和避免某些数据模式的代表性不足都很重要。如下面的t-SNE分析所示,合成数据(蓝色)的覆盖范围与原始数据(红色)非常相似。借助成员推理指标(将在隐私部分介绍),我们还验证了 EHR-Safe 不仅仅记住了原始训练数据。

对 MIMIC-III(上)和 eICU(下)数据集上的时间和静态数据进行 t-SNE 分析。

统计相似性

我们对每个特征的原始数据和合成数据之间的统计相似性进行了定量比较。原始数据和合成数据之间的大多数统计数据都很好对齐——例如KS 统计数据的度量,即原始数据和合成数据之间的累积分布函数(CDF) 的最大差异大多低于 0.03。可以在论文中找到更详细的表格。下图举例说明了三个特征的原始数据与合成数据的 CDF 图——总体而言,它们在大多数情况下看起来非常接近。

原始 EHR 数据和合成 EHR 数据之间的两个特征的 CDF 图。左:平均气道压力。右:分钟通气量警报。

公用事业

由于合成数据最重要的用例之一是实现 ML 创新,因此我们专注于保真度指标,该指标衡量在合成数据上训练的模型对真实数据进行准确预测的能力。我们将此类模型性能与使用真实数据训练的等效模型进行比较。相似的模型性能表明合成数据捕获了与任务相关的信息内容。作为 EHR 的重要潜在用例之一,我们专注于死亡率预测任务。我们考虑了四种不同的预测模型:梯度提升树集成(GBDT)、随机森林(RF)、逻辑回归(LR)、门控循环单元(GRU)。

使用真实数据与合成数据训练的模型的死亡率预测性能。左: MIMIC-III。右:eICU。

在上图中,我们可以看到,在大多数情况下,在合成数据和真实数据上进行训练的接收者操作特性曲线下面积(AUC) 非常相似。在 MIMIC-III 上,合成数据上的最佳模型 (GBDT) 仅比真实数据上的最佳模型差 2.6%;而在 eICU 上,合成数据上的最佳模型 (RF) 仅差 0.9%。

隐私结果

我们考虑三种不同的隐私攻击来量化合成数据在隐私方面的稳健性。

成员推理攻击:对手预测已知主题是否存在于用于训练合成数据模型的训练数据中。

重新识别攻击:对手探索使用合成数据并与训练数据匹配重新识别某些特征的概率。

属性推理攻击:对手使用合成数据预测敏感特征的值。

隐私风险评估涵盖三个隐私指标:成员推理(左上)、重新识别(右上)和属性推理(下)。成员推理的隐私风险理想值是随机猜测(0.5)。对于重新识别,理想的情况是用不相交的保留原始数据替换合成数据。

上图总结了结果以及每个指标的理想可实现值。我们观察到,在所有情况下,隐私指标都非常接近理想值。了解原始数据样本是否是用于训练模型的成员的风险非常接近随机猜测;它还验证了 EHR-Safe 不仅仅是记住原始训练数据。对于属性推理攻击,我们专注于从其他属性推断特定属性(例如性别、宗教和婚姻状况)的预测任务。我们将使用真实数据训练分类器与使用合成数据训练的相同分类器的预测准确性进行比较。由于 EHR-Safe 条形图都较低,结果表明,与访问原始数据相比,访问合成数据不会在特定特征上带来更高的预测性能。

与其他方法的比较

我们将 EHR-Safe 与用于时间序列合成数据生成的 替代方案(TimeGAN、RC-GAN、C-RNN-GAN )进行了比较。如下所示,EHR-Safe 的表现明显优于每种方案。

与其他方案相比,下游任务性能 (AUC)。

结论

我们提出了一种新颖的生成建模框架 EHR-Safe,它可以生成高度逼真的合成 EHR 数据,并且能够抵御隐私攻击。EHR-Safe 基于应用于编码原始数据的生成对抗网络。我们在架构和训练机制中引入了多项创新,这些创新是 EHR 数据的关键挑战。这些创新是我们结果的关键,这些结果显示出与真实数据几乎相同的属性(当考虑所需的下游功能时)以及几乎理想的隐私保护。一个重要的未来方向是多模态数据(包括文本和图像)的生成建模能力,因为现代 EHR 数据可能同时包含这两种数据。

致谢

我们衷心感谢 Michel Mizrahi、Nahid Farhady Ghalaty、Thomas Jarvinen、Ashwin S. Ravi、Peter Brune、Fanyu Kong、Dave Anderson、George Lee、Arie Meir、Farhana Bandukwala、Elli Kanal 和 Tomas Pfister 的贡献。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论