重症监护病房器官功能障碍的多任务预测

医院的重症监护病房 (ICU) 负责照料最脆弱的患者,其中许多人需要器官支持,例如机械通气或透析。虽然 ICU 服务始终至关重要,但在 COVID-19 大流行期间对 ICU 服务的需求进一步凸显了数据驱动决策在医疗保健中的重要性。此外,准确预测 ICU 患者临床结果的能力有可能指导治疗,并可能为最有效的护理决策提供信息,包括人员配备和分诊支持。

将机器学习 (ML) 应用于电子健康记录 (EHR) 已显示出预测临床结果的潜力。然而,许多 ML 模型都是基于单任务学习 (ST),其中模型仅被训练来预测特定的不良事件,例如器官功能障碍或需要生命支持干预。更大的好处是训练多任务模型,这些模型考虑到各种相互竞争的风险以及器官系统之间的相互依赖性,这些因素在现实环境中会影响患者的结果。

在“使用顺序子网络路由对 ICU 中的器官功能障碍进行多任务预测”中,我们提出了一种多任务学习 (MTL) 架构,称为顺序子网络路由 (SeqSNR),它可以更好地捕捉现实环境的复杂性。受临床医生诊断问题的整体方法的启发,SeqSNR 旨在使用灵活的参数共享和路由来查找相关任务并鼓励它们之间的交叉学习。我们成功地将 SeqSNR 应用于 ICU 环境中的持续不良事件预测任务,并显示出优于单任务和简单的多任务处理的优势,尤其是在训练数据较少的情况下。

数据和标签

在本研究中,我们使用了免费提供的、开放获取的、去除身份识别信息的MIMIC-III EHR 数据集,其中包括 2001 年至 2012 年期间贝斯以色列女执事医疗中心 52,038 名重症监护患者中的 36,498 名成人患者。与我们之前的 研究类似,我们使用了映射到快速医疗互操作性资源(FHIR) 标准的 MIMIC-III 数据集的一个版本,并使用了一套全面的功能,包括一系列生命体征、实验室结果、过去的药物、程序、诊断等。

MIMIC-III 数据库包含来自 ICU 患者的多模态记录。与 ML 中的大多数数据集不同,输入和目标通常没有明确定义,必须从数据中推断出来。因此,我们结合使用基于规则的自动化方法和临床审查,定义了一系列不同的终点,包括重症监护干预、特定器官功能障碍和整体患者结果。

该模型的任务是预测患者进入 ICU 后每小时 24-48 小时内发生的一系列不良事件。定义的不良事件包括急性肾损伤(AKI)、持续性肾脏替代疗法(CRRT) 透析、血管加压药和正性肌力药物的使用、机械通气 (MV)、死亡率和剩余住院时间 (LoS)。

SeqSNR算法

虽然多任务学习可以捕捉器官系统之间的相互依赖性并平衡竞争风险,但成功实施起来却颇具挑战性。在实践中,联合训练的任务往往会相互损害,这种效应称为“负转移”。SeqSNR 背后的直觉是,模块化“子网络”将通过自动优化信息在多个任务之间的共享方式来缓解这个问题。

SeqSNR 是SNR 架构 的时间序列改编,由深度嵌入层和堆叠的循环神经网络(RNN) 层组合而成。模块化是通过将嵌入层和 RNN 堆栈拆分为多个模块来实现的,这些模块由在训练阶段学习到的路由变量连接。路由连接始终在一层和下一层的块之间创建。这种方法通过确保过滤掉与特定任务层相关性较低的数据来最大限度地减少负向传输。本质上,这意味着每个任务都使用模型中的不同路径。

1728637820986.jpg

SeqSNR 架构的高层概述。

发现

总体而言,SeqSNR 在单任务和简单多任务处理中表现出了适度的判别性能提升。然而,在训练标签较少的场景中,其性能提升更为显著。

由于数据集中不同结果的患病率差异很大(例如,~38% 的患者患有 MV,但只有 ~3% 的患者接受 CRRT 透析),许多准确度指标并不合适。相反,我们报告精确召回曲线下面积 (AU PRC),这在数据不平衡的情况下更可靠。此外,我们执行了Wilcoxon 符号秩检验,以在保留测试集的引导样本中对 ST 学习、共享底部(SB) 多任务学习(即朴素多任务学习)和 SeqSNR 的成对比较得出具有统计学意义的结论。这三种架构之间的性能差异不大,但 SeqSNR 在六项任务中的四项中都优于 ST 和 SB(论文中报告了 p 值)。

1728637807221.jpg

MIMIC-III 数据集上单任务(ST)、共享底部(SB)和 SeqSNR 性能的比较。

标签效率

我们假设多任务学习可以在低数据量的情况下使用易于标记的辅助任务来提高主要任务的性能。我们制定了预测任务,其中只有一部分训练标签可用于主要预测任务,但保留了整个数据集用于“辅助任务”。之所以选择后者,是因为它们在 EHR 中被可靠地编码并且易于加盖时间戳。这种辅助任务的一个例子是住院时间,因为入院的开始和结束在 MIMIC-III 中有准确的时间戳。另一方面,机械通气事件的开始和结束没有可靠的时间戳。因此,我们根据专家定义的启发式方法定义了一组规则,以使用多种机械通气机相关设置源以及 EHR 数据集中指示 MV 的生理测量值来确定通气时间。

为新的临床终点制定这些规则非常耗时,而且需要专家手动审查数据集。由于难以对数据集进行详尽标记,我们只能使用 1-10% 的标记数据来测试模型性能,这导致模型性能下降。在这种情况下,“辅助任务”非常有用,因为它们 100% 都已标记,可以与主要任务(1-10% 已标记)一起使用,共同训练多任务模型,从而提高整体性能。

我们选择 AKI、机械通气、CRRT 透析和血管活性药物作为主要终点,使用 1%、5% 和 10% 的训练标签,以及 100% 的辅助任务标签(实验室和生命体征、死亡率和 LoS)。随着主要终点标签百分比的降低,ST 和 SeqSNR 的性能均下降,但 SeqSNR 在所有任务和所有训练数据减少百分比上的表现均优于 ST,在所有情况下的性能均有统计显著提升。

1728637792502.jpg

标签效率结果显示了当主要端点的训练数据集减少到 1%、5% 和 10% 而辅助任务可以访问所有训练标签时的判别性能。

鉴于在 EHR 数据集中注释终点标签的难度很大,这通常需要医生进行人工评估,因此这一发现非常有用。能够使用众多终点,其中一些可能更容易标记(如住院时间或死亡率),可以减少对注释方式不同的更困难的终点(如机械通气)进行手动管理的需要。

子群体表现

虽然使用的 MIMIC-III 数据集版本包含性别和年龄标签,但不包含种族信息,民族信息有限。我们计算了所有选定模型在年龄和性别子组中的表现。我们观察到,在数据集中实例较少的场景中,MTL 模型(SB 模型和 SeqSNR)通常优于 ST。尽管有例外,但平均而言,所有模型在年龄和性别子组中似乎相对平衡。我们邀请读者参阅我们论文的补充部分,了解详细的性能细分。

下一步

这项工作是对一组典型 EHR 预测任务中 SeqSNR 概念的验证。此架构的代码在此处公开提供。并有望激发对 EHR 多任务处理和其他受临床推理启发的深度学习架构的进一步研究。

未来,评估 SeqSNR 在不同任务组合、不同时间范围和不同数据集上的表现将非常重要。该项目的另一个潜在增长领域是通过纳入具有额外人口信息、种族、民族等的数据集来扩展亚组分析。我们正在探索的另一个领域是通过纳入具有额外人口信息(如种族、民族等)的数据集来扩展亚组分析。我们还强调,这些是旨在展示方法的原型模型,需要进行更严格的评估才能将这些工具投入部署。

致谢

这项工作涉及由研究人员、软件工程师、临床医生和跨职能贡献者组成的多学科团队的合作努力。我们感谢我们的合著者:Eric Loreaux、Anne Mottram、Ivan Protsyuk、Natalie Harris、Sebastien Baur、Yuan Xue、Jessica Schrouff、Ali Connell、Alan Karthikesalingam、来自 Google 的 Martin Seneviratne、来自 Deepmind 的 Nenad Tomasev 以及来自伦敦大学学院的 Hugh Montgomery。我们还要感谢 Google Research 的 Zhe Zhao 以及 Google Health 的 Kathryn Rough、Cian Hughes、Megumi Morigami 和 Doris Wong 的贡献和审阅,以及 MIMIC 团队为研究社区整理此开放访问数据集。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论