机械通气控制的机器学习

1727196858223.jpg

机械呼吸机为呼吸困难或无法自主呼吸的患者提供关键支持。它们在从常规麻醉到新生儿重症监护和COVID-19 大流行期间的生命支持等各种情况下都经常使用。典型的呼吸机由压缩空气源、控制空气进出肺部的阀门以及将呼吸机与患者连接起来的“呼吸回路”组成。在某些情况下,镇静患者可以通过从气管插入肺部的管子与呼吸机连接,这一过程称为有创通气。

机械呼吸机用于帮助无法完全自主呼吸的患者进行呼吸。在侵入式通气中,可控的压缩空气源通过称为呼吸回路的管道连接到镇静患者。

无论是侵入式通气还是非侵入式通气,呼吸机都会根据患者的呼吸测量值(例如气道压力、潮气量)遵循临床医生规定的呼吸波形。为了防止伤害,这项艰巨的任务既需要对患者肺部的差异或变化具有鲁棒性,又需要遵循所需的波形。因此,呼吸机需要训练有素的临床医生的高度关注,以确保其性能符合患者的需求,并且不会造成肺部损伤。

给定一些控制算法,临床医生规定的呼吸波形(橙色)的示例,以气道压力和实际压力(蓝色)为单位。

在“机械通气控制的机器学习”中,我们介绍了一项探索性研究,旨在设计一种基于深度学习的算法来改善侵入式通气的医疗呼吸机控制。利用来自人工肺的信号,我们设计了一种控制算法,该算法可以测量气道压力并计算对气流的必要调整,以更好、更一致地匹配规定值。与其他方法相比,我们展示了更好的稳健性和更好的性能,同时需要临床医生更少的手动干预,这表明这种方法可以降低对患者肺部造成伤害的可能性。

当前方法

如今,呼吸机采用PID 系列(即比例、积分、微分) 方法进行控制,这些方法基于观测状态和期望状态之间的误差历史来控制系统。PID 控制器使用三个特性来控制呼吸机:比例(“P”)——测量压力和目标压力的比较;积分(“I”)——先前测量值的总和;微分(“D”)——两个先前测量值之间的差值。自 17 世纪以来,人们就开始使用 PID 的变体,如今,它已成为工业(例如控制热量或流体)和消费(例如控制浓缩咖啡压力)应用中许多控制器的基础。

PID 控制形成了一个坚实的基线,依靠 P 控制的敏锐反应性在吸气时迅速增加肺压,以及依靠 I 控制的稳定性在呼气前屏住呼吸。然而,操作员必须针对特定患者调整呼吸机,通常是反复调整,以平衡过度 P 控制的“振铃”与主导 I 控制无效的缓慢肺压上升。

当前的 PID 方法容易出现超出目标(振铃)或低于目标的情况。由于患者的生理状况各不相同,甚至可能在治疗过程中发生变化,训练有素的临床医生必须不断监测和调整现有方法,以确保不会发生上述例子中的剧烈振铃。

为了更有效地平衡这些特性,我们提出了一种基于神经网络的控制器来创建一组比 PID 生成的控制更广泛、适应性更强的控制信号。

机器学习呼吸机控制器

虽然可以 通过有限次数的反复试验来调整 PID 控制器的系数(手动或通过详尽的网格搜索),但不可能将这种直接方法应用于深度控制器,因为深度神经网络 (DNN) 通常参数丰富且需要大量训练数据。同样,流行的无模型方法(例如Q 学习或策略梯度)是数据密集型的,因此不适合手头的物理系统。此外,这些方法没有考虑到呼吸机动力系统的固有可微性,而该系统是确定性的、连续的和非接触的。

因此,我们采用基于模型的方法,首先学习基于 DNN 的呼吸机-患者动态系统模拟器。学习这种模拟器的一个优点是,它提供了一种比基于物理的模型更准确的数据驱动替代方案,并且可以更广泛地分布于控制器研究中。

为了训练一个可靠的模拟器,我们通过探索控制空间和由此产生的压力建立了一个数据集,同时平衡了物理安全性,例如,不要过度充气测试肺并造成伤害。虽然 PID 控制可能会出现振铃行为,但它的表现足以用作生成训练数据的基准。为了安全地探索和忠实地捕捉系统的行为,我们使用具有不同控制系数的 PID 控制器来生成用于模拟器训练的控制压力轨迹数据。此外,我们向 PID 控制器添加随机偏差,以更稳健地捕捉动态。

我们使用普林斯顿大学人民呼吸机项目设计的开源呼吸机在物理测试肺 上运行机械通气任务,收集训练数据。我们在服务器机架上建立了一个呼吸机农场,里面有十个呼吸机肺系统,它可以捕捉多种气道阻力和顺应性设置,涵盖一系列患者肺部状况,这是呼吸机系统实际应用所必需的。

我们使用机架式呼吸机农场(10 台呼吸机/人工肺)来收集呼吸机肺模拟器的训练数据。使用此模拟器,我们训练 DNN 控制器,然后在物理呼吸机农场上进行验证。

模型无法直接获得动态系统的真实底层状态,只能通过观察系统中的气道压力来获得。在模拟器中,我们将系统随时的状态建模为先前压力观察值和应用于系统的控制操作的集合(最多一个有限的回溯窗口)。这些输入被输入到 DNN 中,该 DNN 可预测系统中的后续压力。我们根据通过与测试肺交互收集的控制压力轨迹数据来 训练此模拟器。

模拟器的性能是通过模拟器的预测(在自我模拟下)与基本事实的偏差总和来衡量的。

虽然无法在所有可能的轨迹和控制输入上将真实动态与其模拟动态进行比较,但我们会测量模拟与已知安全轨迹之间的距离。为了提高稳健性,我们围绕这些安全轨迹引入了一些随机探索。

在学习了准确的模拟器后,我们随后使用它来完全离线训练基于 DNN 的控制器。这种方法使我们能够在控制器训练期间快速应用更新。此外,模拟器的可微分性质允许稳定使用直接策略梯度,其中我们分析计算相对于 DNN 参数的损失梯度。我们发现这种方法比无模型方法效率高得多。

结果

为了建立基准,我们针对多种肺部设置运行了详尽的 PID 控制器网格,并根据所需压力波形与实际压力波形之间的平均绝对偏差来选择性能最佳的 PID 控制器。我们将这些控制器与我们的控制器进行比较,并提供证据表明我们的 DNN 控制器性能更好、更稳健。

呼吸波形跟踪性能:

我们将给定肺部设置的最佳 PID 控制器与在学习模拟器上训练的相同设置的控制器进行了比较。我们的学习控制器显示目标和实际压力波形之间的平均绝对误差 (MAE) 降低了 22%。

给定肺设置(显示两种设置,R=5 和 R=20)的最佳 PID 控制器(橙色)的目标和实际压力波形之间的 MAE(越低越好)与在学习模拟器上训练的相同设置的控制器(蓝色)的比较。学习控制器的性能最高提高了 22%。

鲁棒性:

此外,我们将单个最佳 PID 控制器在整个肺部设置中的性能与在相同设置下经过一组学习模拟器训练的控制器进行比较。我们的控制器在目标和实际压力波形之间的 MAE 方面表现最高高出 32%,这表明它可以减少患者之间甚至患者病情变化时的人工干预。

如上所述,但将整个肺部设置中单个最佳 PID 控制器与在相同设置下训练的控制器进行比较。学习后的控制器性能提高了 32%,这表明它可能需要更少的手动干预。

最后,我们研究了使用无模型算法和其他流行的强化学习算法(PPO、DQN)的可行性,并与在模拟器上训练的直接策略梯度进行了比较。我们发现,模拟器训练的直接策略梯度得分略高,并且训练过程更稳定,使用的训练样本数量少几个数量级,超参数搜索空间明显更小。

在模拟器中,我们发现无模型算法和其他流行算法(PPO、DQN)的表现与我们的方法大致相同。

然而,这些其他方法需要更多数量级的训练才能达到类似的水平。

结论和未来之路

我们描述了一种基于从物理测试肺中学习到的模拟动力学的机械通气深度学习方法。然而,这仅仅是个开始。要对现实世界的呼吸机产生影响,还有许多其他考虑因素和问题需要考虑。其中最重要的是无创呼吸机,由于难以辨别肺部压力和面罩压力,因此无创呼吸机的挑战性要大得多。其他方向是如何处理自发呼吸和咳嗽。要了解更多信息并参与机器学习和健康这一重要交汇点,请参阅ICML 控制理论和学习教程,并考虑参加我们的一项kaggle 竞赛,以创建更好的呼吸机模拟器!

致谢

这项主要工作是在 Google AI 普林斯顿实验室与普林斯顿大学机械与航空航天工程系的 Cohen 实验室合作完成的。该研究论文由来自 Google 和普林斯顿大学的贡献者撰写,包括:Daniel Suo、Naman Agarwal、Wenhan Xia、Xinyi Chen、Udaya Ghai、Alexander Yu、Paula Gradu、Karan Singh、Cyril Zhang、Edgar Minasyan、Julienne LaChance、Tom Zajdel、Manuel Schottdorf、Daniel Cohen 和 Elad Hazan。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论