HEAL:机器学习性能的健康公平评估框架

R5%DY32@Q(WDJD{_]%OKS9L.png

今天,我们介绍了机器学习性能的健康公平评估 (HEAL),这是一种新颖的评估框架,旨在定量评估基于 ML 的健康工具的性能是否公平。我们提出了一个 4 步流程,用于评估 ML 工具对平均健康状况较差的群体表现更好的可能性,目标是为使健康 AI 技术更加公平的改进提供参考。

健康公平是全球社会关注的一大问题,造成不平等的原因有很多。这些原因包括医疗保健机会的限制、临床治疗的差异,甚至诊断技术的根本差异。例如,在皮肤科,少数族裔、社会经济地位较低的人或医疗保健机会有限的人患皮肤癌的后果更糟。虽然机器学习 (ML) 和人工智能 (AI) 的最新进展有望帮助改善医疗保健,但从研究到临床的转变必须伴随着对它们是否以及如何影响健康公平的仔细理解。

公共卫生组织将健康公平定义为每个人都享有尽可能健康的机会。重要的是,公平可能不同于平等。例如,改善健康状况障碍较大的人可能需要付出更多或不同的努力才能获得这种公平的机会。同样,公平不是医疗保健人工智能文献中定义的公平。虽然人工智能公平通常力求在不同患者群体中实现人工智能技术的平等表现,但这并不是以优先考虑现有健康差异的表现为目标。

HEAL-1-健康公平

健康公平考虑。如果干预措施(例如基于 ML 的工具,以深蓝色表示)有助于减少现有的健康结果差异(以浅蓝色表示),则该干预措施可促进健康公平。

在《柳叶刀电子临床医学》上发表的“机器学习性能的健康公平评估 (HEAL):框架和皮肤病学 AI 模型案例研究”中,我们提出了一种方法,以定量评估基于 ML 的健康技术是否公平地发挥作用。换句话说,ML 模型是否对那些健康结果最差的人表现良好,而这些结果可能是由于许多因素造成的,包括结构性不平等(例如人口、社会、文化、政治、经济、环境和地理)。

健康公平框架(HEAL)

HEAL 框架提出了一个 4 步流程来评估基于 ML 的健康技术公平执行的可能性:

(1)确定与健康不平等相关的因素并确定工具绩效指标,

(2)识别和量化现有的健康差距,

(3)测量该工具对每个子群体的表现,

(4)衡量该工具根据健康差异优先考虑绩效的可能性。

最后一步的输出称为 HEAL 指标,它量化了 ML 模型的性能与健康差异的负相关性。换句话说,该模型是否在健康状况较差的人群中表现更好?

这个 4 步流程旨在为使 ML 模型性能更加公平提供改进建议,并旨在定期进行迭代和重新评估。例如,步骤 (2) 中健康结果数据的可用性可以为步骤 (1) 中人口统计因素和括号的选择提供参考,并且该框架可以再次应用于新的数据集、模型和人群。

HEAL-2-框架-英雄

机器学习性能健康公平评估框架 (HEAL)。我们的指导原则是避免加剧健康不平等,这些步骤有助于我们识别差异并评估不公平的模型性能,从而为所有人带来更好的结果。

通过这项工作,我们朝着鼓励明确评估人工智能技术的健康公平性考虑迈出了一步,并鼓励在模型开发过程中优先考虑减少受到结构性不平等影响的亚群的健康不平等,因为结构性不平等可能导致不同的结果。我们应该注意到,目前的框架并没有模拟因果关系,因此无法量化新技术对减少健康结果差异的实际影响。然而,HEAL 指标可能有助于发现改进的机会,因为目前的表现并没有考虑到预先存在的健康差距。

皮肤病学模型案例研究

作为一个说明性案例研究,我们将该框架应用于皮肤病学模型,该模型使用与先前工作中描述的类似的卷积神经网络。此示例皮肤病学模型经过训练,使用 29k 个病例的开发数据集对 288 种皮肤病进行分类。该模型的输入包括三张皮肤问题照片以及人口统计信息和简短的结构化病史。输出包括可能匹配的皮肤病的排序列表。

我们使用 HEAL 框架评估了该模型,评估其是否优先考虑了与预先存在的健康结果相关的性能。该模型旨在根据皮肤问题的照片和患者元数据预测可能的皮肤病(从数百个列表中)。使用前 3 个一致性指标对模型进行评估,该指标量化了前 3 个输出条件与皮肤科医生小组建议的最可能条件的匹配频率。HEAL 指标是通过此前 3 个一致性与健康结果排名的负相关性计算得出的。

我们使用了一个包含 5,420 例远程皮肤病学病例的数据集来回顾性评估该模型的 HEAL 指标,该数据集丰富了年龄、性别和种族/族裔的多样性。该数据集包含来自美国初级保健提供者和澳大利亚皮肤癌诊所的 20 岁或以上患者的“存储转发”病例。在对文献进行审查的基础上,我们决定探讨种族/族裔、性别和年龄作为不平等的潜在因素,并使用抽样技术来确保我们的评估数据集充分代表所有种族/族裔、性别和年龄组。为了量化每个亚群的现有健康结果,我们依赖世界卫生组织认可的公共 数据库的测量数据,例如寿命损失年(YLL) 和伤残调整生命年(DALY;寿命损失年加上伤残生活年)。

HEAL-3-种族民族

针对不同种族/民族亚群的所有皮肤病的 HEAL 指标,包括健康结果(每 100,000 人的寿命损失年)、模型性能(前 3 个一致性)以及健康结果和工具性能的排名。

(* 值越高越好;衡量模型相对于本表中的轴公平执行的可能性。)

HEAL-4-按性别比较

HEAL 指标适用于所有性别的皮肤病,包括健康结果(每 100,000 人的 DALY)、模型性能(前 3 个一致性)以及健康结果和工具性能的排名。(* 同上。)

我们的分析估计,该模型在各个种族/民族亚群体中公平表现的可能性为 80.5%,在各个性别中公平表现的可能性为 92.1%。

然而,尽管该模型在癌症疾病方面的表现可能在各个年龄组之间相当公平,但我们发现,在非癌症疾病方面,该模型在各个年龄组之间还有改进的空间。例如,70 岁以上的人在非癌症皮肤疾病方面的健康状况最差,但该模型并没有优先考虑这一亚群的表现。

HEAL-5-年龄

HEAL 指标涵盖各年龄段所有癌症和非癌症皮肤病,包括健康结果(每 100,000 人的 DALY)、模型性能(前 3 个一致性)以及健康结果和工具性能的排名。(* 同上。)

结合上下文

对于整体评估,HEAL 指标不能单独使用。相反,该指标应与许多其他因素一起考虑,包括计算效率、数据隐私、道德价值观以及可能影响结果的方面(例如,选择偏差或评估数据在不同人口群体中的代表性差异)。

作为一个对抗性示例,可以通过故意降低最具优势子群体的模型性能,直到该子群体的性能比所有其他子群体都差,从而人为地改善 HEAL 指标。为了便于说明,给定子群体 A 和 B,其中 A 的健康状况比 B 差,考虑在两个模型之间进行选择:模型 1 (M1) 对子群体 A 的性能比对子群体 B 的性能好 5%。模型 2 (M2) 对子群体 A 的性能比对子群体 B 的性能差 5%。M1 的 HEAL 指标会更高,因为它优先考虑对结果较差的子群体的性能。但是,M1 对子群体 A 和 B 的绝对性能可能分别只有 75% 和 70%,而 M2 对子群体 A 和 B 的绝对性能分别为 75% 和 80%。选择 M1 而不是 M2 会导致所有子群体的整体性能更差,因为有些子群体更差,而没有一个子群体更好。

因此,HEAL 指标应与帕累托条件(本文将进一步讨论)一起使用,以限制模型变化,使得每个子群体的结果与现状相比保持不变或有所改善,并且任何子群体的表现都不会变差。

目前形式的 HEAL 框架评估了基于 ML 的模型优先考虑亚群表现的可能性,而不是特定亚群中预先存在的健康差异。这与了解 ML 是否会减少现实中亚群之间结果差异的目标不同。具体而言,对结果改进进行建模需要对使用任何给定模型之前和之后发生的护理过程步骤有因果理解。需要未来的研究来解决这一差距。

结论

HEAL 框架能够定量评估医疗 AI 技术优先考虑健康差异方面性能的可能性。案例研究展示了如何在皮肤病学领域应用该框架,表明模型性能优先考虑性别和种族/民族之间的健康差异的可能性很高,同时也揭示了非癌症疾病在不同年龄段的改善潜力。案例研究还说明了应用该框架所有推荐方面(例如,映射社会背景、数据可用性)的能力的局限性,从而凸显了基于 ML 的工具在健康公平性方面的复杂性。

这项研究提出了一种应对人工智能和健康公平性的巨大挑战的方法,不仅可以在模型开发期间提供有用的评估框架,还可以在实施前和现实世界的监测阶段提供有用的评估框架,例如以健康公平性仪表板的形式。我们认为 HEAL 框架的优势在于它未来可应用于各种人工智能工具和用例,并在过程中不断完善。最后,我们承认,要成功理解人工智能技术对健康公平性的影响,需要的不仅仅是一组指标。它需要一组由代表受模型影响最大的人的社区商定的目标。

致谢

本文介绍的研究是 Google 多个团队的共同努力成果。我们感谢所有合著者:Terry Spitz、Malcolm Pyles、Heather Cole-Lewis、Ellery Wulczyn、Stephen R. Pfohl、Donald Martin, Jr.、Ronnachai Jaroensri、Geoff Keeling、Yuan Liu、Stephanie Farquhar、Qinghan Xue、Jenna Lester、Cían Hughes、Patricia Strachan、Fraser Tan、Peggy Bui、Craig H. Mermel、Lily H. Peng、Yossi Matias、Greg S. Corrado、Dale R. Webster、Sunny Virmani、Christopher Semturs、Yun Liu 和 Po-Hsuan Cameron Chen。我们还要感谢 Lauren Winer、Sami Lachgar、Ting-An Lin、Aaron Loh、Morgan Du、Jenny Rizk、Renee Wong、Ashley Carrick、Preeti Singh、Annisah Um'rani、Jessica Schrouff、Alexander Brown 和 Anna Iurchenko 对该项目的支持。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论