前列腺癌诊断和格里森分级的国际科学挑战赛

1727197470370.jpg

近年来,医疗领域的机器学习 (ML) 竞赛吸引了 ML 科学家共同努力解决具有挑战性的临床问题。这些竞赛提供了相关数据和明确定义的问题,经验丰富的数据科学家在这里争夺解决方案并学习新方法。然而,组织此类挑战的一个根本困难是获取和管理用于模型开发的高质量数据集以及用于模型评估的独立数据集。重要的是,为了降低偏见风险并确保算法的广泛适用性,理想情况下应由一组独立的科学家在多个独立的评估数据集上对所得算法的通用性进行评估。

一个吸引了大量 ML 研究的临床问题是前列腺癌,每 9 名男性中就有 1 名在其一生中会患上这种疾病。前列腺癌的诊断需要病理学家在显微镜下检查生物组织样本,以识别癌症并对癌症进行分级,以确定细胞中是否存在侵袭性生长模式。然而,这种癌症分级任务(称为格里森分级)很困难且主观,因为需要目测评估细胞分化和格里森模式优势。构建具有专家注释的大型样本数据集有助于开发 ML 系统以辅助前列腺癌分级。

为了帮助加速和支持该领域的更多研究,Google Health、拉德堡德大学医学中心和卡罗琳斯卡医学院联手在开放的Kaggle 平台上组织了一项全球竞赛,即前列腺癌分级评估 (PANDA) 挑战赛。我们在《自然医学》杂志上发表的《前列腺癌诊断和格里森分级的人工智能:PANDA 挑战赛》中展示了该挑战赛的结果。PANDA挑战赛的研究设计提供了最大的公共全幻灯片图像数据集,并于 2020 年 4 月 21 日至 7 月 23 日向参与者开放。开发数据集仍可供进一步研究。为此,我们汇编并公开发布了欧洲前列腺癌病例队列以用于算法开发,并率先建立了数字病理学的标准化评估设置,该设置能够基于来自美国和欧盟的数据对算法进行独立、盲法的外部验证。

此次全球竞赛吸引了来自 65 个国家的参赛者(每个国家的圆圈大小代表参赛者的数量)。

熊猫挑战赛的设计

挑战赛分为两个阶段:开发阶段(即 Kaggle 竞赛)和验证阶段。在竞赛期间,来自 65 个国家的 1,290 名开发人员竞相构建性能最佳的 Gleason 评分算法,并可以完全访问算法训练的开发集。在整个竞赛过程中,团队提交的算法在隐藏的调整集上进行评估。

在验证阶段,研究人员根据内部和外部验证数据集对一系列表现最佳的算法进行了独立评估,这些算法均由前列腺病理专家小组给出高质量参考等级。此外,一组普通病理学家对同一病例的子集进行了评分,以了解任务和数据集的难度。然后将团队提交的算法与国际和美国普通病理学家对这些子集的评分进行比较。

PANDA 挑战赛的开发和验证阶段概述。

挑战期间的研究速度

我们发现,在全球竞赛期间开发的一组 Gleason 评分 ML 算法可以达到病理学家级别的表现,并且可以很好地推广到洲际和跨国群体。在所有外部验证集上,这些算法与泌尿病理学家(前列腺专家)的判断高度一致,并且在检测活检中的肿瘤方面具有高灵敏度。Kaggle 平台可以跟踪整个竞赛过程中团队的表现。令人印象深刻的是,第一支在内部验证集上与前列腺病理学家取得 0.90 以上(二次加权Cohen's kappa )高度一致的团队出现在竞赛的前 10 天内。到第 33 天,所有团队的平均表现都超过了 0.85 分。

比赛期间算法性能的进步,所有参赛团队在调整和内部验证集上获得的最高分数均表明了这一点。比赛期间,团队可以提交他们的算法以在调整集上进行评估,之后他们会收到自己的分数。同时,算法在内部验证集上进行评估,但不向参赛团队披露这些结果。任何团队获得最高分的进步都表明算法的快速改进。

从挑战中学习

通过主持Kaggle 平台上的讨论论坛,我们了解到,团队通过colab 笔记本共享代码的开放性带来了全面的快速改进,这对未来的公共挑战来说是一个好兆头,也清楚地表明了在共同平台上共享知识的力量。

组织一项使用高质量参考标准组来评估算法在独立队列中的泛化能力的公共挑战赛在后勤方面存在巨大的困难。收集跨国家和跨组织的如此大规模的数据集是一项艰巨的任务。这项工作得益于三个组织机构之间的出色合作,它们都为该领域贡献了各自的出版物,其中两篇发表在《柳叶刀 肿瘤学》上,一篇发表在《JAMA Oncology》上。这些努力的结合为本次竞赛奠定了高质量的基础。通过发表该出版物,Radboud 和 Karolinska 研究小组还开源了PANDA 挑战赛开发数据集,以促进前列腺 Gleason 评分算法的进一步改进。我们期待看到该领域取得更多进步,以及更多能够催化广泛的国际知识共享和合作研究的挑战赛。

致谢

谷歌该项目的主要贡献者包括 Po-Hsuan Cameron Chen、Kunal Nagpal、Yuannan Cai、David F. Steiner、Maggie Demkin、Sohier Dane、Fraser Tan、Greg S. Corrado、Lily Peng 和 Craig H. Mermel。该项目的合作者包括 Wouter Bulten、Kimmo Kartasalo、Peter Ström、Hans Pinckaers、Hester van Boven、Robert Vink、Christina Hulsbergen-van de Kaa、Jeroen van der Laak、Mahul B. Amin、Andrew J. Evans、Theodorus van der Kwast、Robert Allan、Peter A. Humphrey、Henrik Grönberg、Hemamali Samaratunga、Brett Delahunt 、Toyonori Tsuzuki、Tomi Häkkinen、Lars Egevad、Masi Valkonen、Pekka Ruusuvuori、Geert Litjens、Martin Eklund 和 PANDA Challenge 联盟。我们感谢 Ellery Wulczyn、Annisah Um'rani、Yun Liu 和 Dale Webster 对手稿的反馈和对项目的指导。我们感谢 NMCSD 的合作者,特别是 Niels Olson,他们在内部重复使用了去识别数据,为美国外部验证集做出了贡献。我们还要衷心感谢 Sami Lachgar、Ashley Zlatinov 和 Lauren Winer 对这篇博文的反馈。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论