AMIE：用于诊断医学推理和对话的研究型人工智能系统_人工智能

医患对话是医学的基石，其中熟练且有目的的沟通可以促进诊断、治疗、同理心和信任。能够进行此类诊断对话的人工智能系统可以成为临床医生和患者的有用对话伙伴，从而提高护理的可用性、可及性、质量和一致性。但要接近临床医生的大量专业知识是一项重大挑战。

大型语言模型 (LLM) 在医学领域以外的最新进展表明，它们可以规划、推理并使用相关上下文进行丰富的对话。然而，良好的诊断对话有许多方面是医学领域所独有的。一位有效的临床医生会了解完整的“临床病史”，并提出有助于得出鉴别诊断的明智问题。他们运用相当的技能来培养有效的关系，清晰地提供信息，与患者做出共同的明智决定，对他们的情绪做出同理心的反应，并在接下来的护理中为他们提供支持。虽然 LLM 可以准确地执行诸如医学总结或回答医学问题之类的任务，但专门针对开发此类对话诊断能力的工作很少。

受此挑战的启发，我们开发了Articulate Medical Intelligence Explorer (AMIE)，这是一个基于 LLM 的研究型 AI 系统，并针对诊断推理和对话进行了优化。我们从多个维度对 AMIE 进行了训练和评估，这些维度反映了从临床医生和患者的角度看现实世界临床咨询的质量。为了将 AMIE 扩展到多种疾病状况、专业和场景，我们开发了一种新颖的基于自我游戏的模拟诊断对话环境，该环境具有自动反馈机制，以丰富和加速其学习过程。我们还引入了推理时间链推理策略，以提高 AMIE 的诊断准确性和对话质量。最后，我们通过模拟与受过训练的参与者的咨询，在真实的多轮对话示例中对 AMIE 进行了前瞻性测试。

AMIE 针对诊断对话进行了优化，提出的问题有助于减少不确定性并提高诊断准确性，同时也平衡了有效临床沟通的其他要求，例如同理心、培养关系和清晰地提供信息。

对话式诊断人工智能的评估

除了开发和优化用于诊断对话的人工智能系统本身之外，如何评估此类系统也是一个悬而未决的问题。受现实环境中用于衡量咨询质量和临床沟通技巧的公认工具的启发，我们构建了一个试点评估标准，以评估与病史采集、诊断准确性、临床管理、临床沟通技巧、关系培养和同理心有关的诊断对话。

然后，我们设计了一项随机双盲交叉研究，研究基于文本的咨询，让经过验证的患者参与者与委员会认证的初级保健医生 (PCP) 或针对诊断对话优化的 AI 系统进行互动。我们以客观结构化临床检查(OSCE) 的形式设置咨询，这是一种在现实世界中常用的实用评估，用于以标准化和客观的方式检查临床医生的技能和能力。在典型的 OSCE 中，临床医生可能会在多个站点之间轮换，每个站点都模拟真实的临床场景，他们执行的任务包括与标准化患者参与者（经过精心训练以模仿具有特定病症的患者）进行咨询。咨询是使用同步文本聊天工具进行的，模仿当今大多数使用 LLM 的消费者熟悉的界面。

AMIE 是一个基于 LLM 的诊断推理和对话研究人工智能系统。

AMIE：基于法学硕士的对话式诊断研究人工智能系统

我们在包括医学推理、医学总结和真实世界临床对话在内的真实世界数据集上对 AMIE 进行了训练。

使用通过被动收集和转录面对面临床就诊而开发的真实世界对话来训练 LLM 是可行的，但是，两个重大挑战限制了它们在训练 LLM 进行医疗对话方面的有效性。首先，现有的真实世界数据通常无法捕捉广泛的医疗状况和场景，从而阻碍了可扩展性和全面性。其次，从真实世界对话记录中获取的数据往往很嘈杂，包含模棱两可的语言（包括俚语、行话、幽默和讽刺）、打断、不合语法的话语和隐含的引用。

为了解决这些限制，我们设计了一个基于自我游戏的模拟学习环境，该环境具有自动反馈机制，可用于虚拟护理环境中的诊断医疗对话，使我们能够在许多医疗条件和环境中扩展 AMIE 的知识和功能。除了描述的静态真实世界数据语料库之外，我们还使用此环境通过一组不断发展的模拟对话迭代微调 AMIE。

这个过程由两个自我对弈循环组成：(1) 一个“内部”自我对弈循环，其中 AMIE 利用上下文评论反馈来改进其与 AI 患者模拟器进行模拟对话的行为；(2) 一个“外部”自我对弈循环，其中改进后的模拟对话集被纳入后续的微调迭代中。由此产生的新版本的 AMIE 可以再次参与内部循环，从而形成一个良性的持续学习循环。

此外，我们还采用了推理时间链推理策略，使 AMIE 能够根据当前对话逐步完善其响应，以得出明智且有根据的答复。

AMIE 使用一种新颖的基于自我游戏的模拟对话学习环境来提高多种疾病状况、专业和患者环境中的诊断对话质量。

我们测试了模拟患者（由受过训练的演员扮演）的咨询表现，并与 20 名真实 PCP 使用上述随机方法进行的咨询进行了对比。在一项随机、盲法交叉研究中，从专科主治医生和我们的模拟患者的角度对 AMIE 和 PCP 进行了评估，该研究包括来自加拿大、英国和印度的 OSCE 提供商的 149 个案例场景，涉及各种专业和疾病。

值得注意的是，我们的研究并非旨在模仿传统的面对面 OSCE 评估，也并非模仿临床医生通常使用文本、电子邮件、聊天或远程医疗的方式。相反，我们的实验反映了当今消费者与 LLM 互动的最常见方式，这是一种潜在的可扩展且熟悉的机制，可供 AI 系统参与远程诊断对话。

通过在线多轮同步文本聊天对模拟患者进行虚拟远程 OSCE 的随机研究设计概述。

AMIE 的表现

在这种情况下，我们观察到，当对 AMIE 和 PCP 进行多个具有临床意义的咨询质量轴进行评估时，AMIE 进行的模拟诊断对话至少与 PCP 一样好。从专科医生的角度来看，AMIE 在 32 个轴中的 28 个轴上具有更高的诊断准确性和出色的表现，从患者参与者的角度来看，AMIE 在 26 个轴中的 24 个轴上具有更高的诊断准确性和出色的表现。

在我们的评估中，AMIE 在诊断对话的多个评估轴上都优于 PCP。

专家评定的 top-k 诊断准确率。AMIE 和 PCP 的 top-k 鉴别诊断 (DDx) 准确率在 149 种情况下与基本事实诊断 (a) 和可接受的鉴别诊断中列出的所有诊断 (b) 进行比较。引导法 (n=10,000) 确认 AMIE 和 PCP DDx 准确率之间的所有 top-k 差异在错误发现率 (FDR) 校正后均显著，p <0.05。

诊断性谈话和推理能力由专科医生评估。在 32 个维度中的 28 个维度上，AMIE 的表现优于 PCP，而其余维度上的表现则不相上下。

限制

我们的研究有几个局限性，应谨慎解读。首先，我们的评估技术可能低估了人类对话的现实价值，因为我们研究中的临床医生仅限于不熟悉的文本聊天界面，该界面允许大规模的 LLM 与患者互动，但并不代表通常的临床实践。其次，任何此类研究都必须被视为漫长旅程的第一步探索。从我们在本研究中评估的 LLM 研究原型过渡到可供人们及其护理人员使用的安全而强大的工具，将需要大量额外的研究。有许多重要的限制需要解决，包括在现实约束下的实验表现以及对健康公平和公正、隐私、稳健性等重要主题的专门探索，以确保技术的安全性和可靠性。

AMIE 为临床医生提供帮助

在最近发布的预印本中，我们评估了 AMIE 系统早期版本单独生成 DDx 或作为临床医生辅助手段的能力。二十 (20) 名全科临床医生评估了来自《新英格兰医学杂志》 (NEJM)临床病理学会议(CPC) 的 303 个具有挑战性的真实医学病例。每份病例报告由两名临床医生阅读，他们随机分为两种辅助条件之一：搜索引擎和标准医疗资源的辅助，或除这些工具外的 AMIE 辅助。所有临床医生在使用相应的辅助工具之前都提供了基线、无辅助的 DDx。

辅助随机读者研究设置，旨在调查 AMIE 对临床医生解决新英格兰医学杂志的复杂诊断病例挑战的辅助作用。

AMIE 的独立表现超过了没有 AMIE 协助的临床医生（前 10 名准确率 59.1% vs. 33.6%，p=0.04）。比较两个辅助研究组，与没有 AMIE 协助的临床医生（24.6%，p<0.01）和有搜索的临床医生（5.45%，p=0.02）相比，有 AMIE 协助的临床医生的前 10 名准确率更高。此外，与没有 AMIE 协助的临床医生相比，有 AMIE 协助的临床医生得出了更全面的差异列表。

除了强大的独立性能之外，使用 AMIE 系统还可以为临床医生解决这些复杂病例挑战带来显著的辅助作用并提高诊断的准确性。

值得注意的是，NEJM CPC 并不代表日常临床实践。它们只是几百人的不寻常病例报告，因此对于探讨公平或公正等重要问题的范围有限。

大胆而负责任的医疗保健研究——可能性的艺术

世界各地仍然缺乏获得临床专业知识的机会。虽然人工智能在特定临床应用中显示出巨大的前景，但参与临床实践的动态对话式诊断过程需要人工智能系统尚未展示的许多能力。医生不仅掌握知识和技能，而且还要致力于无数原则，包括安全和质量、沟通、伙伴关系和团队合作、信任和专业精神。在人工智能系统中实现这些属性是一个鼓舞人心的挑战，应该负责任地、谨慎地对待。AMIE 是我们对“可能性的艺术”的探索，这是一个仅用于研究的系统，用于安全地探索未来的愿景，其中人工智能系统可能更好地与受托照顾我们的熟练临床医生的属性保持一致。这是早期的实验性工作，而不是产品，并且有几个局限性，我们认为这些局限性值得进行严格而广泛的进一步科学研究，以设想一个对话式、共情和诊断人工智能系统可能变得安全、有用和易于访问的未来。

致谢

本文描述的研究是 Google Research 和 Google Deepmind 多个团队的共同成果。我们感谢所有合著者 - Tao Tu、Mike Schaekermann、Anil Palepu、Daniel McDuff、Jake Sunshine、Khaled Saab、Jan Freyberg、Ryutaro Tanno、Amy Wang、Brenna Li、Mohamed Amin、Sara Mahdavi、Karan Sighal、Shekoofeh Azizi、Nenad Tomasev、Yun Liu、Yong Cheng、Le Hou、Albert Webson、Jake Garrison、Yash Sharma、Anupam Pathak、Sushant Prakash、Philip Mansfield、Shwetak Patel、Bradley Green、Ewa Dominowska、Renee Wong、Juraj Gottweis、Dale Webster、Katherine Chou、Christopher Semturs、Joelle Barral、Greg Corrado 和 Yossi Matias。我们还感谢 Sami Lachgar、Lauren Winer 和 John Guilyard 在叙述和视觉效果方面的支持。最后，我们还要感谢 Michael Howell、James Manyika、Jeff Dean、Karen DeSalvo、Zoubin Ghahramani 和 Demis Hassabis 在本项目过程中提供的支持。

AMIE：用于诊断医学推理和对话的研究型人工智能系统

版权声明

相关推荐

评论