多模态医疗人工智能

A3NG9T7LT6Y2HML~XM[8B@1.png

医学本质上是一门多模态学科。在提供护理时,临床医生通常会解释来自各种模态的数据,包括医学图像、临床笔记、实验室测试、电子健康记录、基因组学等。在过去十年左右的时间里,人工智能系统已经在特定模态内的特定任务上取得了专家级的表现——一些人工智能系统处理 CT 扫描,而另一些系统分析高倍病理切片,还有一些寻找罕见的遗传变异。这些系统的输入往往是图像等复杂数据,它们通常提供结构化输出,无论是离散等级还是密集图像分割蒙版的形式。与此同时,大型语言模型 (LLM) 的容量和能力已经变得如此先进,以至于它们通过用通俗易懂的语言进行解释和响应,展示了对医学知识的理解和专业知识。但我们如何将这些能力结合起来,构建能够利用来自所有这些来源的信息的医疗人工智能系统呢?

在今天的博客文章中,我们概述了将多模态功能引入 LLM 的一系列方法,并分享了关于构建多模态医学 LLM 的可处理性的一些令人兴奋的结果,如最近的三篇研究论文所述。这些论文依次概述了如何将从头模态引入 LLM,如何将最先进的医学成像基础模型嫁接到对话式 LLM 上,以及构建真正通用的多模态医学 AI 系统的第一步。如果成功成熟,多模态医学 LLM 可能会成为涵盖专业医学、医学研究和消费者应用的新辅助技术的基础。与我们之前的工作一样,我们强调需要与医学界和医疗保健生态系统合作仔细评估这些技术。

多种方法

近几个月来,已经提出了几种构建多模态 LLM 的方法 [ 1、2、3 ],毫无疑问,一段时间内还会不断出现新的方法。为了了解为医疗 AI 系统带来新模态的机会,我们将考虑三种广义的方法:工具使用、模型嫁接和通用系统。

构建多模态 LLM 的方法范围包括让 LLM 使用现有工具或模型、利用带有适配器的特定领域组件、以及多模态模型的联合建模。

工具使用

在工具使用方法中,一个中央医学法学硕士将各种模式的数据分析外包给一组针对这些任务独立优化的软件子系统:工具。工具使用的常见助记示例是教法学硕士使用计算器而不是自己做算术。在医学领域,面对胸部 X 光片的医学法学硕士可以将该图像转发给放射学 AI 系统并整合该响应。这可以通过子系统提供的应用程序编程接口 (API) 来实现,或者更奇特的是,两个具有不同专业领域的医学 AI 系统进行对话。

这种方法具有一些重要的好处。它允许子系统之间实现最大程度的灵活性和独立性,使医疗系统能够根据子系统经过验证的性能特征在技术提供商之间混合和匹配产品。此外,子系统之间人性化的通信通道可最大限度地提高可审计性和可调试性。话虽如此,在独立的子系统之间实现正确的通信可能很棘手,会缩小信息传输范围,或存在沟通不畅和信息丢失的风险。

模型嫁接

一种更具集成性的方法是采用专门针对每个相关领域的神经网络,并对其进行调整以直接插入 LLM -将视觉模型嫁接到核心推理代理上。与工具使用(其中所使用的具体工具由 LLM 决定)不同,在模型嫁接中,研究人员可以选择在开发过程中使用、改进或开发特定模型。在 Google Research 最近的两篇论文中,我们表明这实际上是可行的。神经 LLM 通常通过首先将单词映射到向量嵌入空间来处理文本。两篇论文都基于将数据从新模态映射到 LLM 已经熟悉的输入字嵌入空间的想法。第一篇论文“基于个人特定数据的健康多模态 LLM ”表明,如果我们首先训练神经网络分类器来解释肺量图(一种用于评估呼吸能力的模态),然后调整该网络的输出作为 LLM 的输入, 那么英国生物库的哮喘风险预测可以得到改善。

第二篇论文“ ELIXR:通过结合大型语言模型和放射学视觉编码器实现通用 X 射线人工智能系统”采用了同样的策略,但将其应用于放射学中的全尺寸图像编码器模型。从理解胸部 X 射线的基础模型开始,该模型已被证明是构建此类模式下各种分类器的良好基础,本文介绍了如何训练轻量级医疗信息适配器,该适配器将基础模型的顶层输出重新表示为 LLM 输入嵌入空间中的一系列标记。尽管没有对视觉编码器和语言模型进行微调,但生成的系统仍显示出未经过训练的功能,包括语义搜索和视觉问答。

我们嫁接模型的方法是通过训练医疗信息适配器来将现有或改进的图像编码器的输出映射到 LLM 可理解的形式。

模型嫁接有许多优点。它使用相对适中的计算资源来训练适配器层,但允许 LLM 在每个数据域中构建现有的高度优化和经过验证的模型。将问题模块化为编码器、适配器和 LLM 组件还可以在开发和部署此类系统时方便测试和调试各个软件组件。相应的缺点是,专业编码器和 LLM 之间的通信不再是人类可读的(是一系列高维向量),并且嫁接过程不仅需要为每个特定领域的编码器构建一个新的适配器,还需要为每个编码器的每个修订版构建一个新的适配器。

通用系统

多模态医学 AI 最激进的方法是构建一个集成的、完全通用的系统,该系统本身能够从所有来源吸收信息。在我们在这个领域的第三篇论文“迈向通用生物医学 AI ”中,我们没有为每种数据模态设置单独的编码器和适配器,而是以PaLM-E为基础,PaLM-E 是一个最近发布的多模态模型,它本身是单个 LLM(PaLM)和单个视觉编码器(ViT)的组合。在这种设置中,文本和表格数据模态由 LLM 文本编码器覆盖,但现在所有其他数据都被视为图像并输入到视觉编码器。

Med-PaLM M 是一个大型多模态生成模型,可以灵活地以相同的模型权重对生物医学数据(包括临床语言、成像和基因组学)进行编码和解释。

我们通过对论文中描述的医学数据集上的整套模型参数进行微调,将 PaLM-E 专门用于医学领域。由此产生的通用医学 AI 系统是Med-PaLM的多模态版本,我们称之为 Med-PaLM M。灵活的多模态序列到序列架构使我们能够在一次交互中交错各种类型的多模态生物医学信息。据我们所知,这是首次演示单一统一模型,该模型可以解释多模态生物医学数据,并在所有任务中使用同一套模型权重来处理各种任务(论文中有详细评估)。

这种通用系统多模态方法是我们所描述的方法中最雄心勃勃、同时也是最优雅的。原则上,这种直接方法可以最大限度地提高灵活性和模态之间的信息传输。由于没有 API 来保持兼容性,也没有适配器层的扩散,通用方法可以说是最简单的设计。但同样的优雅也是其一些缺点的根源。计算成本通常较高,并且由于单一视觉编码器服务于广泛的模态,领域专业化或系统可调试性可能会受到影响。

多模态医疗 AI 的现实

为了在医学领域充分利用人工智能,我们需要将经过预测性人工智能训练的专家系统的优势与通过生成性人工智能实现的灵活性结合起来。哪种方法(或方法组合)在该领域最有用,取决于许多尚未评估的因素。通用模型的灵活性和简单性是否比模型嫁接或工具使用的模块化更有价值?哪种方法可以为特定的实际用例提供最高质量的结果?支持医学研究或医学教育与增强医疗实践的首选方法是否不同?回答这些问题需要持续严格的实证研究,并继续与医疗保健提供者、医疗机构、政府实体和医疗保健行业合作伙伴进行广泛的直接合作。我们期待共同找到答案。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论