通过分割引导对比学习对脑组织进行多层映射

1726076623070.jpg

绘制人脑的布线和放电活动图对于理解我们的思维方式(即我们如何感知世界、学习、决策、记忆和创造)以及大脑疾病或功能障碍可能出现的问题至关重要。最近的努力已经提供了前所未有的质量和规模的公开大脑地图(脑细胞及其连接的高分辨率 3D 映射),例如H01(哈佛/谷歌的 1.4 PB 纳米级人类脑组织样本数字重建图)以及来自MICrONS 联盟的同事的立方毫米小鼠皮层数据集。

要解释这种规模的脑图,需要进行多层分析,包括识别突触连接、细胞亚区和细胞类型。机器学习和计算机视觉技术在实现这些分析方面发挥了核心作用,但部署这样的系统仍然是一个费力的过程,需要专家注释者花费数小时手动标注基本事实,并耗费大量计算资源。此外,一些重要任务,例如仅从轴突或树突的一小部分识别细胞类型,即使对人类专家来说也是具有挑战性的,而且尚未实现有效的自动化。

今天,在“具有分割引导对比学习的神经纤维网多层图谱”中,我们宣布了分割引导对比学习表示 (SegCLR),这是一种无需繁重的手动操作即可训练丰富、通用的细胞形态(细胞形状)和超微结构(细胞内部结构)表示的方法。SegCLR 生成紧凑的向量表示(即嵌入),可适用于各种下游任务(例如,细胞亚区室的局部分类、无监督聚类),甚至能够仅从细胞的小片段中识别细胞类型。我们在 H01 人类皮层数据集和 MICrONS 小鼠皮层数据集上训练了 SegCLR,并将发布由此产生的嵌入向量(总共约 80 亿个),供研究人员探索。

从 3D 组织块中分离出的脑细胞中,SegCLR 嵌入可以捕获细胞形态和超微结构,并可用于区分细胞亚区(例如,树突棘与树突轴)或细胞类型(例如,锥体细胞与小胶质细胞)。

表示细胞形态和超微结构

SegCLR 建立在自监督对比学习的最新进展之上。我们使用标准的深度网络架构将由电子显微镜数据的局部 3D 块(边长约 4 微米)组成的输入编码为 64 维嵌入向量。通过对比损失对网络进行训练,以将语义相关的输入映射到嵌入空间中的相似坐标。这与流行的 SimCLR 设置很接近,只是我们还需要对体积进行实例分割(追踪单个细胞和细胞碎片),我们以两种重要方式使用它。

首先,输入的 3D 电子显微镜数据被分割明确掩盖,迫使网络只关注每个块内的中央细胞。其次,我们利用分割来自动定义哪些输入在语义上相关:对比损失的正对是从同一分割细胞的附近位置抽取的,并经过训练以具有相似的表示,而从不同细胞抽取的输入则经过训练以具有不同的表示。重要的是,公开可用的人类和小鼠数据集的自动分割足够准确,可以训练 SegCLR,而无需人工专家费力地审查和纠正。

SegCLR 经过训练,无需手动标记即可表示丰富的细胞特征。顶部:SegCLR 架构将电子显微镜数据的局部掩蔽 3D 视图映射到嵌入向量。只需要显微镜体积和自动实例分割草稿。底部:分割还用于定义正例与负例对,在训练期间,它们的表示被推得更近(正例,蓝色箭头)或更远(负例,红色箭头)。

将注释训练要求降低三个数量级

SegCLR 嵌入可用于各种下游设置,无论是监督设置(例如,训练分类器)还是非监督设置(例如,聚类或基于内容的图像检索)。在监督设置中,嵌入简化了分类器的训练,并且可以大大减少地面真实标记要求。例如,我们发现,对于识别细胞亚区(轴突、树突、胞体等),在 SegCLR 嵌入之上训练的简单线性分类器的表现优于在同一任务上训练的完全监督深度网络,同时仅使用大约一千个标记示例,而不是数百万个。

我们通过平均F1 得分评估了人类皮层数据集中轴突、树突、胞体和星形胶质细胞亚区的分类性能,同时改变了所使用的训练示例数量。在 SegCLR 嵌入之上训练的线性分类器在使用一小部分训练数据的情况下,其性能达到或超过了完全监督的深度分类器 (水平线)。

区分细胞类型,即使从小碎片中

区分不同的细胞类型是了解大脑回路在健康和疾病状态下如何发育和运作的重要一步。人类专家可以学会根据形态特征识别某些皮质细胞类型,但手动细胞分型很费力,而且经常出现模棱两可的情况。当只有小块细胞可用时,细胞分型也会变得更加困难,这在当前的连接组重建中对许多细胞来说很常见。

人类专家手动标记每个数据集中少量校对细胞的细胞类型。在小鼠皮层数据集中,专家标记了六种神经元类型(顶部)和四种神经胶质细胞类型(未显示)。在人类皮层数据集中,专家标记了两种神经元类型(未显示)和四种神经胶质细胞类型(底部)。(行不按比例缩放。)

我们发现,即使对于小片段,SegCLR 也能准确推断出人类和小鼠细胞类型。在分类之前,我们收集并平均每个细胞内一定距离内的嵌入,该距离定义为距离中心点的半径。我们发现,即使聚集半径小至 10 微米,人类皮质细胞类型也能被高精度地识别,即使是专家难以区分的类型,例如小胶质细胞 (MGC) 与少突胶质细胞前体细胞(OPC)。

SegCLR 可以对细胞类型进行分类,即使是小片段也是如此。左图:针对不同大小的细胞片段的 SegCLR 嵌入训练的浅ResNet模型对六种人类皮质细胞类型的分类性能。聚集半径为零对应于仅有单个嵌入的非常小的片段。对于聚集半径仅为 10 微米的片段(方框点),细胞类型性能达到高精度(0.938 平均 F1 分数)。右图:10 微米聚集半径的类别混淆矩阵。对角线上较深的阴影表示预测的细胞类型在大多数情况下与专家标签一致。AC:星形胶质细胞;MGC:小胶质细胞;OGC:少突胶质细胞;OPC:少突胶质细胞前体细胞;E:兴奋性神经元;I:抑制性神经元。

在小鼠皮层中,在聚集半径为 25 微米的情况下可以高精度地区分十种细胞类型。

左图:聚集半径为 25 微米的片段对十种小鼠皮质细胞类型的分类性能达到 0.832 平均 F1 分数(方框点)。右图:聚集半径为 25 微米的类别混淆矩阵。方框表示大类(神经胶质细胞、兴奋性神经元和抑制性中间神经元)。P:锥体细胞;THLC:丘脑皮质轴突;BC:篮状细胞;BPC:双极细胞;MC:马丁诺蒂细胞;NGC:神经胶质细胞。

在其他细胞类型应用中,我们使用 SegCLR 嵌入的无监督聚类来揭示进一步的神经元亚型,并展示了如何使用不确定性估计将分类限制在数据集的高置信度子集上,例如,当只有少数细胞类型具有专家标签时。

揭示大脑连接模式

最后,我们展示了如何使用 SegCLR 通过对小鼠皮层数据集中重建细胞的突触伙伴进行细胞分型来自动分析大脑连接。了解特定细胞类型之间的连接模式对于解释大脑连接的大规模连接组重建至关重要,但这通常需要手动追踪以识别伙伴细胞类型。使用 SegCLR,我们复制了以前依赖密集手动追踪的大脑连接发现,同时在分析的突触数量、细胞类型和大脑区域方面扩展了它们的规模。(有关更多详细信息,请参阅论文。)

SegCLR 自动分析大脑连接。顶部:小鼠锥体细胞示例,突触位置根据突触伙伴被归类为抑制性(蓝色)、兴奋性(红色)或未知(黑色)进行颜色编码。插图显示了胞体和近端树突的更详细细节。底部:我们计算了有多少上游突触伙伴被归类为丘脑皮质轴突,它们将来自感觉系统的输入传送到皮质。我们发现丘脑输入主要到达皮质层 L4,即典型皮质输入层,并且优先针对初级视觉区域 V1,而不是高级视觉区域 (HVA)。

下一步是什么?

SegCLR 可捕获丰富的细胞特征,与直接处理原始图像和分割数据相比,它可以大大简化下游分析。我们很高兴看到社区可以使用我们为人类和小鼠皮质数据集发布的约 80 亿个嵌入(示例访问代码;可在Neuroglancer中浏览的人类和小鼠视图)发现什么。通过将复杂的显微镜数据简化为丰富而紧凑的嵌入表示,SegCLR 为生物学洞察开辟了许多新途径,并且可以作为细胞和亚细胞水平高维表征互补模式的链接,例如空间分辨的转录组学。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论