构建更好的泛基因组以提高基因组学的公平性

1725278523884.jpg

几十年来,研究人员共同努力,组装出人类分子指令的完整副本——人类基因组 图谱。初稿于 2000 年完成,但缺少几部分。即使在 2022 年实现了完整的参考基因组,他们的工作仍未完成。单一参考基因组无法包含已知的遗传变异,例如决定一个人是A 型、B 型、AB 型还是 O型血的基因变异。此外,参考基因组不能代表人类祖先的巨大多样性,因此它在检测疾病或为某些背景的人寻找治疗方法方面不如其他背景的人有用。在过去三年里,我们与来自 60 个机构的 119 名科学家进行了一项国际合作,称为人类泛基因组研究联盟,通过创建一个新的、更具代表性的人类基因组图谱(即泛基因组)来应对这些挑战。

我们很高兴地告诉大家,今天,在《自然》杂志上发表的《人类泛基因组参考草案》中,该团队宣布完成了第一个人类泛基因组参考。该泛基因组结合了 47 个单独的基因组参考序列,更好地代表了全球人群的基因组多样性。基于谷歌的深度学习技术和过去在基因组学方面的进展,我们使用基于卷积神经网络(CNN) 和transformers 的工具来应对构建精确的泛基因组序列并将其用于基因组分析的挑战。这些贡献帮助该联盟为世界各地的遗传学家、研究人员和临床医生建立了一个信息丰富的资源。

使用图表构建泛基因组

在高通量 DNA 测序的典型分析工作流程中,测序仪器会读取个人基因组的数百万个短片段,然后一个称为映射器或比对器的程序会估计这些片段相对于单个线性人类参考序列的最佳匹配位置。接下来,变异调用软件会识别个人序列相对于参考序列的独特部分。

但是由于人类携带着一组不同的序列,因此无法分析存在于个体 DNA 中但不存在于参考基因组中的片段。一项针对 910 名非洲人的研究表明,总共有3 亿个 DNA 碱基对(约 30 亿个碱基对参考基因组的 10%)不存在于之前的线性参考中,但至少在 910 名个体中出现过。

为了解决这个问题,该联盟使用了图数据结构,这种结构对于基因组学来说非常强大,因为它们可以同时表示许多人的序列,这是创建泛基因组所必需的。图基因组中的节点包含群体中已知的一组序列,通过这些节点的路径紧凑地描述了个体 DNA 的独特序列。

图解基因组示意图。每种颜色代表不同个体的序列路径。经过同一节点的多条路径表示多个个体共享该序列,但有些路径还显示单核苷酸变异(SNV)、插入或缺失。插图来源:美国国家人类基因组研究所(NHGRI)的 Darryl Leja 。

基因组主要组织相容性复合体(MHC) 区域的实际图形基因组。MHC 区域中的基因对免疫功能至关重要,并与人体对传染病和自身免疫性疾病(例如强直性脊柱炎和狼疮)的抵抗力和易感性有关。该图显示了线性人类基因组参考(绿色)和不同个体的序列(灰色)。

使用图表会带来许多挑战。它们需要参考序列高度准确,并开发可以使用其数据结构作为输入的新方法。然而,新的测序技术(如共识测序和分阶段组装方法)在解决这些问题方面取得了令人振奋的进展。

长读测序技术每次可读取较大的基因组片段(10,000 到数百万个 DNA 字符长),这对于创建高质量的参考序列至关重要,因为与早期技术读取的短片段相比,较大的片段可以更容易地拼接成组装基因组。短读测序读取的基因组片段只有 100 到 300 个 DNA 字符长,但一直是 21 世纪开发的高通量测序方法的高度可扩展基础。虽然长读测序较新,且在参考基因组创建方面具有优势,但许多针对短读的信息学方法尚未针对长读技术开发。

改进 DeepVariant 以进行错误纠正

Google 最初开发了DeepVariant,这是一个开源 CNN 变异调用框架,用于分析基因组局部区域的短读测序证据。然而,我们能够重新训练 DeepVariant,以准确分析 Pacific Bioscience 的长读数据。

DeepVariant 的训练和评估示意图。

接下来,我们与加州大学圣克鲁斯分校 (UCSC)基因组学研究所的研究人员合作,参加美国食品药品管理局的另一项牛津纳米孔长读测序技术竞赛。我们共同赢得了纳米孔类别最高精度奖,其单核苷酸变异 (SNV) 精度可与短读测序相媲美。这项工作已用于检测和治疗危重新生儿的遗传疾病。DeepVariant 在长读技术上的应用为该联盟使用 DeepVariant 进行泛基因组纠错奠定了基础。

DeepVariant 能够使用多种长读测序模式,这在端粒到端粒 (T2T) 联盟的努力 中被证明有助于纠错,该联盟生成了第一个完整的人类基因组组装。完成第一个基因组为构建泛基因组所需的多个参考基因组奠定了基础,T2T 已经与人类泛基因组计划(拥有许多共同成员) 密切合作,以扩大这些实践的规模。

随着一组高质量人类参考基因组即将问世,开发能够使用这些基因组的方法变得越来越重要。我们努力使 DeepVariant 能够使用该联盟开发的泛基因组。我们与 UCSC 合作,构建了基于图的变异检测的端到端分析工作流程,并在数千个样本中证明了准确性的提高。使用泛基因组可以正确识别许多以前遗漏的变异。

使用泛基因组参考与先前的线性参考对KCNE1 基因(一种与心律失常和猝死相关的变异基因)中的变异调用进行可视化。每个点代表一个变异调用,它要么是正确的(蓝点),要么是错误的(绿点)(当识别出变异但实际上并不存在时)或遗漏的变异调用(红点)。顶部框显示 DeepVariant 使用泛基因组参考进行的变异调用,而底部框显示使用线性参考进行的变异调用。图片改编自《人类泛基因组参考草案》。

使用 transformer 改进泛基因组序列

正如新的测序技术促成了新的泛基因组方法,新的信息技术也推动了测序方法的改进。谷歌将 Transformer 架构从人类语言分析应用到基因组序列分析,从而开发出DeepConsensus。实现这一目标的关键因素是开发出了一种可微分损失函数,该函数可以处理测序数据中常见的插入和删除。这使我们能够在无需解码器的情况下获得高精度,从而能够以所需的速度跟上 TB 级的测序仪输出。

DeepConsensus 的 Transformer 架构。DeepConsensus 将 DNA 分子的重复序列作为输入,该序列通过添加每个碱基检测到的荧光来测量。DeepConsensus 还将有关测序过程的更详细信息作为输入,包括光脉冲的持续时间(此处称为脉冲宽度或 PW)、脉冲之间的时间 (IP)、信噪比 (SN) 以及正在测量双螺旋的哪一侧(链)。

对齐损失函数在模型输出训练评估中的作用。通过可微分对齐函数更好地解释插入和删除,使得模型训练过程能够更好地估计误差。

DeepConsensus提高了仪器数据的产量和准确性。由于 PacBio 测序提供了 47 个基因组组装的主要序列信息,我们可以应用 DeepConsensus 来改进这些组装。通过应用 DeepConsensus,联盟成员构建了一个基因组组装器,其组装碱基级准确度能够达到 99.9997%。

结论

我们开发了多种新方法来改进基因测序方法,然后我们用这些方法来构建泛基因组参考,从而实现更为稳健的基因组分析。

但这只是故事的开始。在下一阶段,一个更大的、全球性的科学家和临床医生群体将使用这个泛基因组参考来研究遗传疾病和制造新药。未来的泛基因组将代表更多的个体,实现最近一篇《自然》报道中总结的愿景:“每个碱基,每个地方,同时进行。”阅读我们在关键词博客上的帖子,了解有关人类泛基因组参考公告的更多信息。

致谢

许多人参与了泛基因组参考的创建,其中包括来自 60 个组织的 119 位作者,以及人类泛基因组参考联盟。这篇博文重点介绍了 Google 对这项广泛工作的贡献。我们感谢加州大学圣克鲁兹分校基因组研究所 (GI) 的 Benedict Paten 教授和 Karen Miga 教授领导的研究小组、美国国立卫生研究院 (NIH) Arang Rhie 的基因组完善工作、Adam Phillipy 团队的基因组组装和完善工作以及美国国家标准与技术研究所 (NIST) Justin Zook 的标准小组。我们感谢 Google 贡献者:Pi-Chuan Chang、Maria Nattestad、Daniel Cook、Alexey Kolesnikov、Anastaysia Belyaeva 和 Gunjan Baid。我们感谢 John Guilyard 制作的动画插图,以及 Lizzie Dorfman、Elise Kleeman、Erika Hayden、Cory McLean、Shravya Shetty、Greg Corrado、Katherine Chou 和 Yossi Matias 的支持、协调和领导。最后,同样重要的是,感谢提供 DNA 来帮助建立泛基因组资源的研究参与者。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论