请选择 进入手机版 | 继续访问电脑版

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 208|回复: 0

DeepVariant 针对遗传数据类型的准确度改进

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-12 13:19:31 | 显示全部楼层 |阅读模式
今天,我们很高兴地宣布推出DeepVariant v0.6,它包含一些重大的准确度改进。在这篇文章中,我们将介绍如何训练 DeepVariant,以及如何通过在 DeepVariant 的训练过程中添加代表性数据来提高 DeepVariant 在两种常见测序场景(全外显子组测序和聚合酶链式反应测序)中的准确度。
多种类型的测序数据
基因组测序的方法因 DNA 样本的类型(例如来自血液或唾液)、DNA 的处理方式(例如扩增技术)、用于对数据进行测序的技术(例如即使是同一制造商的仪器也可能有所不同)以及对基因组的哪个部分或多少进行了测序而异。这些差异导致测序“数据类型”数量非常多。
通常,变异调用工具已针对一种特定数据类型进行了调整,而对其他数据类型的表现相对较差。考虑到为新数据类型调整变异调用器需要大量时间和专业知识,为每个工具定制似乎不可行。相比之下,使用 DeepVariant,我们只需在训练过程中包含代表性数据即可提高新数据类型的准确性,而不会对整体性能产生负面影响。
变异调用的真值集
深度学习模型依赖于拥有高质量的数据进行训练和评估。在基因组学领域,由美国国家标准与技术研究所(NIST)主办的瓶中基因组(GIAB) 联盟生产人类基因组,用于技术开发、评估和优化。使用 GIAB 基准基因组的好处是可以知道它们的真实序列(至少在目前可能的范围内)。为了实现这一目标,GIAB 会提取一个人的 DNA,使用各种实验室方法和测序技术(即多种数据类型)对其进行反复测序,并使用许多不同的变异调用工具分析结果数据。随后需要进行大量工作来评估和裁定差异,为每个基因组生成高置信度的“真值集”。DeepVariant的大部分训练数据来自GIAB 发布的第一个基准基因组
,HG001。该样本来自一名具有北欧血统的女性,是国际人类基因组单体型图计划的一部分,该计划是首次大规模努力以确定人类基因变异的常见模式。由于 HG001 的 DNA 可从市场上买到且特征明确,因此它通常是用来测试新测序技术和变异调用工具的第一个样本。通过使用 HG001 的大量重复和不同数据类型,我们可以生成数百万个训练示例,这有助于 DeepVariant 学习准确地对许多数据类型进行分类,甚至可以推广到它从未见过的数据类型。v0.5
中改进的外显子组模型在 v0.5版本
中,我们正式化了一种与基准兼容的训练策略,以防止训练完整样本 HG002 以及来自 20 号染色体的任何数据。GIAB 发布的第二个基准基因组 HG002 来自一名具有阿什肯纳兹犹太血统的男性。该样本在性别和种族上均与 HG001 不同,对其进行测试有助于确保 DeepVariant 在不同人群中都能表现良好。此外,保留 20 号染色体进行测试可确保我们可以评估 DeepVariant 对任何具有真实数据的数据类型的准确性。在 v0.5 中,我们还关注了外显子组数据,它是直接编码蛋白质的基因组子集。外显子组仅占整个人类基因组的 ~1%,因此全外显子组测序 (WES) 的成本低于全基因组测序 (WGS)。外显子组还包含许多具有临床意义的变异,这使其对研究人员和临床医生都很有用。为了提高外显子组的准确性,我们在 DeepVariant 的训练数据中添加了DNAnexus提供的各种 WES 数据类型。v0.5 WES 模型显示indel (插入-缺失)错误减少了 43%,单核苷酸多态性(SNP) 错误减少了 22% 。
v0.6 中针对 PCR+ 数据的改进型全基因组测序模型
我们最新发布的 DeepVariant v0.6专注于提高在测序前通过聚合酶链式反应(PCR) 进行 DNA 扩增的数据的准确性。PCR 是一种简单且廉价的扩增极少量 DNA 的方法,测序后可得到所谓的 PCR 阳性 (PCR+) 测序数据。然而,众所周知,PCR 容易出现偏差和错误,而非 PCR(或无 PCR)的 DNA 制备方法越来越普遍。v0.6 版本之前的 DeepVariant 训练数据全部是无 PCR 数据,而 PCR+ 是 DeepVariant 在外部评估中表现不佳的少数数据类型之一。通过将 PCR+ 示例添加到 DeepVariant 的训练数据(同样由 DNAnexus 提供),我们看到这种数据类型的准确性得到了显著提高,包括插入/缺失错误减少了 60%。
DeepVariant v0.6 显示出 PCR+ 数据的准确率大幅提升,这主要归功于 indel 错误的减少。在这里,我们重新分析了外部评估中使用的两个 PCR+ 样本,包括左侧的 DNAnexus(参见图 10中的详细信息)和右侧的bcbio ,显示了每个 DeepVariant 版本如何提高 indel 准确率。
DNAnexus和bcbio也对 DeepVariant v0.6进行了独立评估。他们的分析支持了我们关于 indel 准确度提高的发现,并且还包括与其他变体调用工具的比较。
展望未来
我们将 DeepVariant 作为开源软件发布,以鼓励协作并加速使用该技术解决实际问题。随着测序技术创新步伐的不断加快,包括更多的临床应用,我们乐观地认为 DeepVariant 可以进一步扩展以产生一致且高度准确的结果。我们希望研究人员将使用 DeepVariant v0.6 来加速发现,如果您希望我们优先考虑某种测序数据类型,请告诉我们。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2025-1-22 07:01 , Processed in 0.078104 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表