请选择 进入手机版 | 继续访问电脑版

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 233|回复: 0

DeepVariant:利用深度神经网络实现高精度基因组

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-13 23:42:09 | 显示全部楼层 |阅读模式
在许多科学学科中,尤其是在基因组学领域,重大突破往往源自新技术。从使人类基因组测序成为可能的桑格测序,到使首次大规模全基因组实验成为可能的微阵列技术,新仪器和工具使我们能够更深入地研究基因组,并将结果广泛应用于医疗、农业和生态领域。
基因组学中最具变革性的新技术之一是高通量测序 (HTS),它在 21 世纪初首次实现商业化。HTS 使科学家和临床医生能够快速、廉价且大规模地生成测序数据。然而,HTS 仪器的输出并不是被分析个体的基因组序列 — — 对于人类来说,这是 30 亿个碱基对(鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶),组成 23 对染色体。相反,这些仪器会生成约 10 亿个短序列,称为读数。每次读取仅代表 30 亿个碱基中的 100 个,每个碱基的错误率在 0.1-10% 之间。将 HTS 输出处理成单个、准确且完整的基因组序列是一项重大的未决挑战。这个问题对于生物医学应用尤其重要,它激发了诸如“瓶中基因组联盟” (GIAB) 等组织的努力,该组织生成可用于验证和基准测试的高可信度人类参考基因组,以及precisionFDA社区挑战,旨在促进创新,从而提高基于 HTS 的基因组测试的质量和准确性。
对于基因组中的任何给定位置,在约 10 亿个读取中,有多个读取包含该位置的碱基。每个读取都与参考对齐,然后将读取中的每个碱基与该位置的参考碱基进行比较。当读取包含与参考不同的碱基时,它可能表示存在变体(真实序列存在差异),也可能存在错误。
今天,我们宣布开源 DeepVariant,这是一项深度学习技术,可以从 HTS 测序仪数据中重建真实基因组序列,其准确度远高于以前的经典方法。这项工作是Google Brain 团队与Verily Life Sciences合作两年多研究的成果。DeepVariant 将变异调用任务(基因组学中称为此重建问题)转变为非常适合 Google现有技术和专业知识的图像分类问题。
上面的四幅图都是与参考基因组对齐的实际测序仪读数的可视化。一个关键问题是如何使用读数来确定两条染色体上是否有变异,一条染色体上是否有变异,还是两条染色体上都没有变异。变异有多种类型,最常见的是SNP和插入/缺失。A:一对染色体上的真 SNP,B:一条染色体上的缺失,C:两条染色体上的缺失,D:由错误引起的假变异。很容易看出,以这种方式可视化时,它们看起来非常不同。
我们从 GIAB 参考基因组开始,该参考基因组具有高质量的基本事实(或目前最接近的近似值)。使用这些基因组的多个副本,我们以编码 HTS 仪器数据的多通道张量的形式生成了数千万个训练示例,然后训练基于 TensorFlow 的图像分类模型,以从仪器产生的实验数据中识别真正的基因组序列。尽管由此产生的深度学习模型DeepVariant没有任何关于基因组学或 HTS 的专业知识,但在一年之内,它就赢得了precisionFDA Truth Challenge的最高SNP准确度奖,表现优于最先进的方法。从那时起,我们又将错误率降低了 50% 以上。
DeepVariant 作为开源软件发布,旨在鼓励协作并加速使用该技术解决实际问题。为了实现这一目标,我们与Google Cloud Platform (GCP) 合作,在 GCP 上部署DeepVariant 工作流(现已推出),其配置经过优化,可使用Pipelines API等可扩展的 GCP 技术实现低成本和快速周转。这两个版本的发布为用户提供了一个平稳的平台,让他们可以在当前的计算环境中探索和评估 DeepVariant 的功能,同时提供可扩展的云端解决方案,以满足最大型基因组数据集的需求。DeepVariant
是我们希望利用 Google 计算基础设施和机器学习专业知识做出的众多贡献中的第一个,它不仅能更好地了解基因组,还能为社区提供基于深度学习的基因组学工具。这都是将 Google 技术应用于医疗保健和其他科学应用的更广泛目标的一部分,并使这些努力的成果广泛普及。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2025-1-22 06:06 , Processed in 0.079602 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表