找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 48|回复: 0

利用计算机视觉实现药物研发自动化

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-11 23:56:46 | 显示全部楼层 |阅读模式
“由于蛋白质晶体极为罕见,每当你错过一个蛋白质晶体,你就有可能错过一次重要的生物医学发现。”
—— Patrick Charbonneau,杜克大学化学系兼MARCO 计划首席研究员。
蛋白质结晶是生物医学研究中发现复杂生物分子结构的关键步骤。由于结构决定了分子的功能,因此它有助于科学家设计针对该功能的新药。然而,蛋白质晶体罕见且难以找到。通常要对每种蛋白质进行数百次实验,虽然设置和成像大多是自动化的,但寻找单个蛋白质晶体仍主要通过目视检查,因此容易出现人为错误。至关重要的是,错过这些结构可能会导致失去重要的生物医学发现的机会,从而无法推动医学的发展。我们
与结晶结果机器识别(MARCO) 计划的研究人员合作,在PLOS One(ArXiv 预印本)上发表了“使用深度卷积神经网络对结晶结果进行分类”的文章,其中我们讨论了如何使用一些最新的深度卷积网络架构并对其进行定制,以在识别蛋白质晶体的视觉识别任务中实现超过 94% 的准确率。为了促进该领域的进一步研究,我们已将数据免费开放,并将我们的模型作为 TensorFlow 研究模型存储库的一部分开源,并作为Cloud ML Engine端点供研究人员使用。
蛋白质晶体图像,由 MARCO 存储库提供(CC-BY-4.0 许可证)
MARCO 计划是多家制药公司和学术研究中心的联合项目,旨在汇集和托管一个大型精选晶体学图像库,并将它们提供给社区,以帮助开发更好的图像分析工具。当该计划的一名成员带着一个明确定义的问题和 50 万张带标签的图像联系 Google 时,我们接受了挑战,尝试将深度学习的最新进展应用于该问题。
由于成像技术和数据采集方法之间存在很大差异,因此想出一种解决视觉识别问题的单一方法似乎很困难。晶体可能非常小,这使得它们在包含未分化的视觉混乱的大图像中成为稀有结构。
来自 MARCO 存储库的样本,说明了数据源之间的可变程度。
幸运的是,只要有足够的训练数据,现代深度卷积网络就非常适合处理视觉外观的极端变化。我们修改了基本的Inception V3模型以处理更大的图像,同时仍能快速训练。该模型达到了一定的精度和召回率,使其在自动评估流程中实用。
这项工作是多机构合作有效性的一个很好的例子,旨在解决需要大量和多样化数据的问题,而任何单个合作者都无法访问这些数据。我们邀请研究人员利用这些资源,这些资源是这项工作的成果,并分享他们学到的东西。这项研究是作者作为个人 20% 项目进行的。要了解有关这项工作的更多信息,请参阅我们的论文并阅读最近的杜克研究博客文章。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-28 02:12 , Processed in 0.083459 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表