数字化气味:利用分子图谱了解气味

1726205442162.jpg

我们 如何测量气味?气味是由飘过空气、进入我们鼻子并与感觉受体结合的分子产生的。可能有数十亿个分子可以产生气味,因此很难分类或预测哪些分子会产生哪些气味。感官地图可以帮助我们解决这个问题。色彩视觉有这些地图最熟悉的例子,从我们在小学学习的色轮到用于在视频制作中进行色彩校正的更复杂的变体。虽然这些地图已经存在了几个世纪,但有用的嗅觉地图却一直缺失,因为嗅觉是一个更难破解的问题:分子的变化方式比光子多得多;数据收集需要嗅觉者和气味之间的物理接近度(我们没有好的嗅觉“相机”和嗅觉“监视器”);人眼只有三个颜色感觉受体,而人鼻有 300 多个气味受体。因此,以前制作气味地图的努力未能取得进展。

2019 年,我们开发了一个图神经网络 (GNN)模型,该模型开始探索数千个不同分子的样本,这些分子与它们所唤起的气味标签(例如“牛肉味”、“花香”或“薄荷味”)配对,以了解分子结构与此类分子具有每个气味标签的概率之间的关系。该模型的嵌入空间包含每个分子的表示形式,即一个固定长度的向量,该向量根据气味描述该分子,就像视觉刺激的 RGB 值描述其颜色一样。

左图:颜色图 ( CIE 1931 )的示例,其中坐标可以直接转换为色调和饱和度的值。相似的颜色彼此相邻,特定波长的光(及其组合)可以通过图上的位置进行识别。右图:主气味图中的气味以类似的方式运作。单个分子对应于点(灰色),这些点的位置反映了对其气味特征的预测。

今天我们介绍“主气味图”(POM),它将模型嵌入空间中每个气味分子的矢量表示标识为高维空间中的单个点。POM 具有感官图的属性:首先,感知相似的气味对对应于 POM 中的两个相邻点(类比,色轮上的红色更接近橙色而不是绿色)。其次,POM 使我们能够预测和发现新的气味以及产生这些气味的分子。在一系列论文中,我们证明了该图可用于前瞻性地预测分子的气味特性、从基础生物学的角度理解这些特性以及解决紧迫的全球健康问题。我们将在下面讨论 POM 的这些有前景的应用以及我们如何测试它们。

测试 1:用从未闻过的分子挑战模型

首先,我们想知道底层模型是否能够正确预测以前从未闻过的新分子的气味,这些新分子与模型开发过程中使用的分子有很大不同。这是一项重要的测试——许多模型在与模型之前见过的数据相似的数据上表现良好,但在新案例上测试时就会崩溃。

为了测试这一点,我们收集了迄今为止最大的新型分子气味描述数据集。我们在莫奈尔中心的合作伙伴训练小组成员使用 55 个不同的标签(例如“薄荷味”)对 400 种分子的气味进行评分,这些标签经过精心挑选,既不冗余也不太稀疏,涵盖了所有可能的气味。不出所料,我们发现不同的人对同一种分子有不同的描述。这就是为什么感官研究通常使用数十或数百人的小组,并强调了为什么嗅觉是一个难以解决的问题。我们不是看模型是否能匹配任何一个人,而是问它与共识的接近程度:所有小组成员的平均值。我们发现 模型的预测比普通小组成员的预测更接近共识。换句话说,该模型展示了根据分子结构预测气味的卓越能力。

两个模型(我们的 GNN 模型(橙色)和基线化学信息学随机森林 (RF) 模型(蓝色))做出的预测,与经过培训的评审员(绿色)对分子 2,3-二氢苯并呋喃-5-甲醛给出的平均评分进行比较。每个条形图对应一个气味特征标签(为清晰起见,仅显示 55 个中的前 17 个)。前五个用颜色表示;我们的模型正确识别了前五个中的四个,置信度很高,而 RF 模型只能正确识别五个中的三个,置信度很低。在我们的模型中,与全套 55 个标签的相关性 (R) 也更高。

与其他基准模型(在各种化学信息学特征集上训练的 RF 和最近邻模型)不同,我们的 GNN 模型在预测小组平均评分方面优于中位数人类小组成员。换句话说,我们的 GNN 模型比典型小组成员更好地反映了小组共识。

POM 还在替代人类嗅觉任务中表现出了最先进的性能,例如检测气味的强度或不同气味的相似性。因此,使用 POM,应该可以预测数十亿种尚未发现的气味分子中的任何一种的气味品质,广泛应用于风味和香味。

测试 2:将气味品质与基础生物学联系起来

由于主气味图谱在预测人类气味感知方面很有用,因此我们想知道它是否也能预测动物的气味感知及其背后的大脑活动。我们发现,该图谱可以成功预测嗅觉神经科学家研究的大多数动物(包括老鼠和昆虫)的感觉受体、神经元和行为的活动。

自然界的哪些共同特征使得这张图谱适用于相隔数亿年进化的物种?我们意识到嗅觉能力的共同目的可能是检测和区分代谢状态,即感知某种东西是成熟还是腐烂、营养丰富还是无营养、健康还是病态。我们收集了生命界数十种物种的代谢反应数据,发现这张图谱与代谢本身密切相关。根据这张图谱,当两种分子的气味相距甚远时,需要一系列代谢反应才能将一种分子转化为另一种分子;相比之下,气味相似的分子之间仅相隔一个或几个反应。即使是包含许多步骤的长反应路径,也会在这张图中描绘出平滑的路径。而同时出现在相同天然物质(例如橙子)中的分子通常非常紧密地聚集在这张图谱上。POM 表明,嗅觉通过代谢结构与我们的自然世界相连,也许令人惊讶的是,它捕捉到了生物学的基本原理。

左图:我们汇总了 4 个界 17 个物种的代谢反应,以构建代谢图。在此图中,每个圆圈代表一个不同的代谢物分子,箭头表示存在将一种分子转化为另一种分子的代谢反应。一些代谢物有气味(颜色),而另一些则没有(灰色),两种有气味的代谢物之间的代谢距离是将一种代谢物转化为另一种代谢物所需的最少反应数。在粗体显示的路径中,距离为 3。右图:代谢距离与 POM 中的距离高度相关,POM 是感知气味差异的估计值。

测试 3:扩展模型以应对全球健康挑战

气味图谱与整个动物界的感知和生物学紧密相关,这为我们打开了一扇新的大门。蚊子和其他害虫被人类吸引的部分原因是它们的气味感知。由于 POM 可用于预测动物的嗅觉,我们对其进行了重新训练,以解决人类面临的最大问题之一,即蚊子和蜱虫传播的疾病祸害,这些疾病每年导致数十万人死亡。

为此,我们利用两个新的数据来源改进了原始模型:(1)美国农业部80 年前对人类志愿者进行的一组早已被遗忘的实验,最近被Google 图书找到,我们随后将其变为机器可读的;(2)我们的合作伙伴TropIQ使用他们的高通量实验室蚊子检测方法收集的新数据集。这两个数据集都衡量了特定分子驱蚊的效果。综合起来,由此产生的模型可以预测几乎任何分子的驱蚊效果,从而实现对大片分子空间的虚拟筛选。我们用全新的分子通过实验验证了这一筛选,发现其中十几种分子的驱蚊效果至少与大多数驱虫剂中的活性成分DEET一样高。更便宜、更持久、更安全的驱虫剂可以降低疟疾等疾病在世界范围内的发病率,有可能挽救无数生命。

我们对之前由 Google Books 扫描的数千种分子的 USDA 驱蚊数据进行了数字化,并利用这些数据改进了模型核心的学习表示(地图)。我们添加了额外的层,专门用于预测蚊子进食试验中的驱蚊效果,并反复训练模型以改进试验预测,同时对候选驱蚊剂进行计算筛选。

许多在实验室试验中表现出驱蚊效果的分子在应用于人体时也表现出驱蚊效果。其中一些分子的驱蚊效果甚至比目前最常用的驱蚊剂(避蚊胺和派卡瑞丁)还要好。

未来之路

我们发现,我们用于预测气味的建模方法可用于绘制主气味图,从而更广泛地解决与气味相关的问题。该图是测量气味的关键:它解答了有关新气味及其产生分子的一系列问题,将气味与其在进化和自然界中的起源联系起来,并帮助我们应对影响数百万人的重要人类健康挑战。展望未来,我们希望这种方法可用于寻找食品和香料配方、环境质量监测以及人类和动物疾病检测问题的新解决方案。

致谢

这项工作由 ML 嗅觉研究团队完成,包括 Benjamin Sanchez-Lengeling、Brian K. Lee、Jennifer N. Wei、Wesley W. Qian 和 Jake Yasonik(后两者部分由 Google 学生研究员计划资助)以及我们的外部合作伙伴,包括 Monell 中心的 Emily Mayhew 和 Joel D. Mainland,以及 TropIQ 的 Koen Dechering 和 Marnix Vlot。Google 图书团队将 USDA 数据集发布到网上。Richard  C. Gerkin 得到了 Google 客座教授研究员计划的支持,他也是亚利桑那州立大学的副研究教授。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论