Drug Discov. Today | 简要综述GNNs用于分子性质预测

简介: Drug Discov. Today | 简要综述GNNs用于分子性质预测

image.png

分子性质预测是药物发现领域的一项基本任务。对其进行准确预测的计算方法可以大大加快以更快、更便宜的方式找到更好的候选药物的整体过程。传统的预测分子性质的计算方法主要依靠提取指纹或人为设计的特征,然后与机器学习算法结合使用。为了捕捉当前任务所需的特征,这类分子表征本身就带有领域专家的偏见。为了超越这种偏见,采用更通用的方法,不同类型的机器学习算法被引入到分子性质预测领域。尤其是深度学习算法,由于计算能力的加快,以及大型数据集的可用性越来越高,而且由于其在自然语言处理和模式识别等相关领域的巨大成功,深度学习算法已经看到了复苏。这些类型的网络能够以自动化的方式学习特定任务的表示,因此可以消除复杂的特征工程过程。为了使用深度学习算法,规避特定领域的特征工程,需要为分子找到合适的表示方法。由于分子可以用图来表示,一种方法是简单地使用分子图(Graph)表示,导致了基于GNNs的发展,获得了越来越多的关注,并变得越来越流行。GNNs似乎成为了图形特定任务中最有前途的深度学习方法之一,特别是由于它们在预测量子力学特性、物理化学特性(或预测毒性方面的成功表现优于传统的机器学习方法。

image.png

显示了GNN出版物与分子属性预测出版物的比例,以及本次综述所包含的出版物的交集。


图神经网络(GNN)

研究人员调研了了80种不同的GNN架构,并将它们分为三个不同的类别。



前两类是基于它们的整体传播类型:循环图神经网络(Rec-GNN, Recurrent graph neural networks)和卷积图神经网络(Conv-GNN, Convolutional graph neural networks)。一个GNN变体中存在着几种不同类型的网络,主要来自于使用不同的初始节点或边,聚合过程中使用何种特征的差异,或对所述基本特征的添加(GNN除了使用卷积聚合外,还使用一些门控输出函数或注意机制等)。



第三类:不同的图神经网络架构(Dist-GNN, Distinct architectures)。所做的区分并不是基于传播类型,而是这个类别由一系列不同的基于图的神经网络架构组成,以及对任何一种图神经网络架构可能的架构添加,比如跳过连接、不同的池化方法或注意力机制。


image.png

分子图是无向的,未加权的,并且大多是异构的。异构图包含不同类型的节点和边及其相应的特征。


学习方法

存在几种不同的训练GNN的策略。根据手头的任务和可用数据,可以通过有监督,无监督,半监督或强化学习来完成。典型任务可以包括节点,边或图分类,链接预测或图回归。


Rec-GNNs vs Conv-GNN

递归图神经网络(Rec-GNNs)是最早用于分子性质预测的基于图的神经网络,它们与基于卷积的图神经网络的主要区别(Conv-GNN)是信息的传播方式。Rec-GNN以迭代的方式应用相同的权重矩阵,直到达到平衡为止,而Conv-GNN在每个时间步长t上应用不同的权重。

image.png

分子性质预测

本文中,研究人员列出了不同类型的常规类别及其相关的分子特性,以及相应的数据集,任务的类型(回归或分类)以及已用于预测它们的GNN。总的来说,研究人员将48种不同的数据集分为20种不同的分子性质。


基于量子力学性质,包含三个分子性质部分,即坐标,能量和包含六个数据集的部分电荷。使用13种不同的GNN体系结构进行的能量预测占了这一类别的大部分,这是由于可轻松访问QM7-QM9数据集而导致的。此外,QM类别中的大多数网络都可以在Conv-GNN类别中找到-尤其是MPNN方法,在14种GNN架构中有6种以上。


物理化学性质类别包括10个分子性质,其中水溶性是主要的有关可用数据集的性质。其他性质包括极性表面积,生物利用度,溶解度,代谢稳定性,沸点和熔点,疏水性,溶剂化自由能,被动膜通透性和血脑通透性。为了预测水溶性,列出了16种不同的GNN结构,其后是具有13种GNN的疏水性以及具有10种和11种独特结构的溶剂化自由能和血脑通透性预测。物理化学性质类别中的大多数网络都是Conv-GNN。在该类别的21种GNN架构中,有13种以上基于GCN方法。


生物物理学类别涵盖三个分子特性:亲和力、功效和活性。活性是一个非常模糊的类别,为所包含的九个不同数据集留下了很大的解释空间。从架构的角度来看,该类别包括表2中所示的几乎所有GNN ,总共有58个不同的网络。其中大多数来自Conv-GNN类别,仅Conv-GNN GCN就有21种架构,而MPNN方法则有8种。Rec-GNN占7种不同的架构。NCI1数据集用于25种不同的架构,因此是使用最多的数据集,其次是具有21种架构的HIV数据集。


生物效应类别包括三个分子特性子类别,即副作用,毒性和ADMET。毒性是具有六个数据集的类别。在此类别中,Tox21和MUTAG数据集已与24种GNN架构结合使用。ClinTox被12个使用,其次是ToxCast和具有11种不同体系结构的PTC数据集。总共使用了35种不同的体系结构,其中22种来自Conv-GNN GCN变体,这些体系结构已应用于所有数据集。第二个最常用的变体是在6个数据集中使用的具有8种架构的MPNN,紧随其后的是具有7种不同架构的频谱GCN和Rec-GNN。


结论

GNN在药物发现领域,尤其是在分子性质的预测方面有了巨大的加速发展。这项调查中,研究人员回顾了63篇不同的出版物,根据其底层架构对80种不同的GNNs方法进行了分类,并对20种分子性质类别进行了全面的概述,分为48个数据集。



目录
相关文章
|
6月前
|
人工智能 Kubernetes 安全
网络安全公司前沿洞察:F5凭何成为网络安全领域的中流砥柱
网络安全公司前沿洞察:F5凭何成为网络安全领域的中流砥柱
161 4
|
机器学习/深度学习 人工智能 算法
深入探索软件自动化测试的优化策略
【5月更文挑战第4天】 随着软件开发周期的不断缩短和发布频率的增加,传统的手动测试方法已无法满足快速迭代的需求。因此,本文聚焦于自动化测试流程的优化,旨在提高测试效率和质量。文章首先回顾了自动化测试的基本概念与实施条件,随后分析了当前自动化测试面临的主要挑战,包括维护成本高、测试用例设计复杂等问题。在此基础上,提出了一系列优化策略:持续集成环境下的自动化测试、数据驱动测试、关键字驱动测试、以及基于人工智能的测试用例生成和维护等。通过案例分析和性能评估,验证了这些策略在提升测试覆盖率和减少人工干预方面的有效性。
|
机器学习/深度学习 存储 自然语言处理
RNN与LSTM:循环神经网络的深入理解
【6月更文挑战第14天】本文深入探讨RNN和LSTM,两种关键的深度学习模型在处理序列数据时的作用。RNN利用记忆单元捕捉时间依赖性,但面临梯度消失和爆炸问题。为解决此问题,LSTM引入门控机制,有效捕获长期依赖,适用于长序列处理。RNN与LSTM相互关联,LSTM可视为RNN的优化版本。两者在NLP、语音识别等领域有广泛影响,未来潜力无限。
|
存储 弹性计算 运维
数据灾备中心:创新性企业灾备管理服务
阿里云数据灾备中心旨在提供创新的灾备解决方案,确保企业业务连续性和数据安全。面对数据风险,如误删、勒索软件等,即使在公共云上,企业仍需灾备措施。数据灾备中心提供统一管理,通过3-2-1法则实现全面保护,特色包括统一覆盖多种资源、直观的星级评分和3D展示、简化运维流程。未来将推出更多功能,如资源分组评分、一体化策略中心、定制报表和消息中心,以支持不同行业的高要求,如金融、医疗等。
24993 8
数据灾备中心:创新性企业灾备管理服务
|
canal 消息中间件 关系型数据库
【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析,实现高效数据同步
【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析,实现高效数据同步
561 0
|
Swift
[!] Unable to determine Swift version for the following pods:
[!] Unable to determine Swift version for the following pods:
270 0
|
Linux Windows
【已解决】ValueError: num_samples should be a positive integer value, but got num_samples=0
【已解决】ValueError: num_samples should be a positive integer value, but got num_samples=0
|
Python
Python多进程间通信的最佳实践
Python多进程间通信的最佳实践
447 0
|
SQL Oracle 关系型数据库
Oracle查询优化-简单排序
【1月更文挑战第1天】【1月更文挑战第3篇】最近在工作中发现Oracle排序对性能影响很大,数据排序被广泛应用于许多SQL查询语句的优化过程中。
228 0
|
机器学习/深度学习 人工智能 资源调度
深度学习应用篇-元学习[16]:基于模型的元学习-Learning to Learn优化策略、Meta-Learner LSTM
深度学习应用篇-元学习[16]:基于模型的元学习-Learning to Learn优化策略、Meta-Learner LSTM
深度学习应用篇-元学习[16]:基于模型的元学习-Learning to Learn优化策略、Meta-Learner LSTM