分子性质预测是药物发现领域的一项基本任务。对其进行准确预测的计算方法可以大大加快以更快、更便宜的方式找到更好的候选药物的整体过程。传统的预测分子性质的计算方法主要依靠提取指纹或人为设计的特征,然后与机器学习算法结合使用。为了捕捉当前任务所需的特征,这类分子表征本身就带有领域专家的偏见。为了超越这种偏见,采用更通用的方法,不同类型的机器学习算法被引入到分子性质预测领域。尤其是深度学习算法,由于计算能力的加快,以及大型数据集的可用性越来越高,而且由于其在自然语言处理和模式识别等相关领域的巨大成功,深度学习算法已经看到了复苏。这些类型的网络能够以自动化的方式学习特定任务的表示,因此可以消除复杂的特征工程过程。为了使用深度学习算法,规避特定领域的特征工程,需要为分子找到合适的表示方法。由于分子可以用图来表示,一种方法是简单地使用分子图(Graph)表示,导致了基于GNNs的发展,获得了越来越多的关注,并变得越来越流行。GNNs似乎成为了图形特定任务中最有前途的深度学习方法之一,特别是由于它们在预测量子力学特性、物理化学特性(或预测毒性方面的成功表现优于传统的机器学习方法。
显示了GNN出版物与分子属性预测出版物的比例,以及本次综述所包含的出版物的交集。
图神经网络(GNN)
研究人员调研了了80种不同的GNN架构,并将它们分为三个不同的类别。
前两类是基于它们的整体传播类型:循环图神经网络(Rec-GNN, Recurrent graph neural networks)和卷积图神经网络(Conv-GNN, Convolutional graph neural networks)。一个GNN变体中存在着几种不同类型的网络,主要来自于使用不同的初始节点或边,聚合过程中使用何种特征的差异,或对所述基本特征的添加(GNN除了使用卷积聚合外,还使用一些门控输出函数或注意机制等)。
第三类:不同的图神经网络架构(Dist-GNN, Distinct architectures)。所做的区分并不是基于传播类型,而是这个类别由一系列不同的基于图的神经网络架构组成,以及对任何一种图神经网络架构可能的架构添加,比如跳过连接、不同的池化方法或注意力机制。
图
分子图是无向的,未加权的,并且大多是异构的。异构图包含不同类型的节点和边及其相应的特征。
学习方法
存在几种不同的训练GNN的策略。根据手头的任务和可用数据,可以通过有监督,无监督,半监督或强化学习来完成。典型任务可以包括节点,边或图分类,链接预测或图回归。
Rec-GNNs vs Conv-GNN
递归图神经网络(Rec-GNNs)是最早用于分子性质预测的基于图的神经网络,它们与基于卷积的图神经网络的主要区别(Conv-GNN)是信息的传播方式。Rec-GNN以迭代的方式应用相同的权重矩阵,直到达到平衡为止,而Conv-GNN在每个时间步长t上应用不同的权重。
分子性质预测
本文中,研究人员列出了不同类型的常规类别及其相关的分子特性,以及相应的数据集,任务的类型(回归或分类)以及已用于预测它们的GNN。总的来说,研究人员将48种不同的数据集分为20种不同的分子性质。
基于量子力学性质,包含三个分子性质部分,即坐标,能量和包含六个数据集的部分电荷。使用13种不同的GNN体系结构进行的能量预测占了这一类别的大部分,这是由于可轻松访问QM7-QM9数据集而导致的。此外,QM类别中的大多数网络都可以在Conv-GNN类别中找到-尤其是MPNN方法,在14种GNN架构中有6种以上。
物理化学性质类别包括10个分子性质,其中水溶性是主要的有关可用数据集的性质。其他性质包括极性表面积,生物利用度,溶解度,代谢稳定性,沸点和熔点,疏水性,溶剂化自由能,被动膜通透性和血脑通透性。为了预测水溶性,列出了16种不同的GNN结构,其后是具有13种GNN的疏水性以及具有10种和11种独特结构的溶剂化自由能和血脑通透性预测。物理化学性质类别中的大多数网络都是Conv-GNN。在该类别的21种GNN架构中,有13种以上基于GCN方法。
生物物理学类别涵盖三个分子特性:亲和力、功效和活性。活性是一个非常模糊的类别,为所包含的九个不同数据集留下了很大的解释空间。从架构的角度来看,该类别包括表2中所示的几乎所有GNN ,总共有58个不同的网络。其中大多数来自Conv-GNN类别,仅Conv-GNN GCN就有21种架构,而MPNN方法则有8种。Rec-GNN占7种不同的架构。NCI1数据集用于25种不同的架构,因此是使用最多的数据集,其次是具有21种架构的HIV数据集。
生物效应类别包括三个分子特性子类别,即副作用,毒性和ADMET。毒性是具有六个数据集的类别。在此类别中,Tox21和MUTAG数据集已与24种GNN架构结合使用。ClinTox被12个使用,其次是ToxCast和具有11种不同体系结构的PTC数据集。总共使用了35种不同的体系结构,其中22种来自Conv-GNN GCN变体,这些体系结构已应用于所有数据集。第二个最常用的变体是在6个数据集中使用的具有8种架构的MPNN,紧随其后的是具有7种不同架构的频谱GCN和Rec-GNN。
结论
GNN在药物发现领域,尤其是在分子性质的预测方面有了巨大的加速发展。这项调查中,研究人员回顾了63篇不同的出版物,根据其底层架构对80种不同的GNNs方法进行了分类,并对20种分子性质类别进行了全面的概述,分为48个数据集。