今天给大家介绍的是印度理工学院Niloy Ganguly教授课题组在AAAI2019发表的一篇关于分子生成的论文。作者基于VAE提出一种新的分子图生成模型NEVAE,其编码器和解码器经过特殊设计,通过多种技术创新来解决目前生成模型存在的缺点。实验表明,与几种最新模型相比,NEVAE可以更有效地发现合理的、多样的和新颖的分子。比起基于贝叶斯优化和强化学习的几种最新方法,该优化解码器能够识别出高121%属性值的分子。
1
背景
药物设计旨在生成一组具有特定性质的分子,从而对患者的治疗产生作用。然而,药物设计是一个漫长,昂贵,困难和低效的过程,其中候选分子是通过化学合成或生物过程产生的。在计算机辅助药物设计的背景下,人们对开发自动化的机器学习技术非常感兴趣,以发现大量的具有各种所需特性的合理的、多样的和新颖的候选分子和非结构化分子空间。近年来,有大量工作致力于开发用于自动分子设计的深度生成模型。主要遵循两种策略,第一种是用文本序列来表示分子,利用深度生成模型来生成用于分子设计的文本,但是SMILE字符串无法捕获分子之间的结构相似性并且一个分子可以具有多个SMILES表示形式,如此导致生成的分子缺乏多样性和有效性。第二种策略是基于分子图的深度生成模型,但是,当前的分子图生成模型存在一些问题导致其无法发挥模型的所有潜力。
分子图目前存在的问题有:(i)现有模型只能产生(和接受训练)具有相同数量原子的分子,(ii)它们并不是节点标记的排列不变,但是,分子图在其节点标记的排列下仍然是同构的,(iii)训练过程相对于图中的节点数具有二次复杂性,这使得在训练过程中难以利用大量的大分子,(iv)组合小型分子图(或子图)限制了生成分子的多样性,(v)模型不提供它们生成的原子的空间坐标,而在实践中,分子是三维对象,其原子坐标显着影响其化学性。(vi)传统的贝叶斯优化或强化学习无法发现具有较高属性值的大量候选分子,NEVAE的出现解决了前五个问题,针对最后一个问题,作者开发了一种基于梯度的算法来优化模型的解码器以生成面向属性的分子,即优化解码器以使其学习产生使某些特性(例如在水中的溶解度)的值最大化的分子。
2
方法
NEVAE的编码器学习在距给定原子不同hops的情况下聚合信息(例如,键特征,原子及其坐标),然后将该聚合信息映射到连续的潜在空间中,与归纳图表示学习相反,聚合功能是通过变分推理来学习的,因此生成的聚合器功能特别适合使概率解码器能够生成新分子。NEVAE解码器将所有边共同表示为非归一化的对数概率向量,然后馈入单个多项式边分布,先前的工作通常使用伯努利分布对每个潜在边的存在和不存在进行建模,这导致推理算法具有复杂度,其中n是节点数,这不是置换不变的。在边缘分布中通过mask,概率解码器能够保证所生成分子中的一组局部结构和功能特性。另外,概率解码器能够提供其生成的分子原子的空间坐标。为此,它使用高斯分布对每个原子的位置进行建模,该分布的均值和方差取决于其潜在表示以及每个邻域的表示。下图分别为编码器和解码器框架结构。
3
实验
(1)生成分子优秀程度
作者首先通过比较该模型生成的分子与几种性能最佳的方法生成的分子,对模型进行定量分析,即有效性、新颖性和唯一性,使用八个基线进行比较:GraphVAE,GrammarVAE,CVAE,SDVAE,JTVAE,CGVAE,MOLGAN,ORGAN,GCPN。其中,GraphVAE,JTVAE,CGVAE,MOLGAN和GCPN使用分子图,而GrammarVAE,CVAE,SDVAE,JTVAE和ORGAN使用SMILES字符串。
下表1和2在新颖性,唯一性和有效性方面对该模型与上述现有技术方法进行了比较。
上表中,就新颖性而言,除了GraphVAE,NEVAE和其他方法始终生成新分子。尽管GraphVAE,GrammarVAE,CVAE和SDVAE具有几乎完美的新颖性评分,但产生的新颖分子却比NEVAE少得多。就唯一性而言,这是在一组采样分子上定义的,可以看出除了CGVAE(对于ZINC和QM9)和JTVAE(对于ZINC)之外,所有基线方法在两个数据集中的表现都比该方法差很多。在有效性方面,NEVAE明显优于四种竞争方法-GraphVAE,GrammarVAE,CVAE,SDVAE和ORGAN。
(2)贝叶斯优化
与CVAE等类似,作者使用贝叶斯优化(BO)来识别logP,SAS和惩罚logP来发现具有理想特性的新型分子。下图为各个指标的比较结果。
(3)平滑的分子潜在空间
作者定性的证明NEVAE产生出的分子的潜在空间是光滑的。下图是ZINC数据集中一个分子的结果,表明所采样的分子在拓扑上与给定分子相似。
4
总结
作者致力于基于分子图的VAE模型的改进,该分子图具有节点标签的排列不变性,并允许具有不同数量的节点和边以及原子的三维空间坐标,并且开发了一种基于梯度的算法来优化模型的解码器,以便它学习生成使某些特定特性的值最大化的分子。最后与几种最新技术方法相比,NEVAE能够更有效地发现合理的,多样的和新颖的分子。该模型为未来工作提供了一些思路,例如,在VAE设计中可扩展至动态图。此外,该方法可以适用于其他现实世界的图。最后,还可应用于其他与分子设计有关的问题,例如分子逆合成。