用于分子生成的数据高效性图语法学习

简介: 用于分子生成的数据高效性图语法学习

近年来分子生成问题收到了很多关注。但是现有的方法都是基于深度神经网络,需要在很大的数据集上训练。在实践中,由于劳动密集型实验和数据收集,特定类别化学数据集的规模通常是有限的(例如,几十个样本)。这对深入学习生成模型全面描述分子设计空间提出了相当大的挑战。另一个主要挑战是只产生物理上可合成的分子。这对于基于神经网络的生成模型来说是一项非常重要的任务,因为相关的化学知识只能从有限的训练数据中提取和概括。


此篇论文中,作者提出了一个数据高效性的生成模型,可以从比普通基准小几个数量级的数据集中学习。此方法的核心是一个可学习的图语法,它可以通过一系列的生成法则来生成模型。不需要任何人工帮助,这些生成规则可以从训练数据中自动构建。此外,附加的化学知识可以通过进一步的语法优化来加进模型里。学习完的图语法仅仅通过三个各包含约20个样本的单位数据集,就可以在生成高质量分子任务中获得最先进的结果。此论文的方法在只有117个训练样本的化合物合成任务中获得了很好的结果,与使用了81k的数据点的现有方法性能相当。  

image.png

1.介绍

本文提出了一种将复杂图语法构造与相对简单有效的学习技术相结合的生成模型。特别是,该语法包含了不同大小的子结构(即原子级以上),构建过程直接优化了各种化学指标(如分布统计和合成能力),同时满足特定的化学约束(如价限制)。此外,此方法具有符号知识表示的优点:可解释性和数据高效性。此论文的评估重点是聚合物,特别是他们的单体构建块。作者表示,此模型适用于任意分子。


2.方法

分子超图

image.png

image.png

图1 萘二异氰酸酯的超图表示

形式语法

image.png

图语法

image.png

论文专注于分子图的形式语法——图语法,而不是字符串。如图3所示,生成规则的左右侧都是图。这些图包含非终点节点、终点节点、代表性原子。白色节点是锚节点,它不会从左侧变为右侧。

image.png

图3 使用图2的图语法的萘二异氰酸酯的生成过程

 

基于图语法的分子图类似于基于字符串语法的图(如图3)。为了确定生成规则是否适用于每一步, 作者用子图匹配来测试当前图是否包含与规则左侧同态的子图。由于子图通常规模较小,因此匹配过程在实践中是有效的。

整体流程

image.png

图4

 

如图4所示,作者的算法是由一组分子结构和一组评估指标(如多样性和可合成性)构成。目的是学习一种可以用于分子生成的语法。为此,首先将分子看作一个超图。

image.png

图5

语法构造是一个自底向上的过程,通过压缩超边(如图5)来迭代地创造生成规则。压缩超边是由一个含参函数来确定,以神经网络的形式来实现。作者同时执行多个随机搜索来获得多个语法,由输入的度量值来计算。此方法学习如何构建语法,用最大化输入指标地对分子进行采样。因此特定领域地知识可以应用到基于语法的生成模型里。


构建自底向上的图语法


自底向上的搜索是用来从最基层开始构建生成规则,包含了分子超图的单个超边。通过迭代采样一组超边,然后将他们压缩成一个节点来构建语法。


压缩的每一步里,都会构造一个生成规则并加入到语法里。这样就会得到有着更少的节点和边的新超图。作者同时对所有的输入分子进行超边选择和规则构建,直到所有的超边被压缩。

image.png

此方法有几个特点:(1)作为生成模型,语法可以复制所有的输入分子。(2)由于生成规则是由真实的分子的子图构造而成,所以自然符合化合价的条件。因此,生成的所有分子都是有效的。(3)生成不仅包含训练数据。而且还可推测生成先前所见示例分布之外的分子结构。(4)所构建的语法基本遵守Chomsky范式,易于分析,易于解释。


优化图语法


观察到到语法结构完全由被选择的超边集序列决定,作者将语法的优化转变成被选择的超边序列的优化。因此,优化问题的变量是选择序列,目标是使评价指标最大化。


作者将超边序列的搜索定义为MSF(最小生成森林)问题。自底向上的语法构建过程可以看作是搜索所有输入图的森林。注意此论文关注的是加入MSF的超边顺序,而不是MSF本身的架构。超边的顺序由边权函数决定,它将分子超图中的每条超边映射为标量。超边选择的优化相当于边权函数的优化。

image.png

3.结果


作者使用了三个小的数据集,每个数据集都代表了一个特定的单体类。这些都是作者从资料中手动整理的:丙烯酸酯,扩链剂和异氰酸酯,分辨包含了32个,11个,11个样品。


为了比较以及预训练基线,作者还使用了来自St.John等人和Jin等人的81k个单体的大型数据集。作者比较了多种方法:GraphNVP,JT-VAE,HierVAE,MHG,STONED。本文的方法缩写为DEG。


在小规模,特殊属性的数据集上的结果


表1:在异氰酸盐上的结果:作者省略了创新性,因为所有方法都达到了100%;由GraphNVP生成的分子有效率较低,无法对某些指标进行合理的评价(-)。

image.png

表2:丙烯酸酯和扩链剂的结果。由于GraphNVP生成的分子效度较低,无法对某些指标进行合理的评价(-)。

image.png

观察发现,GraphNVP的性能相当差。VAEs和现有的基于语法的系统在某些指标上表现得很好,但在RS和Membership指标上得分很低。相比之下,对于三个数据集上的Membership和Retro*分数,作者的方法明显优于其他方法。而且在其他指标上也是最好的或极具竞争性的。


在大规模的数据集上的结果


表3:聚合物大型数据集上的结果。GraphNVP和SMILESVAE生成的分子效度较低,无法对某些指标进行合理评估(-)。DEG在0.15%的训练数据(117个样本)上进行训练。

image.png

结果如表3所示。总而言之,一些SOTA系统,如SMILESVAE和GraphNVP,无法捕获任何分布细节,大多生成无效分子。JT-VAE和基于语法的基线(MHG、STONED)虽然相对于前者表现较差,但它们的样本质量是合理的。HierVAE在除倒角距离外的所有指标上都表现得非常好。作者的方法大体上可以与后者相竞争(仅在0.15%的数据上训练),而且可以获得更好的样本质量,特别是倒角距离是后者的两倍高。


4.总结

作者提出了一种结合图语法构造和领域优化的数据高效性生成模型。语法包含了不同大小的子结构,结构可以直接优化各种化学指标。在三个小尺寸聚合物数据集和一个大数据集上的大量实验证明了该方法的有效性。这个的系统是唯一一种能够在特定的类中生成单体且有高成功率的系统。将属性预测模型与此论文的图语法结合起来,将有助于生成优良分子。


目录
相关文章
|
7天前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
45 7
|
算法 测试技术
特征提取的综合实验(多种角度比较SIFT、SURF、BRISK、ORB算法)
代码:https://files.cnblogs.com/files/jsxyhelu/main.zip 一、基本概念: 特征点提取在“目标识别、图像拼接、运动跟踪、图像检索、自动定位”等研究中起着重要作用; 主要算法包括: 特征点识别主要流程为: 1、检测关键点、提取描述向量和特征匹配; 2、...
1734 0
|
9月前
|
算法
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
|
8月前
|
算法
基于实时迭代的数值鲁棒NMPC双模稳定预测模型(Matlab代码实现)
基于实时迭代的数值鲁棒NMPC双模稳定预测模型(Matlab代码实现)
|
11月前
|
机器学习/深度学习
以前所未有的原子数量进行量子力学模拟,机器学习发现新的高压固体氢
以前所未有的原子数量进行量子力学模拟,机器学习发现新的高压固体氢
|
11月前
|
机器学习/深度学习 自然语言处理 PyTorch
大规模的化学语言 transformer 模型捕捉分子结构和性质
大规模的化学语言 transformer 模型捕捉分子结构和性质
218 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
准确度高,适用性广,使用物理信息神经网络分析材料的内部结构和缺陷
准确度高,适用性广,使用物理信息神经网络分析材料的内部结构和缺陷
109 1
|
11月前
|
机器学习/深度学习 存储 网络架构
比量子化学方法快六个数量级,一种基于绝热状态的绝热人工神经网络方法,可加速对偶氮苯衍生物及此类分子的模拟
比量子化学方法快六个数量级,一种基于绝热状态的绝热人工神经网络方法,可加速对偶氮苯衍生物及此类分子的模拟
|
存储 算法