用于分子生成的数据高效性图语法学习

简介: 用于分子生成的数据高效性图语法学习

近年来分子生成问题收到了很多关注。但是现有的方法都是基于深度神经网络,需要在很大的数据集上训练。在实践中,由于劳动密集型实验和数据收集,特定类别化学数据集的规模通常是有限的(例如,几十个样本)。这对深入学习生成模型全面描述分子设计空间提出了相当大的挑战。另一个主要挑战是只产生物理上可合成的分子。这对于基于神经网络的生成模型来说是一项非常重要的任务,因为相关的化学知识只能从有限的训练数据中提取和概括。


此篇论文中,作者提出了一个数据高效性的生成模型,可以从比普通基准小几个数量级的数据集中学习。此方法的核心是一个可学习的图语法,它可以通过一系列的生成法则来生成模型。不需要任何人工帮助,这些生成规则可以从训练数据中自动构建。此外,附加的化学知识可以通过进一步的语法优化来加进模型里。学习完的图语法仅仅通过三个各包含约20个样本的单位数据集,就可以在生成高质量分子任务中获得最先进的结果。此论文的方法在只有117个训练样本的化合物合成任务中获得了很好的结果,与使用了81k的数据点的现有方法性能相当。  

image.png

1.介绍

本文提出了一种将复杂图语法构造与相对简单有效的学习技术相结合的生成模型。特别是,该语法包含了不同大小的子结构(即原子级以上),构建过程直接优化了各种化学指标(如分布统计和合成能力),同时满足特定的化学约束(如价限制)。此外,此方法具有符号知识表示的优点:可解释性和数据高效性。此论文的评估重点是聚合物,特别是他们的单体构建块。作者表示,此模型适用于任意分子。


2.方法

分子超图

image.png

image.png

图1 萘二异氰酸酯的超图表示

形式语法

image.png

图语法

image.png

论文专注于分子图的形式语法——图语法,而不是字符串。如图3所示,生成规则的左右侧都是图。这些图包含非终点节点、终点节点、代表性原子。白色节点是锚节点,它不会从左侧变为右侧。

image.png

图3 使用图2的图语法的萘二异氰酸酯的生成过程

 

基于图语法的分子图类似于基于字符串语法的图(如图3)。为了确定生成规则是否适用于每一步, 作者用子图匹配来测试当前图是否包含与规则左侧同态的子图。由于子图通常规模较小,因此匹配过程在实践中是有效的。

整体流程

image.png

图4

 

如图4所示,作者的算法是由一组分子结构和一组评估指标(如多样性和可合成性)构成。目的是学习一种可以用于分子生成的语法。为此,首先将分子看作一个超图。

image.png

图5

语法构造是一个自底向上的过程,通过压缩超边(如图5)来迭代地创造生成规则。压缩超边是由一个含参函数来确定,以神经网络的形式来实现。作者同时执行多个随机搜索来获得多个语法,由输入的度量值来计算。此方法学习如何构建语法,用最大化输入指标地对分子进行采样。因此特定领域地知识可以应用到基于语法的生成模型里。


构建自底向上的图语法


自底向上的搜索是用来从最基层开始构建生成规则,包含了分子超图的单个超边。通过迭代采样一组超边,然后将他们压缩成一个节点来构建语法。


压缩的每一步里,都会构造一个生成规则并加入到语法里。这样就会得到有着更少的节点和边的新超图。作者同时对所有的输入分子进行超边选择和规则构建,直到所有的超边被压缩。

image.png

此方法有几个特点:(1)作为生成模型,语法可以复制所有的输入分子。(2)由于生成规则是由真实的分子的子图构造而成,所以自然符合化合价的条件。因此,生成的所有分子都是有效的。(3)生成不仅包含训练数据。而且还可推测生成先前所见示例分布之外的分子结构。(4)所构建的语法基本遵守Chomsky范式,易于分析,易于解释。


优化图语法


观察到到语法结构完全由被选择的超边集序列决定,作者将语法的优化转变成被选择的超边序列的优化。因此,优化问题的变量是选择序列,目标是使评价指标最大化。


作者将超边序列的搜索定义为MSF(最小生成森林)问题。自底向上的语法构建过程可以看作是搜索所有输入图的森林。注意此论文关注的是加入MSF的超边顺序,而不是MSF本身的架构。超边的顺序由边权函数决定,它将分子超图中的每条超边映射为标量。超边选择的优化相当于边权函数的优化。

image.png

3.结果


作者使用了三个小的数据集,每个数据集都代表了一个特定的单体类。这些都是作者从资料中手动整理的:丙烯酸酯,扩链剂和异氰酸酯,分辨包含了32个,11个,11个样品。


为了比较以及预训练基线,作者还使用了来自St.John等人和Jin等人的81k个单体的大型数据集。作者比较了多种方法:GraphNVP,JT-VAE,HierVAE,MHG,STONED。本文的方法缩写为DEG。


在小规模,特殊属性的数据集上的结果


表1:在异氰酸盐上的结果:作者省略了创新性,因为所有方法都达到了100%;由GraphNVP生成的分子有效率较低,无法对某些指标进行合理的评价(-)。

image.png

表2:丙烯酸酯和扩链剂的结果。由于GraphNVP生成的分子效度较低,无法对某些指标进行合理的评价(-)。

image.png

观察发现,GraphNVP的性能相当差。VAEs和现有的基于语法的系统在某些指标上表现得很好,但在RS和Membership指标上得分很低。相比之下,对于三个数据集上的Membership和Retro*分数,作者的方法明显优于其他方法。而且在其他指标上也是最好的或极具竞争性的。


在大规模的数据集上的结果


表3:聚合物大型数据集上的结果。GraphNVP和SMILESVAE生成的分子效度较低,无法对某些指标进行合理评估(-)。DEG在0.15%的训练数据(117个样本)上进行训练。

image.png

结果如表3所示。总而言之,一些SOTA系统,如SMILESVAE和GraphNVP,无法捕获任何分布细节,大多生成无效分子。JT-VAE和基于语法的基线(MHG、STONED)虽然相对于前者表现较差,但它们的样本质量是合理的。HierVAE在除倒角距离外的所有指标上都表现得非常好。作者的方法大体上可以与后者相竞争(仅在0.15%的数据上训练),而且可以获得更好的样本质量,特别是倒角距离是后者的两倍高。


4.总结

作者提出了一种结合图语法构造和领域优化的数据高效性生成模型。语法包含了不同大小的子结构,结构可以直接优化各种化学指标。在三个小尺寸聚合物数据集和一个大数据集上的大量实验证明了该方法的有效性。这个的系统是唯一一种能够在特定的类中生成单体且有高成功率的系统。将属性预测模型与此论文的图语法结合起来,将有助于生成优良分子。


相关文章
《构建高效K近邻算法:降低计算复杂度的策略与实践》
K近邻(KNN)算法在机器学习中广泛应用,但面临计算复杂度高的问题。为提高效率,可通过以下方法优化: 1. **数据预处理**:降维(如PCA、LDA)和标准化,减少维度和尺度差异。 2. **优化距离度量**:选择合适的距离函数或自适应调整,提升相似性判断。 3. **加速搜索**:使用KD树、球树、LSH等数据结构,减少搜索范围。 4. **近似最近邻**:随机投影、基于聚类的近似算法,降低计算成本。 5. **并行与分布式处理**:利用多核、GPU或分布式框架加速计算。 6. **融合其他算法**:结合神经网络或聚类算法,先提取特征或聚类再应用KNN。
29 13
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
175 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
412 1
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
【机器学习】R-squared系数有什么缺点?如何解决?
【5月更文挑战第20天】【机器学习】R-squared系数有什么缺点?如何解决?
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
总结机器学习中7种离散特征编码方式优缺点
整理总结对比了7种机器学习离散特征编码方式的优缺点
251 0
人工智能中非平衡数据处理方法、欠采样、过采样讲解(简单易懂)
人工智能中非平衡数据处理方法、欠采样、过采样讲解(简单易懂)
301 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等