ACM SIGKDD | MoFlow:基于流的分子图生成模型

简介: ACM SIGKDD | MoFlow:基于流的分子图生成模型

image.png

今天给大家介绍的是康奈尔大学医学院(Weill Cornell Medicine)健康科学系(Department of Population Health Sciences)的博士后研究助理臧承熙于2020年4月发表在ACM SIGKDD的一篇论文,这篇文章提出一种新的基于流的深度图生成模型MoFlow,用于分子图的生成,是同类的第一个不仅可以一次通过可逆映射有效地生成分子图,而且还具有化学有效性保证的流模型。


1


背景


药物发现是一个漫长、成本高昂以及失败率高的过程,而深度生成模型的出现以数据驱动的方式探索较大的化学空间很好地加快了药物发现的过程。这些模型通常是对分子图进行编码来学习一个连续的潜空间,由目标特性引导通过对学习的潜空间解码生成新分子,包括基于变分自编码器的,基于生成对抗网络的以及基于自回归的模型,但是使得生成的新分子具有化学有效性是十分困难的,因为在保证生成的原子和键是多类型的同时,还要满足化学键价的约束。近年来基于流的模型相继出现,例如NICE,RealNVP以及Glow模型,用于分子图生成的主要包括GraphAF,GraphNVP和GRF,GraphAF模型是基于自回归流的模型,在分子图生成中达到了最先进的性能。GraphAF通过添加每个新原子或键,然后进行有效性检查,以顺序方式生成分子。GraphNVP和GRF也用于生成分子图,但是无法保证化学有效性,因此在产生有效且新颖的分子方面表现不佳。不过值得注意的是,基于流的模型是唯一可以记住并精确重建所有输入数据的模型,同时具有生成更多新颖,独特和有效分子的潜力。


作者基于流模型又提出了一种新的称为MoFlow的分子图生成模型,其主要贡献在于该模型不仅通过可逆映射一次性生成分子图,而且具有化学有效性保证,并且提出了Glow模型的变体来生成键(边),以及通过新的图条件流生成给定键的原子,然后将它们组装成有效的分子图,并且MoFlow与目前最先进的基于VAE的模型,基于自回归的模型和三个基于流的模型相比,在分子图的生成,重构,优化等方面获得了最优性能。


2


模型


将分子图视为由原子作节点,键作边组成的无向图,其数学符号可记为

image.png

其中,集合有n个原子,k种原子类型,A(i,k)=1代表节点i是k型原子,集合代表键(边),键有c种类型,B(c,i,j)=1代表原子i和j之间以c类型的键连接。

该模型的目标函数如下:

image.png

上述式子是利用条件概率,将整个模型分成两个部分,一部分是学习在给定键下的原子(节点)的条件分布和另外一部分学习键(边)的分布。

我们知道在生成模型中一个重要的目标是得到数据的概率分布和学习数据内部的隐藏结构,而途径之一是学习数据表示,所以首先利用图条件流学习原子的表示。假设

image.png

是给定键下的原子数据的表示,

image.png

为映射,为了可以直接采用且不丢失信息,这要求

image.png

是可逆的,一旦我们得到了

image.png

的分布,便可以从中抽样,利用逆映射得到A|B,并且利用雅克比矩阵给出A|B的概率分布,下述公式为其对数形式:

image.png

和基于流的RealNVP、Glow模型一样,为了得到可逆映射,都引入了仿射耦合层,只不过由于MoFlow是在图上的模型,所以需要依靠图卷积操作来完成,这里的图卷积是利用关系图卷积网络(R-GCN)来完成的,而且仿照RealNVP引入mask操作,将输入分割成两个部分A1和A2。

image.png

将上述式子求逆,即可得到A1和A2。

在学习原子表示的时候,为了保证数据稳定性,最后还加入了Glow模型提出的ActNorm层,来取代BN层,方法为利用初始的batch的均值和方差去初始化

image.png

两个参数,具体做法是

image.png

,类似于NICE模型中的尺度变换。

在学习键的数据表示上,采用了基于Glow的思想,和上述学习原子表示的步骤相似,并且为了数据稳定性,同样引入了Glow模型中的1*1卷积操作。

最后是进行化学有效性验证,主要是对原子和键组合后是否符合化学上键价的约束,采用的公式如下:

image.png

其中,c为键的类型(单键,双键,三键),与其他的模型不同,作者加入了形式电荷Ch的约束,这种效应可能为带电原子引入额外的键。例如,铵[NH4]+的N可能具有4个键,而不是3。类似地,S+和O+的可能具有3个键而不是2。

image.png

3


实验


作者从以下四点出发进行全方面的验证MoFlow的性能,主要包括1)分子图生成和重建;2)可视化连续潜空间;3)生成具有优化特性的新式分子图;4)化学相似性。同时作者与JT-VAE、GCPN、MolecularRNN、GraphNVP、GRF、GraphAF这6个模型在数据集QM9和ZINC250K进行了比较。


分子图生成和重建

image.png

作者想通过实验验证MoFlow是否可以记忆和重建所有训练分子数据集以及是否可以生成尽可能多的新颖,独特和有效的分子,实验证明在QM9和ZINC250k数据集上,MoFlow在所有六个指标上均优于最新模型。由于基于流的模型具有可逆性,MoFlow建立了从输入分子M到其对应的潜向量Z的一对一映射,从而实现了100%的重建率。


可视化连续潜空间

image.png

该实验验证了MoFlow是否可以将分子图嵌入到连续潜空间中,并具有合理的化学相似性,上图可发现潜空间非常平滑,并且两个潜在点之间的插值仅稍微改变了分子图,在MoFlow学习到的这样一个连续的潜空间中进行搜索是分子特性优化和约束优化的基础。

生成具有优化特性的新式分子图

image.png

此项实验意为验证MoFlow是否可以生成具有优化特性的新分子图,结果表明MoFlow生成了比所有基线都具有最佳QED值的新分子。

化学相似性

image.png

作者验证了MoFlow能否生成具有优化特性的新颖分子图的同时尽可能保持化学相似性,结果表明MoFlow发现了最相似的新分子,与最新的VAE模型JT-VAE相比, MoFlow具有更高的相似性评分和更好的性能。


4


总结


作者提出了一种用于分子图生成的新型深度图生成模型MoFlow。MoFlow是最早的基于流的模型之一,该模型不仅通过可逆映射一次性生成分子图,而且具有化学有效性保证。MoFlow包含用于键的Glow模型的变体,用于给定键的原子的新型图条件流,然后将它们和有效性校正相结合。MoFlow在分子生成,重建和优化方面达到了最先进的性能。对于将来的工作,作者尝试结合顺序生成模型和一次性生成模型的优点来生成化学上可行的分子图。


目录
相关文章
|
8月前
|
机器学习/深度学习 缓存 算法
【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络
【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络
|
机器学习/深度学习 传感器 编解码
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
|
8月前
|
机器学习/深度学习 编解码 数据可视化
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
|
自然语言处理
【论文速递】ACL 2021-CasEE: 一种用于重叠事件抽取的级联解码联合学习框架
【论文原文】:A Joint Learning Framework with Cascade Decoding for Overlapping Event Extraction
135 0
|
机器学习/深度学习 人工智能 自然语言处理
CasEE: 一种用于重叠事件抽取的级联解码联合学习框架 论文解读
事件抽取(Event extraction, EE)是一项重要的信息抽取任务,旨在抽取文本中的事件信息。现有方法大多假设事件出现在句子中没有重叠,这不适用于复杂的重叠事件抽取。
301 0
|
机器学习/深度学习 算法 数据可视化
做语义分割不用任何像素标签,UCSD、英伟达在ViT中加入分组模块,入选CVPR2022
做语义分割不用任何像素标签,UCSD、英伟达在ViT中加入分组模块,入选CVPR2022
140 0
做语义分割不用任何像素标签,UCSD、英伟达在ViT中加入分组模块,入选CVPR2022
|
机器学习/深度学习 人工智能 自然语言处理
中山大学团队使用端到端图生成架构进行分子图编辑的逆合成预测
中山大学团队使用端到端图生成架构进行分子图编辑的逆合成预测
192 0
|
机器学习/深度学习 人工智能 算法
IEEE TPAMI | 火山语音提出多源迁移高斯回归模型,效果超越多个SOTA方法
IEEE TPAMI | 火山语音提出多源迁移高斯回归模型,效果超越多个SOTA方法
211 0
|
机器学习/深度学习 人工智能 达摩院
EMNLP 2022论文解读 | SOND:基于显式语音重叠建模的说话人日志模型
Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。 近期,阿里巴巴达摩院语音实验室的论文“Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis”被EMNLP 2022 主会长文接收。该论文展现了达摩院语音实验室在多方会议分
393 0
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》
【论文写作分析】之二 《基于类别混合嵌入的电力文本层次化分类方法》