今天给大家介绍的是来自北京大学计算机系本科生史晨策等发表在ICML2020上的关于逆合成预测的一篇文章。在本文中,作者通过将目标分子图转化为一组反应物分子图,提出一种称为G2Gs的不依赖模板的框架以解决逆合成预测问题,该方法性能优越,排除了对领域知识的需要,并且具有很好的扩展性。
1
背景
计算化学中的一个基本问题是找到一组反应物以合成目标分子,也就是逆合成预测,而这种技术通常用于药物发现。由于所有可能的转换的搜索空间都很大的,所以随着计算机广泛应用于各个领域,这几十年学者们一直也在寻找如何通过计算机辅助逆合成分析,现代计算机的发展让机器学习成为这个时代的标志,很自然的想到利用机器学习进行逆合成预测。用于逆合成分析的机器学习一类是需要基于模板的目标分子与大量反应模板相匹配的方法,可是现有技术水平使得该方法计算量非常大,并且存在在新的目标结构和反应类型上的泛化能力差等问题。而基于无模板的逆合成研究将逆合成预测表述为序列间问题,又存在无法有效反映分子中原子之间的复杂关系等问题。因此,这些方法无法捕获丰富的化学环境及其分子之间的相互作用,从而导致性能不佳。
针对上述问题,作者提出了一种新的无需基于模板的模型——G2Gs(Graph to Graph),将每个分子表示为一个图,并将逆合成预测表述化为一个图到图的翻译问题。利用分子的强大图形表示方法,并通过大量的分子反应数据训练证明G2Gs的性能明显优于现有的无模板基线,具有应用于真实世界的潜力。
2
框架
G2Gs框架由两个关键部分组成:(1)反应中心识别模块,它从目标分子中分离合成子,并将一对多图翻译问题简化为多个一对一翻译过程;(2)变分图翻译模块,其将合成子翻译成最终反应物图。由于合成子可能会在不同的反应环境中转化为不同的反应物,因此引入了低维潜变量来处理反应物预测的不确定性。
作者将逆合成任务表述为一对多的图到图转换问题。具体来说,首先使用图神经网络来估计产物图的所有原子对的反应性分数,并且具有高于阈值的最高反应性分数的原子对将被选择作为反应中心。然后,通过断开反应中心的键,将产物图拆分为合成子。最后,基于获得的合成子,通过一系列图变换生成反应物,其中使用潜向量来鼓励模型捕获变换的不确定性并生成各种预测。框架如图1所示。
图1 所提出方法的总体框架
G2Gs标识的反应中心用红色标记。首先通过断开反应中心将产物图分成合成子。然后,基于所得的合成子通过一系列图转换生成反应物。生成的分子支架由蓝色边界框框柱。
3
实验
作者在从专利数据库中获得的基准数据集USPTO-50k上评估模型,并将其与基于模板和无模板的方法进行比较,通过将预测分子的规范SMILES字符串与基本事实进行匹配来计算准确性,使用top-k精确匹配的准确性作为评估指标。
实验在已知的反应类别和未知的反应类别中评估了所提出方法的top-k精确匹配准确性,结果分别列于表1和表2。
表1 已知反应类别时的Top-k精确匹配度
表2未知反应类别时的Top-k精确匹配度
通过实验表明,G2Gs的性能明显优于现有的无模板方法,当反应类别已知时,top-1的精确匹配准确度相对提高了63%(表1中的第二列),当反应类别未知时,相对提高了29%(表2中的第二列)。
当与基于模板的方法进行比较时,表1和表2的结果表明,G2Gs接近或优于最新方法GLN,尤其是在k较小的情况下。但该方法排除了对领域知识的需要,并且可以很好地扩展到更大的数据集,这使得它在实践中特别有吸引力。
4
案例可视化
图2 成功案例的可视化
图2展示了G2Gs成功识别反应中心并将产物图转化为一组符合基本事实的反应物图的情况。图2所示的合成路线可分为两组,每组对应于图底部所示的反应模板。这些数字表明G2Gs确实从数据集中学习了领域知识。这种特性使其成为解决模板知识有限的实际问题的理想解决方案。
图3 不匹配案例的可视化
在图3中,作者还提出了一种情况,其中没有预测与实际情况相符。但这并不一定意味着G2Gs无法预测目标分子的合成路线。这是因为分子可以通过多种方式合成,而数据集中的基本事实并不是唯一的答案。为了验证这一假设,作者采用了正向反应预测模型,根据G2Gs产生的反应物预测产物分子。如图3底部所示,预测产物与逆向合成问题的目标分子完全匹配,这证实了G2Gs所做的预测确实有潜在的有效性。