今天给大家介绍的是来自蒙特利尔算法研究所、克莱姆森大学等联合发表在ICML2020上的文章。在本文中,作者针对目前新型化学结构的生成方法不能确保所提出的分子结构的合成可及性,也不能提供所提出的小分子的合成路线这一问题,提出了一种用于新药设计的强化学习机制:正向合成的策略梯度,简称为PGFS。
1
背景
在过去的十年中,机器学习和人工智能技术在化学科学和药物发现中的作用大幅提升。但是,大多数新药设计方法并未明确说明其合成可及性,因此无法确保所生成的分子是否可以在物理世界中生成。
将合成知识直接嵌入到新药设计中将使我们能够将搜索限制在合成可及的路线上,并在理论上保证该算法提出的任何分子都可以轻松生成。为实现这一目标,作者提出了一种由强化学习(RL)支持的正向合成模型,名为正向合成的策略梯度(PGFS)。这项工作的主要贡献是开发了一种RL框架,该框架能够应对多步虚拟化学合成的巨大离散作用空间,并使分子生成偏向最大化黑盒目标函数的化学结构,从而在该过程中生成完整的合成路线。并且展示了该算法在标准度量上达到了最先进的性能,比如QED和惩罚clogP。此外通过实验证明,该算法生成的分子相对于现有的基准,对三种与HIV相关的生物目标具有更高的预测活性。
2
模型
该模型的流程为,在每个时间步选择反应物与现有分子反应生成产物,其是下一时间步的分子。现有分子被认为是当前状态,代理选择了一个进一步用于计算反应物的动作。产物(被认为是下一个状态)由基于两种反应物(现有分子和反应物)的环境决定。在最初的时间步中,作者从所有市售反应物列表中随机取样初始分子。为了克服存在超过十万个可能的第二反应物的大的离散作用空间的限制,作者引入了一个中间作用,该作用减少了通过选择反应模板而考虑的反应物空间。以SMARTS语言编码的反应模板根据子图匹配规则定义了允许的化学转化。利用化学信息学工具如RDKit确定性地将它们应用于反应物分子组以提出假设的产物分子。另外作者强加了使该子结构在结构中仅出现一次的附加约束。
该主体包括三个可学习的网络f,π和Q。根据Actor-Critic框架,我们的Actor模块Π由f和π网络组成,而Critic由估计状态-动作对的Q值的Q网络组成。在任何时间步t,作用子模块的输入为状态,输出为动作,该动作为在所有初始反应物的特征表示空间中定义的张量。在给定当前状态的情况下,f网络可预测最佳反应模板。使用最佳反应模板和现有分子作为输入,π网络计算。环境将状态,最佳反应模板和动作作为输入,并计算奖励,下一个状态和一个布尔值,以确定回合是否结束。
在训练的初始阶段,必须注意f网络选择的模板可能无效。为了克服这个问题并确保梯度通过f网络传播,我们首先将模板T与模板掩码Tmask相乘,然后使用Gumbel softmax获得最佳模板:
3
实验
3.1 预测模型
为了测试PGFS在计算机概念验证中新药设计的适用性,作者针对与HIV相关的三个生物学靶标(CCR5,HIV整合酶,HIV逆转录酶(HIV-RT))开发了预测模型作为评分函数。公共领域中可用的生物活性数据使我们能够使用定量结构-活性关系建模(QSAR)概念开发基于配体的机器学习模型。
3.2 实验设置
3.2.1模型设置
f网络使用四个全连接层,在隐藏层中具有256、128、128个神经元。π网络使用四个全连接层,其中隐藏层包含256、256、167个神经元。所有隐藏层都使用ReLU激活,而最后一层使用tanh激活。类似地,Q网络还使用四个完全连接的层,在隐藏层中具有256、64、16个神经元,其中对所有隐藏层使用ReLU激活,对于最后一层使用线性激活。使用Adam优化器训练所有网络,其中f和π网络的学习率为1e-4,而Q网络的学习率为3e-4。
3.2.2 基线设置
在这项研究中,特定的基线随机搜索(RS)首先是随机初始反应物,然后是随机反应模板T的选择,然后是兼容反应物的随机选择。该反应的产物在下一个反应中代替随机初始反应物。重复此过程,直到达到最大合成步数或直到产品中没有反应中心为止。在这项研究中,作者将一次允许的最大合成步数定义为5。继续随机搜索,直到达到停止标准,例如搜索时间或反应次数。在表1和表2的随机搜索过程中使用的允许的反应步骤总数为400,000。
3.3 结果分析
3.3.1 基线比较
在QED和惩罚的clogP奖励与随机搜索(RS)上的PGFS性能比较-据观察,PGFS的性能明显优于随机基线。给定相同的初始化合物,可以观察到每个分数的明显分布变化,这证实了训练是成功的。
上图展示了随机搜索和PGFS在三个HIV相关QSAR评分上的性能比较。其中,(a)、(b)和(c):迭代5步虚拟合成每一步的相应基于QSAR评分的箱型图。每个箱型图中的第一步(反应步骤=0)显示了初始反应物的分数。(d)、(e)和(f):在没有广告过滤的5步迭代中基于QSAR的最大奖励的分布。(g)、(h)和(I):在从两个集合中过滤出不满足相应QSAR模型的AD标准的化合物之后,在5步迭代中基于QSAR的最大奖励的分布。
在HIV奖励与随机搜索(RS)上的PGFS性能比较-接下来,对HIV奖励实施了这两种算法,并从上图得出类似的观察结果,即与使用PGFS获得的结构相关的奖励明显优于RS 方法。此外,我们从两个组中筛选出不符合QSAR模型AD标准的化合物,并且在上图(g),上图(i)和上图(h)中,对于PGFS,仍清楚地观察到了向高分化合物的分布转移。
3.3.2 量化性能基线
表1 不同评分函数性能比较
表1将PGFS性能与不同评分函数的不同模型进行了比较。与所有其他方法相比,PGFS在每个定义的任务中都生成了最高分数的化合物。PGFS达到了在新药设计研究中报告的最大QED分数。
表2 在每种使用的方法和Enamine的构成要素中,预测的HIV得分最高的前100个分子中的平均值±1std。
在将任务定义为HIV相关靶标的预期最大半数抑制浓度(pIC50)的单目标最大化的概念验证中,与新药设计和随机搜索相比,在给定了本研究的设置下PGFS在获得的最大奖励(表1)和前100名最高奖励的平均值(表2)比较中得分最高。
上图展示了由PGFS生成的具有针对CCR5的最高预测活性的化合物的结构和模型使用的合成路线。
4
结论
在这项工作中,作者介绍了RL的正向合成技术在新药设计中的首次应用PGFS,以寻找可合成的小分子空间。作者使用层次组织架构,其中第二个部分是在连续空间中计算的,然后该环境将其转换为最佳有效反应物。PGFS在QED和惩罚的clogP任务上实现了最先进的性能。另外作者还在模拟药物发现过程的计算机模拟场景中展示了该方法的优越性。PGFS在研究使用的所有任务中表现出稳定的学习能力,并且与现有基准相比具有更丰富的高分生成的化合物。