ICML2020 | PGFS:如何保证生成分子是可合成的?强化学习来帮忙

简介: ICML2020 | PGFS:如何保证生成分子是可合成的?强化学习来帮忙

image.png

今天给大家介绍的是来自蒙特利尔算法研究所、克莱姆森大学等联合发表在ICML2020上的文章。在本文中,作者针对目前新型化学结构的生成方法不能确保所提出的分子结构的合成可及性,也不能提供所提出的小分子的合成路线这一问题,提出了一种用于新药设计的强化学习机制:正向合成的策略梯度,简称为PGFS。


1


背景


在过去的十年中,机器学习和人工智能技术在化学科学和药物发现中的作用大幅提升。但是,大多数新药设计方法并未明确说明其合成可及性,因此无法确保所生成的分子是否可以在物理世界中生成。


image.png

将合成知识直接嵌入到新药设计中将使我们能够将搜索限制在合成可及的路线上,并在理论上保证该算法提出的任何分子都可以轻松生成。为实现这一目标,作者提出了一种由强化学习(RL)支持的正向合成模型,名为正向合成的策略梯度(PGFS)。这项工作的主要贡献是开发了一种RL框架,该框架能够应对多步虚拟化学合成的巨大离散作用空间,并使分子生成偏向最大化黑盒目标函数的化学结构,从而在该过程中生成完整的合成路线。并且展示了该算法在标准度量上达到了最先进的性能,比如QED和惩罚clogP。此外通过实验证明,该算法生成的分子相对于现有的基准,对三种与HIV相关的生物目标具有更高的预测活性。


2


模型


该模型的流程为,在每个时间步选择反应物与现有分子反应生成产物,其是下一时间步的分子。现有分子被认为是当前状态,代理选择了一个进一步用于计算反应物的动作。产物(被认为是下一个状态)由基于两种反应物(现有分子和反应物)的环境决定。在最初的时间步中,作者从所有市售反应物列表中随机取样初始分子。为了克服存在超过十万个可能的第二反应物的大的离散作用空间的限制,作者引入了一个中间作用,该作用减少了通过选择反应模板而考虑的反应物空间。以SMARTS语言编码的反应模板根据子图匹配规则定义了允许的化学转化。利用化学信息学工具如RDKit确定性地将它们应用于反应物分子组以提出假设的产物分子。另外作者强加了使该子结构在结构中仅出现一次的附加约束。

image.png

该主体包括三个可学习的网络f,π和Q。根据Actor-Critic框架,我们的Actor模块Π由f和π网络组成,而Critic由估计状态-动作对的Q值的Q网络组成。在任何时间步t,作用子模块的输入为状态,输出为动作,该动作为在所有初始反应物的特征表示空间中定义的张量。在给定当前状态的情况下,f网络可预测最佳反应模板。使用最佳反应模板和现有分子作为输入,π网络计算。环境将状态,最佳反应模板和动作作为输入,并计算奖励,下一个状态和一个布尔值,以确定回合是否结束。

image.png

在训练的初始阶段,必须注意f网络选择的模板可能无效。为了克服这个问题并确保梯度通过f网络传播,我们首先将模板T与模板掩码Tmask相乘,然后使用Gumbel softmax获得最佳模板:

image.png

3


实验


3.1 预测模型


为了测试PGFS在计算机概念验证中新药设计的适用性,作者针对与HIV相关的三个生物学靶标(CCR5,HIV整合酶,HIV逆转录酶(HIV-RT))开发了预测模型作为评分函数。公共领域中可用的生物活性数据使我们能够使用定量结构-活性关系建模(QSAR)概念开发基于配体的机器学习模型。


3.2 实验设置


3.2.1模型设置


f网络使用四个全连接层,在隐藏层中具有256、128、128个神经元。π网络使用四个全连接层,其中隐藏层包含256、256、167个神经元。所有隐藏层都使用ReLU激活,而最后一层使用tanh激活。类似地,Q网络还使用四个完全连接的层,在隐藏层中具有256、64、16个神经元,其中对所有隐藏层使用ReLU激活,对于最后一层使用线性激活。使用Adam优化器训练所有网络,其中f和π网络的学习率为1e-4,而Q网络的学习率为3e-4。


3.2.2 基线设置


在这项研究中,特定的基线随机搜索(RS)首先是随机初始反应物,然后是随机反应模板T的选择,然后是兼容反应物的随机选择。该反应的产物在下一个反应中代替随机初始反应物。重复此过程,直到达到最大合成步数或直到产品中没有反应中心为止。在这项研究中,作者将一次允许的最大合成步数定义为5。继续随机搜索,直到达到停止标准,例如搜索时间或反应次数。在表1和表2的随机搜索过程中使用的允许的反应步骤总数为400,000。


3.3 结果分析


3.3.1 基线比较


在QED和惩罚的clogP奖励与随机搜索(RS)上的PGFS性能比较-据观察,PGFS的性能明显优于随机基线。给定相同的初始化合物,可以观察到每个分数的明显分布变化,这证实了训练是成功的。

image.png

上图展示了随机搜索和PGFS在三个HIV相关QSAR评分上的性能比较。其中,(a)、(b)和(c):迭代5步虚拟合成每一步的相应基于QSAR评分的箱型图。每个箱型图中的第一步(反应步骤=0)显示了初始反应物的分数。(d)、(e)和(f):在没有广告过滤的5步迭代中基于QSAR的最大奖励的分布。(g)、(h)和(I):在从两个集合中过滤出不满足相应QSAR模型的AD标准的化合物之后,在5步迭代中基于QSAR的最大奖励的分布。


在HIV奖励与随机搜索(RS)上的PGFS性能比较-接下来,对HIV奖励实施了这两种算法,并从上图得出类似的观察结果,即与使用PGFS获得的结构相关的奖励明显优于RS 方法。此外,我们从两个组中筛选出不符合QSAR模型AD标准的化合物,并且在上图(g),上图(i)和上图(h)中,对于PGFS,仍清楚地观察到了向高分化合物的分布转移。


3.3.2 量化性能基线


表1 不同评分函数性能比较

image.png

表1将PGFS性能与不同评分函数的不同模型进行了比较。与所有其他方法相比,PGFS在每个定义的任务中都生成了最高分数的化合物。PGFS达到了在新药设计研究中报告的最大QED分数。


表2 在每种使用的方法和Enamine的构成要素中,预测的HIV得分最高的前100个分子中的平均值±1std。

image.png

在将任务定义为HIV相关靶标的预期最大半数抑制浓度(pIC50)的单目标最大化的概念验证中,与新药设计和随机搜索相比,在给定了本研究的设置下PGFS在获得的最大奖励(表1)和前100名最高奖励的平均值(表2)比较中得分最高。

image.png

上图展示了由PGFS生成的具有针对CCR5的最高预测活性的化合物的结构和模型使用的合成路线。


4


结论


在这项工作中,作者介绍了RL的正向合成技术在新药设计中的首次应用PGFS,以寻找可合成的小分子空间。作者使用层次组织架构,其中第二个部分是在连续空间中计算的,然后该环境将其转换为最佳有效反应物。PGFS在QED和惩罚的clogP任务上实现了最先进的性能。另外作者还在模拟药物发现过程的计算机模拟场景中展示了该方法的优越性。PGFS在研究使用的所有任务中表现出稳定的学习能力,并且与现有基准相比具有更丰富的高分生成的化合物。


目录
相关文章
|
4月前
|
机器学习/深度学习 算法
深度学习之因果发现算法
基于深度学习的因果发现算法是一个旨在从复杂数据中自动挖掘变量之间潜在因果关系的研究领域。它结合了传统因果推理方法与深度学习的强大特征提取能力,帮助应对高维、非线性数据中的因果结构发现。
251 9
|
8月前
|
人工智能 调度 vr&ar
探索生成模型的新篇章:扩散模型的理论与实践
【4月更文挑战第11天】扩散模型作为新兴的生成工具,基于变分自编码器(VAE)和去噪扩散概率模型(DDPM),通过逐步添加噪声生成样本,广泛应用于图像和视频生成,展示出在逆问题解决上的潜力。尽管训练复杂且计算需求高,研究者正通过新理论框架和SDE方法优化模型,以应对挑战并提升性能。
91 1
探索生成模型的新篇章:扩散模型的理论与实践
|
8月前
|
人工智能
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
【4月更文挑战第3天】北京大学研究团队在ICLR 2024会议上提出了“自适应膨胀”(AdaInf)策略,改善对比学习效果。该策略针对数据膨胀(使用扩散模型生成图像增强)可能导致对比学习性能下降的问题,通过动态调整数据增强强度和混合比例,提升多种对比学习方法的性能。实验显示,AdaInf在不使用外部数据的情况下,使CIFAR-10线性准确率达到94.70%,刷新纪录。研究还揭示了数据增强与数据膨胀的互补关系,以及它们如何影响泛化误差。然而,AdaInf在大量生成数据和不同质量数据上的应用仍存在局限性。
98 3
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
|
8月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
133 0
|
机器学习/深度学习 人工智能 达摩院
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(1)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
188 0
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(2)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
185 0
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
194 0
|
机器学习/深度学习 人工智能 编解码
ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构
ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构
142 0
|
机器学习/深度学习 人工智能 算法
卷!MIT泊松流生成模型击败扩散模型,兼顾质量与速度
卷!MIT泊松流生成模型击败扩散模型,兼顾质量与速度
161 0
|
机器学习/深度学习 传感器 机器人
DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下
人类能够模仿别人的行为,根据给定的目标来规划自己的行动。DeepMind最近发布了一个新模型,赋予机器人相同的能力,最终生成的模型与操作器、任务都无关,具有更好地通用性。
206 0
DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下