今天给大家介绍的是拜耳作物科学公司、拜耳公司机器学习研发部和遗传毒理学部于2020年1月联合发表在Nature Communications上的一篇论文,这篇文章通过一种生成模型进行分子的从头设计以及合成优化。该生成模型利用转录组学数据进行训练,这样可高概率地自动生成所需转录组谱的分子,在只提供所需状态的基因表达标记而无需对任何训练的化合物进行提前靶标注释的情况下,该模型就能自动为所需靶标设计类似活性的分子,并且得到了与活性化合物更相似的分子,这为药物研发提供了一种新的方法。
1
背景
药物研发是一个漫长而又艰难的过程,其困难在于理论上可能存在的1060个类药物分子中只有一小部分可以用于治疗,所以在药物发现过程中面临的挑战之一是苗头化合物(Hit)的识别。苗头化合物是指对特定靶标或作用环节具有初步活性的化合物,这一阶段决定了整个药物发现过程的起点。苗头化合物可能是天然配体,也可能是从文献、专利或者分子的结构信息中选取的分子。但对于新型靶标或者孤立靶标这种没有先前的信息可利用的分子,之前的方法例如使用组合库或者高通量筛选(HTS)费时费力,效率不高。后来随着计算机的发展,出现了基于计算方法或数据驱动的方式来辅助苗头化合物的识别,一类是从包含大量分子的虚拟筛选库的虚拟筛选技术,通常这种方法是利用分子的相似性或者分子对接技术(molecular docking),一类是利用逆QSAR、粒子群优化或者遗传算法等自动生成具有特定性质的新分子,但总体来说这些方法效果也不是特别好。而在如今的人工智能时代,深度生成模型的出现使得药物分子的生成得以很好的解决。生成模型能够从特定训练样本学习到样本的属性,然后自动生成具有类似特征的新实体,所以其广泛应用于分子设计、组合优化和苗头化合物的发现,但是现有的分子生成模型几乎都忽略了配体与靶标的相互作用,针对该问题,作者提出了一种将条件GAN网络和WGAN-GP(带梯度惩罚的WGAN)网络结合在一起的生成模型,该生成模型将系统生物学和分子设计联系在一起,在仅使用靶标基因敲除的基因表达特征即可生成活性分子,使得该模型可在无先验知识的情况下生成类苗头化合物,并且是多功能的,在同一模型下可为几种靶标或生物状态下设计分子。
2
模型
首先作者利用Grammar VAE模型将分子的SMILES序列编码到一个隐空间,随后可以将其解码为重建原始SMILES序列所需的语法生成规则集。其次,为了得到更高清晰度的合成数据,作者使用StackGAN,核心思想就是搭建两个生成器(generator),主要采用一种逐步递进的思想,将分子生成分为两个阶段来操作,利用第二阶段来改进第一阶段生成的结构,两个阶段的区别在于第二阶段的输入数据不使用随机生成的向量,而是第一阶段生成的结果。整个模型的图示结构如下:
两个阶段使用的具体GAN网络是将条件GAN网络和WGAN-GP网络结合,利用条件GAN的原因是引入基因表达特征,将其作为条件c,而WGAN-GP是在WGAN上提出的改进模型,WGAN在处理Lipschitz限制条件时直接采用了weight clipping,而处理Lipschitz条件时直接把weight限制住也带来了一些问题,例如导致很容易一不小心就梯度消失或者梯度爆炸。在两者模型结合下第一阶段的判别器和生成器的损失函数如下:
其中,x是分子表示,c是作为条件的基因表达特征,它们都是从真实数据分布preal中采样,而第一阶段的输入数据z满足高斯分布,函数f0是衡量与分子表示相对应的基因表达特征的概率,是正则化的系数,前者是平衡了梯度惩罚项对判别器损失的影响,后者是对f0进行加权,根据经验将两者设置为10.第二阶段的判别器和生成器的损失函数与第一阶段的区别在之前已经说明,具体形式如下:
3
实验
从化合物诱导的基因表达中生成分子
结果是每个特征产生约8.5%的有效分子,大约8.2%是独有的SMILES表示形式,只有约1.6%是易合成的,而且StackGAN的第二阶段生成的分子数并没有比第一阶段多。另外,在分子生成中,参考化合物和训练集的基因表达谱会有很大的欧几里得距离,这样会导致和参考化合物的相似性降低。(仅为一部分,其余请参考原文)
设计类抑制剂分子
下图显示了几个靶标各自产生的分子及其最接近的已知活性分子的示例。(仅为一部分,其余请参考原文)
从上图可以看到在许多情况下,所产生的分子与活性分子共享官能团,甚至具有相似的分子长序列片段。从这些例子中可以看出,进行基因敲除后靶标的基因表达特征能够将分子的生成引向与活性分子相关的化学空间的特定区域。
优化长序列片段(scaffolds)
下图是实验中根据特定靶点优化的一些分子示例,通过使用AKT1,EGFR,ERG和TP53的基因敲除后的基因表达优化苯环而生成的分子,并且在圆圈外显示了和它们的活性最相关和最邻近的分子。
相似性搜索和本模型的对比
用于化学空间的特定区域
4
总结
作者提出了一种基于条件生成对抗网络的方法,该方法从特定的基因表达特征中生成了新的分子,由于不依赖靶标注释和活性数据使得它在诸如靶标脱孤中无法获得此类信息的情况下非常有用。但该方法仍有改进的空间,例如,评估是否可以将其应用于先导化合物的优化或寻找产生具有与特定药物靶标活性相关的已知结构特征的化合物的方法。作者也正计划扩展此方法,以自动生成具有多目标特征或能够逆转毒理学相关或疾病相关基因表达特征的分子。