今天介绍美国密歇根州立大学Guo-Wei Wei团队近期在bioRxiv上发表的论文,该论文利用基于机器智能的复合型生成网络(GNC)生成一系列候选药物,并测试这些药物和部分艾滋病药物对新型冠状病毒的潜在效用。
1.背景
刺突蛋白(S-protein)是一种多功能分子,可以介导冠状病毒进入宿主细胞。据研究,新型冠状病毒和SARS病毒的刺突蛋白具有较高的氨基酸序列同源性,且二者的刺突蛋白都与人类细胞受体-血管紧张素转换酶2 (ACE2)结合,因此可以使用相同的手段阻止刺突蛋白与ACE2结合。刺突蛋白可以被宿主细胞中类似呋喃的蛋白酶裂解成两个功能单位,S1和S2。其中S1组成受体结合域(RBD),通过与宿主受体结合促进病毒感染,因此,控制感染的一种方法是寻找蛋白酶抑制剂来阻止新型冠状病毒的刺突蛋白裂解成S1。作者利用复合型生成网络(GNC)来探索治疗新型冠状病毒的潜在蛋白酶抑制剂,并评估它们的可用药特性。此外,作者还研究了艾滋病病毒蛋白酶抑制剂Aluvia和Norvir用于治疗新型冠状病毒的潜力。
2.方法
作者利用新开发的复合型生成网络(GNC)平台设计抗冠状病毒候选药物。如图1所示,第一部分是一个由编码器,隐空间,分子生成器和解码器构成的生成网络。该生成网络以分子SMILES字符串为输入,生成新分子的SMILES字符串,并将其当作第二部分的输入。第二部分是一个基于二维指纹的深度神经网络(2DFP-DNN),用于评估可用药特性并进行筛选。第三部分为MathPose和MathDL模型,MathPose用于预测2DFP-DNN选择的复合物的三维结构信息;MathDL用于预测MathPose生成的三维复合物的生物活性。第三部分预测的可用药特性将被用来作为选择候选药物的指标。
图1 复合型生成网络的示意图。SMILES字符串被基于GRU的编码器编码为隐空间向量。这些向量被分子生成器改进,达到良好的可用药特性,如结合亲和力,配分系数等。生成的类药物分子向量被解码为SMILES字符串。基于二维指纹的多任务深度神经网络验证这些SMILES字符串的物理特性并进行筛选。将有希望的候选药物输入MathPose单元来生成3D结构,然后由MathDL进一步验证,以选择最终的候选药物。
2.1 Autoencoder
自动编码器由编码器,隐空间,解码器组成,其可以将一个分子的SMILES编码为隐空间向量X,利用分子生成器对X进行改进得到新分子X’,随后将X’解码回SMILES字符串。由于GRUs可以解决RNN模型的梯度消失问题,并且比LSTM适合中小尺寸的化合物序列,例如小分子SMILES字符串,因此由GRUs构成编码器和解码器。作者采用了预训练的自编码模型,隐空间的维度为512。
2.2 Molecule generator
在目前的方法中,分子生成器上设计新分子分为三步。第一步,利用预训练的深度神经网络DNN评价输入分子隐空间向量X的类药物特性,例如结合亲和力,溶解度,配分系数等。第二步,评价结果与目标值进行比较,构建损失函数:
其中为第i个属性的预先确定的权重。最后一步利用梯度下降算法优化损失函数。多轮优化使得小于给定阈值后,得到新分子的向量X’被解码回SMILES字符串。
2.3 2D fingerprint-based predictor (2DFP)
生成的新分子的smile字符串被传入到基于二维指纹的预测器(2DFPs)来重新评估可用药属性。这些预测器是预训练的深层神经网络,包含多个隐藏层,每一层上有数百甚至数千个神经元。网络的输入为新分子二维指纹,由软件ECFP和MACCS组合生成,共产生2214位特征(来自ECFP的2048位和来自MACCS的166位)。输出的药物属性包括结合亲和力、配分系数、溶解度等。
2.4 MathDL for druggable property predictions
MathDL是一个基于数学表示的深度学习平台,用于预测三维分子的各种用药特性。MathDL中使用的数学表示是代数拓扑、微分几何和基于图论的算法,这些算法在过去的许多年中不断发展并且被反复验证,它们在自由能预测和D3R Grand Challenges中的表现最佳。D3R Grand Challenges是计算机辅助药物设计的全球竞赛。各种数据集,特别是PDBbind数据集被用于深度学习网络的训练。
2.5 MathPose for 3D structure prediction
MathPose是一个三维结构预测器,它可以将SMILES字符串转换为分子的三维结构。给定的一个SMILES字符串,由几种常用的软件工具,如Autodock Vina,GOLD和GLIDE,可以生成大约有1000个三维结构。然后建立MathDL模型为给定的配体,即SARS病毒蛋白酶,分析分子的可用药特性并挑选最适合的三维结构。
3.结果
3.1 序列一致性分析
序列一致性被定义为两个不同序列之间精确匹配的字符的百分比。新型冠状病毒蛋白酶与其他一些冠状病毒蛋白酶之间的序列一致性如表1所示。可以看出,新型冠状病毒蛋白酶与SARS病毒蛋白酶非常接近,但与其他蛋白酶有明显区别。显然,新型冠状病毒与SARS病毒有很强的遗传关系。因此,现有的SARS病毒蛋白酶抑制剂的实验数据可以作为训练集,并用于生成新型冠状病毒蛋白酶抑制剂。
表1 新型冠状病毒蛋白酶与其他一些病毒蛋白酶的序列一致性。
3.2 结构相似性分析
新型冠状病毒蛋白酶(PDB ID 6lu7)与SARS病毒蛋白酶(PDB ID: 2gx4)具有极高的结构相似性。如图2所示,两者的晶体结构基本相同。特别的是,两个晶体结构在结合位点的均方根误差仅为0.53 Å。这两种蛋白酶在结构上高度相似,说明抗SARS病毒的化学物质在治疗新型冠状病毒上同样有效。
图2 2019-nCoV蛋白酶(PDB ID 6lu7)(金色)与SARS-CoV 3CL蛋白酶(PDB ID: 2gx4)的相似度(红色)。深色为SARS蛋白酶抑制剂的结合位点。
3.3 数据集
3.3.1 SARS病毒蛋白酶抑制剂数据集
ChEMBL是一个开放的数据库,它将化学、生物活性和基因组数据结合在一起,将基因组信息转化为有效的新药,作者使用它来构建新型冠状病毒训练集。考虑到新型冠状病毒蛋白酶与SARS病毒蛋白酶极高的序列一致性,作者以SARS病毒的蛋白酶作为ChEMBL的输入靶标,共找到115个靶标的ChEMBL id。因此,新型冠状病毒的训练集是由115个SARS病毒的蛋白酶抑制剂构建的。图4为对训练集进行实验,得到的∆G的取值分布。可以看出, ∆G取值范围为-10.0 kcal/mol到7.5 kcal/mol,多数训练样本的∆G位于[-10,5] kcal/mol。根据热力学第二定律,当∆G越小时,则会导致更自发的结合过程。图3为TOP 5抗SARS病毒化合物及其结合亲和力。
图3 TOP 5抗SARS病毒化合物及其结合亲和力。
图4 SARS病毒蛋白酶抑制剂的结合亲和力分布
3.3.2结合亲和力训练集
PDBbind是实验测量得到的蛋白质-配体复合物的结合亲和力的数据库,包含蛋白质-配体复合物的高质量x射线晶体结构和对应的结合亲和力。作者使用PDBbind 2018中4463个复合物作为结合亲和力训练集的主要部分。
3.4 结合亲和力预测
文章中有四种方法可以计算结合自由能,即隐空间结合预测器(LS-BP)、二维指纹预测器(2DFP)、一种混合所有数据集(包括冠状病毒蛋白酶数据集,记作“3DALL”)训练的三维深度学习模型和利用冠状病毒蛋白酶数据集训练一个独立的三维深度多任务学习模型(记作“3DMT”)。
图5、6、7显示GNC生成的top 3分子,并给出了它们被预测的结合亲和力以及它们与新型冠状病毒蛋白酶的复合物。这些化合物根据3DALL评分预测的结合亲和力值进行排序。其他方法的预测结果见表2。表2还列出了一些其他的可用药特性,包括配分系数(log P)、溶解度(log S)和可合成性。
图5 MSU3298分子及其与新型冠状病毒蛋白酶的复合物。
图6 MSU2313分子及其与新型冠状病毒蛋白酶的复合物。
图7 MSU3245分子及其与新型冠状病毒蛋白酶的复合物。
表2 GNC生成的TOP 15抗新型冠状病毒分子和两种艾滋病毒药物的一些可用药特性
4.讨论
4.1 溶解度
水溶性是一种化学性质,以其对数值log S表示,表明了溶质在溶剂中的溶解程度,其影响药物的吸收、分布、代谢和消除过程(ADME),是药物发现和药物制造中的重要性质。作者使用基于2DFP的预测器来计算所有潜在的抗新冠病毒药物的Log S。表2列出了TOP 15的抗新型冠状病毒候选分子及其可用药特性。可以看出最小的log S是 -6.44,最大的log S 是4.65。据研究,约85%的药物的log S值取值范围为[-5.000,-1.000]。然而,只有两种潜在的药物(即表2中,MSU2313和MSU3289)的log S范围为[-5.000,-1.000],而其他药物的取值稍高一些。一个可能的原因是基于2DFP的log S计算可能存在系统错误。另一种可能的解释是,预测的候选药物可能不像市场上的一些其他药物那样容易通过细胞膜被吸收。
4.2 配分系数
配分系数被用来衡量一种化学物质的亲疏水性,它被定义为两种溶剂的混合物在平衡状态下的溶质浓度之比。分配系数的对数,即log P,它在控制药物作用的动能和动力方面起着至关重要的作用。作者使用开源的化学信息学软件Rdkit来计算候选药物的log P值,以评估预测的潜在药物的可靠性。从表2中可以看出,预测的TOP 15候选药物的log P值大多小于5,符合“Lipinski’s rule of five”中的一条规则。此外,已经上市的HIV蛋白酶抑制剂ritonavir的预测log P = 5.91,这表明TOP 15中 log P值略大于5的潜在药物仍然可以被认为是可用药的分子。
4.3 可合成性
虽然有可能的抗新冠病毒药物的化学结构,但有必要评估这些分子的合成可行性。可合成性评分(SAscore)的取值在1(容易合成)和10(无法合成)之间。作者通过Rdkit计算候选药物的SAscore是来评估分子的合成可行性。TOP15中,分子ID: MSU3519的SAscore值最高,为4.69,这表明大多数潜在的抗新冠病毒分子都很容易合成。
4.4 艾滋病药物对新型冠状病毒的有效性
洛吡那韦(Lopinavir)是一种用于抑制艾滋病病毒蛋白酶的抗逆转录病毒药物。它通常与另一种蛋白酶抑制剂利托那韦(Ritonavir)形成固定剂量的组合,并以Kaletra或Aluvia的商品名出售。利托那韦是另一种抗逆转录病毒药物,商品名为Norvir。它与洛吡那韦结合被称为高效抗逆转录病毒治疗(HAART)。虽然没有临床证据,Kaletra和Aluvia已被提议作为潜在的抗新型冠状病毒药物。表1显示了HIV病毒蛋白酶和新型冠状病毒蛋白酶之间的低序列同源性,这可能意味着在新型冠状病毒治疗中重新利用Aluvia和Norvir的潜力有限。对于洛吡那韦, LSBP和2DFP分别预测了-5.66 kcal/mol和-5.54 kcal/mol的结合亲和力。对于利托那韦, LS-BP和2DFP分别预测了-5.14 kcal/mol和-4.96 kcal/mol的较低结合亲和力。然而,3DALL预测了更高的结合亲和力,即洛吡那韦和利托那韦分别为-7.78 kcal/mol和-8.44 kcal/mol;3DMT,也预测洛必那韦和利托那韦的结合亲和力分别为-8.13 kcal/mol和-8.07 kcal/mol。考虑到LS-BP和2DFP模型的训练集非常小,三维模型预测的结果更加可靠。图8和图9表明这两种药物与新型冠状病毒蛋白酶具有合理的结合方式。因此,艾滋病毒药物Kaletra(或Aluvia)和Norvir可能对新型冠状病毒有一定的治疗效果。然而,GNC产生的许多新化合物似乎比这些艾滋病毒抑制剂具有更好的药物性能。
图8 HIV药物洛吡那韦及其与新型冠状病毒蛋白酶的复合物。复杂的结构显示了其合理的结合。
图9 HIV药物利托那韦及其与新型冠状病毒蛋白酶的复合物。复杂的结构显示了其合理的结合。
5.总结
在这项工作中,作者发现新型冠状病毒和SARS病毒的蛋白酶抑制剂结合位点几乎相同,这为作者假设所有潜在的抗SARS病毒分子也是有效的抗新型冠状病毒分子提供了基础。作者利用复合型生成网络 (GNC)预测了8000多种潜在的抗新型冠状病毒药物,通过隐空间结合预测器(LS-BP)和二维指纹预测器(2DFP)进行评估,并使用两个三维深度学习模型3DALL和3DMT进一步评估有希望的候选药物。此外,作者挑选了15种潜在的抗新型冠状病毒药物,根据3DALL模型计算的结合亲和力排序,并分析其配分系数(log P)、溶解度(log S)和合成可行性评分(SAscore)。合理的log P、log S和SAscore表明,前15名候选药物可能对抑制新型冠状病毒有效。最后,分析了两种抗艾滋病药物对2019-nCoV的治疗效果。