导读
目前的药物发现工作既昂贵又耗时。如何创造出种类繁多的新型化合物,使其不仅具有理想的药理特性,而且低收入人群也能廉价获得,仍然是一项具有挑战性的任务。这项工作中,研究人员开发了一种生成式网络复合体(GNC),通过自动编码器在潜在空间中的梯度下降,基于多性质优化生成新的类药分子。研究人员的GNC中,多化学性质和相似度分数都被优化,以生成具有所需化学性质的类药分子。为了进一步验证预测的可靠性,这些分子被独立的基于分子指纹的预测器重新评估和筛选,得出几百个新的候选药物。
1
背景
药物发现最终考验着研究人员对分子生物学、药物化学、遗传学、生理学和药理学的理解,考验着生物技术的地位,考验着计算科学的实用性,考验着生物学的成熟度。从技术上讲,药物发现包括靶点发现、先导化合物发现、先导化合物优化、临床前开发、临床试验三个阶段,最后,只有在每个阶段都能证明药物安全有效的情况下,才能推向市场。其中,先导化合物发现、先导化合物优化、临床前开发根据结合亲和力、溶解度、分配系数、清除率、渗透性、毒性、药代动力学等因素,取消了数万个化合物的资格,只留下约几十个化合物进入临床试验。因此,目前药物研发成本高、耗时长:一个新药上市平均需要约26亿美元、10年以上的时间;降低费用,加快进程,是制药业的当务之急之一。
小分子药物发现的关键挑战之一是找到具有理想特性的新型化合物。为了优化药物发现管线中的这一关键步骤,人们已经付出了很多努力。例如,高通量筛选(HTS)的发展使潜在靶点和线索的数量空前增加。HTS可以快速进行数百万次测试,从化合物库中找出感兴趣的活性化合物。虽然潜在靶点和先导化合物的数量有所增加,但由于在临床前开发和临床阶段淘汰了物理化学或药理特性不合适的先导化合物,导致新产生的分子实体数量保持稳定。合理的药物设计(RDD)方法的提出是为了更好地识别成功概率最高的候选药物。这些方法旨在基于对可成药性靶点的了解,寻找新的药物。
最近,计算机辅助药物设计(CADD)已成为减少药物发现费用和周期的有用方法。已经开发了用于虚拟筛选和优化先导化合物ADME特性的计算技术。主要是,这些方法被设计为计算过滤器,以消除具有不良性质的化合物。这些过滤器被广泛应用于利用组合化学组装化合物库。先导化合物早期ADME预测的整合有助于加快一期试验的先导化合物的选择,而不会造成大量的收入损失。目前,化合物在库中的添加是基于以靶点为中心的设计或多样性考虑。虚拟筛选和高通量筛选可以将化合物库筛选到性质符合各种标准的化合物子集。
尽管做出很多努力,但与分子中所有可能的能量稳定的原子和拓扑结构的化学空间相比,目前的化合物数据库仍然很小。据估计,约有1060种不同的分子;其中约有1030种是类药分子。因此,计算技术也被开发出来,用于类药分子的设计,并生成大型虚拟化学库,可以更有效地筛选出类药分子,用于计算药物发现。
现有的计算技术中,深度神经网络(DNNs)因其从训练数据中提取特征和学习物理原理的能力而备受关注。目前,基于DNN的架构已经成功应用于生物和生物医学的各个领域。
更有趣的是,许多基于序列对序列自动编码器(Seq2seq AEs)、变分自动编码器(VAEs)、对抗式自动编码器(AAEs)、生成式对抗网络(GANs)、强化学习等的深度生成模型被提出,用于探索广阔的类药物化学空间,生成新的类药物分子。然而,上述的生成性策略并不是特定的药物。对于药物发现来说,至关重要的是针对特定的药物靶点设计潜在的候选药物。常规的药物发现程序中,起点是靶点识别,然后是先导化合物的生成。然后,进行先导化合物优化,使先导化合物更像药物。
考虑到新的替代先导化合物的生成,人们可以利用现有的药物数据集来开发药物特定的生成模型。这个过程中,关键是要应用相似性约束,在接近参考分子的化学空间内生成数百甚至数千个新的类药分子。这种相似性约束使研究人员能够生成对靶标保持有效的新分子。此外,从机器学习的角度来看,与现有数据的相似度越高,生成分子的预测总是越可靠。生成模型还可以实现引线优化:通过加入优化器,生成的分子被指定为具有比参考分子更好的一种或多种化学性质。因此,通过药物指定的生成模型可以创建大量的替代药物候选者。这些候选药物可以成为一个有效的指定库,进一步筛选出更好或更便宜的药物替代品。
2
方法
2.1 序列到序列的自动编码器(seq2seq AE)
seq2seq模型是一种源于自然语言处理的自动编码器架构。已被证明是语言翻译领域的一个突破。seq2seq AE的基本策略是使用门控循环单元(GRU)或长短期记忆(LSTM)网络将输入序列映射到潜在空间中的一个固定大小的向量,然后用另一个GRU或LSTM网络将该向量映射到目标序列。因此,潜伏向量是一个包含输入序列 "意义 "的中间表示。
输入和输出序列都是SMILES字符串。seq2seq AE被训练成在输入和输出之间有较高的重构率,使潜向量包含化学结构的真实信息。利用最近工作中的一个预训练的seq2seq模型。
2.2 基于多性质优化的类药分子生成器
新的GNC中,研究人员精心设计了一个类药分子生成器,使生成的分子不仅满足所需的特性,而且与参考化合物有共同的药理特性。从种子分子出发,GNC的一个生成性工作流程如下所述:
从指定的训练集中随机选取一个低结合亲和力的分子作为种子,然后将种子分子的SMILES字符串通过预先训练好的编码器编码成一个潜伏向量。
种子分子的潜伏向量被输入到DNN分子生成器中。在每一个迭代,生成器都会得出一个新的向量 ,深度学习网络被指示通过以下损失函数来评估。
用梯度下降法损失函数最小化,直到达到最大的纪元数。
将生成的满足所需约束条件的潜向量通过预训练的解码器解码成SMILES字符串。
为了创建各种源于线索或现有药物的新类药分子,可以采用不同的种子分子以及不同的目标值来实现所需的属性和相似度分数。研究人员的分子生成器的最终目的是不断修改潜伏向量,以满足多种可药性的约束。
2.3 分子生成器的参数
研究人员的模型中,潜伏空间的维度是512,所以DNN分子发生器的输入和输出维度也是512。DNN生成器有两个隐藏层,每层有1024个神经元。激活函数为tanh,学习率为0.1,动量也为0.1。这项工作中,研究人员对结合亲和力和相似度得分约束感兴趣。这两个约束的正则化系数(kΔG和kSim)分别设置为1和10。相似性得分约束通过生成的潜伏向量和参考分子的潜伏向量之间的Tanimoto系数来确定。
结合亲和力约束依赖于预先训练的结合亲和力预测器。预训练的结合亲和力预测器(LV-BP)将潜向量作为其输入,并返回预测的结合亲和力。因此,通常情况下,预测器的输入维度为512,输出维度为1,DNN预测器有三个隐藏层,分别为1024、1536和1024个神经元。应用ReLU激活函数。学习率为0.001,训练次数为4000次,批处理量为4,预测器网络在从ChEMBL等公共数据库中精心挑选的指定数据集上进行训练。生成器和预测器都是在PyTorch(1.0.0版本)的框架下编程的。
2.4 通过分子指纹预测器对亲和力进行再评价
除了生成新的分子外,GNC中的LV-BP还可以预测结合亲和力。然而,没有实验值可以验证这些预测的亲和力。因此,使用替代的结合亲和力预测器对它们进行交叉验证。本工作中,研究人员构建了基于二维指纹(2DFP-BPs)的机器学习预测器来重新评估生成化合物的亲和力。从其SMILES字符串计算出的二维指纹是这些2DFP-BPs的输入。如果来自LV-BP和2DFP-BPs的预测是一致的,则认为预测是可靠的。
2.5 多任务DNN预测器
针对药物Ribociclib的两种不同靶点,建立了潜向量和二维指纹的多任务DNN预测器。
基于潜伏向量的模型有三个隐藏层,分别为1024、1536和1024个神经元。对于基于二维指纹的模型,由三个不同的二维指纹ECFP4、Estate1、Estate2分别有2048、79、79个特征,所以采用了两种不同的网络架构。对于ECFP4,三个隐藏层的神经元数量分别为2500、1500和500。对于Estate1和Estate2,它们的神经元数量分别为500、1000和500。其他参数与单任务预测器的参数相同。这些多任务模型也是在PyTorch(1.0.0版本)的框架下实现的。
2.6 药物-靶点的相互作用及常见药效团分析
研究药物与靶点之间的相互作用,以及药物的药理作用。目的是探索生成的分子是否还能与药物靶点结合。
通过蛋白质-配体相互作用谱来分析药物与靶标的相互作用。它可以识别药物与靶标的相互作用类型,如氢键、疏水相互作用等。
但是,相互作用分析本身无法确定相互作用对药物-靶标结合是否关键。利用Schrödinger中的Phase模块,通过搜索所有活性化合物中与靶点的共同药效团,建立药理模型。由于这些官能团是广泛存在于所有活性化合物中的,它们对结合至关重要。因此,如果生成的分子仍然包含这样的药效团,它们是潜在的结合剂。
识别数百种化合物的通用药效团可能很耗时。为了避免这一障碍,通过scikit-learn实现的k-means算法将化合物分成50个簇。然后,收集这50个簇的中心点,进行常见药效团搜索。
2.7 数据集
首先,探讨了生成器中不同的目标值对生成分子的结合亲和力预测可靠性的影响。在Beta-Secretase 1(BACE1)数据集上进行了这种可靠性测试。
BACE1是一种由BACE1基因编码的跨膜天冬氨酸蛋白酶人类蛋白。它对神经组织中β-淀粉样肽的生成至关重要,而β-淀粉样肽是淀粉样斑块的一种成分,被广泛认为在阿尔茨海默氏症的发展中至关重要,这使得BACE1成为这种毁灭性疾病的一个有吸引力的治疗靶标。研究人员从ChEMBL数据库中下载了3916个BACE1化合物。利用seq2seq自动编码器有一个分子过滤器,只选择具有3个以上重原子的有机分子,它们的重量在12和600之间,其Log P值在-5和7之间。因此,BACE1数据集中共有3151个分子通过了这个过滤器,被用作训练集。
更重要的是,运用GNC为市场上的8种药物设计了其他有前途的候选药物。对于每种药物,从ChEMBL数据库中构建了一个与相同药物靶点结合的化合物的数据集。收集到的化合物也由seq2seq自动编码器中的过滤器进行过滤。
3
实验
3.1 设计BACE1抑制剂
3.1.1 seq2seq AE和预测器的准确性
首先测试了seq2seq自动编码器、LV-BP和2DFP-BP预测器的准确性。
当在过滤后的3151个分子的BACE1数据集上执行seq2seq模型时,重建率为96.2%。这个高比率保证了这些输入分子的基本信息被编码到相应的潜向量中。随后,这些潜向量被用作特征来训练的潜向量DNN结合亲和力预测器(LV-BP);标签是它们相应的实验结合亲和力。在BACE1数据集的5倍交叉验证测试中,LV-BP的平均皮尔逊相关系数(RP)达到0.871,平均RMSE为0.704 kcal/mol。
二维指纹结合亲和力预测器(2DFP-BP)被用来重新评估LV-BP的预测结果。还通过5倍交叉验证来检验2DFP-BP。平均RP和RMSE分别为0.874和0.692 kcal/mol,与LV-BP相当。
3.1.2 收敛分析
研究人员进行GNC来生成新的分子,并分析这些新分子如何在一个生成过程中进化。从BACE1数据集中挑选了一个种子分子开始这个实验,这个分子的结合自由能(ΔG)=-6.81 kcal/mol,远没有活性。参考分子也来自BACE1数据集,它的活性很高,ΔG=-12.02kcal/mol。结合亲和力目标yΔG设定为-12.02 kcal/mol,与参考分子的相似度得分目标为ysim=1.0。
图4显示了一系列生成的分子在从种子到参考分子的演变过程中。起始点是种子分子,其与参考分子的结合亲和力和相似度得分分别低至-6.81 kcal/mol和0.01。通过接收生成器中梯度下降的反馈,相似度得分逐渐上升到1.0。而对结合亲和力的改善则更快:当创建的分子相似度得分为0.28时,其LV-BP预测的ΔG已经达到-11.30 kcal/mol;而相似度得分为0.90时,LV-BP预测的ΔG为-12.00 kcal/mol,与参考分子的ΔG为 -12.02 kcal/mol基本相同。
3.1.3 BACE1 抑制剂的可靠性测试
利用GNC生成了数百万个针对各种结合亲和力和相似度得分的化合物。然后测试这些不同范围的结合亲和力和相似度得分的预测可靠性。总的来说,相似度得分ysim,从0.50到0.95不等,增量为0.025;结合亲和力目标yΔG,接收值从-9.6 kcal/mol到-13.1 kcal/mol,增量为-0.25 kcal/mol。这里选择-9.6 kcal/mol作为起点,因为这个值是被广泛接受的识别活性化合物的阈值;终点ΔG=-13.1kcal/mol是BACE1数据集中最高的结合亲和力值。
3.2 设计替代药物的候选化合物
利用GNC生成与现有药物靶点具有高结合亲和力的替代类药分子,为进一步改进或寻找更廉价的药物替代品提供有效的库。本工作讨论了8种药物及其靶点,其名称、ChEMBL ID、能量等信息汇总于Table1。这些药物都是近十年来被FDA批准用于治疗重大疾病,特别是各种癌症。值得注意的是,药物Ribociclib有两个不同的靶点,因此Ribociclib有两组ΔGs和两组训练化合物。
3.2.1 单靶标药物:Ceritinib
- 药物Ceritinib的统计分析
- 设计新的类药分子
- 2DFP-BP再评价
- Top6候选药物
- 相互作用和药效团分析
3.2.2双靶标药物: Ribociclib
- 药物Ribociclib的统计分析
- 多任务预测
- 设计新的类药分子
- 2DFP-BP再评价
- Top6候选药物
- 相互作用和药效团分析
4
讨论
随着深度学习技术的出现,越来越多的计算分子生成模型被提出。这些模型可以分为三类:随机输出、控制输出和优化输出。其中一个挑战是如何生成具有所需化学性质的新分子,特别是类药物分子。另一个挑战是如何在没有直接实验验证的情况下提高计算分子生成的实用性。为了解决这些挑战,研究人员提出了一种新的GNC,通过梯度下降生成基于多性质优化的类药分子。
4.1 理想的分子生成的基本条件
根据研究人员的实验,有两种基本情况下,可以生成具有可靠和所需预测化学性质的分子:
一个客观性质值应始终处于一个有许多训练样本的区域。基于机器学习方法的本质,在一个客观值周围有许多训练样本的情况下,可以建立高精度的预测器。
生成的化合物应该与训练集中的一些现有分子有一些高的相似度分数。如果训练集中的一些分子与生成的化合物相似,那么预测是可靠的,可以通过2DFP-BP进行验证。
4.2 相似性与性质价值约束的必要性
以上两点也解释了为什么生成器中要同时包含相似度得分和性质价值约束。
性质约束的目标有两个方面。首先,它将性质值限制在所需的值上。此外,它还可以用来实现高可靠性。
相似性约束也是为了保证预测的准确性。与现有分子的相似度分数高,预测就更准确可靠。此外,在常规的给定靶点药物发现程序中,人们通常会从一些先导化合物甚至是现有药物入手,然后进行先导化合物优化,使候选药物更加 "像药",比如活性更高、副作用更低。因此,同样,在药物指定的生成模型中,必须控制与参考化合物或药物的相似性,以保证新的类药物化合物仍然与靶点结合。
4.3 多重性质限制
药物设计是复杂的。要开发一种药物,必须仔细研究许多特性,如结合亲和力、毒性、分配系数 (log P)、水溶性 (log S)和脱靶效应。其中任何一项性能的不合格都会使候选药物无法上市。换句话说,药物设计是一个多性质优化的过程。
从技术上讲,生成器可以处理这种多性质优化。研究人员的框架中,对每个性质的约束是通过损失函数中的一个项来实现的。因此,GNC中可以同时满足多性质优化。这项工作中,对一个具有两个靶点的药物(Ribociclib)进行了多性质约束测试。事实上,生成的新候选药物与两个靶点同时具有理想的结合亲和力,这意味着研究人员的模型可以在多性质约束上工作。多重性质也可以指定为毒性、log P、log S等。为了避免副作用,也可以控制药物候选者对某一靶点具有较高的结合亲和力,但对其他靶点具有较低的结合亲和力。
5
结论
寻找替代药物对于提高现有药物的质量和使低收入人群廉价获得新药具有重要意义。这项工作中,研究人员开发了一种新的生成式网络复合体(GNC),用于在潜伏空间中通过梯度下降的多性质优化来自动生成类药分子。新的GNC中,多种化学性质,特别是结合亲和力和相似度得分,被优化以生成具有所需化学和药物性质的新分子。为了确保这些新化合物的预测可靠性,通过独立的基于2D指纹的预测器重新评估它们。经过一致的研究,报告了数百个潜在的候选药物。GNC是发现新的候选药物的高效新范式。
研究人员还讨论了生成具有可靠预测的类药候选物的关键。首先,一个客观属性值应该在训练集分布的填充区域。其次,生成的分子需要与训练集中的一些现有化合物具有良好的相似度。