本期介绍2019年8月发表在Journal of Medicinal Chemistry的研究工作,研究人员在具有X射线晶体学证实结合模式的化合物的基础上采用了不同的机器学习方法生成模型用于预测不同类别的激酶抑制剂,且产生了意想不到的准确和稳定的预测。结果表明,新的机器学习模型具有相当大的实际应用潜力。
1. 背景介绍
酪氨酸、丝氨酸和苏氨酸激酶是主要的药物靶标,激酶抑制剂是肿瘤学及其他方面研究最多的候选药物之一。公共领域积累了近115000个具有明确活性测量的激酶抑制剂,使得这些抑制剂可用于大规模活性数据分析或计算筛选方法评估的优选。通过X射线晶体学广泛研究了激酶及其与许多不同抑制剂的复合物,提供了对激酶的结构特征和其抑制剂的结合特征的基本见解。激酶-抑制剂复合物的X射线结构揭示了抑制剂的不同结合模式,其与结合位点的构象变化相关。
目前大多数可用的激酶抑制剂竞争性地结合激酶活性形式的ATP辅因子结合位点,并被指定为I型抑制剂。相比之下,II型抑制剂与激酶的无活性形式结合,并被容纳在ATP结合位点附近的诱导口袋中的基序和αC螺旋。此外,发现I1/2型抑制剂与中间体“DFG in /αC-helix out”构象结合,使得它们与I型和II型抑制剂区别开来。除活性位点抑制剂外,还发现其他类型的非共价抑制剂与激酶中的变构位点结合,常被称为III型或IV型抑制剂。
虽然结构生物学已经对抑制剂结合模式和构象决定因素有了许多见解,但已经有许多可用的激酶抑制剂在结构上具有特征。研究人员提出了这样的问题:是否有可能仅在基于化合物结构的情况下区分具有不同结晶学手段确认的结合模式的激酶抑制剂而不考虑额外的相互作用信息。因此,应用当前最先进的机器学习方法来生成各种预测模型。
迄今为止尚未尝试通过机器学习在分子图表示的基础上区分采用不同结合模式的激酶抑制剂。推导这种预测模型也与药物化学的实践相关,以鉴定新开发的抑制剂的结合模式,为设计抑制剂类型特异性优化策略提供基础。
2. 实验方法
2.1 化合物选择
从KLIFS中选择不同类型的激酶抑制剂,从蛋白质数据库(PDB)收集和整理激酶-抑制剂复合物的X射线结构。KLIFS使用开源虚拟机3D-e-Chem-VM获得DFG基序、αC-螺旋和结合抑制剂的构象状态的信息。为排除片段,仅考虑分子量至少为250Da的抑制剂。对于选定的抑制剂,使用OpenEye工具包生成标准化SMILES。
2.2 全局模型和平衡模型的训练集和测试集
模型构建实现了两种不同的验证策略。第一种策略中,将每种类型的抑制剂随机分成相同大小的训练和测试子集(即50-50%分裂)。对于每个二分类任务,将来自两个不同类的子集组合以产生最终训练和测试集。对于全局模型使用所有化合物,因此训练和测试集包含不同数量的每种类型的抑制剂。对于平衡模型,将训练集中随机选择的不同类型的抑制剂的数量调整为较小的子集。因此,在这种情况下使用具有不同标签的相同数量的训练化合物。
2.3 分子表征
作为机器学习的分子表示,使用ECFP4和MACCS;ECFP4是一个特征集指纹MACCS是片段指纹。ECFP4是使用基于OEChem和MACCS使用基于RDKit的Python脚本生成。
2.4 机器学习方法
使用随机森林(RF)、支持向量机(SVM)和深度神经网络(DNN)算法生成分类模型。
2.5 超参数优化
在超参数优化下训练模型显示,使用标准参数设置已经实现了最佳性能水平。观察结果表明,模型性能总体稳定,不依赖于RF和SVM方法的非常具体的参数设置;然而,一些优选参数通过优化来确定。
2.6 性能评估
除了生成ROC曲线和计算AUROC值之外,还使用三种不同的度量评估模型性能,包括平衡准确度(BA),常规F1分数和马修斯相关系数(MCC)。
TP:真阳性
TN:真阴性
FP:假阳性
FN:假阴性
3. 实验结果
3.1 不同类型的激酶抑制剂
化合物选择,总结了基于结构的抑制剂选择方案。
图1
所考虑的四种抑制剂的代表性结构和化合物。
图2
3.2 基于机器学习的抑制剂分类
根据从X射线结构推导出的不同结合模式,产生用于分类激酶抑制剂的预测模型。
图3
组合非变构抑制剂区分具有完全不同机制的变构抑制剂与具有相似机制的非变构抑制剂。应用了随机森林(RF),支持向量机(SVM)和深度神经网络(DNN)算法作为机器学习的方法。对于每个分类任务和方法,生成全局和平衡模型。全局模型是在不平衡训练集的基础上得出的,使用所有可用的抑制剂和平衡模型,基于包含相同数量的不同类别抑制剂的集合。
图4
训练、测试和验证集的生成采用了两种不同的策略。策略一:将化合物分成均匀大小的训练和测试集,并进行10次独立试验。策略二:20%的化合物被排除在建模之外作为外部验证集,其余80%用于策略一在10个独立试验中训练和测试模型。因此,与测试集相比,外部验证集保持不变,并且由在训练和测试期间从未遇到过的化合物组成。
3.3 全局模型
最初,评估了图4中策略I导出的全局模型,并在ROC曲线中监测预测。一致地观察到高预测准确度,ROC曲线下面积(AUROC)值为0.9及以上。使用替代指纹的计算之间只有很小的差异。总体而言,基于ECFP4的计算在某些情况下表现略微提高,但没有显着差异。
图5
3.4 平衡模型
在策略I之后的平衡训练集的基础上生成模型,其在机器学习中通常比从不平衡数据导出的模型更具预测性。所有分类任务和模型中都观察到了高预测精度。总之,平衡模型的结果与全局模型的结果相对应。两种类型的模型都产生了准确和稳定的预测,并且在不同试验中具有低标准偏差。总体而言,在平衡条件下观察到SVM模型的最高预测准确度,其次是RF和DNN模型。
4. 讨论
本项研究中,研究了用于预测具有不同结合模式的激酶抑制剂的机器学习方法。区分不同类型抑制剂并探索其活性和选择性特征是药物化学中的热点问题,用于建模的所有抑制剂都通过X射线晶体学证实结合模式。然而,对于机器学习,化合物仅使用分子指纹表示而不考虑其他信息,定义了不同的预测任务以区分不同类型的抑制剂。
鉴于高性能水平,DNN没有优于RF和SVM模型的优势。应该指出的是,本研究只能获得有限数量的X射线晶体学训练数据,限制了DNN训练的能力。此外,目前和许多其他复合分类的机器学习练习通常使用明确定义的分子表示,如指纹或数字描述符数组;这种表述的使用并没有发挥深度学习的优势。因为深度学习架构相对于其他机器学习方法的性能提高通常可归因于初始深度表示学习。然而,另一方面,深度学习MT-DNN架构使得能够实现多类模型来预测抑制剂类型,使得可以一致地使用所有可用的训练数据,从而进一步改善深度学习的基础。总之,研究结果表明,为预测不同类型的激酶抑制剂而得到的机器学习模型是稳健和准确的。因此,这些模型应该具有相当大的潜力用于各种实际应用。