今天给大家介绍的是2019年11月发表在Nature Communications的一篇文章,“A Bayesian machine learning approach for drug target identification using diverse data types“。药物靶标识别是药物开发的关键步骤。为了解决这个问题,作者开发了BANDIT,这是一种集成多种数据类型来预测药物结合靶点的贝叶斯机器学习方法,并提供了一个平台,允许加入新的数据类型进行集成。
1
研究背景
药物研发是一个耗费大量金钱和时间的过程,从实验室中的小分子到获得批准的药物平均需要花费15年时间和26亿美元,其中的瓶颈之一是确证候选分子的靶标。通过计算的方法能够大大的减少药物靶点识别所需的工作和资源。传统的识别靶标的方法需要大量的已知信息以及较高的计算能力等。除了传统的方法,也有新的计算方法使用治疗后基因表达变化和副作用等数据来预测药物的新机制。然而,大多数的方法所用到的数据类型过于单一,容易受到数据特定噪声的影响,实用性和准确性也有待提高。最近,有越来越多的方法试图在基于相似性或数据驱动的框架内集成多种不同的数据类型。然而,这些方法存在一些局限性:
使用给定化合物的已知靶标作为输入,限制了对未知化合物的预测能力。
经常使用基于基因的相似性特征,这种方法倾向于发现与已知药物靶点关联紧密的基因,不利于发现不同类型的靶标(基因)。
除化合物结构之外,大多数模型仅集成一个或两个数据类型。
许多依赖复杂数据类型的集成算法很难适应新的信息源。
大多数人只在少数药物上评估了他们的方法(<500钟),没有经过广泛的实验验证。
为了克服这个局限性,作者提出了BANDIT,使用贝叶斯方法以无偏的方式集成许多不同的数据类型,并提供了一个平台,允许添加新数据类型进行简单的集成。此外,通过集成多种不同的数据类型,BANDIT的预测不依赖于任何一个实验,而且与单一数据类型方法相比,可以获得更好的预测能力。
图1 联合多种数据类型预测共享靶标药物对的方法原理图
2
方法
2.1
数据集
生长抑制数据
文中使用来自National Cancer Institute's Development Therapeutics Program(NCI-DTP)的生长抑制数据。从cellminer.com(1.6.2版本)下载。
基因表达数据
所有治疗后基因表达数据均来自Broad Connectivity Map (CMap)项目。从Broad CMap Portal下载。
不良反应
副作用从SIDER数据库下载。使用MedDRA(16.1版)字典对每种副作用进行分类。
生物测定/化学结构
所有生物测定结果和化学结构均从PubChem下载,并根据每个小分子的PubChem Compound Identification(CID)进行组织。
已知药物靶标
从DrugBank数据库中提取所有已知药物靶标(4.1版)。
2.2
计算和实验
计算相似性分数
生长抑制数据,对每一对药物计算pearson相关系数;基因表达和化学基因组适应度评分,使用pearson相关系数来衡量两种药物的相似程度;生物测定,根据Pubchem提供的数据,所有生物测定均分为阳性或阴性。jaccard指数是根据两种药物共有的阳性化验次数计算出来的。要求每个药物对至少在一个类似的试验中进行了测试,以计算相似度评分;化学结构,为每个药物提取同分异构的SMILES,并使用atom-pair方法计算了两种化合物之间基于DICE系数的结构相似性;不良反应,使用SIDER2数据库,提取出每种药物的“preferred term”副作用。然后计算每个药物对共有的副作用的jaccard指数。
计算相似类型之间的相关性
为了合并来自不同数据库的数据,作者将每种药物的信息映射到用于所有后续集成的PubChem Compound Identification(CID)。计算每一对相似度评分之间的Pearson相关系数(PCC)和决定系数(R2)。
图2 密度图显示了不同的相似度评分如何相互关联,用较暗的区域表示较高的密度。
总似然比
对于每个数据类型,BANDIT计算一个似然比,总似然比(TLR)可以表示为个各个似然比的乘积。总似然比(TLR)与两种药物在给定的信息源中共享给定靶标的几率成正比;
测试已知靶标的药物
利用五折交叉验证生成ROC曲线并计算AUROC的值。结果表明BANDIT是针对药物开发的新颖且有效的筛选和靶标预测平台,有望对当前的工作产生积极影响。
与现有的药物靶点预测方法
对比几个现有的药物靶点预测研究,进一步证明了BANDIT的性能更优(具体对比结果可见原文Supplementary Table 4)。
复制激酶实验性筛选
首先在Peterson等人的数据库中分离出被分为BANDIT孤儿小分子的激酶。对于每种孤儿激酶抑制剂,使用BANDIT来预测共享的靶标药物;共享靶标药物的每个已知激酶靶标被归类为孤儿抑制剂的一个潜在激酶靶标。
图3 BANDIT可以复制实验激酶实验性筛选的结果
特定靶标投票
测试到的每个孤儿小分子的投票最高的靶点为预测的一个新的特异性靶点;
图4 用于预测特定靶点交互的BANDIT投票原理图
新型抗微管小分子的鉴定
对于每种预测的微管抑制剂(MTI),作者使用网络方法检查了它与已知MTI的关系;
图5 基于作用机制的已知的微管抑制剂簇
药物机制聚类
对于每个药物对,将它们之间的TLR转换为用于估计任何两种药物之间的亲密度的距离度量。接下来,分离了所有已知至少存在于三个BANDIT数据集中抑制微管的药物。以BANDIT距离度量为输入,使用谱系聚类R方法和基于平均值的聚类方法创建了所有已知MTIs的层次聚类;
药物领域集群
使用与创建MTI网络相同的协议,创建了一个包含所有已知靶点的药物网络,每个边缘代表一个预测的共享靶点交互作用,以及与交互作用强度相对应的边缘权重。使用KEGG药物数据库和DrugBank,根据ATC代码对每种药物进行了注释,并对每种药物进行了相应的着色。特别分离出三个集群,分别为:(1)帕金森氏症药物的β受体阻滞剂,(2)抗逆转录病毒药和他汀类药物,以及(3)阿片类药物和微管抑制剂。
除此之外还利用生物实验进行了微管成像/测试,量化微管的影响,对耐药细胞系的处理,ONC201-DRD2相互作用的表征。
3
结果
综合多种类型数据的方法能够提高预测的准确性
作者开发的BANDIT整合了六种不同数据类型去确定药物靶点之间的相互作用。计算了所有已知靶点的可能药物对的TLRs,并使用5倍交叉验证对输出的结果进行了评估。观察到使用全部类型数据得到ROC曲线(AUROC)下的面积约为0.89,说明了综合更多数据的方法可以更准确地识别共享靶标的药物。为了进一步验证这一点,作者重新计算了AUROC,同时改变了所包含数据类型的数量,随着新数据类型的添加而不论添加顺序如何,预测能力都会提高。具体结果如图所示:
图6 不同数据类型集的AUROC对比图
BANDIT精确地预测了特定靶标的相互作用
作者研究了如何使用BANDIT复制已发表的实验筛选结果。通过Peterson等人的激酶实验复制,说明了BANDIT能够用来指导实验筛选,同时最小化操作成本。从共享靶标的预测出发,作者检查了对于给定的药物BANDIT是否可以用于预测特定的结合靶标,结果表明BANDIT可用于准确识别多种多样的小分子的特定靶标。作者使用BANDIT预测了14,000多个小分子的新靶标,这些小分子在数据库中都没有已知的靶标和作用机制。得到了4167个独特小分子的靶标,预测的靶标范围超过了560种不同的蛋白质靶标。并通过设置更高的TLR阈值获得更高可信度的靶标预测,得到了720个高置信度的预测靶标。基于此,作者设想了BANDIT的两个主要操作方案:(1)将BANDIT与孤儿的小分子库结合使用,以识别针对特定蛋白质的新的小分子;(2)将BANDIT直接整合到药物开发流程中预测目前正在开发中的药物的靶标并指导实验(图7)。
图7 BANDIT获得特定靶标的两种建议的操作方案示意图
新型微管靶向化合物的发现
抗微管药物是目前应用最广泛的一类癌症化疗药物,微管蛋白是迄今为止最有效的抗癌靶点之一。通过实验作者证明了BANDIT的潜力,不仅可以用来识别孤儿分子的特定靶标,而且可以用来区分同一靶标上的不同作用模式。
4
总结
总而言之,作者展示了BANDIT加速药物开发的潜力,因为它涵盖了从新靶标的识别和验证到临床候选药物开发和药物再利用的整个空间。通过允许研究人员快速获得预测靶点,可以简化随后的所有开发工作,并节省科学家的时间和资源。此外,BANDIT可用于快速筛选大型化合物数据库,并可以进一步评估任何有前途的药物疗法。
参考资料
Madhukar N S, Khade P K, Huang L, et al. A Bayesian machine learning approach for drug target identification using diverse data types[J]. Nature communications, 2019, 10(1): 1-14.