Nat. Commun. | 识别药物靶点的贝叶斯机器学习方法

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | 识别药物靶点的贝叶斯机器学习方法

今天给大家介绍的是2019年11月发表在Nature Communications的一篇文章,“A Bayesian machine learning approach for drug target identification using diverse data types“。药物靶标识别是药物开发的关键步骤。为了解决这个问题,作者开发了BANDIT,这是一种集成多种数据类型来预测药物结合靶点的贝叶斯机器学习方法,并提供了一个平台,允许加入新的数据类型进行集成。


image.png

image.png

1


研究背景


药物研发是一个耗费大量金钱和时间的过程,从实验室中的小分子到获得批准的药物平均需要花费15年时间和26亿美元,其中的瓶颈之一是确证候选分子的靶标。通过计算的方法能够大大的减少药物靶点识别所需的工作和资源。传统的识别靶标的方法需要大量的已知信息以及较高的计算能力等。除了传统的方法,也有新的计算方法使用治疗后基因表达变化和副作用等数据来预测药物的新机制。然而,大多数的方法所用到的数据类型过于单一,容易受到数据特定噪声的影响,实用性和准确性也有待提高。最近,有越来越多的方法试图在基于相似性或数据驱动的框架内集成多种不同的数据类型。然而,这些方法存在一些局限性:


使用给定化合物的已知靶标作为输入,限制了对未知化合物的预测能力。


经常使用基于基因的相似性特征,这种方法倾向于发现与已知药物靶点关联紧密的基因,不利于发现不同类型的靶标(基因)。


除化合物结构之外,大多数模型仅集成一个或两个数据类型。


许多依赖复杂数据类型的集成算法很难适应新的信息源。


大多数人只在少数药物上评估了他们的方法(<500钟),没有经过广泛的实验验证。


为了克服这个局限性,作者提出了BANDIT,使用贝叶斯方法以无偏的方式集成许多不同的数据类型,并提供了一个平台,允许添加新数据类型进行简单的集成。此外,通过集成多种不同的数据类型,BANDIT的预测不依赖于任何一个实验,而且与单一数据类型方法相比,可以获得更好的预测能力。


image.png

image.png

图1 联合多种数据类型预测共享靶标药物对的方法原理图


2


方法


2.1


数据集



生长抑制数据


文中使用来自National Cancer Institute's Development Therapeutics Program(NCI-DTP)的生长抑制数据。从cellminer.com(1.6.2版本)下载。



基因表达数据


所有治疗后基因表达数据均来自Broad Connectivity Map (CMap)项目。从Broad CMap Portal下载。



不良反应


副作用从SIDER数据库下载。使用MedDRA(16.1版)字典对每种副作用进行分类。



生物测定/化学结构


所有生物测定结果和化学结构均从PubChem下载,并根据每个小分子的PubChem Compound Identification(CID)进行组织。



已知药物靶标


从DrugBank数据库中提取所有已知药物靶标(4.1版)。


2.2


计算和实验



计算相似性分数


生长抑制数据,对每一对药物计算pearson相关系数;基因表达和化学基因组适应度评分,使用pearson相关系数来衡量两种药物的相似程度;生物测定,根据Pubchem提供的数据,所有生物测定均分为阳性或阴性。jaccard指数是根据两种药物共有的阳性化验次数计算出来的。要求每个药物对至少在一个类似的试验中进行了测试,以计算相似度评分;化学结构,为每个药物提取同分异构的SMILES,并使用atom-pair方法计算了两种化合物之间基于DICE系数的结构相似性;不良反应,使用SIDER2数据库,提取出每种药物的“preferred term”副作用。然后计算每个药物对共有的副作用的jaccard指数。



计算相似类型之间的相关性


为了合并来自不同数据库的数据,作者将每种药物的信息映射到用于所有后续集成的PubChem Compound Identification(CID)。计算每一对相似度评分之间的Pearson相关系数(PCC)和决定系数(R2)。


image.pngimage.png

图2 密度图显示了不同的相似度评分如何相互关联,用较暗的区域表示较高的密度。



总似然比


对于每个数据类型,BANDIT计算一个似然比,总似然比(TLR)可以表示为个各个似然比的乘积。总似然比(TLR)与两种药物在给定的信息源中共享给定靶标的几率成正比;



测试已知靶标的药物


利用五折交叉验证生成ROC曲线并计算AUROC的值。结果表明BANDIT是针对药物开发的新颖且有效的筛选和靶标预测平台,有望对当前的工作产生积极影响。



与现有的药物靶点预测方法


对比几个现有的药物靶点预测研究,进一步证明了BANDIT的性能更优(具体对比结果可见原文Supplementary Table 4)。



复制激酶实验性筛选


首先在Peterson等人的数据库中分离出被分为BANDIT孤儿小分子的激酶。对于每种孤儿激酶抑制剂,使用BANDIT来预测共享的靶标药物;共享靶标药物的每个已知激酶靶标被归类为孤儿抑制剂的一个潜在激酶靶标。


image.png

image.png

图3 BANDIT可以复制实验激酶实验性筛选的结果

 

特定靶标投票

测试到的每个孤儿小分子的投票最高的靶点为预测的一个新的特异性靶点;

image.png

图4 用于预测特定靶点交互的BANDIT投票原理图

 

新型抗微管小分子的鉴定

对于每种预测的微管抑制剂(MTI),作者使用网络方法检查了它与已知MTI的关系;

image.png

图5 基于作用机制的已知的微管抑制剂簇


药物机制聚类


对于每个药物对,将它们之间的TLR转换为用于估计任何两种药物之间的亲密度的距离度量。接下来,分离了所有已知至少存在于三个BANDIT数据集中抑制微管的药物。以BANDIT距离度量为输入,使用谱系聚类R方法和基于平均值的聚类方法创建了所有已知MTIs的层次聚类;


药物领域集群


使用与创建MTI网络相同的协议,创建了一个包含所有已知靶点的药物网络,每个边缘代表一个预测的共享靶点交互作用,以及与交互作用强度相对应的边缘权重。使用KEGG药物数据库和DrugBank,根据ATC代码对每种药物进行了注释,并对每种药物进行了相应的着色。特别分离出三个集群,分别为:(1)帕金森氏症药物的β受体阻滞剂,(2)抗逆转录病毒药和他汀类药物,以及(3)阿片类药物和微管抑制剂。


除此之外还利用生物实验进行了微管成像/测试,量化微管的影响,对耐药细胞系的处理,ONC201-DRD2相互作用的表征。


3


结果



综合多种类型数据的方法能够提高预测的准确性


作者开发的BANDIT整合了六种不同数据类型去确定药物靶点之间的相互作用。计算了所有已知靶点的可能药物对的TLRs,并使用5倍交叉验证对输出的结果进行了评估。观察到使用全部类型数据得到ROC曲线(AUROC)下的面积约为0.89,说明了综合更多数据的方法可以更准确地识别共享靶标的药物。为了进一步验证这一点,作者重新计算了AUROC,同时改变了所包含数据类型的数量,随着新数据类型的添加而不论添加顺序如何,预测能力都会提高。具体结果如图所示:

image.png

图6 不同数据类型集的AUROC对比图



BANDIT精确地预测了特定靶标的相互作用


作者研究了如何使用BANDIT复制已发表的实验筛选结果。通过Peterson等人的激酶实验复制,说明了BANDIT能够用来指导实验筛选,同时最小化操作成本。从共享靶标的预测出发,作者检查了对于给定的药物BANDIT是否可以用于预测特定的结合靶标,结果表明BANDIT可用于准确识别多种多样的小分子的特定靶标。作者使用BANDIT预测了14,000多个小分子的新靶标,这些小分子在数据库中都没有已知的靶标和作用机制。得到了4167个独特小分子的靶标,预测的靶标范围超过了560种不同的蛋白质靶标。并通过设置更高的TLR阈值获得更高可信度的靶标预测,得到了720个高置信度的预测靶标。基于此,作者设想了BANDIT的两个主要操作方案:(1)将BANDIT与孤儿的小分子库结合使用,以识别针对特定蛋白质的新的小分子;(2)将BANDIT直接整合到药物开发流程中预测目前正在开发中的药物的靶标并指导实验(图7)。


image.png

image.png

图7 BANDIT获得特定靶标的两种建议的操作方案示意图


新型微管靶向化合物的发现


抗微管药物是目前应用最广泛的一类癌症化疗药物,微管蛋白是迄今为止最有效的抗癌靶点之一。通过实验作者证明了BANDIT的潜力,不仅可以用来识别孤儿分子的特定靶标,而且可以用来区分同一靶标上的不同作用模式。


4


总结


总而言之,作者展示了BANDIT加速药物开发的潜力,因为它涵盖了从新靶标的识别和验证到临床候选药物开发和药物再利用的整个空间。通过允许研究人员快速获得预测靶点,可以简化随后的所有开发工作,并节省科学家的时间和资源。此外,BANDIT可用于快速筛选大型化合物数据库,并可以进一步评估任何有前途的药物疗法。


参考资料


Madhukar N S, Khade P K, Huang L, et al. A Bayesian machine learning approach for drug target identification using diverse data types[J]. Nature communications, 2019, 10(1): 1-14.


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
29天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
97 4
|
12天前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
42 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
29天前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
34 6
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
117 1
|
1月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
34 2
|
6月前
|
数据采集 机器学习/深度学习 算法
机器学习方法之决策树算法
决策树算法是一种常用的机器学习方法,可以应用于分类和回归任务。通过递归地将数据集划分为更小的子集,从而形成一棵树状的结构模型。每个内部节点代表一个特征的判断,每个分支代表这个特征的某个取值或范围,每个叶节点则表示预测结果。
185 1
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
86 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
2月前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
【10月更文挑战第5天】如何用贝叶斯方法来解决机器学习中的分类问题?
|
2月前
|
机器学习/深度学习 算法 API
机器学习入门(六):分类模型评估方法
机器学习入门(六):分类模型评估方法
|
2月前
|
机器学习/深度学习 算法 搜索推荐
机器学习入门(四):距离度量方法 归一化和标准化
机器学习入门(四):距离度量方法 归一化和标准化