Chemical Science | 通过异构网络中的深度学习对已知药物进行靶标识别

简介: Chemical Science | 通过异构网络中的深度学习对已知药物进行靶标识别

今天给大家介绍的是2020年1月在Chemical Science上发表的论文“Target identification among known drugs by deep learning from heterogeneous networks”。在不了解完整的药物靶标信息的情况下,开发有效的药物是一个巨大的挑战。本研究为药物靶标识别提供了一个功能强大的基于网络的深度学习方法:deepDTnet,以加速药物的重新利用,减少药物开发中的翻译鸿沟。


image.png

1


研究背景


研究表明:制药公司开发经美国食品药品监督管理局(FDA)批准的新药物,其平均成本从2003年8亿美元上升到2015年26亿美元。药物开发成本增加的主要因素之一是随机对照试验的高失败率,这是昂贵且费时的。药物发现范例中“一种基因,一种药物,一种疾病”的经典假设可能是造成药物开发成功率低原因。在没有事先了解完整的药物靶标信息(即药物的分子“杂泛性”)的情况下,由于存在非预期的治疗效果或多种药物靶标间的相互作用导致脱靶毒性和次优疗效,使得大量药物的临床试验面临失败。


鉴定已知药物分子的靶标对于提高疗效和最小化临床试验中的副作用至关重要。然而,实验确定药物与靶标的相互作用既昂贵又费时。在这篇文章中,作者开发了一种基于网络的深度学习方法,称为deepDTnet,用于计算识别已知药物分子的靶标。deepDTnet嵌入了15种类型的网络,包括化学、基因组、表型和细胞网络,通过学习药物和靶标的低维但信息量丰富的载体表示来生成生物学和药理学相关的特征。


2


方法


deepDTnet包含两个关键步骤:(1)将深度神经网络算法应用于网络嵌入,该算法将网络中的每个顶点嵌入到低维向量空间中;(2)由于缺乏公开可用的负样本,作者将PU矩阵补全算法作为用于预测新型药物与靶标相互作用的向量空间的投影方案。


图1说明了deepDTnet的详细流程。为了捕获丰富的语义信息,作者利用网络嵌入从网络中提取低维特征。从此过程获得的低维向量会编码异构药物-靶标-疾病网络中每种药物(或靶标)节点的相关生物学特性、关联信息和拓扑背景。

image.png

图1 deepDTnet的工作流程图


2.1构建异构网络


药物-靶标网络


药物-靶标关联信息来自数据库DrugBank(v4.3)、Therapeutic Target Database(TDD)和PharmGKB。仅使用满足以下三个标准的药物与靶标相互作用:(i)人体靶标由唯一的UniProt登录号表示;(ii)该靶标在UniProt数据库中被标记为“已审核”(2018年12月);(iii)结合亲和力小于10 。


在5680种药物-靶标相互作用中,文章使用了732种FDA批准的药物和1178种独特的人类靶标(蛋白质)。外部验证集来自数据库DrugCentral。


人类蛋白质-蛋白质相互作用组(PPI)


作者从15个生物信息学和系统生物学数据库中收集了具有多重实验证据的PPI数据。经过筛查,这项研究中使用的最终人类蛋白质相互作用蛋白质组16133个,这些PPI连接1915种独特的药物靶标编码基因产物。


药物相互作用(DDI)


每种药物的化学名称、通用名称或商业名称均通过医学主题词(MeSH)和统一医学语言系统(UMLS)词汇进行了标准化,然后从DrugBank数据库(v4.3)进一步转移至DrugBank ID。总共保留了132768例临床报告的DDI与732种FDA批准的独特药物连接。


药物-疾病网络


作者从多个公共数据库(repoDB、DrugBank(v4.3)和DrugCentral)中收集了已知的药物适应症(药物-疾病关联)。在这项研究中,共有1208种药物-疾病对,连接732种药物和440种疾病。


药物-副作用网络


作者通过汇总MetaADEDB、CTD、SIDER(v2)和OFFSIDES的数据来收集具有临床报告证据的药物副作用或药物不良事件(ADE)信息。这项研究总共使用了263805个药物-ADE关联,收集了732种已批准的药物和12904个ADE。


药物对的化学相似性分析


作者从DrugBank数据库下载了化学结构信息(SMILES格式),并使用Open Babel(v2.3.1.100)计算每种药物的MACCS指纹。


蛋白质序列相似性分析(药物靶标相似性网络和药物对相似性网络)


从Uniprot数据库中下载了人的药物靶标(蛋白质)的规范蛋白质序列。利用史密斯-沃特曼算法计算药物靶标相似性。药物对相似性计算与该药物对结合的所有药物靶标(蛋白质)相似性的均值。



药物靶标的基因共表达分析(药物靶标相似性网络和药物对相似性网络)


作者从GTEx(V6)下载了32个组织的RNA-seq数据(RPKM值)。在每个组织中,80%以上样本里RPKM1的那些基因被视为组织表达的基因。利用皮尔逊相关系数测量与药物治疗的疾病相关的药物靶标编码基因共表达的程度。药物对的共表达计算与该药物对结合的所有药物靶标(蛋白质)共表达的均值。


药物靶标的基因本体(GO)相似性分析(药物靶标相似性网络和药物对相似性网络)


从网站(http://www.geneontology.org/)下载所有药物靶标编码基因的基因本体论(GO)注释。作者使用了三种类型的经过实验验证或来自文献的证据:生物过程(BP),分子功能(MF)和细胞成分(CC)。利用GOSemSim相似性度量算法测量药物靶标相似性。药物对相似性计算与该药物对结合的所有药物靶标(蛋白质)对相似性的均值。


药物对的临床相似性分析


本研究中使用的所有FDA批准药物的药物解剖学化学(ATC)代码均从DrugBank数据库(v4)下载。药品A和B的第k级药品临床相似性(Sk)定义如下:


image.png

根据上述公式,药物对的临床相似性定义如下:

image.png

疾病-基因网络:作者整合了三个常用的生物信息学数据源中的疾病基因注释数据,包括OMIM、CTD和HuGE navigator。研究总共使用了230个疾病-基因对,将440个疾病和1915个药物靶标编码基因连接在一起。


2.2 网络嵌入


在这项研究中,作者使用DNGR嵌入模型来学习特征。DNGR模型包括以下三个主要步骤。首先,受用于排序任务的PageRank模型的启发,利用随机冲浪模型来捕获网络信息并生成一个概率共现矩阵;接下来,基于概率共生矩阵计算PPMI矩阵;最后,使用堆叠式去噪自动编码器学习低维顶点表示。

image.png

图2 网络嵌入的流程图


2.3 PU矩阵补全算法


IMC方法使用已知的药物-靶标相互作用作为正样本训练集,将未知的药物-靶标相互作用作为负样本训练集。但是,这种分类器实际上是从包含了噪声的负样本集中构建的,因为在负样本中可能存在未知的药物-靶标的关联。因此,本研究利用了正向-未标记(PU)学习算法框架,在该框架中,观察到的和未观察到的条目在目标上的处罚不同。PU矩阵补全算法优化函数定义如下:


image.png

2.4 构建相似性网络


对于同构相互作用网络(例如,药物-药物相互作用网络)和相似性网络(例如,药物化学相似性网络),作者通过直接在每个网络上运行DNGR模型来生成每种药物或靶标的特征表示。对于关联网络,即药物-疾病、药物副作用和蛋白质-疾病网络,作者首先根据Jaccard相似性系数构建相应的相似性网络,然后在这些相似性网络上运行DNGR模型。Jaccard相似度是用于表征两组样本之间相似度和多样性的常用统计量。


3


结果


3.1 评估deepDTnet模型性能


为了评估deepDTnet的性能,作者首先组合来自六个数据源的结合亲和力数据,建立了一个药物-靶标网络,包括5680个经过实验验证的药物-靶标相互作用,连接732种批准的药物和1176个人类靶标。在5折交叉验证中,测试集由随机选择20%的经过实验验证的药物-靶标对(正样本)和匹配数量的随机采样的非相互作用(未观察到的)对(负样本)组成。其余80%经过实验验证的药物-靶标对和匹配数量的随机采样的非相互作用对作为训练集。结果显示,deepDTnet优于之前的三种最新方法,如图3所示:

————————————————

版权声明:本文为CSDN博主「DrugAI」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/u012325865/article/details/1056837672.4 构建相似性网络


对于同构相互作用网络(例如,药物-药物相互作用网络)和相似性网络(例如,药物化学相似性网络),作者通过直接在每个网络上运行DNGR模型来生成每种药物或靶标的特征表示。对于关联网络,即药物-疾病、药物副作用和蛋白质-疾病网络,作者首先根据Jaccard相似性系数构建相应的相似性网络,然后在这些相似性网络上运行DNGR模型。Jaccard相似度是用于表征两组样本之间相似度和多样性的常用统计量。


3


结果


3.1 评估deepDTnet模型性能


为了评估deepDTnet的性能,作者首先组合来自六个数据源的结合亲和力数据,建立了一个药物-靶标网络,包括5680个经过实验验证的药物-靶标相互作用,连接732种批准的药物和1176个人类靶标。在5折交叉验证中,测试集由随机选择20%的经过实验验证的药物-靶标对(正样本)和匹配数量的随机采样的非相互作用(未观察到的)对(负样本)组成。其余80%经过实验验证的药物-靶标对和匹配数量的随机采样的非相互作用对作为训练集。结果显示,deepDTnet优于之前的三种最新方法,如图3所示:


image.png

image.png

图3 deepDTnet与其他方法的性能比较

3.2 deepDTnet的药理学解释

作者采用t-SNE(t分布随机邻居嵌入算法)来进一步可视化deepDTnet学习的低维节点表示。

image.png

图3 deepDTnet的t-SNE可视化


作者将按解剖治疗化学分类系统(ATC)代码的第一级分组的药物投影到2D空间上。图3A显示deepDTnet能够区分按ATC代码分组的14种药物。作者进一步在二维空间中可视化四种类型的可药物化目标(GPCR,45种激酶,NR和IC)。图3B揭示了同一靶标家族中的靶标在地理位置上的分组,并且每个组之间的间隔清晰,这进一步证明了deepDTnet的高嵌入能力。此外,deepDTnet识别的低维矢量表示优于传统的基于网络或生物信息学的方法(包括基于蛋白质序列或基于基因本体论[细胞成分]相似性的测量方法)。


3.3 deepDTnet发现已知药物分子的新靶标


为了发现已知药物的新靶标,作者通过deepDTnet对四个靶标族(GPCR,激酶,NR和ICs)的前五个预测DTI进行了优先排序。图4A显示了涵盖了四个靶标家族的新型预测DTI的双向药物靶标网络。


image.png

image.png

4通过deepDTnet发现的药物靶标网络。


3.4 deepDTnet预测结果的实验鉴定


作者通过实验测试了deepDTnet优先考虑的前25个新候选者。包括Topotecan作为视黄酸受体(RAR)相关孤儿素受体-t(ROR-t)拮抗剂的实验验证、Topotecan可逆转体内多发性硬化。并且通过deepDTnet,在整个蛋白质组学范围内探索批准药物的杂泛性情况。


4


讨论


本文介绍了deepDTnet,这是一种基于网络的新型深度学习方法。deepDTnet用于靶标识别和药物利用,系统地嵌入了15种类型的化学、基因组、表型和细胞网络,并在PU-学习框架下预测已知药物分子的新靶标。作者通过实验验证了deepDTnet预测的Topotecan对人的ROR-t具有高抑制活性。作者随后证明了Topotecan在多发性硬化症的小鼠模型中具有潜在的治疗作用。


这是一项系统性的深度学习研究,将最大的生物医学网络数据集集成在一起,用于靶标识别和药物再利用,并通过实验测试其发现。该方法能够最大程度地减少动物模型中临床前测试结果与人类临床结果之间的翻译鸿沟,解决当前药物开发中重要的问题。总而言之,该方法表明靶标识别和药物利用可以受益于基于网络的合理深度学习预测,并探索异构药物-基因-疾病网络中药物与靶标之间的关系。从翻译的角度来看,如果广泛应用,此处开发的基于网络的深度学习工具可以帮助开发针对多种复杂疾病的新颖有效的治疗策略。


Data availability


https://github.com/ ChengF-Lab/deepDTnet


Code availability


https://github.com/ ChengF-Lab/deepDTnet


目录
相关文章
|
7天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
62 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
3天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于深度学习网络的宝石类型识别算法matlab仿真
本项目利用GoogLeNet深度学习网络进行宝石类型识别,实验包括收集多类宝石图像数据集并按7:1:2比例划分。使用Matlab2022a实现算法,提供含中文注释的完整代码及操作视频。GoogLeNet通过其独特的Inception模块,结合数据增强、学习率调整和正则化等优化手段,有效提升了宝石识别的准确性和效率。
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)##
在当今的人工智能领域,深度学习已成为推动技术革新的核心力量之一。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,因其在图像和视频处理方面的卓越性能而备受关注。本文旨在深入探讨CNN的基本原理、结构及其在实际应用中的表现,为读者提供一个全面了解CNN的窗口。 ##
|
7天前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
26 3
|
15天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
42 8
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN): 从理论到实践
本文将深入浅出地介绍卷积神经网络(CNN)的工作原理,并带领读者通过一个简单的图像分类项目,实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据,并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈,这篇文章都将为你提供宝贵的知识和技能。
52 7
|
13天前
|
机器学习/深度学习 自然语言处理 算法
深入理解深度学习中的卷积神经网络(CNN)
深入理解深度学习中的卷积神经网络(CNN)
17 1
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
本文旨在通过深入浅出的方式,为读者揭示卷积神经网络(CNN)的神秘面纱,并展示其在图像识别领域的实际应用。我们将从CNN的基本概念出发,逐步深入到网络结构、工作原理以及训练过程,最后通过一个实际的代码示例,带领读者体验CNN的强大功能。无论你是深度学习的初学者,还是希望进一步了解CNN的专业人士,这篇文章都将为你提供有价值的信息和启发。
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
|
16天前
|
机器学习/深度学习 自动驾驶 TensorFlow
深度学习与图像识别:探索神经网络的奥秘
在这篇文章中,我们将一同跳入深度学习的海洋,探索其如何改变我们处理和理解图像的方式。通过直观的代码示例和浅显易懂的解释,我们将揭开深度学习在图像识别领域应用的神秘面纱。无论你是编程新手还是深度学习爱好者,这篇文章都将为你开启一段新的认知旅程。让我们一起跟随代码的步伐,见证技术如何赋予机器“视觉”。