Chemical Science | 通过异构网络中的深度学习对已知药物进行靶标识别

简介: Chemical Science | 通过异构网络中的深度学习对已知药物进行靶标识别

今天给大家介绍的是2020年1月在Chemical Science上发表的论文“Target identification among known drugs by deep learning from heterogeneous networks”。在不了解完整的药物靶标信息的情况下,开发有效的药物是一个巨大的挑战。本研究为药物靶标识别提供了一个功能强大的基于网络的深度学习方法:deepDTnet,以加速药物的重新利用,减少药物开发中的翻译鸿沟。


image.png

1


研究背景


研究表明:制药公司开发经美国食品药品监督管理局(FDA)批准的新药物,其平均成本从2003年8亿美元上升到2015年26亿美元。药物开发成本增加的主要因素之一是随机对照试验的高失败率,这是昂贵且费时的。药物发现范例中“一种基因,一种药物,一种疾病”的经典假设可能是造成药物开发成功率低原因。在没有事先了解完整的药物靶标信息(即药物的分子“杂泛性”)的情况下,由于存在非预期的治疗效果或多种药物靶标间的相互作用导致脱靶毒性和次优疗效,使得大量药物的临床试验面临失败。


鉴定已知药物分子的靶标对于提高疗效和最小化临床试验中的副作用至关重要。然而,实验确定药物与靶标的相互作用既昂贵又费时。在这篇文章中,作者开发了一种基于网络的深度学习方法,称为deepDTnet,用于计算识别已知药物分子的靶标。deepDTnet嵌入了15种类型的网络,包括化学、基因组、表型和细胞网络,通过学习药物和靶标的低维但信息量丰富的载体表示来生成生物学和药理学相关的特征。


2


方法


deepDTnet包含两个关键步骤:(1)将深度神经网络算法应用于网络嵌入,该算法将网络中的每个顶点嵌入到低维向量空间中;(2)由于缺乏公开可用的负样本,作者将PU矩阵补全算法作为用于预测新型药物与靶标相互作用的向量空间的投影方案。


图1说明了deepDTnet的详细流程。为了捕获丰富的语义信息,作者利用网络嵌入从网络中提取低维特征。从此过程获得的低维向量会编码异构药物-靶标-疾病网络中每种药物(或靶标)节点的相关生物学特性、关联信息和拓扑背景。

image.png

图1 deepDTnet的工作流程图


2.1构建异构网络


药物-靶标网络


药物-靶标关联信息来自数据库DrugBank(v4.3)、Therapeutic Target Database(TDD)和PharmGKB。仅使用满足以下三个标准的药物与靶标相互作用:(i)人体靶标由唯一的UniProt登录号表示;(ii)该靶标在UniProt数据库中被标记为“已审核”(2018年12月);(iii)结合亲和力小于10 。


在5680种药物-靶标相互作用中,文章使用了732种FDA批准的药物和1178种独特的人类靶标(蛋白质)。外部验证集来自数据库DrugCentral。


人类蛋白质-蛋白质相互作用组(PPI)


作者从15个生物信息学和系统生物学数据库中收集了具有多重实验证据的PPI数据。经过筛查,这项研究中使用的最终人类蛋白质相互作用蛋白质组16133个,这些PPI连接1915种独特的药物靶标编码基因产物。


药物相互作用(DDI)


每种药物的化学名称、通用名称或商业名称均通过医学主题词(MeSH)和统一医学语言系统(UMLS)词汇进行了标准化,然后从DrugBank数据库(v4.3)进一步转移至DrugBank ID。总共保留了132768例临床报告的DDI与732种FDA批准的独特药物连接。


药物-疾病网络


作者从多个公共数据库(repoDB、DrugBank(v4.3)和DrugCentral)中收集了已知的药物适应症(药物-疾病关联)。在这项研究中,共有1208种药物-疾病对,连接732种药物和440种疾病。


药物-副作用网络


作者通过汇总MetaADEDB、CTD、SIDER(v2)和OFFSIDES的数据来收集具有临床报告证据的药物副作用或药物不良事件(ADE)信息。这项研究总共使用了263805个药物-ADE关联,收集了732种已批准的药物和12904个ADE。


药物对的化学相似性分析


作者从DrugBank数据库下载了化学结构信息(SMILES格式),并使用Open Babel(v2.3.1.100)计算每种药物的MACCS指纹。


蛋白质序列相似性分析(药物靶标相似性网络和药物对相似性网络)


从Uniprot数据库中下载了人的药物靶标(蛋白质)的规范蛋白质序列。利用史密斯-沃特曼算法计算药物靶标相似性。药物对相似性计算与该药物对结合的所有药物靶标(蛋白质)相似性的均值。



药物靶标的基因共表达分析(药物靶标相似性网络和药物对相似性网络)


作者从GTEx(V6)下载了32个组织的RNA-seq数据(RPKM值)。在每个组织中,80%以上样本里RPKM1的那些基因被视为组织表达的基因。利用皮尔逊相关系数测量与药物治疗的疾病相关的药物靶标编码基因共表达的程度。药物对的共表达计算与该药物对结合的所有药物靶标(蛋白质)共表达的均值。


药物靶标的基因本体(GO)相似性分析(药物靶标相似性网络和药物对相似性网络)


从网站(http://www.geneontology.org/)下载所有药物靶标编码基因的基因本体论(GO)注释。作者使用了三种类型的经过实验验证或来自文献的证据:生物过程(BP),分子功能(MF)和细胞成分(CC)。利用GOSemSim相似性度量算法测量药物靶标相似性。药物对相似性计算与该药物对结合的所有药物靶标(蛋白质)对相似性的均值。


药物对的临床相似性分析


本研究中使用的所有FDA批准药物的药物解剖学化学(ATC)代码均从DrugBank数据库(v4)下载。药品A和B的第k级药品临床相似性(Sk)定义如下:


image.png

根据上述公式,药物对的临床相似性定义如下:

image.png

疾病-基因网络:作者整合了三个常用的生物信息学数据源中的疾病基因注释数据,包括OMIM、CTD和HuGE navigator。研究总共使用了230个疾病-基因对,将440个疾病和1915个药物靶标编码基因连接在一起。


2.2 网络嵌入


在这项研究中,作者使用DNGR嵌入模型来学习特征。DNGR模型包括以下三个主要步骤。首先,受用于排序任务的PageRank模型的启发,利用随机冲浪模型来捕获网络信息并生成一个概率共现矩阵;接下来,基于概率共生矩阵计算PPMI矩阵;最后,使用堆叠式去噪自动编码器学习低维顶点表示。

image.png

图2 网络嵌入的流程图


2.3 PU矩阵补全算法


IMC方法使用已知的药物-靶标相互作用作为正样本训练集,将未知的药物-靶标相互作用作为负样本训练集。但是,这种分类器实际上是从包含了噪声的负样本集中构建的,因为在负样本中可能存在未知的药物-靶标的关联。因此,本研究利用了正向-未标记(PU)学习算法框架,在该框架中,观察到的和未观察到的条目在目标上的处罚不同。PU矩阵补全算法优化函数定义如下:


image.png

2.4 构建相似性网络


对于同构相互作用网络(例如,药物-药物相互作用网络)和相似性网络(例如,药物化学相似性网络),作者通过直接在每个网络上运行DNGR模型来生成每种药物或靶标的特征表示。对于关联网络,即药物-疾病、药物副作用和蛋白质-疾病网络,作者首先根据Jaccard相似性系数构建相应的相似性网络,然后在这些相似性网络上运行DNGR模型。Jaccard相似度是用于表征两组样本之间相似度和多样性的常用统计量。


3


结果


3.1 评估deepDTnet模型性能


为了评估deepDTnet的性能,作者首先组合来自六个数据源的结合亲和力数据,建立了一个药物-靶标网络,包括5680个经过实验验证的药物-靶标相互作用,连接732种批准的药物和1176个人类靶标。在5折交叉验证中,测试集由随机选择20%的经过实验验证的药物-靶标对(正样本)和匹配数量的随机采样的非相互作用(未观察到的)对(负样本)组成。其余80%经过实验验证的药物-靶标对和匹配数量的随机采样的非相互作用对作为训练集。结果显示,deepDTnet优于之前的三种最新方法,如图3所示:

————————————————

版权声明:本文为CSDN博主「DrugAI」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/u012325865/article/details/1056837672.4 构建相似性网络


对于同构相互作用网络(例如,药物-药物相互作用网络)和相似性网络(例如,药物化学相似性网络),作者通过直接在每个网络上运行DNGR模型来生成每种药物或靶标的特征表示。对于关联网络,即药物-疾病、药物副作用和蛋白质-疾病网络,作者首先根据Jaccard相似性系数构建相应的相似性网络,然后在这些相似性网络上运行DNGR模型。Jaccard相似度是用于表征两组样本之间相似度和多样性的常用统计量。


3


结果


3.1 评估deepDTnet模型性能


为了评估deepDTnet的性能,作者首先组合来自六个数据源的结合亲和力数据,建立了一个药物-靶标网络,包括5680个经过实验验证的药物-靶标相互作用,连接732种批准的药物和1176个人类靶标。在5折交叉验证中,测试集由随机选择20%的经过实验验证的药物-靶标对(正样本)和匹配数量的随机采样的非相互作用(未观察到的)对(负样本)组成。其余80%经过实验验证的药物-靶标对和匹配数量的随机采样的非相互作用对作为训练集。结果显示,deepDTnet优于之前的三种最新方法,如图3所示:


image.png

image.png

图3 deepDTnet与其他方法的性能比较

3.2 deepDTnet的药理学解释

作者采用t-SNE(t分布随机邻居嵌入算法)来进一步可视化deepDTnet学习的低维节点表示。

image.png

图3 deepDTnet的t-SNE可视化


作者将按解剖治疗化学分类系统(ATC)代码的第一级分组的药物投影到2D空间上。图3A显示deepDTnet能够区分按ATC代码分组的14种药物。作者进一步在二维空间中可视化四种类型的可药物化目标(GPCR,45种激酶,NR和IC)。图3B揭示了同一靶标家族中的靶标在地理位置上的分组,并且每个组之间的间隔清晰,这进一步证明了deepDTnet的高嵌入能力。此外,deepDTnet识别的低维矢量表示优于传统的基于网络或生物信息学的方法(包括基于蛋白质序列或基于基因本体论[细胞成分]相似性的测量方法)。


3.3 deepDTnet发现已知药物分子的新靶标


为了发现已知药物的新靶标,作者通过deepDTnet对四个靶标族(GPCR,激酶,NR和ICs)的前五个预测DTI进行了优先排序。图4A显示了涵盖了四个靶标家族的新型预测DTI的双向药物靶标网络。


image.png

image.png

4通过deepDTnet发现的药物靶标网络。


3.4 deepDTnet预测结果的实验鉴定


作者通过实验测试了deepDTnet优先考虑的前25个新候选者。包括Topotecan作为视黄酸受体(RAR)相关孤儿素受体-t(ROR-t)拮抗剂的实验验证、Topotecan可逆转体内多发性硬化。并且通过deepDTnet,在整个蛋白质组学范围内探索批准药物的杂泛性情况。


4


讨论


本文介绍了deepDTnet,这是一种基于网络的新型深度学习方法。deepDTnet用于靶标识别和药物利用,系统地嵌入了15种类型的化学、基因组、表型和细胞网络,并在PU-学习框架下预测已知药物分子的新靶标。作者通过实验验证了deepDTnet预测的Topotecan对人的ROR-t具有高抑制活性。作者随后证明了Topotecan在多发性硬化症的小鼠模型中具有潜在的治疗作用。


这是一项系统性的深度学习研究,将最大的生物医学网络数据集集成在一起,用于靶标识别和药物再利用,并通过实验测试其发现。该方法能够最大程度地减少动物模型中临床前测试结果与人类临床结果之间的翻译鸿沟,解决当前药物开发中重要的问题。总而言之,该方法表明靶标识别和药物利用可以受益于基于网络的合理深度学习预测,并探索异构药物-基因-疾病网络中药物与靶标之间的关系。从翻译的角度来看,如果广泛应用,此处开发的基于网络的深度学习工具可以帮助开发针对多种复杂疾病的新颖有效的治疗策略。


Data availability


https://github.com/ ChengF-Lab/deepDTnet


Code availability


https://github.com/ ChengF-Lab/deepDTnet


目录
相关文章
|
1天前
|
机器学习/深度学习 编解码 算法
深度学习之解构基础网络结构
本文和大家梳理分享一下大师们的探索成果,即经典的基础网络(backbone)以及关键思想,附带实现过程。5月更文挑战第6天
23 3
|
1天前
|
机器学习/深度学习 算法 TensorFlow
Python深度学习基于Tensorflow(6)神经网络基础
Python深度学习基于Tensorflow(6)神经网络基础
15 2
Python深度学习基于Tensorflow(6)神经网络基础
|
5天前
|
机器学习/深度学习 存储 算法
m基于Yolov2深度学习网络的螺丝检测系统matlab仿真,带GUI界面
MATLAB 2022a中展示了YOLOv2算法的螺丝检测仿真结果,该系统基于深度学习的YOLOv2网络,有效检测和定位图像中的螺丝。YOLOv2通过批标准化、高分辨率分类器等优化实现速度和精度提升。核心代码部分涉及设置训练和测试数据,调整图像大小,加载预训练模型,构建YOLOv2网络并进行训练,最终保存检测器模型。
22 3
|
6天前
|
机器学习/深度学习 算法 数据可视化
基于深度学习网络的鞋子种类识别matlab仿真
使用GoogLeNet深度学习模型在matlab2022a中进行鞋子种类识别,利用Inception模块捕捉多尺度特征,提升分类精度。程序加载预训练模型`gnet.mat`,计算验证集的准确性并随机显示32个样本的预测结果及置信度。
|
7天前
|
机器学习/深度学习 算法
基于深度学习网络的十二生肖图像分类matlab仿真
该内容是关于使用GoogLeNet算法进行十二生肖图像分类的总结。在MATLAB2022a环境下,GoogLeNet通过Inception模块学习高层语义特征,处理不同尺寸的输入。核心程序展示了验证集上部分图像的预测标签和置信度,以4x4网格显示16张图像,每张附带预测类别和概率。
|
9天前
|
机器学习/深度学习 自然语言处理 搜索推荐
|
10天前
|
机器学习/深度学习 自动驾驶 安全
基于深度学习的图像识别技术在自动驾驶系统中的应用网络安全与信息安全:防御前线的关键技术与意识
【4月更文挑战第30天】随着人工智能技术的飞速发展,深度学习已成为推动多个技术领域革新的核心力量。特别是在图像识别领域,深度学习模型已展现出超越传统算法的性能。在自动驾驶系统中,准确的图像识别是确保行车安全和高效导航的基础。本文将探讨深度学习在自动驾驶中图像识别的应用,分析关键技术挑战,并提出未来的发展方向。
|
10天前
|
机器学习/深度学习 自然语言处理 语音技术
【Python 机器学习专栏】Python 深度学习入门:神经网络基础
【4月更文挑战第30天】本文介绍了Python在深度学习中应用于神经网络的基础知识,包括神经网络概念、基本结构、训练过程,以及Python中的深度学习库TensorFlow和PyTorch。通过示例展示了如何使用Python实现神经网络,并提及优化技巧如正则化和Dropout。最后,概述了神经网络在图像识别、语音识别和自然语言处理等领域的应用,并强调掌握这些知识对深度学习的重要性。随着技术进步,神经网络的应用将持续扩展,期待更多创新。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
工智能基础:神经网络与深度学习
【4月更文挑战第30天】本文探讨了神经网络和深度学习在AI中的核心作用。深度学习,特别是CNN和RNN/LSTM,用于图像和序列数据处理。训练过程涉及前向传播、损失函数和反向传播。关键技术包括梯度下降、正则化和批量归一化。应用广泛,如图像识别、自然语言处理、推荐系统和游戏。随着技术发展,深度学习的应用将持续增长。
|
11天前
|
机器学习/深度学习 算法 计算机视觉
m基于Yolov2深度学习网络的智能零售柜商品识别系统matlab仿真,带GUI界面
MATLAB 2022a中展示了YOLOv2目标检测算法的仿真结果,包括多张检测图像。YOLOv2是实时检测算法,由卷积层和全连接层构成,输出张量包含边界框坐标和类别概率。损失函数由三部分组成。程序使用75%的数据进行训练,剩余25%作为测试集。通过ResNet-50预训练模型构建YOLOv2网络,并用SGDM优化器进行训练。训练完成后,保存模型为`model.mat`。
24 2