Chemical Science | 通过异构网络中的深度学习对已知药物进行靶标识别

简介: Chemical Science | 通过异构网络中的深度学习对已知药物进行靶标识别

今天给大家介绍的是2020年1月在Chemical Science上发表的论文“Target identification among known drugs by deep learning from heterogeneous networks”。在不了解完整的药物靶标信息的情况下,开发有效的药物是一个巨大的挑战。本研究为药物靶标识别提供了一个功能强大的基于网络的深度学习方法:deepDTnet,以加速药物的重新利用,减少药物开发中的翻译鸿沟。


image.png

1


研究背景


研究表明:制药公司开发经美国食品药品监督管理局(FDA)批准的新药物,其平均成本从2003年8亿美元上升到2015年26亿美元。药物开发成本增加的主要因素之一是随机对照试验的高失败率,这是昂贵且费时的。药物发现范例中“一种基因,一种药物,一种疾病”的经典假设可能是造成药物开发成功率低原因。在没有事先了解完整的药物靶标信息(即药物的分子“杂泛性”)的情况下,由于存在非预期的治疗效果或多种药物靶标间的相互作用导致脱靶毒性和次优疗效,使得大量药物的临床试验面临失败。


鉴定已知药物分子的靶标对于提高疗效和最小化临床试验中的副作用至关重要。然而,实验确定药物与靶标的相互作用既昂贵又费时。在这篇文章中,作者开发了一种基于网络的深度学习方法,称为deepDTnet,用于计算识别已知药物分子的靶标。deepDTnet嵌入了15种类型的网络,包括化学、基因组、表型和细胞网络,通过学习药物和靶标的低维但信息量丰富的载体表示来生成生物学和药理学相关的特征。


2


方法


deepDTnet包含两个关键步骤:(1)将深度神经网络算法应用于网络嵌入,该算法将网络中的每个顶点嵌入到低维向量空间中;(2)由于缺乏公开可用的负样本,作者将PU矩阵补全算法作为用于预测新型药物与靶标相互作用的向量空间的投影方案。


图1说明了deepDTnet的详细流程。为了捕获丰富的语义信息,作者利用网络嵌入从网络中提取低维特征。从此过程获得的低维向量会编码异构药物-靶标-疾病网络中每种药物(或靶标)节点的相关生物学特性、关联信息和拓扑背景。

image.png

图1 deepDTnet的工作流程图


2.1构建异构网络


药物-靶标网络


药物-靶标关联信息来自数据库DrugBank(v4.3)、Therapeutic Target Database(TDD)和PharmGKB。仅使用满足以下三个标准的药物与靶标相互作用:(i)人体靶标由唯一的UniProt登录号表示;(ii)该靶标在UniProt数据库中被标记为“已审核”(2018年12月);(iii)结合亲和力小于10 。


在5680种药物-靶标相互作用中,文章使用了732种FDA批准的药物和1178种独特的人类靶标(蛋白质)。外部验证集来自数据库DrugCentral。


人类蛋白质-蛋白质相互作用组(PPI)


作者从15个生物信息学和系统生物学数据库中收集了具有多重实验证据的PPI数据。经过筛查,这项研究中使用的最终人类蛋白质相互作用蛋白质组16133个,这些PPI连接1915种独特的药物靶标编码基因产物。


药物相互作用(DDI)


每种药物的化学名称、通用名称或商业名称均通过医学主题词(MeSH)和统一医学语言系统(UMLS)词汇进行了标准化,然后从DrugBank数据库(v4.3)进一步转移至DrugBank ID。总共保留了132768例临床报告的DDI与732种FDA批准的独特药物连接。


药物-疾病网络


作者从多个公共数据库(repoDB、DrugBank(v4.3)和DrugCentral)中收集了已知的药物适应症(药物-疾病关联)。在这项研究中,共有1208种药物-疾病对,连接732种药物和440种疾病。


药物-副作用网络


作者通过汇总MetaADEDB、CTD、SIDER(v2)和OFFSIDES的数据来收集具有临床报告证据的药物副作用或药物不良事件(ADE)信息。这项研究总共使用了263805个药物-ADE关联,收集了732种已批准的药物和12904个ADE。


药物对的化学相似性分析


作者从DrugBank数据库下载了化学结构信息(SMILES格式),并使用Open Babel(v2.3.1.100)计算每种药物的MACCS指纹。


蛋白质序列相似性分析(药物靶标相似性网络和药物对相似性网络)


从Uniprot数据库中下载了人的药物靶标(蛋白质)的规范蛋白质序列。利用史密斯-沃特曼算法计算药物靶标相似性。药物对相似性计算与该药物对结合的所有药物靶标(蛋白质)相似性的均值。



药物靶标的基因共表达分析(药物靶标相似性网络和药物对相似性网络)


作者从GTEx(V6)下载了32个组织的RNA-seq数据(RPKM值)。在每个组织中,80%以上样本里RPKM1的那些基因被视为组织表达的基因。利用皮尔逊相关系数测量与药物治疗的疾病相关的药物靶标编码基因共表达的程度。药物对的共表达计算与该药物对结合的所有药物靶标(蛋白质)共表达的均值。


药物靶标的基因本体(GO)相似性分析(药物靶标相似性网络和药物对相似性网络)


从网站(http://www.geneontology.org/)下载所有药物靶标编码基因的基因本体论(GO)注释。作者使用了三种类型的经过实验验证或来自文献的证据:生物过程(BP),分子功能(MF)和细胞成分(CC)。利用GOSemSim相似性度量算法测量药物靶标相似性。药物对相似性计算与该药物对结合的所有药物靶标(蛋白质)对相似性的均值。


药物对的临床相似性分析


本研究中使用的所有FDA批准药物的药物解剖学化学(ATC)代码均从DrugBank数据库(v4)下载。药品A和B的第k级药品临床相似性(Sk)定义如下:


image.png

根据上述公式,药物对的临床相似性定义如下:

image.png

疾病-基因网络:作者整合了三个常用的生物信息学数据源中的疾病基因注释数据,包括OMIM、CTD和HuGE navigator。研究总共使用了230个疾病-基因对,将440个疾病和1915个药物靶标编码基因连接在一起。


2.2 网络嵌入


在这项研究中,作者使用DNGR嵌入模型来学习特征。DNGR模型包括以下三个主要步骤。首先,受用于排序任务的PageRank模型的启发,利用随机冲浪模型来捕获网络信息并生成一个概率共现矩阵;接下来,基于概率共生矩阵计算PPMI矩阵;最后,使用堆叠式去噪自动编码器学习低维顶点表示。

image.png

图2 网络嵌入的流程图


2.3 PU矩阵补全算法


IMC方法使用已知的药物-靶标相互作用作为正样本训练集,将未知的药物-靶标相互作用作为负样本训练集。但是,这种分类器实际上是从包含了噪声的负样本集中构建的,因为在负样本中可能存在未知的药物-靶标的关联。因此,本研究利用了正向-未标记(PU)学习算法框架,在该框架中,观察到的和未观察到的条目在目标上的处罚不同。PU矩阵补全算法优化函数定义如下:


image.png

2.4 构建相似性网络


对于同构相互作用网络(例如,药物-药物相互作用网络)和相似性网络(例如,药物化学相似性网络),作者通过直接在每个网络上运行DNGR模型来生成每种药物或靶标的特征表示。对于关联网络,即药物-疾病、药物副作用和蛋白质-疾病网络,作者首先根据Jaccard相似性系数构建相应的相似性网络,然后在这些相似性网络上运行DNGR模型。Jaccard相似度是用于表征两组样本之间相似度和多样性的常用统计量。


3


结果


3.1 评估deepDTnet模型性能


为了评估deepDTnet的性能,作者首先组合来自六个数据源的结合亲和力数据,建立了一个药物-靶标网络,包括5680个经过实验验证的药物-靶标相互作用,连接732种批准的药物和1176个人类靶标。在5折交叉验证中,测试集由随机选择20%的经过实验验证的药物-靶标对(正样本)和匹配数量的随机采样的非相互作用(未观察到的)对(负样本)组成。其余80%经过实验验证的药物-靶标对和匹配数量的随机采样的非相互作用对作为训练集。结果显示,deepDTnet优于之前的三种最新方法,如图3所示:

————————————————

版权声明:本文为CSDN博主「DrugAI」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/u012325865/article/details/1056837672.4 构建相似性网络


对于同构相互作用网络(例如,药物-药物相互作用网络)和相似性网络(例如,药物化学相似性网络),作者通过直接在每个网络上运行DNGR模型来生成每种药物或靶标的特征表示。对于关联网络,即药物-疾病、药物副作用和蛋白质-疾病网络,作者首先根据Jaccard相似性系数构建相应的相似性网络,然后在这些相似性网络上运行DNGR模型。Jaccard相似度是用于表征两组样本之间相似度和多样性的常用统计量。


3


结果


3.1 评估deepDTnet模型性能


为了评估deepDTnet的性能,作者首先组合来自六个数据源的结合亲和力数据,建立了一个药物-靶标网络,包括5680个经过实验验证的药物-靶标相互作用,连接732种批准的药物和1176个人类靶标。在5折交叉验证中,测试集由随机选择20%的经过实验验证的药物-靶标对(正样本)和匹配数量的随机采样的非相互作用(未观察到的)对(负样本)组成。其余80%经过实验验证的药物-靶标对和匹配数量的随机采样的非相互作用对作为训练集。结果显示,deepDTnet优于之前的三种最新方法,如图3所示:


image.png

image.png

图3 deepDTnet与其他方法的性能比较

3.2 deepDTnet的药理学解释

作者采用t-SNE(t分布随机邻居嵌入算法)来进一步可视化deepDTnet学习的低维节点表示。

image.png

图3 deepDTnet的t-SNE可视化


作者将按解剖治疗化学分类系统(ATC)代码的第一级分组的药物投影到2D空间上。图3A显示deepDTnet能够区分按ATC代码分组的14种药物。作者进一步在二维空间中可视化四种类型的可药物化目标(GPCR,45种激酶,NR和IC)。图3B揭示了同一靶标家族中的靶标在地理位置上的分组,并且每个组之间的间隔清晰,这进一步证明了deepDTnet的高嵌入能力。此外,deepDTnet识别的低维矢量表示优于传统的基于网络或生物信息学的方法(包括基于蛋白质序列或基于基因本体论[细胞成分]相似性的测量方法)。


3.3 deepDTnet发现已知药物分子的新靶标


为了发现已知药物的新靶标,作者通过deepDTnet对四个靶标族(GPCR,激酶,NR和ICs)的前五个预测DTI进行了优先排序。图4A显示了涵盖了四个靶标家族的新型预测DTI的双向药物靶标网络。


image.png

image.png

4通过deepDTnet发现的药物靶标网络。


3.4 deepDTnet预测结果的实验鉴定


作者通过实验测试了deepDTnet优先考虑的前25个新候选者。包括Topotecan作为视黄酸受体(RAR)相关孤儿素受体-t(ROR-t)拮抗剂的实验验证、Topotecan可逆转体内多发性硬化。并且通过deepDTnet,在整个蛋白质组学范围内探索批准药物的杂泛性情况。


4


讨论


本文介绍了deepDTnet,这是一种基于网络的新型深度学习方法。deepDTnet用于靶标识别和药物利用,系统地嵌入了15种类型的化学、基因组、表型和细胞网络,并在PU-学习框架下预测已知药物分子的新靶标。作者通过实验验证了deepDTnet预测的Topotecan对人的ROR-t具有高抑制活性。作者随后证明了Topotecan在多发性硬化症的小鼠模型中具有潜在的治疗作用。


这是一项系统性的深度学习研究,将最大的生物医学网络数据集集成在一起,用于靶标识别和药物再利用,并通过实验测试其发现。该方法能够最大程度地减少动物模型中临床前测试结果与人类临床结果之间的翻译鸿沟,解决当前药物开发中重要的问题。总而言之,该方法表明靶标识别和药物利用可以受益于基于网络的合理深度学习预测,并探索异构药物-基因-疾病网络中药物与靶标之间的关系。从翻译的角度来看,如果广泛应用,此处开发的基于网络的深度学习工具可以帮助开发针对多种复杂疾病的新颖有效的治疗策略。


Data availability


https://github.com/ ChengF-Lab/deepDTnet


Code availability


https://github.com/ ChengF-Lab/deepDTnet


目录
相关文章
|
8月前
|
机器学习/深度学习 人工智能 运维
网管不再抓头发:深度学习教你提前发现网络事故
网管不再抓头发:深度学习教你提前发现网络事故
206 2
|
4月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
7月前
|
机器学习/深度学习 人工智能 算法
Wi-Fi老是卡?不如试试让“深度学习”来当网络管家!
Wi-Fi老是卡?不如试试让“深度学习”来当网络管家!
337 68
|
9月前
|
算法 JavaScript 数据安全/隐私保护
基于GA遗传优化的最优阈值计算认知异构网络(CHN)能量检测算法matlab仿真
本内容介绍了一种基于GA遗传优化的阈值计算方法在认知异构网络(CHN)中的应用。通过Matlab2022a实现算法,完整代码含中文注释与操作视频。能量检测算法用于感知主用户信号,其性能依赖检测阈值。传统固定阈值方法易受噪声影响,而GA算法通过模拟生物进化,在复杂环境中自动优化阈值,提高频谱感知准确性,增强CHN的通信效率与资源利用率。预览效果无水印,核心程序部分展示,适合研究频谱感知与优化算法的学者参考。
|
6月前
|
机器学习/深度学习 算法 数据库
基于GoogleNet深度学习网络和GEI步态能量提取的步态识别算法matlab仿真,数据库采用CASIA库
本项目基于GoogleNet深度学习网络与GEI步态能量图提取技术,实现高精度步态识别。采用CASI库训练模型,结合Inception模块多尺度特征提取与GEI图像能量整合,提升识别稳定性与准确率,适用于智能安防、身份验证等领域。
|
机器学习/深度学习 数据可视化 算法
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
神经常微分方程(Neural ODEs)是深度学习领域的创新模型,将神经网络的离散变换扩展为连续时间动力系统。本文基于Torchdyn库介绍Neural ODE的实现与训练方法,涵盖数据集构建、模型构建、基于PyTorch Lightning的训练及实验结果可视化等内容。Torchdyn支持多种数值求解算法和高级特性,适用于生成模型、时间序列分析等领域。
611 77
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
|
10月前
|
机器学习/深度学习 人工智能 运维
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
409 8
|
11月前
|
机器学习/深度学习 数据采集 算法
基于MobileNet深度学习网络的MQAM调制类型识别matlab仿真
本项目基于Matlab2022a实现MQAM调制类型识别,使用MobileNet深度学习网络。完整程序运行效果无水印,核心代码含详细中文注释和操作视频。MQAM调制在无线通信中至关重要,MobileNet以其轻量化、高效性适合资源受限环境。通过数据预处理、网络训练与优化,确保高识别准确率并降低计算复杂度,为频谱监测、信号解调等提供支持。
|
11月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
害虫识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了12种常见的害虫种类数据集【"蚂蚁(ants)", "蜜蜂(bees)", "甲虫(beetle)", "毛虫(catterpillar)", "蚯蚓(earthworms)", "蜚蠊(earwig)", "蚱蜢(grasshopper)", "飞蛾(moth)", "鼻涕虫(slug)", "蜗牛(snail)", "黄蜂(wasp)", "象鼻虫(weevil)"】 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Djan
633 1
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
|
12月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
蘑菇识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了9种常见的蘑菇种类数据集【"香菇(Agaricus)", "毒鹅膏菌(Amanita)", "牛肝菌(Boletus)", "网状菌(Cortinarius)", "毒镰孢(Entoloma)", "湿孢菌(Hygrocybe)", "乳菇(Lactarius)", "红菇(Russula)", "松茸(Suillus)"】 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,
1172 11
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

热门文章

最新文章