Bioinformatics | 预测药物-药物相互作用的多模态深度学习框架

简介: Bioinformatics | 预测药物-药物相互作用的多模态深度学习框架

image.png

今天给大家介绍来自华中农业大学信息学院章文教授课题组在Bioinformatics上发表的一篇关于预测药物与药物相互作用事件的文章。作者提出了一个多模态深度学习框架— DDIMDL。它将不同的药物特征与深度学习相结合,建立了一个预测药物相互作用相关事件的模型。DDIMDL首先分别利用四种药物特征:化学子结构、靶点、酶和通道,构建基于深度神经网络的子模型,然后采用联合DNN框架组合子模型,学习药物-药物对的跨模态表征,预测药物与药物相互作用(DDI, drug–drug interactions )。


1


引言


许多基于机器学习的DDI预测方法已经被提出,大致分为四类:基于相似度的方法、基于网络的方法、基于矩阵分解的方法和基于集成学习的方法。一般来说,现有的方法是为了预测两种药物是否相互作用,并且对更好的理解DDI做出了很大的贡献。然而,DDIs可以导致不同的生物学后果或事件。预测与DDI相关的事件是一项有意义和具有挑战性的任务,并受到了一定的关注。Herrero-Zazo等人(2013)为生物医学文本中的DDIs构建了一个手工注释的语料库。他们从DrugBank和MedLine收集了DDI,并将DDI关系注释为四种类型:机制(药代动力学机制)、效果(药效学机制)、建议(不同时服用这两种药物)和int(未提供进一步信息)。Ryu等人(2018)将从药库中收集到的生物事件分类为86种类型,建立基于药物化学子结构的深度学习模型进行预测DDI事件。随后,Lee等人(2019)直接将三个特征合并为DNN的输入,建立预测模型。


虽然上述工作在事件预测方面做出了重要的努力,但仍有改进的空间。首先,DrugBank是一个可靠的数据源,对DDIs的描述具有统一的语法,因此我们可以通过标准描述提取DDI事件并进行进一步的研究。第二,药库具有多种药物特征。第三,特征之间存在冗余,如何有效的将不同的特征组合在一起是一个挑战。


为了解决上述问题,作者提出了一种名为DDIMDL的计算方法,该方法结合多种药物特征和深度学习来预测DDI事件。作者定义了一个标准方案来分析药库的DDI事件,并选择65种主要事件进行分析。此外,作者还收集了药物的四个特征:化学亚结构、靶标、酶和建模途径。在DDIMDL中,利用每种药物特征构造四个子模型,并利用联合DNN框架将子模型组合起来,学习药物-药物对的交叉模态表示。最后,作者利用学习到的交叉模态表征预测与DDI相关的事件。


2


数据集


DrugBank是一个能提供12151种药物的综合信息的资源,包括3,844种FDA批准的药物和5867种实验药物。在这项研究中,作者从DrugBank中收集了DDIs以及药物的四个特征:化学子结构、靶标、通道和酶。在我们从DrugBank获得一种药物的通道(KEGG ID)后,我们可以使用KEGG数据库将KEGG ID转换为相应的药物通路信息。药物的靶标和酶直接从数据库中获取。


为了更好地理解DDI事件,我们将DDI事件的表示定义为四元结构:(药物A、药物B、机制、动作),其中“机制”指的是药物在代谢、血清浓度、疗效等方面的作用。“动作”表示词元化后的增减。由于预先训练的模型没有在生物医学文本上进行训练,因此它无法为一些专业药物的名称安排合适的词性,因此将所有药物名称列出,进行识别。


3


DDIMDL方法概述


DDIMDL方法如下图所示。首先,作者使用四种类型的药物特征来计算药物-药物的相似性,并使用它们作为药物的表征。在多层神经网络的基础上,将药物的表示分别输入子模型。然后,作者结合子模型来学习药物-药物对的交叉模态表示,并用所学的交叉模态表示来预测DDI事件。下面介绍了DDIMDL的关键组件。


3.1特征抽象模块


如前面所讲,我们有药物的四个特征:化学亚结构、靶点、酶和通道,这些特征带来了药物的不同信息。每个特征对应一组描述符,因此药物可以用一个二元特征向量表示,其值为(1或0)表示对应描述符的存在或不存在。这些特征向量具有高维数,且多数维数为0,从而要对特征进行了压缩,降低了稀疏性。采用Jaccard相似度度量方法,从位向量中计算药物的双向相似度,而不是使用位向量作为输入。Jaccard相似度计算公式如下:

image.png

3.2DDIMDL的构建与模型优化


由于我们有多个特征,我们使用深度神经网络(DNN)根据每个特征构造子模型。深度神经网络(DNN)是一种在输入层和输出层之间具有多层结构的人工神经网络。无论是线性关系还是非线性关系,DNN都能找到正确的数学操作,将输入转化为输出。子模型网络的设计受到瓶颈类神经网络VGG16的启发。通过使用瓶颈特征,我们可以减少需要训练的参数的数量。


不同子模型的组合对于DDIMDL很重要。我们根据不同的特征构造子模型,然后将子模型结合起来构建预测模型。采用交叉熵作为损失函数,对DDIMDL模型进行了经验训练和优化。使用早期停止策略,如果在10个epoch内没有观察到任何改进,则自动停止训练。


4


实验和结果


4.1评价标准


在DDI预测中,研究者通常关注三个任务。第一种是预测未知的已知药物之间的相互作用,第二种是预测已知药物和新药之间的相互作用,第三种是预测新药之间的相互作用。对于任务1,我们对DDIs应用5倍交叉验证(5-CV),并将所有DDIs分成5个子集。作者基于训练集中的DDIs来训练模型,然后对测试集中的DDIs进行预测。对于task 2和task 3,作者将5-CV用于药物而不是DDI对。作者将药物随机分成五组,其中四组作为训练药物,其余的作为测试药物。对于task 2,我们在训练药物之间的DDIs上建立预测模型,然后对训练药物和测试药物之间的DDIs进行预测。任务3在训练药物之间的DDIs上建立预测模型,然后对测试药物之间的DDIs进行预测。为了评估,使用准确率(ACC)、AUPR、ROC曲线下面积(AUC)、F1评分和Precision作为评价指标。作者对AUPR和AUC使用微观度量,而对其他的使用宏观度量(微精度、微召回、微f1在多分类问题中等于准确度)。


4.2参数设置


首先,作者讨论了子模型结构的层数。我们设定一个规则,每一层的神经元数是前一层的一半,并将最后一层的神经元数固定为256。我们经验地考虑了两个隐藏层、三个隐藏层、四个隐藏层和五个隐藏层。不同配置下的度量分数和训练时间如下表所示。因此,作者采用了三层网络结构,以达到最好的性能。然后,作者讨论了dropout rate的影响。我们以0.1作为步长,将dropout rate从0设置为0.5,当dropout rate为0.3时获得最高的ACC和AUPR。

image.png

4.3特征评价

作者评估了不同药物特征对DDI事件预测的影响。使用每个特征或特征组合来构建DDIMDL模型,并采用模型的度量分数作为对应特征或特征组合有用性的指标。所有预测模型的结果见下表。

image.png

在所有的药物特征中,化学亚结构信息最为丰富,准确率为0.8623。基于目标特征的模型的准确率为0.8338,基于路径特征的模型的准确率为0.8182。酶的特征模型的精度为0.6687。与单个特性相比,这些特性的组合提供了显著的改进。子结构和目标的组合在两种特征的所有组合中产生最佳的性能;子结构、靶标和酶的组合在这三种特征的组合中表现得最好。此外,我们观察到,使用所有特征并不会比将子结构、靶标和酶结合起来得到更好的结果。


所有DDIMDL模型的精确召回曲线如下图所示。它们也直观地表明,多模态学习的应用提高了DDIMDL在DDI事件预测中的性能。

image.png

4.4方法比较

各预测模型的评价得分如下表所示,结果表明就所有指标而言,DDIMDL比其他方法具有更好的性能。

image.png

所有模型的精确回忆曲线如下图所示,而DDIMDL在所有方法中表现最好。

image.png

下图演示了DDIMDL在大多数类型的事件比其他方法生成更大的AUPR评分和AUC评分。

image.png

为了进一步分析预测模型的性能,我们使用下图显示在65种类型事件上不同方法的AUPR评分和AUC评分。这些箱线图清楚地显示,DDIMDL在处理这些事件时比比较的方法产生更好的统计性能,基于多模态深度学习的DDIMDL显著提高了DNN的性能。

image.png

4.5案例研究

作者使用来自DrugBank的数据集中的所有DDIs和它们的事件来训练预测模型,然后对其他药物-药物对进行预测。作者关注从#1到#5频率最高的5个事件,并检查与每个事件相关的前20个预测。

image.png

5


结论


本研究从DrugBank获取DDI数据,并应用NLP技术根据描述语法将DDI相关事件分类为65种类型,编译了包含572种药物、74,528种相互作用和65种DDI相关事件的数据集。提出了一种基于深度学习的多模式深度学习框架DDIMDL,该框架将多种药物特性与深度学习相结合,用于DDI事件预测。通过使用五折交叉验证进行评估,DDIMDL的性能优于现有的DDI事件预测方法和基线方法。作者经过多方验证,说明了多模态深度学习框架是一种很有前途的DDI事件预测工具。


目录
相关文章
|
6月前
|
机器学习/深度学习 存储 人工智能
深度解析大模型压缩技术:搞懂深度学习中的减枝、量化、知识蒸馏
本文系统解析深度学习模型压缩三大核心技术:剪枝、量化与知识蒸馏,详解如何实现模型缩小16倍、推理加速4倍。涵盖技术原理、工程实践与组合策略,助力AI模型高效部署至边缘设备。
1222 2
|
7月前
|
机器学习/深度学习 存储 监控
基于深度学习YOLO框架的城市道路损伤检测与评估项目系统【附完整源码+数据集】
本项目基于深度学习的YOLO框架,成功实现了城市道路损伤的自动检测与评估。通过YOLOv8模型,我们能够高效地识别和分类路面裂缝、井盖移位、坑洼路面等常见的道路损伤类型。系统的核心优势在于其高效性和实时性,能够实时监控城市道路,自动标注损伤类型,并生成损伤评估报告。
423 0
基于深度学习YOLO框架的城市道路损伤检测与评估项目系统【附完整源码+数据集】
|
7月前
|
机器学习/深度学习 自动驾驶 算法
基于深度学习的YOLO框架的7种交通场景识别项目系统【附完整源码+数据集】
在智慧交通和智能驾驶日益普及的今天,准确识别复杂交通场景中的关键元素已成为自动驾驶系统的核心能力之一。传统的图像处理技术难以适应高动态、复杂天气、多目标密集的交通环境,而基于深度学习的目标检测算法,尤其是YOLO(You Only Look Once)系列,因其检测速度快、精度高、可部署性强等特点,在交通场景识别中占据了重要地位。
871 0
基于深度学习的YOLO框架的7种交通场景识别项目系统【附完整源码+数据集】
|
9月前
|
机器学习/深度学习 传感器 算法
基于多模态感知与深度学习的智能决策体系
本系统采用“端-边-云”协同架构,涵盖感知层、计算层和决策层。感知层包括视觉感知单元(800万像素摄像头、UWB定位)和环境传感单元(毫米波雷达、TOF传感器)。边缘侧使用NVIDIA Jetson AGX Orin模组处理多路视频流,云端基于微服务架构实现智能调度与预测。核心算法涵盖人员行为分析、环境质量评估及路径优化,采用DeepSORT改进版、HRNet-W48等技术,实现高精度识别与优化。关键技术突破包括跨摄像头协同跟踪、小样本迁移学习及实时推理优化。实测数据显示,在18万㎡商业体中,垃圾溢流检出率达98.7%,日均处理数据量达4.2TB,显著提升效能并降低运营成本。
521 7
|
机器学习/深度学习 存储 人工智能
MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式
MNN 是阿里巴巴开源的轻量级深度学习推理框架,支持多种设备和主流模型格式,具备高性能和易用性,适用于移动端、服务器和嵌入式设备。
3041 18
MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式
|
12月前
|
机器学习/深度学习 文字识别 自然语言处理
分析对比大模型OCR、传统OCR和深度学习OCR
OCR技术近年来迅速普及,广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景,极大提升了便利性。其发展历程从传统方法(基于模板匹配和手工特征设计)到深度学习(采用CNN、LSTM等自动学习高级语义特征),再到大模型OCR(基于Transformer架构,支持跨场景泛化和少样本学习)。每种技术在特定场景下各有优劣:传统OCR适合实时场景,深度学习OCR精度高但依赖大量数据,大模型OCR泛化能力强但训练成本高。未来,大模型OCR将结合多模态预训练,向通用文字理解方向发展,与深度学习OCR形成互补生态,最大化平衡成本与性能。
|
12月前
|
机器学习/深度学习 PyTorch TensorFlow
深度学习工具和框架详细指南:PyTorch、TensorFlow、Keras
在深度学习的世界中,PyTorch、TensorFlow和Keras是最受欢迎的工具和框架,它们为研究者和开发者提供了强大且易于使用的接口。在本文中,我们将深入探索这三个框架,涵盖如何用它们实现经典深度学习模型,并通过代码实例详细讲解这些工具的使用方法。
1074 0
|
机器学习/深度学习 监控 PyTorch
深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析
在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。
428 7
|
机器学习/深度学习 自然语言处理 并行计算
DeepSpeed分布式训练框架深度学习指南
【11月更文挑战第6天】随着深度学习模型规模的日益增大,训练这些模型所需的计算资源和时间成本也随之增加。传统的单机训练方式已难以应对大规模模型的训练需求。
1874 3
|
机器学习/深度学习 搜索推荐 数据库
深度学习之药物筛选与发现
基于深度学习的药物筛选与发现是利用深度学习模型自动化和加速药物开发过程的一个重要方向。传统的药物发现过程通常耗时长、成本高,需要大量的实验和计算,而深度学习通过从大规模生物医学数据中学习规律,能够帮助研究人员更快速地筛选潜在药物,并预测其在体内的行为。
442 4

热门文章

最新文章