GraphDTA | 基于图卷积网络预测药物-靶标结合亲和力

简介: GraphDTA | 基于图卷积网络预测药物-靶标结合亲和力

image.png

1. 研究背景

现有的高通量筛选实验用于确定药物和靶标之间的生物活性是一个昂贵费时的步骤。因此,基于已经在临床实验中测量的相互作用,使用统计学和机器学习模型来估计新的药物-靶标的相互作用的强度是重要的替代方案。澳大利亚Deakin大学的Svetha Venkatesh课题组提出了GraphDTA,一种基于图神经网络的药物-靶标结合亲和力的预测方法。


2. 相关工作


2.1药物表征


发明了SMILES表示计算机可读的分子,开发了多个有效的应用程序,包括快速检索和子结构搜索。根据SMILES可以计算药物描述符用作预测亲和力的特征。可以将SMILES视为字符串使用自然语言处理(NLP)技术来强化药物,也可以视为1D表示,输入卷积神经网络(CNN)以学习模型来预测亲和性。

image.png

化学结构到SMILES字符串


SMILES可通过rdkit开源软件生成graph的形式,然后通过图卷积网络表示学习得到药物特征向量。


图形卷积网络(GCN)最流行的深度学习方法可用于药物-靶标结合亲和力的预测,GCN是卷积神经网络(CNN)到图结构数据的推广。GCN可分为两大类:基于谱的方法和基于空间的方法。基于谱的方法中,图首先在谱域中表示,然后在该域中定义卷积运算。相反,基于空间的方法直接在图空间域上执行学习算法。学习过程包括邻域公式,然后通过聚合来自其邻居节点的信息,然后是子采样任务来更新节点的信息。


2.2药物-靶标结合亲和力的预测


2.2.1亲和力相似度(SimBoost)


药物-靶标结合亲和力预测的任务可以被认为是协同过滤问题(CF)。对于药物- 靶标结合预测中可获得的亲和力通常是稀疏的。伴随着药物之间以及靶标之间的相似性,以在SimBoost中建立特征,这些特征是梯度增强机器的输入,以预测未知药物-靶标对的结合亲和力。

版权声明:本文为CSDN博主「DrugAI」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/u012325865/article/details/105683719化学结构到SMILES字符串


SMILES可通过rdkit开源软件生成graph的形式,然后通过图卷积网络表示学习得到药物特征向量。


图形卷积网络(GCN)最流行的深度学习方法可用于药物-靶标结合亲和力的预测,GCN是卷积神经网络(CNN)到图结构数据的推广。GCN可分为两大类:基于谱的方法和基于空间的方法。基于谱的方法中,图首先在谱域中表示,然后在该域中定义卷积运算。相反,基于空间的方法直接在图空间域上执行学习算法。学习过程包括邻域公式,然后通过聚合来自其邻居节点的信息,然后是子采样任务来更新节点的信息。


2.2药物-靶标结合亲和力的预测


2.2.1亲和力相似度(SimBoost)


药物-靶标结合亲和力预测的任务可以被认为是协同过滤问题(CF)。对于药物- 靶标结合预测中可获得的亲和力通常是稀疏的。伴随着药物之间以及靶标之间的相似性,以在SimBoost中建立特征,这些特征是梯度增强机器的输入,以预测未知药物-靶标对的结合亲和力。

image.png

SimBoost算法预测过程


2.2.2基于内核(KronRLS)


可以从其他来源建立相似性而不是训练数据中的亲和力。鉴于问题是预测n种药物和m种靶标的亲和力,它们将有n * m种组合,并且核心的大小为(n * m)平方。为了加速模型训练,Cichonska等人建议使用KronRLS。


为了计算内核,可以使用任何相似性度量。药物的核心是基于Tanimoto的相似性构建的; 而对于目标,Smith-Waterman评分用作蛋白质序列的相似性度量。


2.2.3深度学习


提供药物(SMILES)和蛋白质(序列)的1D表示时,深度学习可能是预测亲和力的可能方法。

image.png

图中,input_1和input_2分别是药物和靶标。因此使用1D卷积和池的层来捕获输入中的潜在模式。然后将它们连接起来,通过Dropout的正则层发送,最后用训练亲和力回归。

3. 方法(GraphDTA)


通过将药物的特征带入药物-靶标相互作用的模型,研究人员提出了一种新的深度学习模型GraphDTA,用于药物-靶标亲和力预测。GraphDTA中基于药物的SMILES作为输入,通过开源软件RDKit构建药物的分子图并提取原子特征,将该图结构数据输入到GCN层中学习药物图特征表示中的潜在模式。然后将药物-靶标亲和力(DTA)预测问题转换为回归任务,其中输入是一对蛋白质和药物表示,并且输出是反映该对亲和力结合得分的连续值。


3.1化合物的图表示


化合物可描述为原子间相互作用的图。因此,以图表示的形式处理输入化合物,并随后在图上应用学习算法可以很好地适合任务。为此,对于每个输入化合物(SMILES),研究人员构建了反映化合物内原子之间相互作用的相应分子图。


3.2深入学习分子图


化合物以图的形式表示,问题是采用能够有效地从图结构化数据中学习的算法。最近在计算机视觉、语音识别和自然语言处理中的深度卷积神经网络的成功导致了将卷积运算扩展到图结构的想法。已经提出了许多工作来处理将CNN概括为图形的两个主要挑战,即在数据点未被布置为欧几里德网格的图中形成感受域,以及用于对图进行下采样的池化操作。

image.png

GraphDTA模型


研究人员提出了一种新的DTA预测模型,该模型基于图神经网络和传统CNN的组合。模型采用两个输入:SMILES和蛋白质序列,并且并行地向前馈送它们以学习每个的表示向量,然后将两个潜在的特征向量连接起来并经历几个密集层,以回归层来估计亲和力值。

研究人员为了评估基于图神经网络方法的有效性,采用了多种图神经网络模型。包括GCN、GAT、GIN和GAT-GCN。通过修改图神经网络的模式来测试模型性能。

image.png

4. 实验与结果

研究人员主要通过对比非深度学习模型与比较流行的深度学习模型,通过测量计算一致性指数CI(指示预测值与实际值的一致性)与均方误差MSE这两个指标来表示模型的好坏。为了使实验结果具有比较性,分别在Davis与Kiba数据集对模型进行测量。

image.png

Davis数据集模型测量结果

image.png

KIBA数据集模型测量结果


两种数据集中的测量结果都表示在基于GAT-GCN结合的图表示模型中预测性能最佳。


5. 结论


本项工作中,研究人员提出了一种计算药物-靶标结合亲和力的新方法,称为GraphDTA;旨在降低药物开发的难度,减少发现新药物靶标相互作用在时间与成本上的花费,缩短药物开发周期。该模型使用由SMILES数据重构得来的二维图结构数据,能够表达药物的较完整信息,因此该方法能够获得较好的预测性能。

Code availability


https://github.com/thinng/GraphDTA


目录
相关文章
|
6月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
机器学习/深度学习 编解码 自动驾驶
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
608 3
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
|
7月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
622 11
|
10月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-LSTM时间卷积神经网络时间序列预测算法matlab仿真
本内容展示了一种基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测方法。通过 MATLAB2022a 实现,完整程序运行无水印,核心代码附详细中文注释及操作视频。算法利用 PSO 优化 TCN 的超参数(如卷积核大小、层数等),提升非线性时间序列预测性能。TCN 结构包含因果卷积层与残差连接,结合 LSTM 构建混合模型,经多次迭代选择最优超参数,最终实现更准确可靠的预测效果,适用于金融、气象等领域。
|
11月前
|
机器学习/深度学习 人工智能 算法
深度解析:基于卷积神经网络的宠物识别
宠物识别技术随着饲养规模扩大而兴起,传统手段存在局限性,基于卷积神经网络的宠物识别技术应运而生。快瞳AI通过优化MobileNet-SSD架构、多尺度特征融合及动态网络剪枝等技术,实现高效精准识别。其在智能家居、宠物医疗和防走失领域展现广泛应用前景,为宠物管理带来智能化解决方案,推动行业迈向新高度。
1103 66
|
7月前
|
机器学习/深度学习 传感器 数据采集
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
455 0
|
9月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
497 7
|
11月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于PSO(粒子群优化)改进TCN(时间卷积神经网络)的时间序列预测方法。使用Matlab2022a运行,完整程序无水印,附带核心代码中文注释及操作视频。TCN通过因果卷积层与残差连接处理序列数据,PSO优化其卷积核权重等参数以降低预测误差。算法中,粒子根据个体与全局最优位置更新速度和位置,逐步逼近最佳参数组合,提升预测性能。
|
12月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本项目基于MATLAB2022a开发,提供无水印算法运行效果预览及核心程序(含详细中文注释与操作视频)。通过结合时间卷积神经网络(TCN)和遗传算法(GA),实现复杂非线性时间序列的高精度预测。TCN利用因果卷积层与残差连接提取时间特征,GA优化超参数(如卷积核大小、层数等),显著提升模型性能。项目涵盖理论概述、程序代码及完整实现流程,适用于金融、气象、工业等领域的时间序列预测任务。
|
10月前
|
机器学习/深度学习 数据采集 监控
基于CNN卷积神经网络和GEI步态能量提取的步态识别算法matlab仿真,对比不同角度下的步态识别性能
本项目基于CNN卷积神经网络与GEI步态能量提取技术,实现高效步态识别。算法使用不同角度(0°、45°、90°)的步态数据库进行训练与测试,评估模型在多角度下的识别性能。核心流程包括步态图像采集、GEI特征提取、数据预处理及CNN模型训练与评估。通过ReLU等激活函数引入非线性,提升模型表达能力。项目代码兼容Matlab2022a/2024b,提供完整中文注释与操作视频,助力研究与应用开发。