Survey | 基于图卷积网络的药物发现方法

简介: Survey | 基于图卷积网络的药物发现方法

本期介绍2019年6月发表在Briefings in Bioinformatics的综述,该综述由康奈尔大学等机构的研究人员撰写,系统总结了GCN及其在药物发现方面的最新进展,重点是与药物相关的应用;在图形卷积原理部分提供图卷积的理论支持和GCN的详细架构及其在药物发现中的应用并讨论了当前方法之外的挑战和可能性。


image.png

1. 简介


药物开发是一个昂贵且耗时的过程,其需要测试数千种化合物以找出安全有效的药物。现代药物开发旨在利用药物开发的机器学习工具来加速中间步骤并因此降低成本。化合物分子通过一系列渐进的试验进行过滤,这些试验确定了它们在后期阶段的性质、有效性和毒性。机器学习倾向于越来越多地用于更好地预测早期阶段的分子特性,可以显著减少后期过程失败的负荷,节省大量资源和时间。

image.png

目前广泛采用QSAR / QSPR模型,机器学习在药物开发中的应用包括但不限于以下:生物活性或物理化学预测、预测药物-蛋白质和药物-药物对的相互作用、从头分子设计产生具有理想药理特性的分子结构、合成可及性预测、预测合成反应的产物。由于传统机器学习方法只能处理固定大小的输入,大多数早期药物发现都使用了特征工程,即生成和使用特定问题的分子描述符。通常,一组特定问题的分子描述符用作任务中的特征。常用的描述符包括:(1)分子指纹,通过一系列代表特定子结构存在的二进制数字编码分子结构;(2)源自量子化学、物理化学和微分拓扑的描述符,由统计学家和化学家处理;(3)SMILES字符串,独特地表征分子的结构并将其表示为线符号。给定预定义的预测变量,然后通过机器学习算法构建和学习分类或预测模型。

image.png

近年来,越来越多的大型化学数据库可用于药物研发。因此,在使用深度神经网络应用于药物开发方面已经出现了新的尝试。深度学习的优势在于它能够学习输入特征与大规模数据输出决策之间的复杂关系。它在药物发现和分子信息学中的应用仍处于起步阶段,但已经显示出巨大的潜力。与传统的机器学习方法相比,几种常用的深层架构已经用于与药物相关的工作中并且取得了实质性的改进。然而,由于以下原因,深度模型仍然存在局限性。首先,大多数当前的深度模型仍然基于人工制作的特征或预定义的描述符,从而防止结构信息直接从原始输入中学习。其次,现有架构不太适合像分子这样的结构化数据。在这些体系结构的特征提取过程中,既未考虑也未充分使用内部结构信息。因此,更适合的体系结构对于进一步提高药物发现中深度学习的潜力至关重要。


结构化数据,例如图像已被卷积神经网络(CNN)成功地处理,这是一种深度神经网络的特殊结构。CNN揭示了图像相关任务中的最新性能,因为它可以通过卷积运算符自动从绘图图像中提取任务相关的特征。对于由原子和化学键组成的药物和小分子有不同的类型结构,即图形,对于它们其中每个原子是节点,每个化学键是边缘。一个简单的尝试是对分子图类似地适应卷积过程。然而,与图像不同,图形具有不规则的形状和大小;节点上没有空间顺序,其邻居也与位置有关。因此,常规网格状结构上的传统卷积不能直接应用于图形。实际上,现实世界中的各种结构数据通常形成为图形而不是图像,这意味着开发处理不规则结构的方法非常重要且迫切需要。


报道中已经努力对非欧几里德结构化数据上的卷积算子进行推广,从而产生所谓的图卷积网络(GCN)。GCN已被确立为与药物相关任务的最先进方法,其方式是:(1)通过考虑数据结构提取特征;(2)能够从原始输入而不是从手工制作的特征中自动提取特征这可能会导致由专家的偏见引起的重要信息。目前正在出现的GCN遵循两个主流,可以概括为空间GCN,其通过对图中所有相邻节点的所有特征向量求和来直接在空间域中形成卷积;另一种被称为光谱GCN,根据谱图理论,它定义了图谱域中的卷积。最近的工作还表明,谱卷积可以表征为空间卷积的特殊情况。但是,由于理论基础不同,仍然将它们视为以下各节中的单独卷积运算。在两个域中都定义了卷积,生成GCN利用卷积过程来编码隐藏的表示和生成分子图。


2. 图卷积的原理


处理图形或网络的数据形式存在许多重要的实际问题,如社交网络、知识图形、蛋白质相互作用网络和分子图形等。然而,将深度学习应用于这些图形数据是非常重要的,因为它具有独特地图特征。人们非常关注神经网络模型对这种结构化图形数据的概括。过去的几年中,许多论文重新讨论推广神经网络以处理任意结构化图形的问题。下面的小节中给出了图的表示和图卷的两种方式,即空间卷积和谱卷积。空间卷积GCN是可区分的消息传递模式,其在局部图形邻域上操作到任意图形。对于社交网络,知识图和分子图等图形,它比谱卷积更受欢迎。谱卷积GCN的思想是利用光谱理论在拓扑图上实现卷积运算,通常用于处理数据,如图像和视频。


2.1 图形定义


图(graph)是一种数据格式,它可以用于表示社交网络、通信网络、蛋白分子网络等,图中的节点表示网络中的个体,连边表示个体之间的连接关系。许多机器学习任务例如社团发现、链路预测等都需要用到图结构数据,因此图卷积神经网络的出现为这些问题的解决提供了新的思路。


image.png

2.2 空间卷积


早期尝试推广结构化数据的判别嵌入中,Dai等人提出了structure2vec,一种用于嵌入图结构化数据的潜变量模型,在图形模型中使用近似推理算法。推理算法的解决方案意味着一个传播方程,其中节点的表示是邻域边缘和来自邻居消息的函数。后来大部分GCN都建立在这个概念之上,并进行了广泛的修改,称为空间卷积。


空间卷积旨在直接在顶点域中构造卷积。关键思想是通过聚合来自其相邻节点的信息来更新某个节点的表示。空间卷积与Weisfeiler-Lehman算法一致,通常用于测试两个图是否是同构,其中节点标签由相邻节点的有序标签集重复地增强。这种传播的基本机制是首先将邻域信息视为图子结构,然后通过将不同的子结构递归地投影到不同的特征空间中,通过可微函数对这种子结构进行建模。邻居和中心节点之间的信息也称为消息。消息传递到中心节点的方式产生表征网络体系结构的不同传播规则。



2.3 谱卷积


image.png

image.png

image.png

3.1 定量构效关系(QSAR)/ 定量结构-性质关系(QSPR);


3.2 相互作用预测:药物-靶标相互作用、蛋白-蛋白相互作用和药物-药物相互作用;


3.3 合成预测


3.4 全新分子设计


4. 药物发现和分子生物信息学数据库



4.1 分子特性和活性


PubChem


MUV (Maximum Unbiased Validation)


ChEMBL


ZINC


NCI


Tox21、ToxCast and ClinTox


FreeSolv



4.2 相互作用数据库


SIDER (Side Effect Resource)


OFFSIDES (Off-label Side Effect)


STITCH (Search Tool for Interacting Chemicals)


DrugBank


TTD (Therapeutic Target Database)


DBD5 (Docking Benchmark Database)


4.3 综合数据库


USPTO:包含化学品反应物反应信息的数据库。


4.4 综合基准数据库


MoleculeNet


Decagon


image.png

image.png

5. 结果展望


GCN被描述为对结构化数据建模施加关系归纳偏差。GCN的出现及其在分子生物信息学等领域的成功应用描绘了结合深度学习和结构化方法的强大功能,这些方法对输入和模型施加了严格的约束。从更广泛的意义上讲,GCN适用于任何可以表示为图形的数据结构,因此在各种实际应用中具有重要意义。


药物发现领域中深度学习能够在相对短的时间内大规模预测化学性质和活性,自动化并加速药物发现过程。与传统方法相比,图卷积网络的引入通过考虑内在分子结构提供了更准确的预测。此外,当与其他机制组合时,图形卷积网络产生生物可解释的结果。尽管图形卷积网络最近取得了成功,但仍然存在挑战,以便充分释放图形卷积网络在药物发现方面的潜力。


5.1 数据库挑战和机遇


深度模型需要大量数据才能学习输入和目标之间的复杂关系。虽然大型数据库正在变得可用,但由于以下原因仍然存在不足。首先,对于某些分子特性可用数据被限制或扩展为不同的小数据集。除了收集更多数据外,更好地集成不同数据源的统一平台对于交叉引用和获取更多数据也是必不可少的。其次,现有的数据库主要是阳性的样本。当前的计算方法要么设计新的目标,要么手动生成负样本以面对限制,而识别负样本实际上是困难的。因此,官方策划的阴性样本对于使用机器学习方法进行更准确的预测非常重要。第三,可以将更多详细信息添加到数据库中。当药物与另一种药物相互作用时,效果可以是协同或拮抗,而实际上只记录拮抗作用。事实上,药物协同相互作用效应是有益的,因此它可以为患者护理中的药物组合提供重要指导。


5.2 方法论的挑战和机遇


化合物分子,尤其是蛋白质是3D形状的实体,其中3D空间中的折叠结构极大地影响它们的功能。当前图卷积主要在平面2D图形上操作,其忽略第三维空间中的结构信息。已经有一些尝试在3D结构上开发卷积算法并且将图形卷积网络扩展到3D结构肯定是值得探索的方向。另一方面,高阶结构在二维图形上的聚焦和探索较少,而实际上可能提供额外的信息。例如,在疾病-蛋白质网络分析中,作者发现疾病途径不对应于单个连接良好的组分,而更高阶的网络结构为疾病途径发现提供了额外的信息。


现有图卷积对规则图形进行操作,而对于某些关系可以形成超图形。例如,不同的药物可以共享相同的ADR、靶标或指示,其可以转换成超图。如何在超图上定义适当的卷积以提取有用信息尚未在文献中进行研究。


5.3 网络设计的挑战和机遇


能做出的一个改进是结合两个场景并构建端到端框架,利用低级结构信息和全局网络结构信息。对于第二种情况,通常在交互网络中最多呈现两个实体,而实际上,药物发现涉及两个以上的实体,并且另外的实体有助于提供附加信息。例如,在更大的网络中实体可能是药物,靶标、疾病甚至是ADR。然而,文献中没有充分考虑具有两种以上模态的图形卷积形式多模网络。一个可能的原因是尽管图卷积网络适用于可以表示为图形的任何数据,但是图形表示对于现有数据并不总是明确的。用于药物发现的多模型网络的情况下,具有三种或更多种类型的实体通常更复杂,因此设计适当的图以便应用卷积框架是至关重要的。


5.4 可解释性挑战和机遇


由于深度神经网络的复杂性,它总是受到缺乏可解释性的批评。然而,生物信息学和健康相关领域中,在评估计算模型和更好地理解潜在机制时,可解释性非常重要。因此,设计允许解释或可视化复杂关系的微妙架构既是GCN应用在药物发现中的挑战,也是机遇。以前的研究使用注意机制或节点对评分成功地显示了药物和蛋白质实体(DTI和PPI)之间的相互作用复合物。需要其他机制来进一步提高学习模型的可解释性。


目录
相关文章
|
14天前
|
机器学习/深度学习 计算机视觉 Python
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力本文提出了一种简单且高效的卷积神经网络(ConvNets)注意力模块——SimAM。与现有模块不同,SimAM通过优化能量函数推断特征图的3D注意力权重,无需添加额外参数。SimAM基于空间抑制理论设计,通过简单的解决方案实现高效计算,提升卷积神经网络的表征能力。代码已在Pytorch-SimAM开源。
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
7天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
17天前
|
机器学习/深度学习 监控 自动驾驶
卷积神经网络有什么应用场景
【10月更文挑战第23天】卷积神经网络有什么应用场景
18 2
|
17天前
|
机器学习/深度学习 自然语言处理 算法
什么是卷积神经网络
【10月更文挑战第23天】什么是卷积神经网络
24 1
|
20天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
65 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
22天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。
|
29天前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
82 1
|
8天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
22 0
|
11天前
|
机器学习/深度学习 人工智能 TensorFlow
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第32天】本文将介绍深度学习中的一个重要分支——卷积神经网络(CNN),以及其在图像识别领域的应用。我们将通过一个简单的代码示例,展示如何使用Python和TensorFlow库构建一个基本的CNN模型,并对其进行训练和测试。

热门文章

最新文章