DrugVQA | 用视觉问答技术预测药物蛋白质相互作用

简介: DrugVQA | 用视觉问答技术预测药物蛋白质相互作用

image.png

1、研究背景


鉴定新的药物-蛋白质相互作用对于药物发现至关重要,基于机器学习的方法利用药物描述符和一维(1D)蛋白质序列已经开发了许多鉴定方法。这些方法一般都是通过将配体,蛋白质及其相互作用的信息整合到一个统一的框架中,将是否存在相互作用的预测作为二元分类的任务。


最近的研究证明,由于大多数药物包含少于100个重原子,所以具有相对较小的结构空间,当前的深度学习技术可以根据药物分子的线性表达式SMILES准确预测结构特性。然而,蛋白质分子要大得多,通常包含1000多个重原子。而从1D序列到3D结构的预测是众所周知的具有挑战性的问题。因此,传统的一维蛋白质序列表示法不足以捕获3D空间中决定DPI预测的结构特征。尽管在最近的研究中尝试了3D结构的直接输入,由于一些原因,它们获得了相对较低的精度。首先,不规则蛋白质3D结构需要一个大的3D矩阵才能包含整个结构,高维稀疏矩阵导致大量无关的输入变量;其次,这些研究受稀缺的高质量3D蛋白结构数据的困扰,因为它们需要蛋白质-配体对的共晶结构,而这些结构很难通过实验确定。

image.png

为了解决上述问题,中山大学杨跃东教授的团队提出了一种端到端的深度学习框架DrugVQA,该框架利用二维成对距离图来表示蛋白质,因此DPI任务可以转换为经典的视觉问答(VQA)问题。在这里,图像是蛋白质的距离图,问题是药物的分子线性符号,答案是它们是否相互作用。该框架使得可以进行蛋白质单体结构的训练,而无需与其结合配体的共晶结构,从而大大扩展了可用于训练的数据集。为了对模型进行有效的训练,引入了动态注意力卷积神经网络(dynamic attentive convolutional neural network)以学习将长度不定的蛋白质变为固定大小的表示形式,并引入了自注意力顺序模型(self-attentional sequential model)以自动从分子SMILES中提取语义特征。大量的实验表明,相较于目前最先进的预测方法,DrugVQA在DUD-E,Human和BindingDB基准数据集上都表现出了竞争优势。该模型进一步的注意力可视化还为DPI提供了生物学解释,以描绘蛋白质和药物分子的相互作用区域。

2、方法

 

2.1将药物化合物以SMILES格式表示

SMILES格式是基于化学键规则的拓扑信息文本字符串。为了保存更多的化学特征,利用了如下正则表达式标记药物分子:

image.png

此外,还使用以下规则替换了多字符符号:

image.png

2.2将蛋白质以2D距离图表示

蛋白质可以简单地描述为由一系列氨基酸残基组成的线性序列,其中是一个利用one-hot表示的长度为20的向量,为蛋白质的氨基酸序列长度。计算二维成对距离图的方式如下:

image.png

对于第个氨基酸残基,它的向量就表示为

image.png

,对于整个蛋白质大分子,它的2D成对距离图即为

image.png

2.3动态注意力CNN(Dynamic attentive CNN)


在DrugVQA中,采用自适应的CNN模型将蛋白质的2D距离图编码为固定大小的向量表示形式。CNN模块使用了改进的残差网络(Resnet)和基于序列的自注意力机制(sequential self-attention)处理蛋白质输入。


每个残基块可以定义为:

image.png

与通常将图像预处理为相同大小的VQA任务不同,现实世界中的蛋白质具有不同的氨基酸长度,无法缩放。因此,需要设计一个动态神经网络使它既可以处理可变长度的输入,又可以预测每种氨基酸的重要性。因此需要去除残差块之间的池化层,并对输入的两侧使用零填充以确保残差块的结果与输入的大小相同,处理过后的输出就可以看作是蛋白质顺序表示。由于大多数位点与药物结合并不直接相关,因此识别小部分结合位点对于准确预测DPI至关重要,此时便引入了多头顺序注意力机制来充分利用这些特征进行预测。由于蛋白质结合口袋由空间上相邻的多个连续位点组成,因此是一个的矩阵以捕获结合口袋的整体结构信息。


image.png

然后通过将注释矩阵 与之前得到的特征图 相乘得到一个特征图,它是一个特殊的特征图,包含了相互作用里位点贡献的潜在关系。

image.png

2.4自注意力BiLSTM(Self-attentive BiLSTM)

每个药物分子的SMILES字符串被编码为一个两维嵌入矩阵M,矩阵中的词条向量彼此独立,为了获得分子中相邻词条之间的某种依赖性,使用BiLSTM(双向LSTM)处理分子。

image.png

接下来想要知道分子的哪个部分对相互作用的预测贡献最大,这样可以将其用于化学家设计或改进化合物。与上述处理蛋白质过程一样,通过引入多头自注意力机制来实现这一目标。注意机制将整个LSTM隐藏状态作为输入,然后输出权重矩阵。

image.png

通过将注释矩阵与LSTM隐藏状态相乘来计算加权总和,得到的矩阵是自注意力分子嵌入 ,这当中包含相互作用的药物化合物分子位点贡献的潜在关系。

2.5分类器

对于和,对所有注意力向量求和,然后对所得的权重向量进行归一化处理使其和为1,在此过程中得到的两个一维向量,将它们送进分类器并计算分类得分。

image.png

image.png

2.6训练

给定数据集

image.png

,利用交叉熵损失函数进行训练。

image.png

3、实验


3.1 DUD-E数据集


杨教授团队依据[Ragoza et al., 2017]提出的策略,采用了三重交叉验证的方式在DUD-E数据集上训练和评价DrugVQA模型。折叠在靶标之间进行,相同靶标的所有配体属于同一折叠。为了避免同源蛋白质的影响,将属于相同蛋白质家族的靶标严格地以相同的倍数保留。为了快速训练模型所以使用了平衡集(每个目标的所有正值和随机选择的等效负值)进行训练,但评价模型时包括了整个集合(非平衡值)。


3.2 Human数据集


在Human数据集中,根据[Tsubaki et al., 2018]的方法,选取了正负样本数量比为1:1的平衡集,得到了6,675种相互作用和1,998种蛋白质,然后利用了原文提到的五折交叉验证方法进行训练和评价。


3.3 BindingDB数据集


杨教授团队进一步选择BindingDB数据集作为实际数据集来评估DrugVQA模型。BindingDB是结合亲和力的公共数据库,主要关注小分子与蛋白质的相互作用。在实验中,团队使用[Gao et al., 2018]构建的自定义BindingDB数据集进行了头对头比较(head-to-head comparisons)。数据集包含39,747个阳性实例和31,218个阴性实例。


3.4 在DUD-E数据集上的比较


将DrugVQA与DUD-E数据集上的最新DPI方法进行比较:(1)传统对接方法Vina、Smina;(2)机器学习评分功能NN-Score;RF-Score;(3)基于深度学习的3D-CNN方法、AtomNet、GNN。

image.png

3.5 在BindingDB数据集上的比较


进一步在BindingDB数据集上评估DrugVQA。分别与四个方法进行比较:(1)基于相似度的方法Tiresias;(2)一种使用预定义分子指纹和蛋白质描述符中级特征的深度学习方法DBN;(3) 分别使用GCN和LSTM处理药物分子和蛋白质高水平信息的方法E2E;(4)GNN。

image.png

3.6 可解释性


DrugVQA的另一个优势是其可解释性。为了说明这一点,团队研究人员在DUD-E数据集中选择了两个预测最好的相互作用:蛋白Hsp90(PDB:3EKR)和CDK2(PDB:2DUV)及其相应的活性物质。如图所示,绿色突出显示了绑定袋中高度受关注的位置,红色云层表示受关注的药物原子。较深的颜色表示较高的注意力系数。在这两种情况下,重量大于0.6的分子组分基本上与分子和蛋白质之间的相互作用位点重叠。同时,对于Hsp90(左),口袋重要性图突出显示了残基Asn51A,Asp93A和Met98A,它们与在共晶复合物中观察到的关键口袋残基高度重叠(PDB:2DUV)。对于CDK2(右),重要性图中突出显示的关键残基(Phe80A,Asp145A)和配体官能团与3EKR中观察到的相互作用具有高度相似性。这个结果表明DrugVQA可以为药物-蛋白质结合模式提供合理的依据。

image.png

4、结论


本文提出了一种新颖的端到端深度学习框架,利用视觉问答(VQA)模型以预测药物-蛋白质相互作用。在DPI研究中,这是第一次使用自注意力卷积和递归结构同时从蛋白质2D距离图和分子语言中提取特征。实验评估表明,DrugVQA模型在三个公共数据集上都显示出了最佳性能。此外,DrugVQA还能从生物的角度出发去解释分子间相互作用的本质。




目录
相关文章
|
存储 前端开发 安全
GET 和 POST 请求:理解它们之间的区别和适用场景
GET 和 POST 请求:理解它们之间的区别和适用场景
|
存储 数据挖掘 数据库
【Python】python天气数据抓取与数据分析(源码+论文)【独一无二】
【Python】python天气数据抓取与数据分析(源码+论文)【独一无二】
|
关系型数据库 MySQL Windows
mysql彻底卸载干净的5个步骤,超多图超详细保姆级教程最新教程新手小白轻松上手
mysql彻底卸载干净的5个步骤,超多图超详细保姆级教程最新教程新手小白轻松上手
27714 2
|
5月前
|
JavaScript Shell API
阿里云百炼 API 调用教程:准备 API-Key、配置环境变量和调用 API 流程
在使用阿里云百炼平台的大模型能力时,API 调用是核心环节 —— 无论是开发 AI 应用、测试模型效果,还是搭建智能服务,都需要通过 API 将大模型能力集成到自己的系统中。不过对很多开发者来说,从准备密钥到实际调用的流程可能存在疑问,比如 “API-Key 怎么获取”“环境变量配置有什么用”“不同语言怎么写调用代码”。本文结合最新的实操细节,用通俗的语言把整个流程拆解开,从账号准备到多语言调用,每一步都附具体操作和代码示例,帮大家快速上手。
|
4月前
|
Java Shell API
阿里云百炼 API 怎么用?2026年阿里云百炼 API 调用教程:从密钥准备到多语言实现
在使用阿里云百炼平台的大模型能力时,API 调用是核心环节 —— 无论是开发 AI 应用、测试模型效果,还是搭建智能服务,都需要通过 API 将大模型能力集成到自己的系统中。但很多开发者会困惑 “API-Key 怎么获取”“环境变量配置有什么用”“不同语言怎么写调用代码”。本文结合实操细节,用通俗语言拆解从账号准备到多语言调用的全流程,每步附具体操作和代码示例,帮助快速上手。
|
Python
用python3快速读取30G+的txt文件
这篇文章介绍了如何使用Python分块读取大文件(如30G+的txt文件),通过设置每次读取的块大小来处理大型文本文件,以减少内存消耗并提高处理效率。
527 15
|
12月前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
2711 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
存储 人工智能 数据库
Agno:18.7K Star!快速构建多模态智能体的轻量级框架,运行速度比LangGraph快5000倍!
Agno 是一个用于构建多模态智能体的轻量级框架,支持文本、图像、音频和视频等多种数据模态,能够快速创建智能体并实现高效协作。
4264 22
Agno:18.7K Star!快速构建多模态智能体的轻量级框架,运行速度比LangGraph快5000倍!
|
存储 缓存 文件存储
uv安装python及其依赖的加速方法
国内在使用uv的时候,可能会涉及到装python的速度太慢的问题,为了解决这个问题,可以使用`UV_PYTHON_INSTALL_MIRROR`这个环境变量。除此以外,对于多人协作场景,`UV_CACHE_DIR`也是一个有用的环境变量。本文会介绍这两个变量。
8074 10