1、研究背景
鉴定新的药物-蛋白质相互作用对于药物发现至关重要,基于机器学习的方法利用药物描述符和一维(1D)蛋白质序列已经开发了许多鉴定方法。这些方法一般都是通过将配体,蛋白质及其相互作用的信息整合到一个统一的框架中,将是否存在相互作用的预测作为二元分类的任务。
最近的研究证明,由于大多数药物包含少于100个重原子,所以具有相对较小的结构空间,当前的深度学习技术可以根据药物分子的线性表达式SMILES准确预测结构特性。然而,蛋白质分子要大得多,通常包含1000多个重原子。而从1D序列到3D结构的预测是众所周知的具有挑战性的问题。因此,传统的一维蛋白质序列表示法不足以捕获3D空间中决定DPI预测的结构特征。尽管在最近的研究中尝试了3D结构的直接输入,由于一些原因,它们获得了相对较低的精度。首先,不规则蛋白质3D结构需要一个大的3D矩阵才能包含整个结构,高维稀疏矩阵导致大量无关的输入变量;其次,这些研究受稀缺的高质量3D蛋白结构数据的困扰,因为它们需要蛋白质-配体对的共晶结构,而这些结构很难通过实验确定。
为了解决上述问题,中山大学杨跃东教授的团队提出了一种端到端的深度学习框架DrugVQA,该框架利用二维成对距离图来表示蛋白质,因此DPI任务可以转换为经典的视觉问答(VQA)问题。在这里,图像是蛋白质的距离图,问题是药物的分子线性符号,答案是它们是否相互作用。该框架使得可以进行蛋白质单体结构的训练,而无需与其结合配体的共晶结构,从而大大扩展了可用于训练的数据集。为了对模型进行有效的训练,引入了动态注意力卷积神经网络(dynamic attentive convolutional neural network)以学习将长度不定的蛋白质变为固定大小的表示形式,并引入了自注意力顺序模型(self-attentional sequential model)以自动从分子SMILES中提取语义特征。大量的实验表明,相较于目前最先进的预测方法,DrugVQA在DUD-E,Human和BindingDB基准数据集上都表现出了竞争优势。该模型进一步的注意力可视化还为DPI提供了生物学解释,以描绘蛋白质和药物分子的相互作用区域。
2、方法
2.1将药物化合物以SMILES格式表示
SMILES格式是基于化学键规则的拓扑信息文本字符串。为了保存更多的化学特征,利用了如下正则表达式标记药物分子:
此外,还使用以下规则替换了多字符符号:
2.2将蛋白质以2D距离图表示
蛋白质可以简单地描述为由一系列氨基酸残基组成的线性序列,其中是一个利用one-hot表示的长度为20的向量,为蛋白质的氨基酸序列长度。计算二维成对距离图的方式如下:
对于第个氨基酸残基,它的向量就表示为
,对于整个蛋白质大分子,它的2D成对距离图即为
2.3动态注意力CNN(Dynamic attentive CNN)
在DrugVQA中,采用自适应的CNN模型将蛋白质的2D距离图编码为固定大小的向量表示形式。CNN模块使用了改进的残差网络(Resnet)和基于序列的自注意力机制(sequential self-attention)处理蛋白质输入。
每个残基块可以定义为:
与通常将图像预处理为相同大小的VQA任务不同,现实世界中的蛋白质具有不同的氨基酸长度,无法缩放。因此,需要设计一个动态神经网络使它既可以处理可变长度的输入,又可以预测每种氨基酸的重要性。因此需要去除残差块之间的池化层,并对输入的两侧使用零填充以确保残差块的结果与输入的大小相同,处理过后的输出就可以看作是蛋白质顺序表示。由于大多数位点与药物结合并不直接相关,因此识别小部分结合位点对于准确预测DPI至关重要,此时便引入了多头顺序注意力机制来充分利用这些特征进行预测。由于蛋白质结合口袋由空间上相邻的多个连续位点组成,因此是一个的矩阵以捕获结合口袋的整体结构信息。
然后通过将注释矩阵 与之前得到的特征图 相乘得到一个特征图,它是一个特殊的特征图,包含了相互作用里位点贡献的潜在关系。
2.4自注意力BiLSTM(Self-attentive BiLSTM)
每个药物分子的SMILES字符串被编码为一个两维嵌入矩阵M,矩阵中的词条向量彼此独立,为了获得分子中相邻词条之间的某种依赖性,使用BiLSTM(双向LSTM)处理分子。
接下来想要知道分子的哪个部分对相互作用的预测贡献最大,这样可以将其用于化学家设计或改进化合物。与上述处理蛋白质过程一样,通过引入多头自注意力机制来实现这一目标。注意机制将整个LSTM隐藏状态作为输入,然后输出权重矩阵。
通过将注释矩阵与LSTM隐藏状态相乘来计算加权总和,得到的矩阵是自注意力分子嵌入 ,这当中包含相互作用的药物化合物分子位点贡献的潜在关系。
2.5分类器
对于和,对所有注意力向量求和,然后对所得的权重向量进行归一化处理使其和为1,在此过程中得到的两个一维向量,将它们送进分类器并计算分类得分。
2.6训练
给定数据集
,利用交叉熵损失函数进行训练。
3、实验
3.1 DUD-E数据集
杨教授团队依据[Ragoza et al., 2017]提出的策略,采用了三重交叉验证的方式在DUD-E数据集上训练和评价DrugVQA模型。折叠在靶标之间进行,相同靶标的所有配体属于同一折叠。为了避免同源蛋白质的影响,将属于相同蛋白质家族的靶标严格地以相同的倍数保留。为了快速训练模型所以使用了平衡集(每个目标的所有正值和随机选择的等效负值)进行训练,但评价模型时包括了整个集合(非平衡值)。
3.2 Human数据集
在Human数据集中,根据[Tsubaki et al., 2018]的方法,选取了正负样本数量比为1:1的平衡集,得到了6,675种相互作用和1,998种蛋白质,然后利用了原文提到的五折交叉验证方法进行训练和评价。
3.3 BindingDB数据集
杨教授团队进一步选择BindingDB数据集作为实际数据集来评估DrugVQA模型。BindingDB是结合亲和力的公共数据库,主要关注小分子与蛋白质的相互作用。在实验中,团队使用[Gao et al., 2018]构建的自定义BindingDB数据集进行了头对头比较(head-to-head comparisons)。数据集包含39,747个阳性实例和31,218个阴性实例。
3.4 在DUD-E数据集上的比较
将DrugVQA与DUD-E数据集上的最新DPI方法进行比较:(1)传统对接方法Vina、Smina;(2)机器学习评分功能NN-Score;RF-Score;(3)基于深度学习的3D-CNN方法、AtomNet、GNN。
3.5 在BindingDB数据集上的比较
进一步在BindingDB数据集上评估DrugVQA。分别与四个方法进行比较:(1)基于相似度的方法Tiresias;(2)一种使用预定义分子指纹和蛋白质描述符中级特征的深度学习方法DBN;(3) 分别使用GCN和LSTM处理药物分子和蛋白质高水平信息的方法E2E;(4)GNN。
3.6 可解释性
DrugVQA的另一个优势是其可解释性。为了说明这一点,团队研究人员在DUD-E数据集中选择了两个预测最好的相互作用:蛋白Hsp90(PDB:3EKR)和CDK2(PDB:2DUV)及其相应的活性物质。如图所示,绿色突出显示了绑定袋中高度受关注的位置,红色云层表示受关注的药物原子。较深的颜色表示较高的注意力系数。在这两种情况下,重量大于0.6的分子组分基本上与分子和蛋白质之间的相互作用位点重叠。同时,对于Hsp90(左),口袋重要性图突出显示了残基Asn51A,Asp93A和Met98A,它们与在共晶复合物中观察到的关键口袋残基高度重叠(PDB:2DUV)。对于CDK2(右),重要性图中突出显示的关键残基(Phe80A,Asp145A)和配体官能团与3EKR中观察到的相互作用具有高度相似性。这个结果表明DrugVQA可以为药物-蛋白质结合模式提供合理的依据。
4、结论
本文提出了一种新颖的端到端深度学习框架,利用视觉问答(VQA)模型以预测药物-蛋白质相互作用。在DPI研究中,这是第一次使用自注意力卷积和递归结构同时从蛋白质2D距离图和分子语言中提取特征。实验评估表明,DrugVQA模型在三个公共数据集上都显示出了最佳性能。此外,DrugVQA还能从生物的角度出发去解释分子间相互作用的本质。