今天给大家介绍的是由MIT在“Biorxiv”上发表的预印本”Sequence-based prediction of protein-protein interactions: a structure-aware interpretable deep learning model ”。
蛋白质-蛋白质相互作用(PPI)网络在系统生物学中是一种促进发现和理解蛋白质功能的有价值工具。然而,实验PPI数据在大多数模式生物中仍然稀少,而且在新物种推广上不佳或是需要特定类型和大小的数据训练。因此,本文提出了D-SCRIPT(Deep Sequence Contact Residue Interaction Prediction Transfer,深度序列接触残基相互作用预测迁移),一种仅使用序列训练的PPI预测模型。与现有方法相比,D-SCRIPT不仅对新物种有更好的泛化能力,而且对训练数据大小的限制有较强的鲁棒性。作者在人类PPI上训练了一个模型,并使用来自其他5个模型生物的PPI数据集对其进行了评估,取得了不错的结果。这说明,仅人类蛋白质语言也有助于解码其他生物的蛋白质。
1
背景和相关工作
细胞中物理蛋白-蛋白相互作用(PPIs)的系统映射已经被证明对加深我们理解蛋白质功能和生物学非常有价值。然而,尽管引入了高通量方法来测定PPIs,但迄今为止,通过实验确定的人类PPIs仅代表物理结合在人类细胞中真实蛋白质对的一小部分。在其他物种中,相关数据甚至更少。如图1所示,在大多数模式生物的情况下,实验确定的PPIs数量远远少于人类,而在非模式生物的情况下,几乎不存在PPIs。这促使科学家研究预测PPIs的计算方法。
图1 实验PPI数据的语料库有限
本文介绍了一种新的深度学习方法D-SCRIPT(Deep Sequence Contact Residue Interaction Prediction Transfer,深度序列接触残基相互作用预测迁移),它基于氨基酸序列来确定两个蛋白质是否在细胞内发生物理相互作用。该模型关键的进步在于合理的特征和结构能使模型仅通过序列数据训练,监督只有一个二进制互动标签,然而可以产生一种捕捉蛋白质之间相互作用对的中间表示。
D-SCRIPT能够同时提供迄今为止无法同时实现的优势:广泛的适用性、可解释性和高跨物种准确性。D-SCRIPT与最近其他成功的深度学习方法PIPR和DPPI一样,属于单独从蛋白质氨基酸序列进行PPI预测的方法。它可以从一类蛋白质PPI的数据进行训练,来进行任意蛋白质预测任务。
类似D-SCRIPT这样基于序列的方法的优点是输入的序列数据几乎总是可用的,这是以为低成本基因组测序的巨大进步。在基于序列的方法中,D-SCRIPT的优势在于其更强的跨物种泛化能力和在现有训练数据稀疏的情况下更准确的预测。此外,作者基于接触图的方法与最近在蛋白质序列的单结构接触图的深度学习预测方面的工作相似。虽然这些方法都是在三维结构数据上进行训练,但该方法被设计成只使用序列数据进行训练。尽管如此,作者的方法和这些方法的见解可能在未来的工作中结合起来。
2
方法
模型预测可以分为两个阶段:1.分别为每个蛋白质生成丰富的特征表示;2.根据这些特征预测交互。两个阶段都是端到端训练的。
与PIPR、DPPI将大部分计算复杂性放在阶段1不同,D-SCRIPT的一个关键创新是作者设计了一个更具有结构感知(structurally-aware)的阶段2。
阶段1是通过使用Bepler & Berger预训练的蛋白质序列模型和投影模块来完成的,其中模型学习低维蛋白嵌入,这也可以用作下游相互作用和结构预测任务的紧凑表示。
对于阶段2,作者提出了一种新的结构来编码蛋白质相互作用的物理模型,如图2所示。作者预测两个蛋白质只有在残基高度兼容时才会发生作用。阶段2分成三部分:投影模块,残基接触模块和预测模块。在投影模块中,对原始嵌入进行压缩。在残基接触模块中,低维投影嵌入用于计算稀疏接触图。最后,相互作用预测模块在接触图上使用定制的maxpooling操作来预测输入蛋白质之间的交互概率。
模型的输入的是一对序列s1,s2,长度分别为n和m,预测概率p和预测接触图矩阵C。p和C的元素输出都在0到1范围内。
图2 D-SCRIPT架构
序列嵌入
首先,利用Bepler & Berger预训练模型将序列s1,s2分别嵌入为E1,E2。他们的模型是一个Bi-LSTM神经网络,训练三个独立的信息: 1)蛋白质的SCOP分类,表明其一般结构,2)蛋白质的三维结构的自接触图,3)相似蛋白质的序列比对。其余的可选嵌入可以被替代。
投影模块
在投影模块中,嵌入E通过一个全连接层压缩成低维投影嵌入Z。
相互作用预测模块
这个模块输出PPI预测概率p,模型采用2个池化操作。第一个是标准的最大池化。输出的最大池化矩阵P代表了蛋白质局部区域相互作用的概率,并且只保留了每个区域的最大残留接触概率,用于全局预测。第二个池化是全局池化,计算如下:
公式通过一个学习参数γ使P稀疏化,保留高概率预测结果。这种全局池化操作获得了这样一种直觉:仅使用高概率区域预测残基接触,低概率被忽略。
交互预测的最后一步是增强输出分布的双峰性,从而使临界点的选择在区分正预测和负预测时变得不那么重要。通过一个激活函数实现并输出最终的概率p。
损失函数
除了二元交叉熵BCE Loss外,文章引入接触图的损失MAG Loss,损失函数为
MAG Loss起到一种正则化的作用,由接触图矩阵C的算数平均值计算得到,使接触图的大小最小化。作者认为要根据少数高概率残基接触而大多数不接触来优化。
3
结果
PPI数据集
为了评估D-SCRIPT在预测蛋白质-蛋白质相互作用方面的性能,本文使用了来自STRING数据库(v11)的数据。作者限制了序列长度并除去了40%以上的相似序列。为了产生PPI的负面例子,遵循Neyshabur等人的工作从非冗余集合中随机配对的蛋白质,选择10:1的负对正比率,以反映真正的正例PPI。
本文的人类PPI数据集包含47,932个阳性和479,320个阴性蛋白相互作用,作者将其中得80%(38,345)用于训练,20%(9,587)用于验证。对于5种模式生物(表1),我们使用这个程序为每一种选择了5000个正相互作用和50000个负相互作用,而大肠杆菌则是(2000 / 20000),因为在STRING中可用的大肠杆菌正例是有限的。
跨物种预测
作者在人类PPI上训练了一个模型,并使用来自其他5个模型生物的PPI数据集对其进行了评估。作者比较了D-SCRIPT和PIPR,两者在相同的人类PPI集上训练。此外,作者还使用了混合方法(PIPR + D-SCRIPT)。
在表1中,本文列出5个物种的各方法的精度、召回率、精确召回曲线下面积(AUPR)、ROC曲线下面积(AUROC)。对于高度不平衡的数据,比如这里,AUPR通常被认为是比AUROC更好的指标。D-SCRIPT的跨物种表现明显优于PIPR,并且在所有物种中都保持了较高的AUPR,即使是那些进化上与人类极为遥远的物种。事实上,它在这些物种中的AUPR与人类交叉验证中的AUPR相当。在跨物种分析中,混合方法优于单独使用D-SCRIPT和PIPR方法,但对D-SCRIPT的改进不大。
人类交叉验证
虽然本文的目标是增强跨物种PPI预测,但作者试图研究D-SCRIPT在预测人类PPIs的表现。作者进行了5折交叉验证,并在此报告了所有的平均值。此外,本文还评估了一种混合方法(PIPR + D-SCRIPT)。表1显示,尽管在交叉验证中,PIPR在人类PPIs上的表现明显优于DSCRIPT,但组合方法的表现要优于单独一种方法。DSCRIPT在涉及PPI网络中不常见蛋白的相互作用方面表现更好,而PIPR在涉及频繁发生蛋白的相互作用方面表现更好。
表1 在人类PPI上的模型评价
自我接触预测
设计D-SCRIPT的目的之一是捕捉交互作用的结构,训练过的投影模块产生的每个蛋白质嵌入应该编码结构信息。为了验证这一点,本文从蛋白质数据库(PDB)中随机选择了300个蛋白质,并使用在人类PPIs上训练的D-SCRIPT模型生成这些蛋白质的(n x d)维嵌入。图3显示,投影模块输出的特征通过线性组合能够实现真实接触的一个重要子集,在测试数据集上,每个per-structure的AUPR中位数为0.19。这些结果强烈表明, D-SCRIPT只使用序列数据的端到端训练可以捕获每个蛋白质层次结构信息的中间表示。
可解释性
蛋白质间对接接触的预测。作者研究了D-SCRIPT模型的可解释性是否有助于预测蛋白质间的对接接触。D-SCRIPT的残基接触模块的输出是一个蛋白间接触图C,其中C中的元素Cij可以解释为蛋白S1的残基i与蛋白S2的残基j接触的概率。本文验证了训练后生成的接触图与设计目标是一致的:对应于负例的接触图Cij分数应该接近零,而对应正例预测的接触图应该是稀疏的,但有孤立的高分数区域。作者发现通常情况下确实是这样的,并在图4中展示了一些例子:正例的最大C值高,负例的最大C值低。
接下来,作者试图测试矩阵C是否在物理上代表实际的对接机制的相互作用。作者强调,这是一个很高的标准,因为他们没有为模型提供任何三维信息,也没有任何对接指导,原则上,在矩阵C不具备物理精度的情况下,模型可以很好地完成分类任务。本文使用Hwang等人的对接蛋白结构基准数据集进行了这项测试。基准集中每个PDB复合体中的每一对链生成一个候选PPI。作者在295个候选PPIs上应用了本文的人类数据训练的模型,并根据真实接触点评估了预测的接触图(在8埃进行评估)。在D-SCRIPT预测了交互作用的情况下,作者发现接触矩阵C实际上基本概括了真实接触点(图4a,4b)。甚至在某些情况下, D-SCRIPT没有预测的交互,C的分布Cij分数仍然是真实的(图4c)。作者发现,接触图C与真实值显著相似,即使在D-SCRIPT不能预测交互作用的情况下,C接触图与ground truth的相似性也高于随机基线。
图4 D-SCRIPT正确预测时的接触图与真实值比较
4
总结
本文介绍了一种可解释的基于序列的PPI相互作用预测方法——D-SCRIPT。结果表明,它的预测比其他方法更适用于与组成蛋白相互作用的训练实例较少的PPIs,更重要的是适用于只针对不同物种的蛋白序列进行训练的跨物种环境,有点类似迁移学习。D-SCRIPT说明,学习单个蛋白质的语言也有助于解码蛋白质相互作用的语言。