今天给大家介绍一篇Nature Machine Intelligence期刊的论文“AmoebaContact and GDFold as a pipeline for rapid de novo protein structure prediction”,该工作由清华大学龚海鹏课题组完成。本文提出一种基于机器学习的残基Contact预测方法辅助蛋白质结构从头预测,不仅改善了预测精度,而且提高了预测速度。
1.研究背景
从氨基酸序列直接预测蛋白质三级结构是结构生物信息学中最具挑战性的问题之一,具有重要的意义和迫切的需求。残基对之间的Contact包含了足够的信息来重构蛋白质结构,即使是部分接触信息的知识也可以有效地减小构象搜索空间从而显著提高构象采样效率。而Contact信息可以通过对氨基酸序列进行进化分析得到,预测结果通常形成一个方阵,包含了所有残基对之间的Contact可能性,称为Contact Map。Contact Map可以通过深度学习方法进行处理,作为促进蛋白质结构预测的重要工具,蛋白质Contact Map预测成为一个受欢迎的子领域,并在蛋白质结构预测技术(CASP)竞赛受到了广泛的关注。RaptorX-Contact,通过深度残差网络进行预测,在CASP13竞赛中取得了Contact预测组第一。
尽管取得了一定的进展,深度学习算法在Contact接触预测方面仍然存在一定的局限性。首先,接触预测不仅仅是一个局部模式识别问题。Contact Map只是蛋白质三维结构的高维投影,由于空间限制,每个残基最多只能与6-8个残基接触,对接触图的每一行/每一列中的Contact的数量有很大的限制。第二个局限性是,大多数基于神经网络的算法只是简单地借用计算机视觉领域成熟的神经网络体系结构进行Contact Map预测,忽略了Contact问题的特殊性。神经结构搜索(NAS)是深度学习的一个新兴子领域,它试图为特定的任务找到更合适的结构,从而为这个问题提供解决方案。
一般来说,Contact Map可以作为能量项整合到传统的蛋白质结构预测算法中,或者通过Contact Map构建距离约束矩阵并通过分子动力学模拟预测结构。在最新的CASP13竞赛中,传统的Contact辅助结构预测方法受到了AlphaFold的挑战。AlphaFold通过多个深度神经网络来预测残基间距离和骨架原子二面角等约束条件,并采用一种简单的基于梯度下降的方法,使用这些约束条件更有效地预测蛋白质结构。
为了快速高效地预测蛋白质三级结构,本文提出了一种新的Contact预测器AmoebaContact,以及一种基于梯度下降的Contact辅助结构预测方法,GDFold。通过修改AmoebaNet NAS算法,自动搜索神经网络架构来完成Contact Map预测任务。GDFold在可微损失函数中考虑完整的Contact Map,并使用梯度下降算法进行优化。GDFold可以获得RaptorX-Contact方法精度相当的蛋白质结构模型,但速度更快。
2.方法
2.1 GDFold方法介绍
本文使用AmoebaNet来优化网络架构,用于蛋白质Contact Map预测,并在其中加入了行标准化和列标准化;加入了类似ResNet的短路式连接,以防学习饱和;允许模型权值继承来加速训练。如图1所示,AmoebaContact可以产生多个输出,提供了残基对之间的更全面的距离信息,用于更加有效和准确的结构建模。而基于梯度下降的折叠算法GDFold可以通过最小化可微损失函数来进行优化。
图1 GDFold预测流程图
2.2数据集
本文使用了几个成熟的数据集进行测试,包括PSICOV150、CASP11、CASP12和CASP13。训练和验证集采用CATH数据库。具体来说,在CATH中保留了所有的高精度结构(>2.5A)作为起始点,同时消除训练集、验证集和测试集之间的冗余。片段和非常短(500个残基)域也被忽略。
2.3 模型特征
本文使用多个特征来预测蛋白质Contact Map。多序列比对(MSAs)是由HHblits针对UniProt20数据库建立的。通过CCMpred和MI预测L*L大小的Contact Map二维特征,其中L为蛋白长度。为了使模型能够识别残基的相对位置,增加残基指数的差异作为附加特征。除此之外,测量每个残基对在一个序列中共存的概率以及利用其它程序预测的一些信息构建一维特征,对每个氨基酸残基的性质进行描述。
2.4 利用AmoebaNet搜索神经结构
本文采用AmoebaNet算法优化网络架构。AmoebaNet是一种基于细胞的NAS算法。在体系结构进化过程中,种群在开始时是随机初始化的。然后,从总体中抽样大小为S的子集,具有最佳验证性能的模型将被选择为父模型。通过变异操作生成的子模型。子模型在进行筛选后会替换种群中性能较差的父模型,保持种群数量不变。这种进化将重复进行,直到性能收敛或生成合适的体系结构。
2.5 模型扩展和微调
在完成网络架构搜索之后,本文通过扩大细胞重复数N和通道数F来扩展选择的模型(M0、M1和M2)成为更大、更精确的模型。在确定超参数(N和F)之后,还对其他Contact截止点的模型进行微调。除此之外,将学习速率优化为10-4,并对模型进行100-200代的训练,以获得合适的收敛性。
2.6 梯度下降法折叠
从AmoebaContact获得的多个Contact Map主要用于GDFold。对于每一个截止点,预测得到的Contact Map可以转化为下述所示损失函数:
其中Pü是残基i和残基j的预测分数,Dü是残基i和残基j在结构中是否为Contact。为了更好地解决蛋白质的结构特性,一些其他的损失项也被计算在内,包括基于ResNet预测的局部Contact信息,一个用于预测是否属于α-螺旋片段的多层感知器模型以及局部残基和二面角约束信息。
综合损失函数使用混合Adam-SGD进行优化。值得注意的是,综合损失函数包含很多能量项,每一项都应当赋予合适的权重。利用网格搜索法对验证集上各损失项的权值进行优化,避免训练集中引入偏差,选取GDFold与CONFOLD的预测结构性能差异作为目标优化函数。
3.结果
3.1 神经结构搜索和等效模型分析
本文修改了原先的AmoebaNet从而用于残基Contact Map预测,包括引入了I/R/CN操作。使用改进的算法,我们总共探索了500个网络架构,其中前64个架构是随机生成的,后续的模型是从随机架构中进化得来的。图2a显示了验证集上500个架构的f1分数。在架构搜索结束时,模型性能收敛到~62%,最佳模型达到62.16%。所选模型的详细架构如图2b所示。
图2 AmoebaNet搜索过程中的模型演化
3.2 模型增强与微调
在架构搜索过程中,为了提高计算效率,对模型进行了小范围的训练,并且可以对模型进行增强以获得更好的性能。尽管由于内存溢出,未能对M2-5模型进行超参数集的训练,但由于模型深度和通道数的增加,所有所选模型的性能都得到了改善,如图3所示。
图3 增强模型的性能
AmoebaContact在验证集和PSICOV150测试集之间表现出相差无几的性能,但是在三个CASP测试集中显示出较低的f1分数,如表1所示。这是意料之中的,因为CASP目标通常是更加困难的,仅包含具有同源序列的多序列比对(MSA)信息。
表1 AmoebaContact模型在验证集和四个测试集上的f1分数
3.3 GDFold进行结构建模
本文系统地比较了AmoebaContact和GDFold与RaptorX-Contact对所有测试集蛋白的Contact和预测结构,如图4所示。对于PSICOV150测试集,AmoebaContact和GDFold的表现明显优于RaptorX-Contact。在较为困难的CASP测试集中,RaptorX-Contact在Contact的精确性上明显优于AmoebaContact,然而在预测结构精度比较上,AmoebaContact被成功挽救,GDFold产生的结构模型与RaptorX-Contact产生的模型在精度上没有明显的差异。
图4 AmoebaContact和GDFold与RaptorX-Contact的详细比较
3.4 运行时间和内存消耗
对于包含300个残基左右的蛋白,AmoebaContact进行特征计算需要接近17分钟,而GDFold进行结构建模需要10分钟左右。尽管AmoebaContact的特征提取过程相对缓慢,但GDFold的速度明显快于任何结构预测服务器。迄今为止最快的蛋白质结构预测服务器之一CONFOLD,对包含300残基左右的蛋白进行一次实验结构建模需要接近1小时,至少比GDFold慢6倍。GDFold只需要一个折叠实验,直接利用一个综合损失函数的整体接触图。除此之外,AmoebaContact和GDFold的内存消耗为250MB和8GB。
4.讨论
尽管采用了优化的网络结构进行接触预测,AmoebaContact的表现略低于CASP13最好的Contact预测服务器(包括RaptorX-Contact和ResTriplet)。这是意料之中的,因为AmoebaContact模型由于硬件水平的限制,只能扩展到中等大小,而其他的预测服务器都采用超深的ResNet进行预测。因此,通过更系统的模型增强和集成平均有望进一步提高AmoebaContact的性能。
虽然GDFold预测得到蛋白质结构模型的质量可与RaptorX-Contact的相媲美,但这两种方法在CASP13中的表现略逊于最好的蛋白质结构预测器(Zhang-Server和Quark27)。然而,由于需要大量的构象采样,顶级蛋白质结构预测服务器的速度往往很慢,并且依赖昂贵的计算资源。相比之下,GDFold具有更快的速度性能,利用梯度下降算法可以加速结构建模,从而允许高通量的基于结构基因组学的结构确定。
Data availability
https://doi.org/10.24433/CO.4945300.v1
Code availability
https://github.com/THUgonglab/AmoebaContact
http://structpred.life.tsinghua.edu.cn/amoebacontact.html