nature methods副主编,Arunima Singh,3月4日在nature methods上发表文章,探讨了基于深度学习的蛋白质结构预测方向近期的研究进展。
蛋白质结构预测是近几十年来的研究热点,理论方法使人们深入了解了实验难以处理的蛋白质结构。同时,随着测定蛋白质结构的实验方法的改进,大量高质量蛋白质结构数据可供研究,提高了训练数据的质量和预测算法的准确性。最终的研究目标是利用蛋白质的序列准确地预测蛋白质的三维结构。当然,在已知同源蛋白结构的情况下,是更容易预测的。
对于缺乏同源信息的蛋白质,准确预测蛋白质结构仍然是一个挑战。进化协方差数据已经被用于增强结构预测性能。可以对与靶序列相关的序列应用多序列比对(MSA),来识别在进化过程中发生突变的氨基酸,其原理是这些共同进化的残基将位于蛋白质的三维结构中的邻近位置或接触。这些接触图应用在几种流行的方法中都取得了一些成功。
基于深度学习的方法在第13届蛋白质结构预测技术评估测试(CASP13)中表现出很高的准确性,并且在无模板建模(FM)类(没有可用的同源结构)中表现极佳。谷歌DeepMind团队的新秀参赛者AlphaFold[1],赢得了此次比赛。它在FM类中正确预测的结构数量最多——43种蛋白质中正确预测了24种。在基于模板建模的类别中,AlphaFold的表现相当于或优于其他方法(尽管AlphaFold没有使用模板)。
AlphaFold的准确度来源于高精度的残基对距离预测。AlphaFold用Protein Data Bank中的蛋白质结构训练卷积神经网络。给定输入序列及其MSA,AlphaFold预测残基之间的成对距离和扭转角。使用梯度下降优化这些距离,以获得准确的蛋白质结构。利用残基接触距离的优点是它们提供了更具体的结构信息。此外,神经网络生成关于距离预测的方差数据,DeepMind成员Andrew Senior补充道,方差表明各预测的置信度。DeepMind团队认为,蛋白质结构预测问题是深度学习的一大挑战,他们打算继续研究这一问题,并进一步提高算法的预测能力。
在DeepMind的基础上,华盛顿大学西雅图分校的David Baker研究小组与合作者开发了trRosetta。Baker指出,trRosetta同时使用残基-残基的距离和方向,与只使用距离相比,trRosetta利用了更丰富的结构数据。预测工具网址:https://yanglab.nankai.edu.cn/trRosetta/。Baker等人的论文[2]重点介绍了这种方法如何与基于Rosetta的优化方法一起使用,并将预测信息与Rosetta能量函数的其他组件结合起来,以建立蛋白质模型。Baker实验室正在寻求将该方法扩展到建模预测蛋白质-蛋白质相互作用和蛋白质设计。