计算蛋白质设计(CPD)在医疗、生物传感器、酶工程等与人类健康生活息息相关的领域,均起到了基础支持作用。蛋白质逆向折叠(通过结构预测序列)则是 CPD最主要的研究方向之一。
在最近的一项研究中,芝加哥丰田计算技术研究所的许锦波教授团队建立了一个解决逆向蛋白质折叠问题的框架。尽管该模型没有明显使用进化信息,但它能够从结构数据中学习到蛋白质功能,并且优于在大型序列数据库上训练出来的蛋白质语言模型。研究人员希望,他们的模型能够促使其他研究人员进一步使用结构信息来预测蛋白质突变效应。
该研究以「A Deep SE(3)-Equivariant Model for Learning Inverse Protein Folding」为题,于 2022 年 4 月 15 日发布在 bioRxiv 预印平台。
CPD 的研究近况
计算蛋白质设计有两个广泛尝试的目标:1、逆向折叠,也称为固定骨架设计,其目的是生成兼容事先给定的蛋白质骨架结构的新氨基酸序列;2、从头设计,其目的是开发具有某些所需性质的蛋白质序列。通过设计自然界不存在的蛋白质,这些方法促进了生物医疗、生物传感器、酶等领域的发展。
由于传统观点认为蛋白质的天然状态对应于其自由能最小值,因此 CPD传统上被视为能量最小化问题。在这种情况下,能量函数通常由基于物理的能量项和基于知识的能量项的组合而成,后者通常来自实验数据。在能量优化期间,对蛋白质序列进行采样和突变,直到能量最小值。
尽管这种方法取得了一些成功,但它也有一些主要缺点。首先,搜索空间随着蛋白质序列长度呈指数增长。这对设计稍微大点的蛋白质提出了相当大的挑战。接下来,为了计算效率,总能量通常被近似为单体和两体分数项的加权和,而忽略了更复杂的多体相互作用。设计出来的蛋白质序列与天然类似物接近的程度受到能量函数准确性的限制。
许教授团队认为,如果能仅从结构数据中获得蛋白质功能有关的信息,那么仅以蛋白结构和部分序列为条件的生成模型,也可以用作一个对单点突变的功能影响的零样本预测器。
于是,在新的研究中,许教授团队扩展了他们前期关于侧链结构预测的工作,并引入了一种深度 SE(3)-等变图 transformer 架构,直接对从蛋白质主干结构派生的特征进行操作,实现了同时预测每个残基的氨基酸类型和侧链构象。
该架构由两个主要的子模块组成:12 层 Locality Aware Graph Transformer 和 8 层 TFN-Transformer。其中,Locality Aware Graph transformer利用蛋白质主干的几何形状来优化单个残基和残基对的特征表示,并将注意力限制在空间上相邻的残基对。该模块的输出和蛋白质主干坐标一起被传递到下一个模块 TFN transformer,该模块为每个输入残基产生侧链构象和氨基酸类型。这些模块的详细信息在许教授另一篇文献中有完整描述,下面给出了示意图。
文献链接:https://www.biorxiv.org/content/10.1101/2022.03.11.483812v1图示:方法概述。(来源:论文)
研究人员在四个测试集( CASP13、CASP14、CATH4.2 和 TS50)上比较了几种现有的逆向折叠方法,表明新方法在所有数据集上具有明显更高的天然序列恢复率(NSR)。
此外,他们通过将预测出来的残基变异概率与深度突变扫描(DMS)实验进行比较,验证新模型在捕获蛋白质功能方面的效果。这一研究结果也揭示了结构信息在未来蛋白质突变效应预测研究中的应用。
实验结果展示表:CASP13 和 CASP14 目标的结果。(来源:论文)
图示:GVP-GNN、DenseCPD 和新方法在 CASP13 和 CASP14 目标上的比较。结果表明,许教授的新方法在两个数据集的 NSR 方面优于所有竞争对手。零样本突变效应预测为了更好地理解该模型设计在多大程度上捕获了潜在蛋白质的功能,研究人员使用几个 DMS 数据集的稳定性数据来比较预测出来的点突变的对数似然。表:预测的残基变异概率与从头设计的小蛋白中的突变效应相关。(来源:论文)
许教授团队使用 Rocklin 团队的深度突变扫描数据评估他们的模型在预测单点突变对蛋白质稳定性的影响。在上表中,研究人员观察到该模型可以提高8种从头设计的小蛋白质的稳定性预测,并且在9个测试蛋白质上优于以前文献报道的Structure Transformer。
Rocklin 团队文献:https://www.science.org/doi/abs/10.1126/science.aan0693
图示:零样本预测性能。(来源:论文)
上图表明,在 12 个 DMS 数据集上测试蛋白质突变效应零样本预测器,许教授团队的模型优于在大型序列数据库上训练出来的蛋白质语言模型 TAPE 和UniRep,无论是否使用序列进化信息。这表明他们的方法捕获了三维构象和氨基酸序列与功能的相互关系,并表明结构信息有助于表征蛋白质突变效应。
同时还可以注意到,该方法的性能与 DMS 测试蛋白和训练蛋白间的结构相似性相关,但与 DMS 测试蛋白和训练蛋白间的序列相似性无关。这进一步证实了零样本突变效应预测是使用了结构信息的。
消融研究
为了验证该训练策略的影响,以及了解特定网络架构的影响,该团队进行了消融研究,重点关注了残基掩蔽技术、损失函数、两阶段网络架构和模型超参数。
研究人员评估了五种不同的残基掩蔽技术(Spatial、Linear、Random、Full 和 All)的性能。
表:在CASP13 测试蛋白上的残基掩蔽策略比较。(来源:论文)
图示:网络组件对 CASP13 测试蛋白的 NSR 的影响。(来源:论文)
在上图中,可以看到从损失函数中移除侧链 RMSD (vii) 和预测的侧链原子之间的成对距离 (viii) 显著降低了 CASP13 测试蛋白上的 NSR。在默认损失函数保持不变的情况下,移除 TFN-Transformer 对 NSR 的影响最大,当该组件被消融时,NSR 下降了近 5 个百分点。
令人惊讶的是,许教授团队的 Locality-Aware Graph Transformer 模块 (Tri) 对于 CASP13 测试蛋白(44.3% NSR 对 44.0% NSR)仍然略微优于 GVP-GNN。
不管单个残基相邻空间里有多少个残基,测试结果表明由两个模块组成的网络架构显著优于单个网络模块的架构。这些结果表明,每个子模块学习到的特征表示至少部分是不相交的——将这两种模块结合起来有明显的好处。
结语
2022 年 3 月 23 日机器之心举办的AI科技年会上,许教授曾表示,当前的蛋白质结构预测还有一些未完全解决的问题,比如蛋白质与其他分子的相互作用、单点突变对蛋白质结构和功能的影响、孤儿蛋白质结构预测等;通过蛋白质结构逆向预测序列则是解决某些问题的重要途径之一。
本次设计的新模型,依靠等变神经网络和新颖的注意力机制,与逆向蛋白质折叠的固有几何性质相结合,显著改进了现有的自回归方法,使预测蛋白质序列的结果更加准确。另外,新模型可以准确预测点突变对蛋白质功能的影响,从而捕获蛋白质的潜在功能信息。这些研究结果将对酶工程应用、药物开发等领域的发展起到极大促进作用。
论文链接:https://www.biorxiv.org/content/10.1101/2022.04.15.488492v1