许锦波团队开发蛋白逆折叠深度学习框架,用更少结构数据训练获得更准确序列预测

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 许锦波团队开发蛋白逆折叠深度学习框架,用更少结构数据训练获得更准确序列预测


计算蛋白质设计(CPD)在医疗、生物传感器、酶工程等与人类健康生活息息相关的领域,均起到了基础支持作用。蛋白质逆向折叠(通过结构预测序列)则是 CPD最主要的研究方向之一。

在最近的一项研究中,芝加哥丰田计算技术研究所的许锦波教授团队建立了一个解决逆向蛋白质折叠问题的框架。尽管该模型没有明显使用进化信息,但它能够从结构数据中学习到蛋白质功能,并且优于在大型序列数据库上训练出来的蛋白质语言模型。研究人员希望,他们的模型能够促使其他研究人员进一步使用结构信息来预测蛋白质突变效应。

该研究以「A Deep SE(3)-Equivariant Model for Learning Inverse Protein Folding」为题,于 2022 年 4 月 15 日发布在 bioRxiv 预印平台。

CPD 的研究近况

计算蛋白质设计有两个广泛尝试的目标:1、逆向折叠,也称为固定骨架设计,其目的是生成兼容事先给定的蛋白质骨架结构的新氨基酸序列;2、从头设计,其目的是开发具有某些所需性质的蛋白质序列。通过设计自然界不存在的蛋白质,这些方法促进了生物医疗、生物传感器、酶等领域的发展。

由于传统观点认为蛋白质的天然状态对应于其自由能最小值,因此 CPD传统上被视为能量最小化问题。在这种情况下,能量函数通常由基于物理的能量项和基于知识的能量项的组合而成,后者通常来自实验数据。在能量优化期间,对蛋白质序列进行采样和突变,直到能量最小值。

尽管这种方法取得了一些成功,但它也有一些主要缺点。首先,搜索空间随着蛋白质序列长度呈指数增长。这对设计稍微大点的蛋白质提出了相当大的挑战。接下来,为了计算效率,总能量通常被近似为单体和两体分数项的加权和,而忽略了更复杂的多体相互作用。设计出来的蛋白质序列与天然类似物接近的程度受到能量函数准确性的限制。

许教授团队认为,如果能仅从结构数据中获得蛋白质功能有关的信息,那么仅以蛋白结构和部分序列为条件的生成模型,也可以用作一个对单点突变的功能影响的零样本预测器。

于是,在新的研究中,许教授团队扩展了他们前期关于侧链结构预测的工作,并引入了一种深度 SE(3)-等变图 transformer 架构,直接对从蛋白质主干结构派生的特征进行操作,实现了同时预测每个残基的氨基酸类型和侧链构象。

该架构由两个主要的子模块组成:12 层 Locality Aware Graph Transformer 和 8 层 TFN-Transformer。其中,Locality Aware Graph transformer利用蛋白质主干的几何形状来优化单个残基和残基对的特征表示,并将注意力限制在空间上相邻的残基对。该模块的输出和蛋白质主干坐标一起被传递到下一个模块 TFN transformer,该模块为每个输入残基产生侧链构象和氨基酸类型。这些模块的详细信息在许教授另一篇文献中有完整描述,下面给出了示意图。

文献链接:https://www.biorxiv.org/content/10.1101/2022.03.11.483812v1图示:方法概述。(来源:论文)

研究人员在四个测试集( CASP13、CASP14、CATH4.2 和 TS50)上比较了几种现有的逆向折叠方法,表明新方法在所有数据集上具有明显更高的天然序列恢复率(NSR)。

此外,他们通过将预测出来的残基变异概率与深度突变扫描(DMS)实验进行比较,验证新模型在捕获蛋白质功能方面的效果。这一研究结果也揭示了结构信息在未来蛋白质突变效应预测研究中的应用。

实验结果展示表:CASP13 和 CASP14 目标的结果。(来源:论文)

图示:GVP-GNN、DenseCPD 和新方法在 CASP13 和 CASP14 目标上的比较。结果表明,许教授的新方法在两个数据集的 NSR 方面优于所有竞争对手。零样本突变效应预测为了更好地理解该模型设计在多大程度上捕获了潜在蛋白质的功能,研究人员使用几个 DMS 数据集的稳定性数据来比较预测出来的点突变的对数似然。表:预测的残基变异概率与从头设计的小蛋白中的突变效应相关。(来源:论文)

许教授团队使用 Rocklin 团队的深度突变扫描数据评估他们的模型在预测单点突变对蛋白质稳定性的影响。在上表中,研究人员观察到该模型可以提高8种从头设计的小蛋白质的稳定性预测,并且在9个测试蛋白质上优于以前文献报道的Structure Transformer。

Rocklin 团队文献:https://www.science.org/doi/abs/10.1126/science.aan0693

图示:零样本预测性能。(来源:论文)

上图表明,在 12 个 DMS 数据集上测试蛋白质突变效应零样本预测器,许教授团队的模型优于在大型序列数据库上训练出来的蛋白质语言模型 TAPE 和UniRep,无论是否使用序列进化信息。这表明他们的方法捕获了三维构象和氨基酸序列与功能的相互关系,并表明结构信息有助于表征蛋白质突变效应。

同时还可以注意到,该方法的性能与 DMS 测试蛋白和训练蛋白间的结构相似性相关,但与 DMS 测试蛋白和训练蛋白间的序列相似性无关。这进一步证实了零样本突变效应预测是使用了结构信息的。

消融研究

为了验证该训练策略的影响,以及了解特定网络架构的影响,该团队进行了消融研究,重点关注了残基掩蔽技术、损失函数、两阶段网络架构和模型超参数。

研究人员评估了五种不同的残基掩蔽技术(Spatial、Linear、Random、Full 和 All)的性能。

表:在CASP13 测试蛋白上的残基掩蔽策略比较。(来源:论文)

图示:网络组件对 CASP13 测试蛋白的 NSR 的影响。(来源:论文)

在上图中,可以看到从损失函数中移除侧链 RMSD (vii) 和预测的侧链原子之间的成对距离 (viii) 显著降低了 CASP13 测试蛋白上的 NSR。在默认损失函数保持不变的情况下,移除 TFN-Transformer 对 NSR 的影响最大,当该组件被消融时,NSR 下降了近 5 个百分点。

令人惊讶的是,许教授团队的 Locality-Aware Graph Transformer 模块 (Tri) 对于 CASP13 测试蛋白(44.3% NSR 对 44.0% NSR)仍然略微优于 GVP-GNN。

不管单个残基相邻空间里有多少个残基,测试结果表明由两个模块组成的网络架构显著优于单个网络模块的架构。这些结果表明,每个子模块学习到的特征表示至少部分是不相交的——将这两种模块结合起来有明显的好处。

结语

2022 年 3 月 23 日机器之心举办的AI科技年会上,许教授曾表示,当前的蛋白质结构预测还有一些未完全解决的问题,比如蛋白质与其他分子的相互作用、单点突变对蛋白质结构和功能的影响、孤儿蛋白质结构预测等;通过蛋白质结构逆向预测序列则是解决某些问题的重要途径之一。

本次设计的新模型,依靠等变神经网络和新颖的注意力机制,与逆向蛋白质折叠的固有几何性质相结合,显著改进了现有的自回归方法,使预测蛋白质序列的结果更加准确。另外,新模型可以准确预测点突变对蛋白质功能的影响,从而捕获蛋白质的潜在功能信息。这些研究结果将对酶工程应用、药物开发等领域的发展起到极大促进作用。

论文链接:https://www.biorxiv.org/content/10.1101/2022.04.15.488492v1

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
3月前
|
机器学习/深度学习 数据采集 算法
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
本文探讨了在深度学习和机器学习中针对非时间序列的回归任务的多种改进策略,包括数据预处理、数据集增强、特征选择、模型选择、模型正则化与泛化、优化器选择、学习率调整、超参数调优以及性能评估与模型解释,旨在提升模型的性能和可解释性。
75 1
深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?
|
5月前
|
机器学习/深度学习 人工智能 TensorFlow
TensorFlow 是一个由 Google 开发的开源深度学习框架
TensorFlow 是一个由 Google 开发的开源深度学习框架
71 3
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
使用Python实现深度学习模型:智能产品设计与开发
【10月更文挑战第2天】 使用Python实现深度学习模型:智能产品设计与开发
62 4
|
1月前
|
机器学习/深度学习 存储 自然语言处理
深度学习之任务序列中的快速适应
基于深度学习的任务序列中的快速适应是指模型在接连处理不同任务时,能够迅速调整和优化自身以适应新任务的能力。这种能力在动态环境和多任务学习中尤为重要,旨在减少训练时间和资源需求。
36 3
|
2月前
|
机器学习/深度学习 缓存 NoSQL
深度学习在图像识别中的应用与挑战后端开发中的数据缓存策略
本文深入探讨了深度学习技术在图像识别领域的应用,包括卷积神经网络(CNN)的原理、常见模型如ResNet和VGG的介绍,以及这些模型在实际应用中的表现。同时,文章也讨论了数据增强、模型集成等改进性能的方法,并指出了当前面临的计算资源需求高、数据隐私等挑战。通过综合分析,本文旨在为深度学习在图像识别中的进一步研究和应用提供参考。 本文探讨了后端开发中数据缓存的重要性和实现方法,通过具体案例解析Redis在实际应用中的使用。首先介绍了缓存的基本概念及其在后端系统性能优化中的作用;接着详细讲解了Redis的常见数据类型和应用场景;最后通过一个实际项目展示了如何在Django框架中集成Redis,
|
2月前
|
机器学习/深度学习
深度学习之蛋白质结构预测
基于深度学习的蛋白质结构预测是利用深度学习模型来预测蛋白质的三维结构,这在生物学和药物研发领域具有重要意义。
126 4
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的图像识别技术深入理解Node.js事件循环及其在后端开发中的应用
【8月更文挑战第27天】本文将介绍深度学习中的图像识别技术,包括其原理、应用领域及未来发展。我们将探讨如何通过神经网络实现图像识别,并分析其在医疗、交通等领域的应用。最后,我们将展望图像识别技术的发展前景。
|
3月前
|
机器学习/深度学习 算法 PyTorch
PyTorch Lightning:简化深度学习研究与开发
【8月更文第27天】PyTorch Lightning 是一个用于简化 PyTorch 开发流程的轻量级封装库。它的目标是让研究人员和开发者能够更加专注于算法和模型的设计,而不是被训练循环和各种低级细节所困扰。通过使用 PyTorch Lightning,开发者可以更容易地进行实验、调试和复现结果,从而加速研究与开发的过程。
138 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
深度学习的关键概念和网络结构
度学习是人工智能和机器学习的一个重要分支,它通过模拟人脑神经元的工作方式来处理复杂的模式识别和数据分析任务。深度学习已经在许多领域取得了显著的成果,如图像识别、语音识别和自然语言处理。
66 1
|
3月前
|
机器学习/深度学习 API 数据处理
《零基础实践深度学习》2.4手写数字识别之网络结构
这篇文章介绍了手写数字识别任务中网络结构设计的优化,比较了多层全连接神经网络和卷积神经网络两种模型结构,并展示了使用PaddlePaddle框架实现这些网络结构,训练并观察它们在MNIST数据集上的表现。