编辑 | 萝卜皮
蛋白质是生命必不可少的分子组成部分,它们特定的分子相互作用搭建起了生命的大多数生物学功能。然而,预测它们的结合界面仍然是一个挑战。
洛桑联邦理工学院(EPFL)和瑞士生物信息学研究所(SIB)的研究人员提出了一个几何 Transformer,它直接作用于仅标有元素名称的原子坐标。由此产生的模型——蛋白质结构 Transformer(Protein Structure Transformer,PeSTo)——在预测蛋白质-蛋白质界面方面超越了当前的技术水平,并且还可以高度可信地预测和区分涉及核酸、脂质、离子和小分子的界面。
它的低计算成本能够处理大量结构数据,例如分子动力学集合,允许发现在静态实验解决的结构中不易发现的界面。此外,可以轻松分析由从头结构预测提供的不断增长的折叠组,从而发现未探索的生物学领域。
该研究以「PeSTo: parameter-free geometric deep learning for accurate prediction of protein binding interfaces」为题,于 2023 年 4 月18 日发布在《Nature Communications》。
分子界面在生物学中无处不在,它们在建立细胞边界和细胞内组织中起到的核心作用。尤其是蛋白质界面,它们通过与其他蛋白质以及核酸、膜、分子和各种离子相互作用来发挥其功能。
预测给定蛋白质可以与其他分子建立的相互作用,仍然是生物学中的一个主要挑战。预测蛋白质相互作用的最先进方法,目前仅针对特定的相互作用残基/原子对的预测,且主要依赖于残基-残基协同进化模式的分析。因此,这些技术仅限于预测蛋白质-蛋白质相互作用,或者只预测蛋白质的哪些区域容易发生相互作用。
而且大多数方法主要旨在发现为与其他蛋白质相互作用而定制的蛋白质界面,只重点关注蛋白质表面的特征,在某些情况下依赖于它们的序列保守性。这些方法因此受到限制,因为蛋白质表面的计算和它们的特性映射非常耗时,使它们在蛋白质组尺度上的高通量应用变得复杂;此外,它们需要参数化,并且需要对 3D 结构的细节非常敏感。
并且,依赖于序列保护或残基协同进化的方法,对于浅序列比对通常表现不佳。基于从头折叠蛋白质复合物的方法,可以同时发现相互作用界面和亚基构象,例如 AlphaFold-multimer,但仅限于蛋白质-蛋白质相互作用;比从结构预测相互作用界面慢得多,并且如果折叠协议本身失败,界面预测也会失败。
图示:PeSTo方法概述。(来源:论文)
在这里,基于最近成功地将 transformer 应用于自然语言处理和蛋白质结构预测中的各种问题,洛桑联邦理工学院(EPFL)和瑞士生物信息学研究所(SIB)的研究人员开发了一种基于旋转等变 transformer 的神经网络,它直接作用于蛋白质原子,以高置信度预测相互作用界面,无需系统物理参数化,运行速度足以处理大型结构数据集,例如来自分子动力学模拟或整个折叠体的集合。
研究人员在这个Transformer的基础上开发了 PeSTo——蛋白质结构Transformer——一种蛋白质结合界面的通用预测器。经过训练可以预测蛋白质-蛋白质相互作用界面,PeSTo 优于现有技术。预测其他类型结合界面的训练非常简单,因为该方法不依赖于物理化学特征的任何明确参数化。因此,也很容易产生对蛋白质与核酸、脂质、配体和离子相互作用的可靠预测。
论文表明,蛋白质原子坐标的几何变换足以以高分辨率检测和分类蛋白质结合界面,超越其他已有方法的预测能力,而无需明确描述系统的物理和化学,因此不存在预先计算分子表面和其他属性的算力开销。所有这些都使用适度的计算资源并以非常高的速度进行,从而能够分析大型结构整体,例如分子动力学模拟产生的结构整体,这揭示了研究蛋白质相互作用网络的动态特征的机会。同样,可以轻松分析大型结构数据集,例如由最新一代三级蛋白质结构预测工具创建的数据集,就像这里对人类折叠组所做的那样,并有可能快速获得新的生物学发现。
为了向社区提供基于 PeSTo 的蛋白质预测,研究人员在 https://pesto.epfl.ch/ 的网络服务器中实现了它,无需注册即可免费访问。服务器采用 PDB 格式的任何蛋白质结构和模型(从 PDB 或 AlphaFold-EBI 数据库上传或获取),并返回它们以及基于每个残基的预测置信度报告的附加信息。输出文件可以直接在网站内下载或可视化。
源代码:https://github.com/LBM-EPFL/PeSTo
如果有足够的训练数据可用,该方法可以很容易地升级(例如改进进一步的蛋白质-脂质预测)并且可重复用于其他特定应用。事实上,无参数的 PeSTo 架构足够通用,可以很容易地适应其他基于结构的问题,例如对接或建模与材料的交互。该框架完全不知道结构中原子的确切物理化学性质,因此很容易扩展到其他材料和领域;并且与需要中间计算表面和体积的方法相比,它可能对与起始结构相关的问题(例如缺失原子)不太敏感。
鉴于结构信息的不断积累和预测的折叠组数据的快速扩展,PeSTo 是一种准确、灵活、快速且用户友好的解决方案,用于剖析蛋白质广泛而动态的相互作用景观,并且可以很容易地用于发现新的生物学见解。