计算机人工智能系统 AlphaFold 最近预测了数万种蛋白质的以前未知的三维结构。美因茨约翰内斯·古腾堡大学(JGU)的研究团队专注于具有高置信度分数的子集,研究人员通过算法分析这些预测,发现蛋白质骨架表现出罕见的拓扑复杂性,即打结。其中,研究人员发现了一个 71-结,这是迄今为止在蛋白质中发现的最复杂的拓扑结,以及几个由两个甲基转移酶或碳酸酐酶结构域组成的六交叉复合结,每个结构域都包含一个简单的三叶结。这些深深嵌入的复合结显然是通过基因复制和打结二聚体的相互连接而发生的。另外,该团队还报告了两个新的五交叉结,包括第一个 51-结。该工作分析的结构列表构成了未来实验研究的基础,以确认这些新型打结拓扑并探索其复杂的折叠机制。该研究以「AlphaFold predicts the most complex protein knot and composite protein knots」为题,于 2022 年 7 月 13 日发布在《Protein Science》。谷歌 DeepMind 开发的人工智能(AI)系统 AlphaFold 两次主导蛋白质结构预测技术(CASP)的关键评估。AlphaFold 2 是一个深度学习系统,它结合了基于蛋白质结构的进化、物理和几何约束的训练程序。它的特点是预测的迭代细化,并允许使用自蒸馏和自估计准确性从未标记的蛋白质序列中学习,以使用一级结构和同源物的对齐序列直接预测给定蛋白质的所有重原子的 3D 坐标。AlphaFold 2 目前已经预测了数十万种蛋白质结构,其中大部分不包含在蛋白质数据库(PDB)中,该数据库主要存档实验确定的结构。因此,AlphaFold 的预测数据库可能具有巨大的价值,特别是对于研究不常见但仍与了解蛋白质折叠潜在机制的复杂性具有高度相关性的蛋白质现象。对于在其多肽骨架中包含拓扑结的蛋白质,会出现一个特别令人着迷的现象,即从两端拉出后不会完全解开的蛋白质。在过去的二十年中,仅发现了大约 20 种不同的含有结的蛋白质家族。然而,打结的蛋白质对蛋白质折叠和进化提出了挑战。模拟算法经常高估蛋白质的打结概率,因为后者低于随机链的打结概率。此外,同源物之间的蛋白质拓扑结构通常相似,这意味着在进化中密切相关的蛋白质中往往会保留打结的折叠。由于这些原因,并且由于天然蛋白质之间打结的罕见性,在预测蛋白质结构的庞大新数据库中可能存在打结拓扑结构引起了人们的浓厚兴趣。目前,在蛋白质中发现的最复杂的结是单个结,在任何投影到平面上都有六个基本交叉点;尚未观察到复合结。JGU 团队搜索了整个 AlphaFold 2 数据库,包括「模式生物蛋白质组」、「Swiss-Prot」和「全球健康蛋白质组」数据集,以寻找包含以前未知的深结的拓扑复杂蛋白质。研究人员从分析中排除了那些具有较低置信度得分(<80)或超长蛋白质链(>600 aa)的蛋白,其中预测的准确性和实验验证结构的能力可能受到限制。基于这种搜索和目视检查,该团队已经确定了第一个 71-结(在平面上的任何投影中至少有七个交叉点)以及生成 31#31 复合结的可能进化机制。复合结的产生机制研究人员通过调查发现了 9 个以前未知的复合结案例。这些都是两个基本上独立的三叶结存在于一个较长的蛋白质链中的例子。于是他们提出了一种基于基因复制和打结同源二聚体互连来生成这种复合结的新机制。有趣的是,这种机制类似于用于创建第一个人工蛋白质结的策略,其中未打结的二聚体被「连接」以形成三叶草。该团队已经观察到包括甲基转移酶和碳酸酐酶在内的多个实例,其中含有复合三叶结(31#31)的蛋白质与每条链中具有一个三叶结的已知打结同源二聚体同源。经过验证,复合三叶结可以认定为俗称的「奶奶结」。复合结的手性与先前报告甲基转移酶和碳酸酐酶中单个三叶结的正手性的结果一致。研究人员在两个不同的蛋白质家族和两种结构变化中观察到了相同的现象,他们认为这是一种产生复合结的潜在机制。图示:蛋白质 Q313J9(甲基转移酶)中六交叉复合结的 3D 结构(上)和简化表示(下)。(来源:论文)图示:蛋白质 P54212(碳酸酐酶)的 3D 结构(上)和简化表示(下)。蛋白质中的第一个 71-结下图描述了蛋白质 P73136 和 Q9PR55,其长度分别为 112 和 89 个氨基酸。两者都没有特征,使用 PDBeFold 无法识别可能的同源物。然而,它们具有48%的序列同一性和71%的二级结构匹配,这表明它们可能是同源物。蛋白质 Q9PR55 包含最复杂的结,一个 71-结,迄今为止已知在残基 27 和 83 之间有一个打结的核心。蛋白质 P73136 的类似结构包含一个 51-结,在残基 45 和 94 之间有一个打结的核心。以前没有观察到这两种蛋白质具有不同的非平凡拓扑结构的这种同源物对。仔细观察会发现,蛋白质 Q9PR55 更复杂的拓扑结构是由一个引入额外缠绕的蛋白质片段引起的;71 环面结本质上是一个 51 环面结,在环面上有一个额外的缠绕;两个结都具有正手性。图示:蛋白质 P73136(左)和 Q9PR55(右)的结构和拓扑结构。(来源:论文)新的 51 和 52 结该团队发现了两个以前未知的具有五个基本交叉点的结,包括第一个 51-结。
图示:蛋白质 A0A0K0IQS9(左)和 C1GYM9(右)的结构和拓扑结构。(来源:论文)
准确性测试由于该发现的新颖性,通过独立方法进行验证将很重要。在实验研究之前,研究人员应用正交计算工具 ERRAT 来评估预测的打结结构。ERRAT 算法评估 C、N 和 O 原子之间的非键合接触模式,并与高分辨率结构进行统计比较。通过与 AlphaFold(和其他预测方法)中使用的指标不同,它提供了独立的评估。研究人员在打结结构集上运行了 ERRAT。剔除某些模型中偶尔出现的扩展末端,所有测试的模型都显示出良好的分数;所有蛋白都有 >90% 的蛋白质链落在(低于)拒绝不太可能构象的 95% 阈值内。因此,总体来看,预测的结构是正确的,至少在很大程度上是正确的。然而,在某些情况下,结构的局部区域似乎存在潜在问题。重要的是要注意蛋白质链路径中的微小差异——例如,那些会改变上/下交叉的差异——可能会改变拓扑结构,可能导致结的错误分配。研究人员注意到,对于复合结 Q4D5S2,ERRAT 程序将残基 100-110 周围的 beta 链段标记为结构上可能不正确。值得注意的是,该区域中链的通过对于打结拓扑很重要。结语总之,该团队分析了 AlphaFold AI 系统对新拓扑复杂蛋白质的所有蛋白质 3D 结构预测。我们对 AlphaFold 提供的数据的完整分析揭示了几种包含深度复杂结的高置信度蛋白质,这些蛋白质适用于对其 3D 结构的实验验证。在这个数据集中,研究人员发现了一个 71-结,这是迄今为止在蛋白质中发现的最复杂的一个,以及同源结构中的一个新的 51-结,以及复合蛋白质节的第一个实例。对于后者,研究人员提出了一种通过基因复制创造它们的进化机制。由于蛋白质拓扑结构是蛋白质折叠算法的持续挑战,因此通过实验验证所讨论的结构预测将非常重要。不仅可以获得对 AlphaFold 系统正确预测复杂蛋白质拓扑结构的能力的精细衡量,而且重要的是确认这里发现的大量新蛋白质结。论文链接:https://onlinelibrary.wiley.com/doi/10.1002/pro.4380相关报道:https://phys.org/news/2022-07-physicists-ai-complex-protein.html