物理学家使用人工智能来寻找迄今为止最复杂的蛋白质结

简介: 物理学家使用人工智能来寻找迄今为止最复杂的蛋白质结

计算机人工智能系统 AlphaFold 最近预测了数万种蛋白质的以前未知的三维结构。美因茨约翰内斯·古腾堡大学(JGU)的研究团队专注于具有高置信度分数的子集,研究人员通过算法分析这些预测,发现蛋白质骨架表现出罕见的拓扑复杂性,即打结。其中,研究人员发现了一个 71-结,这是迄今为止在蛋白质中发现的最复杂的拓扑结,以及几个由两个甲基转移酶或碳酸酐酶结构域组成的六交叉复合结,每个结构域都包含一个简单的三叶结。这些深深嵌入的复合结显然是通过基因复制和打结二聚体的相互连接而发生的。另外,该团队还报告了两个新的五交叉结,包括第一个 51-结。该工作分析的结构列表构成了未来实验研究的基础,以确认这些新型打结拓扑并探索其复杂的折叠机制。该研究以「AlphaFold predicts the most complex protein knot and composite protein knots」为题,于 2022 年 7 月 13 日发布在《Protein Science》。谷歌 DeepMind 开发的人工智能(AI)系统 AlphaFold 两次主导蛋白质结构预测技术(CASP)的关键评估。AlphaFold 2 是一个深度学习系统,它结合了基于蛋白质结构的进化、物理和几何约束的训练程序。它的特点是预测的迭代细化,并允许使用自蒸馏和自估计准确性从未标记的蛋白质序列中学习,以使用一级结构和同源物的对齐序列直接预测给定蛋白质的所有重原子的 3D 坐标。AlphaFold 2 目前已经预测了数十万种蛋白质结构,其中大部分不包含在蛋白质数据库(PDB)中,该数据库主要存档实验确定的结构。因此,AlphaFold 的预测数据库可能具有巨大的价值,特别是对于研究不常见但仍与了解蛋白质折叠潜在机制的复杂性具有高度相关性的蛋白质现象。对于在其多肽骨架中包含拓扑结的蛋白质,会出现一个特别令人着迷的现象,即从两端拉出后不会完全解开的蛋白质。在过去的二十年中,仅发现了大约 20 种不同的含有结的蛋白质家族。然而,打结的蛋白质对蛋白质折叠和进化提出了挑战。模拟算法经常高估蛋白质的打结概率,因为后者低于随机链的打结概率。此外,同源物之间的蛋白质拓扑结构通常相似,这意味着在进化中密切相关的蛋白质中往往会保留打结的折叠。由于这些原因,并且由于天然蛋白质之间打结的罕见性,在预测蛋白质结构的庞大新数据库中可能存在打结拓扑结构引起了人们的浓厚兴趣。目前,在蛋白质中发现的最复杂的结是单个结,在任何投影到平面上都有六个基本交叉点;尚未观察到复合结。JGU 团队搜索了整个 AlphaFold 2 数据库,包括「模式生物蛋白质组」、「Swiss-Prot」和「全球健康蛋白质组」数据集,以寻找包含以前未知的深结的拓扑复杂蛋白质。研究人员从分析中排除了那些具有较低置信度得分(<80)或超长蛋白质链(>600 aa)的蛋白,其中预测的准确性和实验验证结构的能力可能受到限制。基于这种搜索和目视检查,该团队已经确定了第一个 71-结(在平面上的任何投影中至少有七个交叉点)以及生成 31#31 复合结的可能进化机制。复合结的产生机制研究人员通过调查发现了 9 个以前未知的复合结案例。这些都是两个基本上独立的三叶结存在于一个较长的蛋白质链中的例子。于是他们提出了一种基于基因复制和打结同源二聚体互连来生成这种复合结的新机制。有趣的是,这种机制类似于用于创建第一个人工蛋白质结的策略,其中未打结的二聚体被「连接」以形成三叶草。该团队已经观察到包括甲基转移酶和碳酸酐酶在内的多个实例,其中含有复合三叶结(31#31)的蛋白质与每条链中具有一个三叶结的已知打结同源二聚体同源。经过验证,复合三叶结可以认定为俗称的「奶奶结」。复合结的手性与先前报告甲基转移酶和碳酸酐酶中单个三叶结的正手性的结果一致。研究人员在两个不同的蛋白质家族和两种结构变化中观察到了相同的现象,他们认为这是一种产生复合结的潜在机制。图示:蛋白质 Q313J9(甲基转移酶)中六交叉复合结的 3D 结构(上)和简化表示(下)。(来源:论文)图示:蛋白质 P54212(碳酸酐酶)的 3D 结构(上)和简化表示(下)。蛋白质中的第一个 71-结下图描述了蛋白质 P73136 和 Q9PR55,其长度分别为 112 和 89 个氨基酸。两者都没有特征,使用 PDBeFold 无法识别可能的同源物。然而,它们具有48%的序列同一性和71%的二级结构匹配,这表明它们可能是同源物。蛋白质 Q9PR55 包含最复杂的结,一个 71-结,迄今为止已知在残基 27 和 83 之间有一个打结的核心。蛋白质 P73136 的类似结构包含一个 51-结,在残基 45 和 94 之间有一个打结的核心。以前没有观察到这两种蛋白质具有不同的非平凡拓扑结构的这种同源物对。仔细观察会发现,蛋白质 Q9PR55 更复杂的拓扑结构是由一个引入额外缠绕的蛋白质片段引起的;71 环面结本质上是一个 51 环面结,在环面上有一个额外的缠绕;两个结都具有正手性。图示:蛋白质 P73136(左)和 Q9PR55(右)的结构和拓扑结构。(来源:论文)新的 51 和 52该团队发现了两个以前未知的具有五个基本交叉点的结,包括第一个 51-结。

图示:蛋白质 A0A0K0IQS9(左)和 C1GYM9(右)的结构和拓扑结构。(来源:论文)

准确性测试由于该发现的新颖性,通过独立方法进行验证将很重要。在实验研究之前,研究人员应用正交计算工具 ERRAT 来评估预测的打结结构。ERRAT 算法评估 C、N 和 O 原子之间的非键合接触模式,并与高分辨率结构进行统计比较。通过与 AlphaFold(和其他预测方法)中使用的指标不同,它提供了独立的评估。研究人员在打结结构集上运行了 ERRAT。剔除某些模型中偶尔出现的扩展末端,所有测试的模型都显示出良好的分数;所有蛋白都有 >90% 的蛋白质链落在(低于)拒绝不太可能构象的 95% 阈值内。因此,总体来看,预测的结构是正确的,至少在很大程度上是正确的。然而,在某些情况下,结构的局部区域似乎存在潜在问题。重要的是要注意蛋白质链路径中的微小差异——例如,那些会改变上/下交叉的差异——可能会改变拓扑结构,可能导致结的错误分配。研究人员注意到,对于复合结 Q4D5S2,ERRAT 程序将残基 100-110 周围的 beta 链段标记为结构上可能不正确。值得注意的是,该区域中链的通过对于打结拓扑很重要。结语总之,该团队分析了 AlphaFold AI 系统对新拓扑复杂蛋白质的所有蛋白质 3D 结构预测。我们对 AlphaFold 提供的数据的完整分析揭示了几种包含深度复杂结的高置信度蛋白质,这些蛋白质适用于对其 3D 结构的实验验证。在这个数据集中,研究人员发现了一个 71-结,这是迄今为止在蛋白质中发现的最复杂的一个,以及同源结构中的一个新的 51-结,以及复合蛋白质节的第一个实例。对于后者,研究人员提出了一种通过基因复制创造它们的进化机制。由于蛋白质拓扑结构是蛋白质折叠算法的持续挑战,因此通过实验验证所讨论的结构预测将非常重要。不仅可以获得对 AlphaFold 系统正确预测复杂蛋白质拓扑结构的能力的精细衡量,而且重要的是确认这里发现的大量新蛋白质结。论文链接:https://onlinelibrary.wiley.com/doi/10.1002/pro.4380相关报道:https://phys.org/news/2022-07-physicists-ai-complex-protein.html

相关文章
|
机器学习/深度学习 人工智能 算法
Cell Discovery| 蛋白质组学+人工智能| 基于蛋白质的甲状腺结节人工智能分类器
Cell Discovery| 蛋白质组学+人工智能| 基于蛋白质的甲状腺结节人工智能分类器
159 0
Cell Discovery| 蛋白质组学+人工智能| 基于蛋白质的甲状腺结节人工智能分类器
|
机器学习/深度学习 存储 人工智能
蛋白质和自然语言:人工智能使设计新型蛋白质成为可能
蛋白质和自然语言:人工智能使设计新型蛋白质成为可能
255 0
|
机器学习/深度学习 人工智能 安全
快80~500倍!人工智能快速预测两种蛋白质的结构互作方式
快80~500倍!人工智能快速预测两种蛋白质的结构互作方式
142 0
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在医疗诊断中的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战及未来发展趋势。通过分析AI如何辅助医生进行疾病诊断,提高诊断效率和准确性,以及其在个性化医疗中的潜力,文章揭示了AI技术对医疗行业变革的推动作用。同时,也指出了数据隐私、算法偏见等伦理问题,并展望了AI与人类医生协同工作的前景。 ####
27 0
|
15天前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在现代医疗中的革新应用
本文深入探讨了人工智能(AI)技术在医疗领域的最新进展,重点分析了AI如何通过提高诊断准确性、个性化治疗方案的制定以及优化患者管理流程来革新现代医疗。文章还讨论了AI技术面临的挑战和未来发展趋势,为读者提供了一个全面了解AI在医疗领域应用的视角。
22 0
|
7天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
1天前
|
数据采集 人工智能 移动开发
盘点人工智能在医疗诊断领域的应用
人工智能在医疗诊断领域的应用广泛,包括医学影像诊断、疾病预测与风险评估、病理诊断、药物研发、医疗机器人、远程医疗诊断和智能辅助诊断系统等。这些应用提高了诊断的准确性和效率,改善了患者的治疗效果和生活质量。然而,数据质量和安全性、AI系统的透明度等问题仍需关注和解决。
45 10
|
9天前
|
机器学习/深度学习 人工智能 算法
探索人工智能在医疗诊断中的应用
本文深入探讨了人工智能(AI)技术在医疗诊断领域的革新性应用,通过分析AI如何助力提高诊断准确性、效率以及个性化治疗方案的制定,揭示了AI技术为现代医学带来的巨大潜力和挑战。文章还展望了AI在未来医疗中的发展趋势,强调了跨学科合作的重要性。 ###
37 9
|
11天前
|
机器学习/深度学习 数据采集 人工智能
深度探索:人工智能在医疗影像诊断中的应用与挑战####
本文旨在深入剖析人工智能(AI)技术在医疗影像诊断领域的最新进展、核心优势、面临的挑战及未来发展趋势。通过综合分析当前AI算法在提高诊断准确性、效率及可解释性方面的贡献,结合具体案例,揭示其在临床实践中的实际价值与潜在局限。文章还展望了AI如何与其他先进技术融合,以推动医疗影像学迈向更高层次的智能化时代。 ####
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
探索未来编程:Python在人工智能领域的深度应用与前景###
本文将深入探讨Python语言在人工智能(AI)领域的广泛应用,从基础原理到前沿实践,揭示其如何成为推动AI技术创新的关键力量。通过分析Python的简洁性、灵活性以及丰富的库支持,展现其在机器学习、深度学习、自然语言处理等子领域的卓越贡献,并展望Python在未来AI发展中的核心地位与潜在变革。 ###