QUARK的增强版C-QUARK问世,有效提升蛋白质结构从头预测精度

简介: QUARK的增强版C-QUARK问世,有效提升蛋白质结构从头预测精度

image.png

实现蛋白质三维结构的有效预测。


1


研究背景


蛋白质结构从头预测通常是指在PDB(蛋白质数据库)中不使用同源模板即可对蛋白质结构进行建模的方法,在过去几十年中一直吸引着人们的研究兴趣。十年前,包括Rosetta和QUARK在内的几个先进pipelines在CASP(critical assessment of protein structure prediction)实验中开创性地为长度超过100个残基的挑战性目标生成了正确的折叠,但这些从头折叠方法仍远不尽如人意。克服从头算建模局限性的有效方法之一是在折叠模拟中结合长程接触,但仍需要足够高精度的接触预测,以便建模精度不会因为太多错误预测的接触而受到影响。直接耦合分析(DCA)和深度神经网络学习技术的引入实现了接触预测精度的飞跃。但尽管在接触预测方面取得了显著进展,除非预测接触与折叠模拟有效集成,否则当前的从头建模协议无法充分发挥其潜力。特别是,当同源序列的数量较少以及基于序列的接触预测的准确性较低时,如何平衡有噪声的接触图与先进的折叠模拟力场以构建正确的从头结构折叠仍然是一个重要且具有挑战性的问题。


本文研究开发了一个接触引导从头折叠程序,C-QUARK。为了系统地探索接触图预测的能力,特别是那些精度较低的接触图预测,以改进从头折叠,该研究将接触约束与基于QUARK的折叠模拟结合了起来。该pipeline 在CASP目标和单独的大规模测试数据集上进行了严格的基准测试,结果显示,与QUARK以及其他先进的结构建模方法相比,C-QUARK在建模长距离和非同源目标方面显示出显著优势。


2


介绍


C-QUARK是基于QUARK这一顶级从头蛋白质折叠模拟程序之一建立的,其算法主要分为五个步骤:通过DeepMSA生成多序列比对、基于深度学习的接触图预测、片段构建、接触图引导的副本交换蒙特卡罗折叠模拟、模型选择与细化。C-QUARK从全基因组和宏基因组序列数据库的多序列比对(MSA)收集开始,其中两种类型的接触图是通过基于深度学习和协同进化的预测器创建的。接下来,从不相关的PDB结构中收集具有连续序列长度(1-20 AA)的结构片段,并在由基于知识的能量项、基于其距离分布从结构片段中收集的残基间接触以及基于序列的接触图预测组成的复合力场的指导下,通过副本交换蒙特卡罗(REMC)模拟将其用于组装全长结构模型(图1)。然后,通过SPICKER对模拟轨迹中的构象进行聚类,识别对应最低自由能状态的簇,并通过分子动力学结构细化方法FG-MD进一步优化簇心,获得最终的结构模型。


与QUARK相比,C-QUARK有三个主要实现项,包括:(1) 多序列比对生成工具DeepMSA,用于构建谱和预测接触图;(2) 基于深度学习和协同进化的接触预测模块,用于残基接触图预测、组合和选择;(3) 开发并精心训练了接触势能项来平衡接触势能与其他能量项(包括固有知识和物理势能),以指导结构组装模拟。

image.png

图1.C-QUARK流程图


3


结果


C-QUARK在从头结构预测中显著优于QUARK


由于C-QUARK和QUARK之间的主要区别在于前者程序中包含了接触约束,因此对这两个程序进行基准测试可以检验接触图在蛋白质从头折叠中的有效性。作者从PDB收集了一组包含247个非冗余单域蛋白质的集合,其分辨率优于3Å,长度在50–300个残基之间。表1总结了测试结果,其中C-QUARK的第一个模型的平均TM-score(0.606)比QUARK (0.423)高出43%。表1还列出了前五名模型中最佳模型的结果,其中C-QUARK再次显著优于QUARK,其平均TM-score(0.629)比后者(0.468)高34%。这里,TM-score是用于评估模型预测结构和原生结构之间的结构相似性(即模型预测准确性)的指标,取值介于0到1之间,TM-score> 0.5则表示模型预测的结构与真实结构相似。


此外,数据显示,在247个测试蛋白上,C-QUARK有224个测试蛋白生成的模型比QUARK生成的模型具有更高的TM-score。如果用正确的结构折叠来计算, C-QUARK的第一个模型有186个(75%)蛋白质被正确折叠,而QUARK只有71个(29%)蛋白质被正确折叠。C-QUARK正确折叠了46% QUARK无法折叠的蛋白质,表明了接触约束在C-QUARK蛋白质结构从头折叠的过程中起了主要的积极影响。

image.png

表1.C-QUARK与QUARK对247个测试蛋白质的预测性能


为了评估C-QUARK对不同蛋白质类型进行建模的能力,作者根据测试目标的二级结构组成将测试目标分为三类,即α、β和α-β蛋白(图2)。对于建模相对容易的α-蛋白,C-QUARK的正确折叠率(64种α蛋白的52种)几乎是QUARK(64种α蛋白的24种)的两倍,而对于β和α-β类型的蛋白质,C-QUARK的折叠成功率比QUARK高约三倍。其中β-蛋白建模精度的提高尤其令人振奋,因为β-蛋白通常具有以长程接触图为特征的复杂拓扑结构而导致其从头建模一直相当困难,其从头折叠程序的固有力场通常难以捕捉由微妙的氢键网络形成的这种长程相互作用。C-QUARK结合长程残基间接触预测有效地捕捉到了这种相互作用,并显著改善了具有复杂β折叠拓扑的目标的折叠性能。

image.png

图2.C-QUARK和QUARK在247个测试蛋白上的比较结果。a.C-QUARK与QUARK对不同蛋白质类别的第一个模型的TM-score。b .在不同的蛋白质长度区间,C-QUARK和QUARK的平均TM-score。


对于缺乏同源序列和高精度接触的目标,C-QUARK 明显优于其他接触引导折叠方法


作者将C-QUARK的性能与其他三个主要基于预测的接触或距离构建结构模型的程序进行了比较,包括CNS、DConStruct(v1.0)和trRosetta(v1.0)。值得注意的是,在有效序列数低(Nf < 15)或接触图精度低(< 30%)的59个目标中,C-QUARK为24个目标(41%)生成了正确的折叠,而CNS(DConStruct)仅为4(4)个获得了正确的折叠。由于低Nf MSAs的接触预测一直是接触引导从头建模的瓶颈,因此C-QUARK在为这些具有挑战性的目标生成正确模型方面,其成功率的显著提高尤其令人鼓舞。同时,C-QUARK在这59个目标的TM-score (0.428)也明显高于QUARK (0.348),表明尽管精度相对较低,接触图预测仍然有助于折叠。


QUARK优于其他基于接触的折叠程序,这主要是因为其在结构组装模拟中综合力场的帮助。C-QUARK的成功应归功于预测的残基-残基接触与固有力场和结构组装模拟过程之间的相互作用。


C-QUARK 在CASP13目标上的性能测试


为了直接将 C-QUARK 与其他最先进的结构预测程序进行比较,C-QUARK 作为“QUARK”服务器参与了第13次结构预测关键评估(CASP13)实验。作者分析了C-QUARK在64个CASP13 FM(free modeling)、FM/TBM(free modeling/template-based modeling)和TBM-hard(template-based modeling-hard)目标上的性能。这些目标具有挑战性,因为同源模板不存在或难以从PDB库中检测到。根据64个CASP13目标的实验结构,C-QUARK的平均GDT_TS(CASP评估员使用的标准分数)高于所有其他p值<0.05的参与服务器的平均GDT_TS。尤其是在TBM-hard和FM类别中,C-QUARK分别比第二好的方法好4%和5%。而对于FM/TBM目标,BAKER-ROSETTASERVER (60.58) 略好于C-QUARK (58.94),但差异并不显著。


4


总结


在这项研究中,作者开发了基于(稀疏)接触图引导的蛋白质结构从头预测算法C-QUARK,它显示出对在PDB没有同源模板的“hard”蛋白质建模的能力显著提高。虽然C-QUARK pipeline建立在该领域顶级从头建模程序之一的QUARK平台上,但当基于序列的接触预测被纳入时,平均TM-score提高了43%。重要的是,C-QUARK生成正确折叠的总体成功率约为75%,是QUARK (29%)的2.6倍,表明接触图预测在改进从头结构建模中的重要性。此外,C-QUARK还显示出一致的折叠长度大于150个残基的中型到大型蛋白质的能力,这一直是几十年来从头建模领域的限制之一。


目录
相关文章
|
1月前
|
编解码 人工智能 运维
南加大提出全新通用时间序列基础模型TimeDiT!基于扩散模型创新物理约束机制
 【10月更文挑战第10天】南加大提出TimeDiT模型,创新融合扩散模型与Transformer架构,针对真实世界时间序列数据的复杂性,如多分辨率、缺失值等问题,提供高效解决方案。该模型通过新颖的掩码机制和无微调编辑策略,实现多任务处理及物理知识集成,显著提升预测和异常检测的准确性和鲁棒性。
37 3
|
5月前
|
机器学习/深度学习 数据采集
开源多结构蛋白质预测大模型——Genie 2
【6月更文挑战第24天】Genie 2,一款开源的深度学习蛋白质设计模型,扩展了原始Genie的结构预测能力,通过创新架构和大规模数据增强处理更复杂多样的蛋白质结构。引入的多基序框架允许设计多功能蛋白质,提升无条件和有条件生成的性能。尽管面临数据质量、复杂相互作用处理及模型可解释性的挑战,Genie 2仍为蛋白质设计树立新标杆。[论文链接](https://arxiv.org/abs/2405.15489)
61 1
|
5月前
|
机器学习/深度学习 计算机视觉 人工智能
用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域
【6月更文挑战第3天】研究人员提出OmniGlue,首个以泛化为中心的图像匹配器,利用基础模型DINOv2的广泛知识和关键点位置引导的注意力机制,提升未见过图像域的匹配性能。在7个不同图像域的实验中,OmniGlue相对其他模型表现出20.9%的相对增益,优于LightGlue 9.5%。尽管有改进空间,OmniGlue标志着图像匹配技术泛化能力的重要进步。论文链接:https://arxiv.org/pdf/2405.12979
89 2
|
6月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
82 4
|
6月前
|
数据挖掘
R语言中的混合效应模型
【4月更文挑战第27天】本文介绍了R语言中混合效应模型(MEMs)的理论与应用,包括固定效应和随机效应的概念,以及使用`nlme`、`lmerTest`包构建线性、非线性和广义线性混合效应模型。通过学生考试成绩的例子展示了如何分析复杂数据结构。此外,讨论了模型解释、验证方法,如AIC和残差图。最后提到了R语言支持的高级主题,如多层次模型和潜在增长曲线模型,强调了MEMs在处理相关性数据中的重要性及其在R语言中的广阔应用前景。
86 0
|
6月前
|
算法 数据挖掘 关系型数据库
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据
|
6月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
160 0
|
机器学习/深度学习 人工智能 自然语言处理
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
134 0
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
|
机器学习/深度学习 编解码 自动驾驶
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
341 0
|
机器学习/深度学习 编解码 计算机视觉
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
418 0