结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022

简介: 结构生物学没失业!深度评估AlphaFold 2:「蛋白质功能预测」水平不足|NeurIPS 2022



 新智元报道  

编辑:编辑部

【新智元导读】最近西湖大学人工智能团队发表了一篇对AlphaFold 2的功能进行深入研究的论文,得到了一些有趣的研究结果。相关论文发表在人工智能顶级会议NeurIPS 2022。


随着深度学习领域的发展,大规模蛋白质语言模型(PLM)在蛋白质预测任务中的取得了很大的成绩,比如蛋白质3D结构预测和各种功能预测。


其中AlphaFold2是一个具有革命性的人工智能蛋白质模型,在CASP14蛋白质结构预测任务上取得了原子级别的预测准确度,该成果可能会重塑结构生物学。


然而对于蛋白质的研究,结构仅仅只是开始。对于蛋白质功能的解读,例如,未知蛋白质功能注释、突变影响、蛋白质工程、折叠的稳定性等研究更加具备实际意义。


目前,除了结构预测之外,还没有相关研究对于AlphaFold的核心组件Evoformer(一种新颖的PLM)进行结构以外任务的评估检验


最近来自西湖大学的研究者们聚焦Evoformer的表征能力研究,尤其是探究其蛋白质功能预测水平。


论文题目:Exploring evolution-aware & -free protein language models as protein function predictors

论文链接:https://arxiv.org/abs/2206.06583

代码链接:https://github.com/elttaes/Revisiting-PLMs


作者的主要动机是:既然蛋白质结构决定功能,而AlphaFold2如此精准的结构预测能力是否也具有较强的功能预测能力。


针对此,研究者探究了三种流行的PLM的表征能力:ESM-1b(单序列PLM)、MSA-Transformer(多序列比对PLM)和 Evoformer(基于结构的PLM),尤其关注Evoformer的能力。


三种主流蛋白质语言模型神经网络对比


论文旨在回答以下关键问题


1、作为AlphaFold的核心表征模型, Evoformer是否产生适合蛋白质功能预测任务的特征向量

2、如果是,Evoformer能否取代目前最强大的PLM,也就是Meta的ESM-1b和MSA-Transformer?

3、这些PLM在多大程度上依赖于同源蛋白的进化数据


文章通过实证研究比较这些模型,并在此基础上提出新的见解和结论。


AlphaFold2并非全能


蛋白质是生命活动的主要执行者,因此,破译其结构和功能特性背后的机制至关重要。


其中蛋白质序列-结构-功能关系使得基于序列的机器学习方法在结构和功能预测上取得很大成功,这些方法可以从氨基酸 (AA) 序列推断蛋白质结构和功能。


亿级别参数的大规模的蛋白质语言模型通过自监督学习方法已经成为AI预测蛋白质功能的最主流做法。


同时,AlphaFold在蛋白质数据库(PDB)的3D蛋白质结构上进行了训练,最终可以输出与实验结构同样准确的蛋白质3D结构。


它的多序列比对表示模块Evoformer结合了新的深度学习机制、PLM残差重建任务和直方图形式的结构监督。与MSA-Transformer一样,Evoformer将一系列与进化相关且对齐的蛋白质序列作为输入,而ESM-1b和TAPE等PLM仅采用单个蛋白质序列。


简而言之我们将前两个模型称为进化感知型PLM,后两个模型称为无(显式)进化型PLM。


尽管AlphaFold在从序列预测结构方面取得了显著成功,但目前尚不清楚其Evoformer模块是否可以应用于其他问题,特别是蛋白质功能和适应度预测。破译AlphaFold而不是将其视为黑匣子对AI和生物学界都有好处。


因此,我们试图回答以下关键问题:


Q1:AlphaFold的主要模块Evoformer语言模型是否学习到了可用于各种蛋白质功能预测的通用表征(也就是超出结构预测)?


与ESM-1b和MSA-Transformer不同,Evoformer在3D结构的监督下进行训练。

此外,AlphaFold的第二部分,即结构模块建立在48个Evoformer块之上,比ESM-1b和MSA-Transformer中使用的传统(线性)分类头更复杂、更深入。这些差异使得Evoformer的蛋白质功能表示能力成为一个悬而未决的问题。


Q2:如果Evoformer的表征是通用的,它在下游任务上是否优于ESM-1b和MSA-Transformer?


虽然这三个模型使用不同的参数大小和数据集进行训练,但我们认为比较结果仍然很有价值,因为它们是目前最先进的PLM。由于所涉及的计算成本,从头开始训练这些大型模型对于大多数学术研究团队来说是遥不可及的。


任务详细介绍


Q3:进化感知的PLM, 如Evoformer 与MSA-Transformer的功能预测性能在多大程度上依赖于输入的MSA数据?无进化感知的PLM能否在MSA构建方面帮助具有进化意识型的PLM?


研究人员通过对各种结构和功能预测任务做经验验证,研究解决上述问题,可以得到以下主要结论


(i) AlphaFold的主要模块Evoformer可以产生对结构和功能预测都有用的表征,如两个蛋白质结构预测任务、两个功能注释任务和两个突变适应度景观预测任务。


(ii) Evoformer输出的向量表示对于蛋白质级别和残基级别的预测任务都很有用。


(iii) Evoformer在结构预测和新型小蛋白稳定性预测方面优于ESM-1b和MSA-Transformer,但在其他功能预测任务上不如ESM-1b。与ESM-1b和MSA-Transformer相比,它在零样本适应度预测任务上表现不佳。


(iv) 进化感知型PLMs仅在结构预测任务中优于无进化的ESM-1b模型,但在大多数功能预测任务中通常比ESM-1b差。


(v) MSA-Transformer和Evoformer在预测蛋白质功能时也对MSA的数量非常敏感。此外,它们在使用ESM-1b构建的MSA作为输入时,模型的性能与使用Jackhmmer或HHblits生成的MSA的性能相当,但速度大幅提升,本研究也提出了一种深度学习方式快速准确生成MSA。


实验部分


这篇论文将ESM-1b、MSA-Transformer和Alphafold2进行了一系列任务,包括蛋白质结构预测如二级结构,接触图预测。


蛋白质功能预测包括金属离子结合、抗生素耐药性。以及蛋白质稳定性预测,蛋白质荧光性预测,以及零样本迁移学习突变适应度景观预测。


二级结构预测(SS)


这是一个残基级序列到序列的任务,其中蛋白质序列 x = {x_1,x_2,…..,x_L} 的每个残基x_i映射到标签y_i对应于八个二级结构任务y_i∈ { G, H, ..., C } 之一。二级结构预测检查PLM学习局部结构的程度。


接触图预测


对于给定的蛋白质结构,如果两个残基的 C_β 碳在 8Å 以内,则认为它们是接触的。我们评估在一级结构中相距超过6 个位置的氨基酸。使用Precision@L测量结果,它代表着具有最高预测接触概率的Top-L氨基酸对的精度。L是蛋白质序列的长度。


研究人员还评估了两个功能(注释)分类任务:


1、金属离子结合 (MIB):这是一个二元分类任务,其中使用PLM来确定蛋白质中是否存在金属离子结合位点。


2、抗生素耐药性 (ABR):这是一个多类别分类任务,PLM 需要正确确定蛋白质降解的抗生素类别。我们从 CARD构建数据集,其中包含 19 种不同的抗生素类型。


以及三个适应度预测任务。与功能注释预测不同,此任务中的蛋白质序列均来自相同的野生型,具有少量突变残基。


1、稳定性:这是一个蛋白质级别的回归任务,它预测蛋白质可以维持其折叠的蛋白酶浓度。


2、荧光:这也是一个蛋白质级别的回归任务,预测蛋白质序列的对数荧光强度。


3、零样本突变效应预测:这是一项蛋白质级别的预测任务,通过对比分配给突变残基的似然可能性与分配给野生型的可能性之间的差建立与蛋白质适应度景观之间的关系。此子任务仅考虑单点突变数据。


新蛋白接触图预测结果


蛋白质功能预测结果如下:


(1)蛋白质功能注释预测:

蛋白功能预测结果


(2)蛋白质突变适应性景观预测

蛋白突变适应度景观预测结果


(3)下图为零样本突变适应度景观预测结果


零样本突变适应度分数预测


(4)在MIB和ABR两个功能预测任务上测试了MSA数量对于模型效果的影响,在失去MSA的情况下Evoformer和MSA-Transformer无论是否经过预训练,都会产生更差的功能预测结果。


MSA的有无对模型结果的影响


(5)进一步提出一种新的MSA构建方式,其速度远远高于传统的生信方法例如HHblits,如下所示:

ESM-MSA搜索的MSA与Jackhmmer准确度对比


其中ESM-MSA为采用ESM-1b构建神经网络产生的MSA数据,详细构建方式见下图:


结论


通过对各种蛋白质相关任务的实验,可以得到以下结论:


(1) AlphaFold2训练的Evoformer能够得到对结构和功能预测都有用的表征。


(2) Evoformer产生的表征对于蛋白质或残基级别预测任务都很有用。


(3) Evoformer在结构预测和蛋白稳定性预测方面优于ESM-1b和MSA-Transformer,但在其他功能预测任务上不如ESM-1b。


(4)与ESM-1b和MSA-Transformer相比, Evoformer在零样本突变任务上表现很差。


(5) 基于进化信息的蛋白质语言模型仅在结构预测任务中优于无进化信息的ESM-1b模型,在大多数功能预测任务中通常比ESM-1b差。


(6) 与结构预测类似,基于进化信息的蛋白质语言模型在预测蛋白质功能时也对MSA的数量比较敏感。


本文主要观点是通过大量的实验证实:AlphaFold2虽然在蛋白质结构预测任务上取得了革命性的成果,但其核心表征学习组件Evoformer并不能直接带来蛋白质功能预测的显著提升,更不可能替代已有的SOTA, 也就是Facebook研发的 ESM1b与MSA-Transformer。


参考资料:https://arxiv.org/abs/2206.06583

相关文章
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
64 25
|
8月前
|
机器学习/深度学习 数据挖掘 数据建模
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(下)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
|
8月前
|
机器学习/深度学习 数据可视化 数据处理
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据(上)
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
|
算法
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
134 0
|
机器学习/深度学习 自然语言处理 算法
KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型
KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型
142 0
|
机器学习/深度学习 算法
基于文化算法优化的神经网络预测研究(Matlab代码实现)
基于文化算法优化的神经网络预测研究(Matlab代码实现)
运筹学基础——预测
运筹学基础——预测
133 0
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
114 0
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
机器学习/深度学习 人工智能 算法
扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程
扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程
118 0
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
305 0

热门文章

最新文章