PLUS | 包含蛋白质特异性的新型预训练方案

简介: PLUS | 包含蛋白质特异性的新型预训练方案

image.png

今天给大家介绍来自首尔国立大学Sungroh Yoon课题组在arXiv上发表的一篇文章。作者指出当前很多方法采用半监督学习来进行蛋白质序列建模,其中的预训练方法主要依赖于语言建模任务,并且常常表现的性能有限。为了更好地捕获未标记蛋白序列中包含的信息,必须进行补充蛋白特异性的预训练任务。针对以上问题,作者提出了一种称为PLUS的新型预训练方案。PLUS包括掩码语言建模(MLM)和补充蛋白质特异性的预训练任务,即相同的家族预测,可用于预训练各种模型架构。


1


介绍


由氨基酸的线性链组成的蛋白质是活生物体中用途最广泛的分子之一。它们在普遍的生物学机制中起着至关重要的功能。蛋白质根据氨基酸序列自然折叠成三维结构,结构会对其功能产生直接影响。随着下一代测序技术的出现,获得蛋白质序列变得相对更加容易,但是用有意义的属性注释序列仍然需要大量时间和资源。


利用无标签和标签数据的半监督学习已成为机器学习社区的长期目标之一。半监督学习算法使用大量未标记的数据预训练通用模型,然后它转移学习的表示形式,并针对每个受监督的任务使用少量带标签的数据对模型进行微调。半监督学习的关键是如何定义适当的预训练任务,最近有一些工作提出了蛋白质表示的预训练方法,采用了NLP的语言建模,并表明预训练有助于完成各种下游蛋白质任务。但是当前的预训练方法仍然在任务特定模型方面表现不佳,可能是因为仅仅依靠LM还不能达到预期效果,必须进行补充蛋白质特有的预训练任务才能更好地捕获蛋白质中包含的信息。


在本文中,作者介绍了一种称为PLUS的新型蛋白质序列建模预训练方案,PLUS由掩码语言模型和附加的补充蛋白特定的预训练任务组成,即相同家族预测(SFP)。PLUS可用于预训练各种模型架构,包括双向递归神经网络(BiRNN)和变压器(TFM),然后可以在各种下游任务上微调预训练的通用模型,而无需从头开始训练随机初始化的特定于任务的模型。它在七个蛋白质生物学任务中的六个任务上推进了预训练SOTA方法,即(1)三个蛋白质(对)级分类,(2)两个蛋白质级回归和(3)两个氨基酸级级别分类任务。最后,作者介绍了消融研究和解释分析结果,以更好地了解PLUS-RNN的优势。


2


模型


PLUS,是一种用于蛋白质序列建模的新型预训练方案, PLUS由MLM和互补的蛋白质特异性SFP预培训任务组成,可以帮助模型学习结构化的上下文双向表示。

image.png

预训练数据集 作者使用Pfam27.0作为预训练数据集,随机划分20%作为测试集,并过滤出少于20个氨基酸的序列。对于训练集,作者还删除了包含少于1,000种蛋白质的家族。它产生了来自3,150个家庭的14,670,860个序列,用于以下PLUS预训练。


模型结构 PLUS可用于预训练各种模型架构,包括BiRNN和TFM。生成的模型分别称为PLUS-RNN和PLUS-TFM。在这项工作中,我们主要基于PLUS-RNN相对于PLUS-TFM的两个优势。首先,RNN按顺序处理序列,更加强调局部上下文,它对于学习蛋白质的顺序性质更有效,其次,PLUS-RNN提供较低的计算复杂度。


对于给定的蛋白质序列,PLUS-RNN将其转换为一个序列的表示。首先输入嵌入层EM将每个氨基酸嵌入到三维密集向量,然后,L层的BiRNN获得作为整个序列的函数的双向表示,作者还使用了一个附加的投影层,以线性变换获得每个氨基酸的较小维度表示。


预训练过程 与以前的方法相比,PLUS基于两个预训练任务(MLM和SFP)学习双向表示,这两个任务旨在吸收全局结构信息。MLM任务训练模型以最大化对应于被掩盖模型的概率。由于要求PLUS-RNN预测给定上下文的随机掩盖的氨基酸,因此MLM任务使模型能够学习整个蛋白质序列的双向上下文表示。考虑到额外的预训练任务通常是进一步提高表示质量的关键,因此作者设计了一种互补的蛋白质特异性预训练任务。SFP任务利用了来自Pfam数据集的计算聚类的弱族标签。它训练模型以预测给定的蛋白质对是否属于同一蛋白质家族。尽管它很简单,但作者凭经验表明SFP可以补充MLM,并有助于捕获蛋白质的整体结构信息。


微调过程 PLUS-RNN的微调过程遵循基于BiRNN的预测模型的常规用法。对于每个下游任务,仅在预训练模型的顶部添加一个隐藏层和一个输出层,然后,使用任务特定的数据集和损失函数对所有参数进行微调。对于涉及蛋白质对的任务,仅将SFP输出层替换为新的输出层。对于单一蛋白质水平的任务,作者采用了一个额外的注意层,将可变长度表示形式聚集到单个向量中然后,将聚合的向量馈送到隐藏层和输出层。对于氨基酸级任务,每种氨基酸的表示形式都被输入到隐藏层和输出层中。


3


实验


为了进行比较评估,作者使用了几个基准。首先,在所有七个蛋白质生物学任务中,作者提供了两个替代的预训练方法基准,即P-ELMo和PLUS-TFM。其次,对于TAPE任务,作者还提供了他们的训练前基准测试:P-ELMo,UniRep,TAPE-TFM,TAPE-RNN和TAPE-ResNet。最后,在不进行预培训的情况下,针对特定任务的SOTA模型对PLUS-RNN进行了基准测试。此外,如果没有针对给定任务的基于深度学习的先前模型,作者将使用RNN-BASE和RNN-LARGE模型,而无需进行预训练。


预训练结果 下表显示了MLM和SFP预训练任务的测试准确性,仅对经过PLUS预训练的模型进行SFP任务评估。从中可以看到,某些模型的LM精度低于其他模型。但是,较低的LM能力并不完全与微调任务中的性能相对应。这种差异先前已在TAPE中观察到,也可以在以下各节中观察到。在SFP方面,所有经过PLUS培训的模型都具有很高的准确性。这是因为与LM相比,这可能是一件相当容易的事情。由于Pfam家族仅基于序列相似性构建,因此一对相似序列可能来自同一家族。通过经验证明,通过鼓励模型在训练前比较模型中的蛋白质表示,SFP对MLM起到了补充作用。

image.png

微调结果 作者在七个蛋白质生物学任务上评估PLUS,下表列出了七个基准测试任务的汇总结果。SOTA结果来自两类:以前的预训练模型(即P-ELMo,UniRep,TAPE-TFM,TAPE-RNN和TAPE-ResNet)和没有预训练的特定于任务的模型。从表中可以看到,在七个蛋白质生物学基准测试任务中的六个任务上,PLUS-RNNLARGE模型优于预训练的SOTA模型。考虑到某些预训练方法显示出更高的LM能力,可以推测,性能的提高有助于蛋白质特异的SFP预训练任务。将PLUS-RNNLARGE与特定于任务的SOTA模型进行比较。尽管前者在某些任务上的性能明显好于其他任务,但仍然远远落后于其他任务。结果表明,具有附加功能的定制模型提供了强大的优势,而这些优势仍然无法从预训练中学习到。

image.png

同源性和SecStr结果 为了进一步分析,作者提供了有关同源性和SecStr任务的详细评估结果。下表列出了详细的同源性预测结果。结果显示PLUS-RNNLARGE优于P-ELMo模型和特定于任务的模型。与由于有限的标记训练数据而显示过度拟合的RNNLARGE相比,PLUS预训练使我们能够利用大型模型架构,PLUS预培训结合了薄弱的结构信息,并有助于推断更高层次的全局结构相似性。

image.png

下表给出了详细的SecStr预测结果。CB513,CASP12和TS115表示SecStr测试数据集。同样,结果表明PLUS-RNNLARGE始终优于所有其他预训练SOTA方法。它证明了SFP任务在预训练期间对LM任务进行了补充,并有助于学习改进的结构化上下文表示。另一方面,PLUS-RNNLARGE使用基于对齐的功能仍远远落后于特定于任务的SOTA模型。

image.png

4


总结


在这项工作中,作者提出了PLUS,一种双向蛋白质序列表示的新型预训练方案。PLUS由MLM和蛋白质特异性SFP预训练任务组成,它可以更好地捕获蛋白质中包含的结构信息。PLUS可用于预训练各种模型架构。在这项工作中,考虑到顺序建模能力和计算复杂性,作者主要使用PLUS-RNN。它在七个蛋白质生物学任务中的六个任务上推进了先前的SOTA预训练方法。此外,为了更好地了解其优势,作者还提供了相应的消融研究和定性解释分析的结果。


目录
相关文章
|
1月前
|
编解码 人工智能 运维
南加大提出全新通用时间序列基础模型TimeDiT!基于扩散模型创新物理约束机制
 【10月更文挑战第10天】南加大提出TimeDiT模型,创新融合扩散模型与Transformer架构,针对真实世界时间序列数据的复杂性,如多分辨率、缺失值等问题,提供高效解决方案。该模型通过新颖的掩码机制和无微调编辑策略,实现多任务处理及物理知识集成,显著提升预测和异常检测的准确性和鲁棒性。
38 3
|
16天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
5月前
|
机器学习/深度学习 数据采集
开源多结构蛋白质预测大模型——Genie 2
【6月更文挑战第24天】Genie 2,一款开源的深度学习蛋白质设计模型,扩展了原始Genie的结构预测能力,通过创新架构和大规模数据增强处理更复杂多样的蛋白质结构。引入的多基序框架允许设计多功能蛋白质,提升无条件和有条件生成的性能。尽管面临数据质量、复杂相互作用处理及模型可解释性的挑战,Genie 2仍为蛋白质设计树立新标杆。[论文链接](https://arxiv.org/abs/2405.15489)
61 1
|
5月前
|
机器学习/深度学习 计算机视觉 人工智能
用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域
【6月更文挑战第3天】研究人员提出OmniGlue,首个以泛化为中心的图像匹配器,利用基础模型DINOv2的广泛知识和关键点位置引导的注意力机制,提升未见过图像域的匹配性能。在7个不同图像域的实验中,OmniGlue相对其他模型表现出20.9%的相对增益,优于LightGlue 9.5%。尽管有改进空间,OmniGlue标志着图像匹配技术泛化能力的重要进步。论文链接:https://arxiv.org/pdf/2405.12979
89 2
|
6月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
154 3
|
6月前
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 细节涨点篇 | UNetv2提出的一种SDI多层次特征融合模块(分割高效涨点)
YOLOv8改进 | 细节涨点篇 | UNetv2提出的一种SDI多层次特征融合模块(分割高效涨点)
715 2
|
6月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
161 0
|
机器学习/深度学习 数据采集 人工智能
综述:使用语言模型进行可控的蛋白质设计(1)
综述:使用语言模型进行可控的蛋白质设计
446 0
|
人工智能 自然语言处理 算法
将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型
将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型
114 0
将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
195 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型