PLUS | 包含蛋白质特异性的新型预训练方案

简介: PLUS | 包含蛋白质特异性的新型预训练方案

image.png

今天给大家介绍来自首尔国立大学Sungroh Yoon课题组在arXiv上发表的一篇文章。作者指出当前很多方法采用半监督学习来进行蛋白质序列建模,其中的预训练方法主要依赖于语言建模任务,并且常常表现的性能有限。为了更好地捕获未标记蛋白序列中包含的信息,必须进行补充蛋白特异性的预训练任务。针对以上问题,作者提出了一种称为PLUS的新型预训练方案。PLUS包括掩码语言建模(MLM)和补充蛋白质特异性的预训练任务,即相同的家族预测,可用于预训练各种模型架构。


1


介绍


由氨基酸的线性链组成的蛋白质是活生物体中用途最广泛的分子之一。它们在普遍的生物学机制中起着至关重要的功能。蛋白质根据氨基酸序列自然折叠成三维结构,结构会对其功能产生直接影响。随着下一代测序技术的出现,获得蛋白质序列变得相对更加容易,但是用有意义的属性注释序列仍然需要大量时间和资源。


利用无标签和标签数据的半监督学习已成为机器学习社区的长期目标之一。半监督学习算法使用大量未标记的数据预训练通用模型,然后它转移学习的表示形式,并针对每个受监督的任务使用少量带标签的数据对模型进行微调。半监督学习的关键是如何定义适当的预训练任务,最近有一些工作提出了蛋白质表示的预训练方法,采用了NLP的语言建模,并表明预训练有助于完成各种下游蛋白质任务。但是当前的预训练方法仍然在任务特定模型方面表现不佳,可能是因为仅仅依靠LM还不能达到预期效果,必须进行补充蛋白质特有的预训练任务才能更好地捕获蛋白质中包含的信息。


在本文中,作者介绍了一种称为PLUS的新型蛋白质序列建模预训练方案,PLUS由掩码语言模型和附加的补充蛋白特定的预训练任务组成,即相同家族预测(SFP)。PLUS可用于预训练各种模型架构,包括双向递归神经网络(BiRNN)和变压器(TFM),然后可以在各种下游任务上微调预训练的通用模型,而无需从头开始训练随机初始化的特定于任务的模型。它在七个蛋白质生物学任务中的六个任务上推进了预训练SOTA方法,即(1)三个蛋白质(对)级分类,(2)两个蛋白质级回归和(3)两个氨基酸级级别分类任务。最后,作者介绍了消融研究和解释分析结果,以更好地了解PLUS-RNN的优势。


2


模型


PLUS,是一种用于蛋白质序列建模的新型预训练方案, PLUS由MLM和互补的蛋白质特异性SFP预培训任务组成,可以帮助模型学习结构化的上下文双向表示。

image.png

预训练数据集 作者使用Pfam27.0作为预训练数据集,随机划分20%作为测试集,并过滤出少于20个氨基酸的序列。对于训练集,作者还删除了包含少于1,000种蛋白质的家族。它产生了来自3,150个家庭的14,670,860个序列,用于以下PLUS预训练。


模型结构 PLUS可用于预训练各种模型架构,包括BiRNN和TFM。生成的模型分别称为PLUS-RNN和PLUS-TFM。在这项工作中,我们主要基于PLUS-RNN相对于PLUS-TFM的两个优势。首先,RNN按顺序处理序列,更加强调局部上下文,它对于学习蛋白质的顺序性质更有效,其次,PLUS-RNN提供较低的计算复杂度。


对于给定的蛋白质序列,PLUS-RNN将其转换为一个序列的表示。首先输入嵌入层EM将每个氨基酸嵌入到三维密集向量,然后,L层的BiRNN获得作为整个序列的函数的双向表示,作者还使用了一个附加的投影层,以线性变换获得每个氨基酸的较小维度表示。


预训练过程 与以前的方法相比,PLUS基于两个预训练任务(MLM和SFP)学习双向表示,这两个任务旨在吸收全局结构信息。MLM任务训练模型以最大化对应于被掩盖模型的概率。由于要求PLUS-RNN预测给定上下文的随机掩盖的氨基酸,因此MLM任务使模型能够学习整个蛋白质序列的双向上下文表示。考虑到额外的预训练任务通常是进一步提高表示质量的关键,因此作者设计了一种互补的蛋白质特异性预训练任务。SFP任务利用了来自Pfam数据集的计算聚类的弱族标签。它训练模型以预测给定的蛋白质对是否属于同一蛋白质家族。尽管它很简单,但作者凭经验表明SFP可以补充MLM,并有助于捕获蛋白质的整体结构信息。


微调过程 PLUS-RNN的微调过程遵循基于BiRNN的预测模型的常规用法。对于每个下游任务,仅在预训练模型的顶部添加一个隐藏层和一个输出层,然后,使用任务特定的数据集和损失函数对所有参数进行微调。对于涉及蛋白质对的任务,仅将SFP输出层替换为新的输出层。对于单一蛋白质水平的任务,作者采用了一个额外的注意层,将可变长度表示形式聚集到单个向量中然后,将聚合的向量馈送到隐藏层和输出层。对于氨基酸级任务,每种氨基酸的表示形式都被输入到隐藏层和输出层中。


3


实验


为了进行比较评估,作者使用了几个基准。首先,在所有七个蛋白质生物学任务中,作者提供了两个替代的预训练方法基准,即P-ELMo和PLUS-TFM。其次,对于TAPE任务,作者还提供了他们的训练前基准测试:P-ELMo,UniRep,TAPE-TFM,TAPE-RNN和TAPE-ResNet。最后,在不进行预培训的情况下,针对特定任务的SOTA模型对PLUS-RNN进行了基准测试。此外,如果没有针对给定任务的基于深度学习的先前模型,作者将使用RNN-BASE和RNN-LARGE模型,而无需进行预训练。


预训练结果 下表显示了MLM和SFP预训练任务的测试准确性,仅对经过PLUS预训练的模型进行SFP任务评估。从中可以看到,某些模型的LM精度低于其他模型。但是,较低的LM能力并不完全与微调任务中的性能相对应。这种差异先前已在TAPE中观察到,也可以在以下各节中观察到。在SFP方面,所有经过PLUS培训的模型都具有很高的准确性。这是因为与LM相比,这可能是一件相当容易的事情。由于Pfam家族仅基于序列相似性构建,因此一对相似序列可能来自同一家族。通过经验证明,通过鼓励模型在训练前比较模型中的蛋白质表示,SFP对MLM起到了补充作用。

image.png

微调结果 作者在七个蛋白质生物学任务上评估PLUS,下表列出了七个基准测试任务的汇总结果。SOTA结果来自两类:以前的预训练模型(即P-ELMo,UniRep,TAPE-TFM,TAPE-RNN和TAPE-ResNet)和没有预训练的特定于任务的模型。从表中可以看到,在七个蛋白质生物学基准测试任务中的六个任务上,PLUS-RNNLARGE模型优于预训练的SOTA模型。考虑到某些预训练方法显示出更高的LM能力,可以推测,性能的提高有助于蛋白质特异的SFP预训练任务。将PLUS-RNNLARGE与特定于任务的SOTA模型进行比较。尽管前者在某些任务上的性能明显好于其他任务,但仍然远远落后于其他任务。结果表明,具有附加功能的定制模型提供了强大的优势,而这些优势仍然无法从预训练中学习到。

image.png

同源性和SecStr结果 为了进一步分析,作者提供了有关同源性和SecStr任务的详细评估结果。下表列出了详细的同源性预测结果。结果显示PLUS-RNNLARGE优于P-ELMo模型和特定于任务的模型。与由于有限的标记训练数据而显示过度拟合的RNNLARGE相比,PLUS预训练使我们能够利用大型模型架构,PLUS预培训结合了薄弱的结构信息,并有助于推断更高层次的全局结构相似性。

image.png

下表给出了详细的SecStr预测结果。CB513,CASP12和TS115表示SecStr测试数据集。同样,结果表明PLUS-RNNLARGE始终优于所有其他预训练SOTA方法。它证明了SFP任务在预训练期间对LM任务进行了补充,并有助于学习改进的结构化上下文表示。另一方面,PLUS-RNNLARGE使用基于对齐的功能仍远远落后于特定于任务的SOTA模型。

image.png

4


总结


在这项工作中,作者提出了PLUS,一种双向蛋白质序列表示的新型预训练方案。PLUS由MLM和蛋白质特异性SFP预训练任务组成,它可以更好地捕获蛋白质中包含的结构信息。PLUS可用于预训练各种模型架构。在这项工作中,考虑到顺序建模能力和计算复杂性,作者主要使用PLUS-RNN。它在七个蛋白质生物学任务中的六个任务上推进了先前的SOTA预训练方法。此外,为了更好地了解其优势,作者还提供了相应的消融研究和定性解释分析的结果。


目录
相关文章
|
1天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
2747 11
|
12天前
|
人工智能 自然语言处理 监控
OpenClaw skills重构量化交易逻辑:部署+AI全自动炒股指南(2026终极版)
2026年,AI Agent领域最震撼的突破来自OpenClaw(原Clawdbot)——这个能自主规划、执行任务的智能体,用50美元启动资金创造了48小时滚雪球至2980美元的奇迹,收益率高达5860%。其核心逻辑堪称教科书级:每10分钟扫描Polymarket近千个预测市场,借助Claude API深度推理,交叉验证NOAA天气数据、体育伤病报告、加密货币链上情绪等多维度信息,捕捉8%以上的定价偏差,再通过凯利准则将单仓位严格控制在总资金6%以内,实现低风险高频套利。
6361 57
|
8天前
|
存储 人工智能 负载均衡
阿里云OpenClaw多Agent实战宝典:从极速部署到AI团队搭建,一个人=一支高效军团
在AI自动化时代,单一Agent的“全能模式”早已无法满足复杂任务需求——记忆臃肿导致响应迟缓、上下文污染引发逻辑冲突、无关信息加载造成Token浪费,这些痛点让OpenClaw的潜力大打折扣。而多Agent架构的出现,彻底改变了这一现状:通过“单Gateway+多分身”模式,让一个Bot在不同场景下切换独立“大脑”,如同组建一支分工明确的AI团队,实现创意、写作、编码、数据分析等任务的高效协同。
2802 27
|
30天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
43360 157
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
4天前
|
人工智能 JavaScript API
2026年Windows系统本地部署OpenClaw指南:附阿里云简易部署OpenClaw方案,零技术基础也能玩转AI助手
在AI办公自动化全面普及的2026年,OpenClaw(原Clawdbot、Moltbot)凭借“自然语言指令操控、多任务自动化执行、多工具无缝集成”的核心优势,成为个人与轻量办公群体打造专属AI助手的首选。它彻底打破了传统AI“只会对话不会执行”的局限——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可灵活接入通义千问、OpenAI等云端API,或利用本地GPU运行模型,真正实现“聊天框里办大事”。
978 2
|
2天前
|
人工智能 JSON JavaScript
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
手把手教你用 OpenClaw(v2026.2.22-2)+ 飞书,10分钟零代码搭建专属AI机器人!内置飞书插件,无需额外安装;支持Claude等主流模型,命令行一键配置。告别复杂开发,像聊同事一样自然对话。
1007 5
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
|
7天前
|
人工智能 自然语言处理 安全
2026年OpenClaw Skills安装指南:Top20必装清单+阿里云上部署实操(附代码命令)
OpenClaw(原Clawdbot)的强大之处,不仅在于其开源免费的AI执行引擎核心,更在于其庞大的Skills生态——截至2026年2月,官方技能市场ClawHub已收录1700+各类技能插件,覆盖办公自动化、智能交互、生活服务等全场景。但对新手而言,面对海量技能往往无从下手,盲目安装不仅导致功能冗余,还可能引发权限冲突与安全风险。
1419 9
|
2天前
|
人工智能 运维 安全
OpenClaw极速部署:ZeroNews 远程管理OpenClaw Gateway Dashboard指南+常见错误解决
OpenClaw作为高性能AI智能体网关平台,其Gateway Dashboard是管理模型调用、渠道集成、技能插件的核心操作界面,但默认仅支持本地局域网访问。官方推荐的Tailscale、VPN等远程访问方案在国内网络环境中体验不佳,而ZeroNews凭借轻量化部署、专属域名映射、多重安全防护的特性,成为适配国内网络的最优远程管理解决方案。
916 2