NeurIPS TAPE | 用于评估蛋白质表示学习性能的多任务平台

简介: NeurIPS TAPE | 用于评估蛋白质表示学习性能的多任务平台

今天给大家介绍一篇加州大学伯克利分校研究人员发表在NeurlIPS2019上的一篇文章“Evaluating Protein Transfer Learning with TAPE”,本文提出了一种使用多任务基准来评估蛋白质嵌入模型性能的方法:TAPE。

image.png

1、摘要


蛋白质表示学习是机器学习研究的一个日益热门的领域。由于获取监督蛋白质标签的成本较高,但目前的文献在数据集和标准化评价技术方面比较零散,因此半监督学习作为蛋白质表示学习中的一种重要范式。为了促进这一领域的进展,作者引入了评估蛋白质嵌入的任务(TAPE),这是一组分布在蛋白质生物学不同领域的五个与生物学相关的半监督学习任务。我们将任务划分为特定的训练、验证和测试三种任务,以确保每个任务都测试与生物学相关的泛化,并将其转移到现实场景中。我们对半监督蛋白质表征学习的一系列方法进行了基准测试,这些方法涵盖了最近的工作以及典型序列学习技术。我们发现,自我监督的预训练对于几乎所有任务的模型都是有帮助的,在某些情况下甚至可以使性能加倍。尽管如此,在某些情况下,通过自监督预训练学习的特征仍然落后于由最先进的非神经技术提取的特征。这种性能上的差距为创新的架构设计和改进的建模模式提供了巨大的机会,这些模式可以更好地捕捉生物序列中的信号。所有用于运行这些实验的数据和代码都可在下文的链接中找到


2、简介


在过去的几十年里,新的测序技术导致蛋白质数据库的规模激增。这些数据库呈指数级增长,序列总数每两年翻一番。要获得这些序列的有意义的标记和注释需要投入大量的实验资源和科学专业知识,然而在自然语言处理(NLP)的进展已经表明,自监督学习是提取未标记的序列信息的强大工具,这引起一个问题:能否采用基于NLP的技术从大量序列数据中提取有用的生物信息?为了帮助回答这个问题,作者介绍了评估蛋白质嵌入(TAPE)的任务,这是系统评估蛋白质序列半监督学习的第一次尝试,TAPE首次去系统的评估蛋白质序列的半监督学习。TAPE包括一组五个与生物学相关的有监督的任务,包括二级结构预测、接触预测、远程同源性预测、稳定性预测以及荧光性预测。这些任务评估了蛋白质嵌入方法在不同方面任务的表现。作者评估了几个具有代表性模型的性能:


Transformer(有预训练)


Resnet


Lstm


Unirep(有预训练)


One-hot(或者加上对齐)


3、数据集


在这里,作者介绍了他的无监督预训练和监督基准数据集。作者使用Pfam(一个在生物信息学中广范使用的3100万个蛋白质结构域的数据库)作为TAPE的预训练语料库。监督数据集中,作者提供了五个与生物学相关的下游预测任务作为基准,数据集的大小在8000个到50000个训练示例之间变化(有关所有训练,验证和测试集的大小参见表1)。

image.png

表1


4、实验


4.1二级结构预测(结构预测任务)


二级结构预测(如图1)是了解蛋白质功能的一个重要特征,特别是当感兴趣的蛋白质在进化上与具有已知结构的蛋白质不相关时,二级结构预测工具通常用于为更高级别的模型构建提供更丰富的输入特征。详细二级结构预测的结果如表2所示,作者使用了来自Klausen的数据集作为训练集和验证集,使用了CB513、CASP12以及TS115这三个数据集作为测试集。

image.png

图1:二级结构预测

image.png

表2:二级结构预测结果


4.2接触预测(结构预测任务)


接触预测(如图2)是成对氨基酸的预测任务,其中来自输入序列X的每对xi、xj被映射到标签yij∈ {0,1},标签标示氨基酸是否“接触”,精确的接触信息提供了强大的全局信息,例如这些信息有助于完整的三维蛋白质结构的稳定建模。各个蛋白质嵌入模型对于接触预测的结果如表3、表4、表5所示,数据来自ProteinNet数据集。

image.png

图2:接触预测

image.png

表3:短范围内的接触预测结果。短范围指的是相隔6-11个氨基酸

image.png

表4:中范围内的接触预测结果。中等范围指的是相隔12-23个氨基酸

image.png

表4:长范围内的接触预测结果。长范围指的是相隔24个氨基酸以上


4.3远程同源检测(进化理解任务)


远程同源检测(如图3)是一个序列分类任务,每个输入蛋白质X被映射到一个标签y∈{1。. . ,1195},这代表着不同的蛋白质折叠。远程同源检测在微生物和医学中具有重要意义,例如新出现的抗生素耐药基因和发现新的CAS酶,远程同源检测结果的细节如表6所示。本实验使用的是来自Hou的数据集。

image.png

图3:远程同源检测

image.png

表6:远程同源检测结果

 

4.4荧光景观预测(蛋白质工程任务)

荧光景观预测(如图4)是一个回归任务,其中每个输入蛋白x映射到一个标签y∈R,对应于x的对数荧光强度,荧光预测任务测试了模型区分非常相似的输入的能力,以及推测未知突变组合的能力,该任务的结果如表7所示。

image.png

图4:荧光景观检测

image.png

表7:荧光景观预测结果,ρ代表Sparman ρ.


4.5稳定性预测(蛋白质工程任务)


稳定性预测(见图5)是一个回归任务,其中每个输入蛋白x被映射到一个标签y∈R,测量在最极端的情况下,蛋白x将其折叠保持在浓度阈值以上(代表内在稳定性)。设计稳定的蛋白质对于确保药物在被降解之前被输送到靶点位置是很重要的;该实验的训练集由四轮实验设计中所有的蛋白质组成,测试集包含了最佳候选蛋白质的distance-1 neighbors邻域。稳定性包括整体稳定性以及拓扑学分解的稳定性,结果如表8、表9所示。

image.png

图5:蛋白质稳定性预测

image.png

表8:整体稳定性预测结果

image.png

表9:蛋白质拓扑稳定性预测结果


5、总结


实验结果表明,基于对齐的输入在多个任务上由于当前自监督模型,目前可用于二级结构预测、接触预测和远程同源分类的最新方法都基于对齐的输入,这些方法将基于对齐的输入与其他技术(如多任务训练、核正则化)结合起来,以进一步提高性能。


实验结果验证了作者的假设,即需要多个任务来适当地对给定方法的性能进行基准测试。Transformer在三种二级结构预测模型中表现最差,在荧光和稳定性方面表现最好。Resnet正好相反,它在二级结构预测中与LSTM结合,但是在荧光任务中表现更差,Spearman的ρ为0.21,而LSTM的为0.67.这表明,单个任务的性能并不能充分反映经过训练的模型的性能,因此需要使用多任务基准,比如本文提出的TAPE。


目录
相关文章
|
8月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
216 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板
北京大学和清华大学的研究团队分别发表论文,探讨了高效Transformer模型如Sparse Transformer和Linear Transformer在推理能力和上下文检索上的局限性,强调了原装Transformer在处理复杂任务上的优势。研究显示,尽管高效模型提升了计算效率,但在某些任务上,如动态规划问题和算法问题,以及上下文信息的精准提取方面,仍不及原装Transformer。这突显了原装Transformer在复杂推理任务中的不可替代性及其架构的灵活性和可扩展性。同时,研究也为未来高效Transformer的优化提供了方向。
52 4
|
6月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
104 25
|
6月前
|
人工智能 自然语言处理 测试技术
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
【7月更文挑战第11天】蒙特利尔大学Yoshua Bengio团队推出多模态新基准MFE,旨在全面评估大型语言模型在处理跨模态任务时的能力。MFE包含多样化数据集、挑战性任务和严格评估指标,暴露了Claude 3.5和GPT-4o等现有模型的弱点,为多模态AI研究提供新视角和改进方向。论文链接:arxiv.org/abs/2406.06462
85 1
|
8月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
85 1
|
8月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
116 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
8月前
|
自然语言处理
论文推荐:用多词元预测法提高模型效率与速度
《Better & Faster Large Language Models via Multi-token Prediction》论文提出了一种多词元预测框架,改善了大型语言模型(LLMs)的样本效率和推理速度。该方法通过一次预测多个词元,而非单个词元,提高了模型在编程和自然语言任务中的性能。实验显示,多词元预测在HumanEval和MBPP任务上性能提升,推理速度最高可提升3倍。此外,自我推测解码技术进一步优化了解码效率。尽管在小模型中效果不明显,但该方法为大模型训练和未来研究开辟了新途径。
127 0
|
计算机视觉
SplitMask:大规模数据集是自我监督预训练的必要条件吗?
自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。
84 0
|
8月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
122 0
|
机器学习/深度学习 数据采集 人工智能
综述:使用语言模型进行可控的蛋白质设计(1)
综述:使用语言模型进行可控的蛋白质设计
501 0