今天给大家介绍一篇加州大学伯克利分校研究人员发表在NeurlIPS2019上的一篇文章“Evaluating Protein Transfer Learning with TAPE”,本文提出了一种使用多任务基准来评估蛋白质嵌入模型性能的方法:TAPE。
1、摘要
蛋白质表示学习是机器学习研究的一个日益热门的领域。由于获取监督蛋白质标签的成本较高,但目前的文献在数据集和标准化评价技术方面比较零散,因此半监督学习作为蛋白质表示学习中的一种重要范式。为了促进这一领域的进展,作者引入了评估蛋白质嵌入的任务(TAPE),这是一组分布在蛋白质生物学不同领域的五个与生物学相关的半监督学习任务。我们将任务划分为特定的训练、验证和测试三种任务,以确保每个任务都测试与生物学相关的泛化,并将其转移到现实场景中。我们对半监督蛋白质表征学习的一系列方法进行了基准测试,这些方法涵盖了最近的工作以及典型序列学习技术。我们发现,自我监督的预训练对于几乎所有任务的模型都是有帮助的,在某些情况下甚至可以使性能加倍。尽管如此,在某些情况下,通过自监督预训练学习的特征仍然落后于由最先进的非神经技术提取的特征。这种性能上的差距为创新的架构设计和改进的建模模式提供了巨大的机会,这些模式可以更好地捕捉生物序列中的信号。所有用于运行这些实验的数据和代码都可在下文的链接中找到
2、简介
在过去的几十年里,新的测序技术导致蛋白质数据库的规模激增。这些数据库呈指数级增长,序列总数每两年翻一番。要获得这些序列的有意义的标记和注释需要投入大量的实验资源和科学专业知识,然而在自然语言处理(NLP)的进展已经表明,自监督学习是提取未标记的序列信息的强大工具,这引起一个问题:能否采用基于NLP的技术从大量序列数据中提取有用的生物信息?为了帮助回答这个问题,作者介绍了评估蛋白质嵌入(TAPE)的任务,这是系统评估蛋白质序列半监督学习的第一次尝试,TAPE首次去系统的评估蛋白质序列的半监督学习。TAPE包括一组五个与生物学相关的有监督的任务,包括二级结构预测、接触预测、远程同源性预测、稳定性预测以及荧光性预测。这些任务评估了蛋白质嵌入方法在不同方面任务的表现。作者评估了几个具有代表性模型的性能:
Transformer(有预训练)
Resnet
Lstm
Unirep(有预训练)
One-hot(或者加上对齐)
3、数据集
在这里,作者介绍了他的无监督预训练和监督基准数据集。作者使用Pfam(一个在生物信息学中广范使用的3100万个蛋白质结构域的数据库)作为TAPE的预训练语料库。监督数据集中,作者提供了五个与生物学相关的下游预测任务作为基准,数据集的大小在8000个到50000个训练示例之间变化(有关所有训练,验证和测试集的大小参见表1)。
表1
4、实验
4.1二级结构预测(结构预测任务)
二级结构预测(如图1)是了解蛋白质功能的一个重要特征,特别是当感兴趣的蛋白质在进化上与具有已知结构的蛋白质不相关时,二级结构预测工具通常用于为更高级别的模型构建提供更丰富的输入特征。详细二级结构预测的结果如表2所示,作者使用了来自Klausen的数据集作为训练集和验证集,使用了CB513、CASP12以及TS115这三个数据集作为测试集。
图1:二级结构预测
表2:二级结构预测结果
4.2接触预测(结构预测任务)
接触预测(如图2)是成对氨基酸的预测任务,其中来自输入序列X的每对xi、xj被映射到标签yij∈ {0,1},标签标示氨基酸是否“接触”,精确的接触信息提供了强大的全局信息,例如这些信息有助于完整的三维蛋白质结构的稳定建模。各个蛋白质嵌入模型对于接触预测的结果如表3、表4、表5所示,数据来自ProteinNet数据集。
图2:接触预测
表3:短范围内的接触预测结果。短范围指的是相隔6-11个氨基酸
表4:中范围内的接触预测结果。中等范围指的是相隔12-23个氨基酸
表4:长范围内的接触预测结果。长范围指的是相隔24个氨基酸以上
4.3远程同源检测(进化理解任务)
远程同源检测(如图3)是一个序列分类任务,每个输入蛋白质X被映射到一个标签y∈{1。. . ,1195},这代表着不同的蛋白质折叠。远程同源检测在微生物和医学中具有重要意义,例如新出现的抗生素耐药基因和发现新的CAS酶,远程同源检测结果的细节如表6所示。本实验使用的是来自Hou的数据集。
图3:远程同源检测
表6:远程同源检测结果
4.4荧光景观预测(蛋白质工程任务)
荧光景观预测(如图4)是一个回归任务,其中每个输入蛋白x映射到一个标签y∈R,对应于x的对数荧光强度,荧光预测任务测试了模型区分非常相似的输入的能力,以及推测未知突变组合的能力,该任务的结果如表7所示。
图4:荧光景观检测
表7:荧光景观预测结果,ρ代表Sparman ρ.
4.5稳定性预测(蛋白质工程任务)
稳定性预测(见图5)是一个回归任务,其中每个输入蛋白x被映射到一个标签y∈R,测量在最极端的情况下,蛋白x将其折叠保持在浓度阈值以上(代表内在稳定性)。设计稳定的蛋白质对于确保药物在被降解之前被输送到靶点位置是很重要的;该实验的训练集由四轮实验设计中所有的蛋白质组成,测试集包含了最佳候选蛋白质的distance-1 neighbors邻域。稳定性包括整体稳定性以及拓扑学分解的稳定性,结果如表8、表9所示。
图5:蛋白质稳定性预测
表8:整体稳定性预测结果
表9:蛋白质拓扑稳定性预测结果
5、总结
实验结果表明,基于对齐的输入在多个任务上由于当前自监督模型,目前可用于二级结构预测、接触预测和远程同源分类的最新方法都基于对齐的输入,这些方法将基于对齐的输入与其他技术(如多任务训练、核正则化)结合起来,以进一步提高性能。
实验结果验证了作者的假设,即需要多个任务来适当地对给定方法的性能进行基准测试。Transformer在三种二级结构预测模型中表现最差,在荧光和稳定性方面表现最好。Resnet正好相反,它在二级结构预测中与LSTM结合,但是在荧光任务中表现更差,Spearman的ρ为0.21,而LSTM的为0.67.这表明,单个任务的性能并不能充分反映经过训练的模型的性能,因此需要使用多任务基准,比如本文提出的TAPE。