本文介绍了由坦普尔大学Vincenzo Carnevale和Allan Haldane共同通讯发表在Nature Communications的研究成果:本文提出了一个新的标准来度量蛋白质序列生成模型(GPSM)的准确性和生成能力,并使用该标准比较了不同GPSM的生成能力。与之前的度量标准相比,能够直接测量高阶边缘值,衡量GPSM捕获高阶协变的能力,对GPSM的准确性和生成能力有更加直接和科学的度量。
1.背景介绍
蛋白质多序列比对(MSA)突变模式解码的最新研究进展突出了突变协变在确定蛋白质功能、构象和进化中的重要性,并在蛋白质设计、药物设计、耐药性预测和分类中展示了较好的应用前景。在属于一个共同蛋白质家族的进化分化序列的大型MSAs中,观察到的突变的成对协变可以用来拟合最大熵Potts统计模型。这些模型能够准确预测蛋白质结构中的物理结构,并且与不考虑共变的位点独立序列变异模型相比,它们更适合预测突变对序列适应度的影响。这些模型是生成式的模型,因为它们定义了蛋白质序列S在进化过程中产生的概率p(S)。在实践中,模型分布依赖的参数是通过最大化MSA提供的观测值所定义的似然函数来得到的,只要训练后的模型有一定的可解释性,并具有泛化能力,就可以用它来生成新的序列,从而生成一个新的MSA,其统计值应与原目标蛋白家族的统计值相匹配。作者将以这种方式创建新的蛋白质序列的概率模型称为蛋白序列生成模型(GPSM)。
然而,Potts模型仅能对成对的上位性相互作用进行拟合,无法模拟三重及更高重数的协变模式。虽然一些研究表明成对共变对蛋白质序列的影响是充分必要的,但也有其它研究表明“罕见的高阶上位性”对蛋白质进化有影响,换言之,成对相互作用模型无法模拟全部高阶上位性相互作用。基于以上原因,研究人员提出了用于模拟高阶相互作用的机器学习策略,包括RBMs、VAEs、GANs和transformers等。
VAE模型更适用于蛋白质序列协变建模,可以检测更高阶的上位性信息。与Potts模型相比,基于VAE实现的模型DeepSequence能更好地预测深度突变扫描中报告的突变影响的实验测量值,这归因于VAE模型对高阶上位性的建模能力。然而,一些研究者认为DeepSequence对高阶协变的建模能力是由于生物工程领域的学者做了大量的前期工作,而不是因为它真正捕获了更高阶的上位性信息。因此需要一种标准来衡量模型对高阶共变模拟的能力。
为了弥补这个空白,本文开发了用于评估GPSM准确性和生成能力的系统度量方法,并使用这种方法比较了不同GPSM的生成能力。作者关注的是与高阶共变模式相关的模型错误规范的形式,这在序列模型中还没有得到很好的探讨,但它在蛋白质序列MSAs以外的序列数据集中发挥着重要的作用,这也是本文的创新点之一。作者指出并非所有的蛋白质序列模型都是严格意义上的GPSM,于是,本文给出了一种GPSM的定义:具有定义明确的概率分布p(S)来描述单个蛋白质家族中的序列的模型。
目前对GPSM准确性的研究通常是检验GPSM预测结果与外部蛋白质实验测量的一致性。虽然这种预测有重要的应用,但属于间接测量GPSM精度,并受到实验误差或计算化学假设和精度限制的影响。此外,蛋白质的功能和适应性不仅取决于静态天然结构的热力学稳定性,还取决于蛋白质的构象动力学。这意味着GPSM可能仍无法捕获关键的高阶上位效应。
对GPSM生成能力更直接的测试是比较生成序列与数据集MSA的统计特性。本文测试了三个标准度量:成对协方差相关性,汉明距离分布和统计能量相关性。然而,这些不能直接测试模型重现高阶共变的能力,因为它们只测量残基对或整个序列的特性。在自然语言处理(NLP)领域,已经开发了其他度量标准。但是,在蛋白质数据集中,残基的上下文信息包括与对应于三级结构的其他残基的长程关系,这些关系不能通过基于n-gram的短程度量进行探测。因此作者开发并测试了第四个新的度量指标,旨在系统地探索GPSM在许多远距离位置上重现复杂的突变协变模式的能力,并称其为。
2.能力测试
为了说明的测试能力,作者通过四个实验测试结果进行阐述说明。
本实验可能存在三种误差:规格误差、样本外误差和估计误差。规格误差意思是模型的函数形式不够灵活,不能准确地模拟任意参数的目标概率分布。样本外误差是由于缺乏训练样本导致的过拟合。由于使用有限的MSA大小来估计它们的值,所以会产生估计误差。此外还有一些其它的误差,见表1。
表1 一些误差的定义
为解决这三种误差,作者使用了两种分析方式:自然分析和综合分析。自然分析是指不知道自然分布,只用有限的数据集用于训练和测试,从而来检查GPSM在自然序列数据上的表现。综合分析是指已知目标概率分布,允许通过训练MSA来量化样本外误差。作者通过最大程度消除样本外误差和估计误差来减少总误差。
作者用于测试的数据集来自两部分,(1)从Uniprot/TREMBL获得的自然蛋白序列数据集;(2)由Mi3模型在自然数据上生成的合成数据集。测试流程见图1。
图1 试验流程图
成对协方差相关性
MSA中氨基酸残基对的成对协方差得分定义为,其中是MSA中i、j位置氨基酸组合α、β的频率,和表示位置i和j处的单个氨基酸频率。每个协方差项测量氨基酸对的联合频率和单个残基频率的乘积之间的差异,即统计独立性假设中的期望计数。对于每个GPSM,作者使用皮尔逊相关系数ρ({},{})(图2)将它们各自评估MSA中所有位置和残基对的成对协方差分数与目标MSA中相应的目标对进行比较。在合成测试中,作者使用500K序列对目标和评估MSA进行评估,而在自然测试中,作者将500K评估序列与可用的10K目标序列进行比较。
图2 成对协方差关系测试结果
如图所示,Mi3在成对协方差相关性下表现良好,这是由于其在设计时就受到总方差分数的约束。因此,在选择度量标准时,应当避免使用成对协方差相关性。
高阶边缘统计量
本文提出的属于高阶边缘统计量。这是对GPSM生成能力更严格的一个测试,目的是测量模型重现涉及两个以上位置的序列协变或高阶协变的能力。作者通过计算长度为n的非连续氨基酸“单词”或对应于子序列的高阶边缘(HOMs)的频率来表征目标MSA和GPSM生成的评估MSA中的这些高阶突变模式,并将它们在每个MSA中的频率与目标MSA中的相应值进行比较(如图3)。由于该方法是根据使用频率最高的20个单词的皮尔逊相关性计算出来的,因此作者将它命名为。
图3 r20测试结果
如图所示,在二阶模型中,所有方法表现相近。然而随着阶数增加,其他模型性能的下降速度比Mi3更快。通过该度量标准的比较,可认为Mi3对高阶共变的捕获能力更强。
汉明距离分布
两个蛋白质序列之间的汉明距离表示它们之间不同的氨基酸的数量,作者通过比较所有序列对得到一个MSA的分布。对每个GPSM方法,观察其成对汉明距离分布,与目标概率分布进行比较。其中,目标概率分布通过估算一个长度为10K序列的目标MAS得到。其结果如图4a-c。为了体现模型在高阶共变能力上的衰减,作者对它们的极大值进行缩放,并围绕它们的模态重新居中,获得相同的峰值,最后将其绘制在对数尺度上。其结果如图4d-f。
图4 汉明距离测试结果
图4表明Indep在汉明距离度量上的表现,比在其他三个度量上都更接近Mi3和VAE,并且汉明距离度量不能很好地区分Mi3和VAE,作者认为对于GPMS,再现汉明距离分布比再现高阶协变更容易。由于其对四种模型在更高阶上的生成能力的区分远不如,所以作者认为汉明距离分布不是一个好的度量标准。
统计能量相关性
用来评估生成能力的第四个度量是数据集中单个序列的统计能量E(S)。其中。该度量通过比较GPSM的预测值与实验值,直接评价GPSM生成的有限序列分布值的准确性,验证GPSM的生成能力。实验结果如图5:
图5 统计能量测试结果
由图5可知四种方法在该度量下没有明显区别,虽然与相比,可用于测量序列统计,但难以说明GPSM捕获高阶共变的能力。作者认为更适合用来度量GPMS在高阶共变上的表现。
3.总结与讨论
作者提出了一个新的度量标准:,用于系统化地评估GPSM捕获高阶共变的能力。通过四组试验证明了的度量结果比其他度量标准更加可靠。
使用成对协方差相关性度量时,由于Mi3在设计时就考虑到了总方差分数的约束,因此说服力不足;与其它两种度量方式相比,使用汉明距离分布度量时,Indep方法捕获高阶共变能力与其它两种方法最接近,因此该度量区别能力不足;同样地,使用统计能量相关性度量也无法区分三种方法捕获高阶共变能力;使用做度量标准时,三种方法在二阶共变下表现相当,并且随着阶数增加,Mi3的高阶共变捕获能力远高于Indep和VAE。
本文提出的度量方法不仅适用于评价GPSM的生成能力,同时也可度量其它序列生成模型的生成能力,如自然语言、图像等,具有广泛的应用前景。