蛋白质-蛋白质相互作用(PPI)在多种生物过程中发挥关键作用,它的应用可以极大促进药物开发、疾病治疗、医学诊断等领域的发展;然而,只有一小部分相互作用通过实验进行了鉴定。此外,已知检测 PPI 的高通量实验技术会受到各种限制,例如较大的假阳性和假阴性率。源自基因本体(Gene Ontology,GO)注释的语义相似性被认为是蛋白质相互作用最有力的指标之一。尽管近年来预测 PPI 的计算方法已经逐渐发展起来,但大多数方法都未能捕捉到 GO 术语的特异性。南安普顿大学(University of Southampton)的研究人员提出了 TransformerGO,一种能够使用注意力机制动态捕获 GO 集之间语义相似性的模型。他们使用一种算法框架为 GO 术语生成密集图嵌入,该算法框架用于学习称为 node2vec 的网络中节点的连续表示。TransformerGO 学习带注释的术语之间的深层语义关系,并且可以高精度地区分消极和积极的交互。TransformerGO 在黄金标准 PPI 数据集上的经典语义相似性测量,以及在酿酒酵母和智人的大型数据集上的评估,均优于基于机器学习的最先进方法。研究人员还展示了嵌入在转换器架构中的神经注意机制,如何在预测交互时检测相关的功能项。该研究以「TransformerGO: predicting protein–protein interactions by modelling the attention between sets of gene ontology terms」为题,于 2022 年 4 月 15 日刊载在《Bioinformatics》。识别蛋白质-蛋白质相互作用是分子生物学中的一项重大挑战,因为它是科学家理解生物过程 (BP) 和细胞活动(如代谢、信号转导途径和免疫反应)的基础。高通量测序方法的进步,使科学家可以在基因组规模上发现 PPI。然而,传统实验方法费时费力,而且结果的假阳性率和阴性率都很高。酵母双杂交实验可以报告直接的物理相互作用,并生成二元相互作用组网络图。在最终数据集中发现的噪音主要来自该方法无法捕获依赖于中间蛋白质(蛋白质复合物和翻译后修饰)的蛋白质与表达水平之间的相互作用。另一方面,使用亲和纯化和质谱 (AP-MS) 实验,通过检测蛋白质复合物中出现的相互作用生成,可与前面提到的方法建立互补的数据集。然而,AP-MS 检测瞬态相互作用的能力有限。因此,研究人员开发了计算方法来推断计算机中的 PPI。已经有多项研究应用这类方法预测 PPI,例如蛋白质的一级结构、3D 蛋白质结构、基因表达谱和基因本体 (GO) 注释。GO 项目是一项协作类研究,旨在用跨多个数据库和物种的 BP 的有效描述来注释基因和基因产物。GO由本体图和注释数据库组成。该图结构为有向无环图(DAG),分为三个正交子本体,细胞成分(CC)、BP和分子功能(MF)。图中的节点表示 GO 术语,它们是对生物学概念的描述,边('is_a'、'part_of'、'regulates'、'has_part')表示 GO 术语之间的关系。注释数据库包含 GO 术语和它们注释的基因产物。GO 注释中的语义相似性被认为是 PPI 最强大的描述符之一。这背后的原理是相互作用的蛋白质对,例如蛋白质复合物在相同的细胞位置相互作用,并且功能模块在不同的时间参与相同的细胞过程或 MF。这两种类型的交互在 GO 注释方面密切相关。多年来,已经提出了多种关于 GO 的语义相似性度量,它们使用 GO 注释中的语义相似性来预测 PPI。然而,经典的语义相似性度量通常是手工制作的,无法完全捕捉 GO 术语的特殊性。此外,语义相似性度量很难进行比较,并且它们仅在某些数据集上表现良好。根据下游应用程序,不同的特征在定义相似性概念时,应该或多或少有些关联。另一方面,虽然机器学习方法可以以有监督的方式进行训练,但相似度被编码为一个简单的特征向量,来表示常见的 GO 术语。这种方式会忽略本体的结构,无法对具有共同术语但描述过于笼统的蛋白质进行正确评估。有些研究应用了自然语言处理领域的技术来提取 GO 术语的密集特征向量。图示:TransformerGO 框架的架构。(来源:论文)南安普顿大学的研究人员发现,以前使用余弦相似度或使用完全连接的神经网络比较特征向量的工作,未能捕捉到 GO 术语之间的深层语义相似度。受先前基于 GO 术语的工作和 NLP 当前进步的启发,他们提出了 TransformerGO,是一种利用深度学习的最新进展来使用从 GO 图中提取的网络信息来预测 PPI 的方法。图示:H.sapiens 数据集(字符串数据库)中出现的每个 GO 词条的频率以及注意力值。与语义相似度度量相比,该模型的一个明显优势是能够使用 GO 术语的广义特征向量,然后在训练阶段使用注意力机制对它们进行相应的加权。这克服了手动创建语义相似性度量来判断术语之间的每个关系应如何为最终目标做出贡献的限制。与当下的机器学习方法相比,TransformerGO 提高了性能,捕获了 GO 集之间的语义相似性。Onto2vec 和 Opa2vec 对 GO 术语的编码与 TransformerGO 类似,但交互的预测是通过简单的余弦相似度或浅层全连接神经网络建模的。虽然 protein2vec 使用 LSTM 对蛋白质表示进行建模,但输入被认为是一系列术语,并且交互仍然由全连接层预测。一个新趋势是允许这些方法考虑来自各种数据集的现代高通量技术。TransformerGO 将 GO 术语的输入特征向量作为输入,可以通过训练来解决其他生物学问题,例如预测蛋白质对之间的相互作用类型。图示:驻留在 GO 图的不同深度的 GO 术语的平均注意力,以及平均背景频率。(来源:论文)Transformer 是使用注意力来加速训练的神经网络,是最先进的 NLP 架构(例如 BERT)的主要组成部分。解释注意力是一个活跃且众所周知的研究领域,但在生物序列中的应用仍然滞后。该团队提出了注意力头的可视化,将先前的工作扩展到基于语义相似性的蛋白质相互作用预测领域。与经典的语义相似性度量不同,sourceattention 提供了有价值的见解来解释 GO 术语之间的相似性。研究人员发现 CC 术语是相互作用蛋白质的一个重要指标,并且在某些情况下,语义相似性会在不同的本体中被发现。
图示:前 30 个 GO 术语的注意力值在预测交互时不同方法的验证。(来源:论文)
研究人员认为 TransformerGO 在 PPI 预测任务上的表现,其语义相似性仍远未达到基因产物之间其他相似性度量的状态,例如基于序列的相似性度量。期望未来对基于注意力的模型的研究,能够对蛋白质与蛋白质的相互作用进行更全面的分析,在更精细水平上对语义相似性进行彻底的模型解释。开源链接:https://github.com/Ieremie/TransformerGO论文链接:https://academic.oup.com/bioinformatics/article-abstract/38/8/2269/6530277?redirectedFrom=fulltext&login=false