Arxiv | 预测新型蛋白质间相互作用的图神经网络模型

简介: Arxiv | 预测新型蛋白质间相互作用的图神经网络模型

image.png

今天带来的是商汤科技(SenseTime)研究小组发表在arxiv上的Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein Interaction Prediction。现有蛋白质-蛋白质相互作用(protein-protein interaction, PPI)预测方法在未知数据集(指的是经常出现在训练集中未看到相互作用的蛋白质的数据集)上进行测试时会出现显着的性能下降。本文从两方面新型蛋白质之间的相互作用的评估框架和基于图形神经网络的方法来解决预测未知蛋白的相互作用。


蛋白质-蛋白质相互作用是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体(protein complex)的过程。多类型蛋白质-蛋白质相互作用(PPI)的研究是从系统的角度理解生物过程和揭示疾病机制的基础。现有方法在未知数据集(指的是经常出现在训练集中未看到相互作用的蛋白质的数据集)上进行测试时会出现显着的性能下降。以最先进的模型 PIPR为例,在与训练集同源的 SHS148k 测试集上进行的测试与在更大的 STRING 测试集上进行比较,衡量精度和召回率的micro F1 分数从 92.42 下降到 53.85。进一步研究,本文将 STRING 测试集划分为 BS、ES 和 NS 子集,其中 BS 表示在训练期间看到了相互作用中的两个蛋白质对,ES 表示看到了这对蛋白质中的一个(但不是两个),NS 表示没有看到蛋白质。如图1所示,ES 和 NS 子集的性能不佳(在本文中统称为新型蛋白质Inter-novel-protein间相互作用)是性能下降的主要原因。下面来主要介绍本文的两方面解决问题的方法--设计考虑新型蛋白质之间的相互作用的评估框架和基于图形神经网络的方法。

image.png

图 1 测试集中不同蛋白质子集的F1分数


评估(evaluation)


设计了一个新的评估框架,该框架充分考虑了新型蛋白质之间的相互作用,并在数据集之间提供了一致的评估。由于新蛋白之间的相互作用是主要的瓶颈,要求评估框架的测试集Xtest满足条件|XBS| << |XES|+|XNS|,为了达到这一效果,论文提出通过在PPI网络中使用 BFS 或 DFS 构建测试集。通过在PPI网络中使用广度优先搜索(BFS)算法得到是彼此紧密互动,在PPI网络中以集群的形式存在的蛋白质。通过在PPI网络中使用深度优先搜索(DFS)算法得到的是稀疏分布在 PPI 网络中,彼此之间几乎没有交互的蛋白质。其目的是为了保持训练集和测试集的PPI网络连通性。


方法( methodology)


提出了一种基于图形神经网络的方法(GNN-PPI),通过图表自然建模和挖掘相关性,结构图如图2所示。其中蛋白质作为节点,相互作用作为边缘,用于更好地预测新蛋白质之间的相互作用。首先组装成对的相互作用数据来构建图,其中蛋白质作为节点,相互作用作为边。首先选择根节点,然后执行提出的 BFS 或 DFS 策略来构建测试集。该模型的首先通过embedding获得预定义的特征,然后通过卷积和池化提取蛋白质独立编码 (PIE) 特征,最后通过图卷积聚合并到蛋白质图编码 (PGE) 功能。在训练集标签监督下对相互作用中成对蛋白质的特征分类。本文设计了蛋白质独立编码 (PIE) 和蛋白质图编码 (PGE) 模块来编码蛋白质特征。对于未知的PPI,本文结合前面过程编码的蛋白质特征,计算它们在不同PPI类型中的分数,并输出其多标签预测。相关性的引入和提出的 GNN-PPI 模型在很大程度上缩小了 BS、ES 和 NS 子集之间的性能差距。

image.png

图 2 本文GNN-PPI模型结构图


结果(result)


无论是在同源数据集还是大型数据集的测试中,GNN-PPI 都优于最先进的 PPI 预测方法,表1为本文GNN-PPI模型和PIPR模型在同源数据集和STRING数据集上的结果对比,其中STRING数据集上的结果主要衡量了对新型蛋白质的预测效果。在同源测试集的预测中精确度提升约10%;在STRING数据集中精确度提升了约30%。


表 1 本文GNN-PPI模型和PIPR模型对比

image.png

总结(summary)


本文主要研究了蛋白质间相互作用(PPI)预测问题,对于目前方法对新型蛋白质(没有在训练集中出现过的蛋白质)的关系预测不准确问题进行的重点研究,设计了一个充分考虑了新型蛋白质之间的相互作用的评估框架,并将蛋白质之间的相关性纳入 PPI 预测问题,提出了一种基于图神经网络的相关性建模方法,所提出的 GNN-PPI 模型在不同尺度的真实数据集中实现了最先进的性能。


目录
相关文章
|
25天前
|
机器学习/深度学习 自然语言处理 数据处理
大模型开发:描述长短期记忆网络(LSTM)和它们在序列数据上的应用。
LSTM,一种RNN变体,设计用于解决RNN处理长期依赖的难题。其核心在于门控机制(输入、遗忘、输出门)和长期记忆单元(细胞状态),能有效捕捉序列数据的长期依赖,广泛应用于语言模型、机器翻译等领域。然而,LSTM也存在计算复杂度高、解释性差和数据依赖性强等问题,需要通过优化和增强策略来改进。
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
40 0
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
|
2月前
|
网络协议 安全 前端开发
网络技术基础(2)——网络参考模型
【2月更文挑战第6天】网络基础笔记
|
2月前
|
Java
网络 I/O:单 Selector 多线程(单线程模型)
网络 I/O:单 Selector 多线程(单线程模型)
|
2月前
|
存储 消息中间件 监控
一文搞懂常见的网络I/O模型
一文搞懂常见的网络I/O模型
39 0
|
3月前
|
NoSQL Linux Redis
Redis原理之网络模型笔记
Redis采用单线程模型,这意味着一个Redis服务器在任何时刻都只会处理一个请求。Redis的网络模型涉及到阻塞I/O(Blocking I/O)、非阻塞I/O(Non-blocking I/O)、I/O多路复用(I/O Multiplexing)、信号驱动I/O(Signal-driven I/O)以及异步I/O(Asynchronous I/O)。
|
2天前
|
机器学习/深度学习 数据采集 数据可视化
R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
91 7
|
2天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
13 0
|
2天前
|
机器学习/深度学习
HAR-RV-J与递归神经网络(RNN)混合模型预测和交易大型股票指数的高频波动率
HAR-RV-J与递归神经网络(RNN)混合模型预测和交易大型股票指数的高频波动率
13 0
|
3天前
|
编解码 网络协议 网络安全
2.H3CNE-网络参考模型
2.H3CNE-网络参考模型