Arxiv | 预测新型蛋白质间相互作用的图神经网络模型

简介: Arxiv | 预测新型蛋白质间相互作用的图神经网络模型

image.png

今天带来的是商汤科技(SenseTime)研究小组发表在arxiv上的Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein Interaction Prediction。现有蛋白质-蛋白质相互作用(protein-protein interaction, PPI)预测方法在未知数据集(指的是经常出现在训练集中未看到相互作用的蛋白质的数据集)上进行测试时会出现显着的性能下降。本文从两方面新型蛋白质之间的相互作用的评估框架和基于图形神经网络的方法来解决预测未知蛋白的相互作用。


蛋白质-蛋白质相互作用是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体(protein complex)的过程。多类型蛋白质-蛋白质相互作用(PPI)的研究是从系统的角度理解生物过程和揭示疾病机制的基础。现有方法在未知数据集(指的是经常出现在训练集中未看到相互作用的蛋白质的数据集)上进行测试时会出现显着的性能下降。以最先进的模型 PIPR为例,在与训练集同源的 SHS148k 测试集上进行的测试与在更大的 STRING 测试集上进行比较,衡量精度和召回率的micro F1 分数从 92.42 下降到 53.85。进一步研究,本文将 STRING 测试集划分为 BS、ES 和 NS 子集,其中 BS 表示在训练期间看到了相互作用中的两个蛋白质对,ES 表示看到了这对蛋白质中的一个(但不是两个),NS 表示没有看到蛋白质。如图1所示,ES 和 NS 子集的性能不佳(在本文中统称为新型蛋白质Inter-novel-protein间相互作用)是性能下降的主要原因。下面来主要介绍本文的两方面解决问题的方法--设计考虑新型蛋白质之间的相互作用的评估框架和基于图形神经网络的方法。

image.png

图 1 测试集中不同蛋白质子集的F1分数


评估(evaluation)


设计了一个新的评估框架,该框架充分考虑了新型蛋白质之间的相互作用,并在数据集之间提供了一致的评估。由于新蛋白之间的相互作用是主要的瓶颈,要求评估框架的测试集Xtest满足条件|XBS| << |XES|+|XNS|,为了达到这一效果,论文提出通过在PPI网络中使用 BFS 或 DFS 构建测试集。通过在PPI网络中使用广度优先搜索(BFS)算法得到是彼此紧密互动,在PPI网络中以集群的形式存在的蛋白质。通过在PPI网络中使用深度优先搜索(DFS)算法得到的是稀疏分布在 PPI 网络中,彼此之间几乎没有交互的蛋白质。其目的是为了保持训练集和测试集的PPI网络连通性。


方法( methodology)


提出了一种基于图形神经网络的方法(GNN-PPI),通过图表自然建模和挖掘相关性,结构图如图2所示。其中蛋白质作为节点,相互作用作为边缘,用于更好地预测新蛋白质之间的相互作用。首先组装成对的相互作用数据来构建图,其中蛋白质作为节点,相互作用作为边。首先选择根节点,然后执行提出的 BFS 或 DFS 策略来构建测试集。该模型的首先通过embedding获得预定义的特征,然后通过卷积和池化提取蛋白质独立编码 (PIE) 特征,最后通过图卷积聚合并到蛋白质图编码 (PGE) 功能。在训练集标签监督下对相互作用中成对蛋白质的特征分类。本文设计了蛋白质独立编码 (PIE) 和蛋白质图编码 (PGE) 模块来编码蛋白质特征。对于未知的PPI,本文结合前面过程编码的蛋白质特征,计算它们在不同PPI类型中的分数,并输出其多标签预测。相关性的引入和提出的 GNN-PPI 模型在很大程度上缩小了 BS、ES 和 NS 子集之间的性能差距。

image.png

图 2 本文GNN-PPI模型结构图


结果(result)


无论是在同源数据集还是大型数据集的测试中,GNN-PPI 都优于最先进的 PPI 预测方法,表1为本文GNN-PPI模型和PIPR模型在同源数据集和STRING数据集上的结果对比,其中STRING数据集上的结果主要衡量了对新型蛋白质的预测效果。在同源测试集的预测中精确度提升约10%;在STRING数据集中精确度提升了约30%。


表 1 本文GNN-PPI模型和PIPR模型对比

image.png

总结(summary)


本文主要研究了蛋白质间相互作用(PPI)预测问题,对于目前方法对新型蛋白质(没有在训练集中出现过的蛋白质)的关系预测不准确问题进行的重点研究,设计了一个充分考虑了新型蛋白质之间的相互作用的评估框架,并将蛋白质之间的相关性纳入 PPI 预测问题,提出了一种基于图神经网络的相关性建模方法,所提出的 GNN-PPI 模型在不同尺度的真实数据集中实现了最先进的性能。


目录
相关文章
|
1月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于BP神经网络的苦瓜生长含水量预测模型matlab仿真
本项目展示了基于BP神经网络的苦瓜生长含水量预测模型,通过温度(T)、风速(v)、模型厚度(h)等输入特征,预测苦瓜的含水量。采用Matlab2022a开发,核心代码附带中文注释及操作视频。模型利用BP神经网络的非线性映射能力,对试验数据进行训练,实现对未知样本含水量变化规律的预测,为干燥过程的理论研究提供支持。
|
3天前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
13 2
|
4天前
|
运维 网络协议 算法
7 层 OSI 参考模型:详解网络通信的层次结构
7 层 OSI 参考模型:详解网络通信的层次结构
13 1
|
1月前
|
网络协议 前端开发 Java
网络协议与IO模型
网络协议与IO模型
网络协议与IO模型
|
1月前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
68 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
15天前
|
网络协议 算法 网络性能优化
计算机网络常见面试题(一):TCP/IP五层模型、TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议
计算机网络常见面试题(一):TCP/IP五层模型、应用层常见的协议、TCP与UDP的区别,TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议、ARP协议
|
20天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
65 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
1月前
|
开发者
什么是面向网络的IO模型?
【10月更文挑战第6天】什么是面向网络的IO模型?
20 3
|
1月前
|
数据挖掘 开发者
网络IO模型
【10月更文挑战第6天】网络IO模型
38 3
|
1月前
|
缓存 Java Linux
硬核图解网络IO模型!
硬核图解网络IO模型!

热门文章

最新文章