ProteinGCN | 使用图卷积网络表示学习蛋白质结构

简介: ProteinGCN | 使用图卷积网络表示学习蛋白质结构

image.png

对蛋白质结构模型准确性局部(单残基)和全局(整个结构)的预测是许多蛋白质建模应用程序中必不可少的步骤。随着最近深度学习技术的发展,单模型质量评估的方法也已经能通过使用2D和3D卷积深度神经网络取得了进展。


今天给大家介绍的是印度科学研究所Partha Talukdar课题组在BioRxiv杂志上发表的一篇关于蛋白质模型质量评估的文章。在文中,作者探索了一种可替代的方法,在包含2897个蛋白300k个结构的Rosetta-300k数据集上训练图卷积网络,结果表明该网络—ProteinGCN,在局部和全局蛋白质模型预测中都达到了最好的精度水平。此外,与3D卷积网络相比,ProteinGCN中的参数数量几乎少了1-2个数量级。


1


介绍


尽管研究者最近在GASP13实验中已经取得了一定的进展,但是蛋白质结构预测仍然是一个具有挑战性的问题。评分函数是建模的关键组成部分,它允许对假定的模型进行适当的排序,并选择符合原始结构的模型。估算全局和局部的每个残基的得分也相当重要,这对于随后进行的蛋白质结构细化尤为有用。


现在研究者已开发出各种方法来解决打分问题,其范围包括从一般物理原理,或从已知蛋白质结构的各种不同集合,或从这两者推导而来的。经训练后,以估算特定相似分数之间的转换,直接从前者的原子坐标中计算得出结果。此外,还存在将上述一个或多个得分与其他生物学数据相结合的元方法。


大多数评分方法中由于原子间相互作用的局限,只有空间相邻的原子或残基才有助于质量得分。为了解决模型质量估计的问题,可以将结构投影到3D网格上,并使用3D卷积将这种体素化表示形式转换为质量得分。


另一种更好的蛋白质分子的表达方式即通过一个图,用节点代表的原子,边连接在临近的原子对上,这种表示方法具有旋转不变性。在这项工作中,明确考虑了原子间的取向,并将其扩展应用到了蛋白质模型质量评估的问题当中。


2


背景


2.1 图形卷积网络


作者使用基于相邻顶点的传播算法来获得每个顶点的表示向量:

image.png

2.2蛋白质GCN


给定蛋白质结构,用节点表示蛋白质中各种非氢原子的组成部分。每个节点原子的K个最近邻,用边连接起来。20种氨基酸里面的重原子,共有167种类型,采用one-hot进行编码。采用边距离、边坐标(反应原子间的方向性)、边属性作为边的特征。首先生成蛋白质图,使用GCN来学习原子嵌入。通过合并原子嵌入以生成残基级嵌入,残差嵌入通过非线性完全连接层以预测局部得分。此外,将残基嵌入合并以产生整体蛋白嵌入,用于预测全局得分。

image.png

图1:ProteinGCN概述


3


实验


3.1蛋白质数据集


作者在实验中使用两个蛋白质数据集。如下:


Rosetta-300k:用于训练的主要蛋白质组由2897条蛋白质链组成,长度从50到300个残基不等,分辨率不超过2.5A。对于每个蛋白质链,使用RosettaCM协议进行双空间松弛生成了100种不同准确性的同源结构。


CASP13:此集合包括CASP13中提交的针对80种目标蛋白,每种蛋白150个的经过筛选的预测模型。类似于Rosetta-300k数据集,所有模型都在Rosetta中进行了双空间松弛,以减轻不同服务器之间建模过程中可能存在的差异,并与训练集中的模型进行了合并。


3.2基准线


为了比较ProteinGCN的性能,作者使用以下基线:


VoroMQA:它通过为蛋白质模型中的原子集构建Voronoi来估计蛋白质质量,然后使用派生的原子间接触面积在原子、残基和全局水平上得出分数。


Ornate:通过深度3D卷积神经网络从局部3D密度图预测残基的lDDT分数。ProteinGCN-Base:这是ProteinGCN的变体,只使用边缘坐标[EC]作为边缘特征,还限制仅使用残基级别的损失函数,其结果可直接与Ornate媲美。


3.3评估


使用平均绝对误差(MAE)准确性指标评估训练期间的分数,并利用皮尔逊相关系数用于测量蛋白质QA的参考lDDT和预测lDDT得分之间的线性关系,最后,根据预测值和真实值之间的差异了解预测结构与真实结构的接近程度。


4


结果


4.1性能比较


为了评估ProteinGCN的有效性,作者将其与现有蛋白质质量评估基线模型将进行了比较。结果总结在表1中,作者发现ProteinGCN的性能大大优于两个数据集上的所有基线。此外,ProteinGCN-Base的结果优于Ornate,即使它们使用相同的特征集。两种模型之间的主要区别在于,与Ornate中的3D-CNN相比,ProteinGCN-Base中使用的为GCN。这表明,与3D-CNN相比,GCN更适合于蛋白质结构模型。

image.png

4.2消融研究


为了进一步评估ProteinGCN模型中各种边缘特征和损失项的影响,作者对Rosetta-300k和CASP13中描述的两个数据集进行了消融研究。通过从ProteinGCN模型中依次删除一些功能,并在两个数据集中评估了其性能。研究结果表明,消除全局损失会导致两个数据集的性能显着下降。而且,提取边坐标信息会提高局部预测的效果,表明了提取边缘方向特征的有效性。

image.png

4.3定性分析


为了更好地了解ProteinGCN的性能,作者对模型对样品蛋白质靶标的预测进行了定量分析。如图2所示,预测的全局分数能够指示真实结构和预测结构之间的相似性,这对从诱饵池中选择最佳模型非常有意义。通过在三个不同的全局准确度级别上选择三个模型,并将预测的局部残差lDDT得分(以彩色显示)与参考得分(以灰色表示)进行比较,来检查局部得分的准确程度。结果表明,尽管全局分数存在差异,ProteinGCN仍可以正确捕获局部分数的趋势;这样可以选择蛋白质模型中最不准确的区域,并对其进一步完善。

image.png

图2:ProteinGCN对CASP13目标T1008的性能的定性分析


5


结论


在这项工作中,作者提出了蛋白质GCN——用于蛋白质模型质量评估任务的第一个图神经网络框架。除了通过图卷积公式捕获局部结构信息外,蛋白质GCN还能够有效利用原子间取向和距离。此外,与最先进的基准Ornate相比,蛋白质GCN还利用了少20倍的可学习网络参数。通过在两个数据集上进行的广泛实验,表明了所提出方法相对于先前基准的优越性。


目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
221 55
|
1月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
160 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
1月前
|
机器学习/深度学习 资源调度 算法
图卷积网络入门:数学基础与架构设计
本文系统地阐述了图卷积网络的架构原理。通过简化数学表述并聚焦于矩阵运算的核心概念,详细解析了GCN的工作机制。
87 3
图卷积网络入门:数学基础与架构设计
|
2月前
|
机器学习/深度学习 运维 安全
图神经网络在欺诈检测与蛋白质功能预测中的应用概述
金融交易网络与蛋白质结构的共同特点是它们无法通过简单的欧几里得空间模型来准确描述,而是需要复杂的图结构来捕捉实体间的交互模式。传统深度学习方法在处理这类数据时效果不佳,图神经网络(GNNs)因此成为解决此类问题的关键技术。GNNs通过消息传递机制,能有效提取图结构中的深层特征,适用于欺诈检测和蛋白质功能预测等复杂网络建模任务。
85 2
图神经网络在欺诈检测与蛋白质功能预测中的应用概述
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)##
在当今的人工智能领域,深度学习已成为推动技术革新的核心力量之一。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,因其在图像和视频处理方面的卓越性能而备受关注。本文旨在深入探讨CNN的基本原理、结构及其在实际应用中的表现,为读者提供一个全面了解CNN的窗口。 ##
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
72 8
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN): 从理论到实践
本文将深入浅出地介绍卷积神经网络(CNN)的工作原理,并带领读者通过一个简单的图像分类项目,实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据,并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈,这篇文章都将为你提供宝贵的知识和技能。
312 7
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解深度学习中的卷积神经网络(CNN)
深入理解深度学习中的卷积神经网络(CNN)
58 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
探索深度学习中的卷积神经网络(CNN)及其在现代应用中的革新
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
本文旨在通过深入浅出的方式,为读者揭示卷积神经网络(CNN)的神秘面纱,并展示其在图像识别领域的实际应用。我们将从CNN的基本概念出发,逐步深入到网络结构、工作原理以及训练过程,最后通过一个实际的代码示例,带领读者体验CNN的强大功能。无论你是深度学习的初学者,还是希望进一步了解CNN的专业人士,这篇文章都将为你提供有价值的信息和启发。

热门文章

最新文章