J. Cheminform. | GraphSol:预测接触图助力蛋白质溶解度预测

简介: J. Cheminform. | GraphSol:预测接触图助力蛋白质溶解度预测

image.png今天给大家介绍中山大学杨跃东教授课题组发表在Journal of Cheminformatics上的一篇论文。该论文指出蛋白质的溶解度对于生产新的可溶性蛋白质非常重要,但是目前预测蛋白质溶解度的方法大多基于氨基酸的一维嵌入,仅限于捕获空间结构信息。针对上述问题,作者开发了一种新的结构感知方法——GraphSol,通过注意力图卷积网络(GCN)预测蛋白质的溶解度,其中蛋白质拓扑结构属性图是通过预测序列的接触图构建的,结果显示GraphSol明显优于其他基于序列的方法。


1


介绍


近20年来,蛋白质的溶解度在生物技术和制药工业的蛋白质生产中起着重要作用。现有的预测蛋白质溶解度的计算方法主要是:基于物理的方法和基于机器/深度学习的方法。在基于物理的技术方面,大多数工作集中在利用分子动力学模拟来评估(聚集和溶解状态间)的自由能差,但这些方法通常准确性有限。而对于机器/深度学习技术,大部分方法主要基于LSTM和CNN,没有利用蛋白质分子的空间信息。


随着蛋白质结构预测的最新发展,蛋白质接触图的预测效果得到改善,预测的蛋白质接触图可以高精度地表示2D结构特征。在这项研究中,作者通过结合预测的接触图和图神经网络,以新颖的结构感知方法GraphSol预测蛋白质的溶解度。作者表明这是第一项通过图神经网络对蛋白质进行基于序列的溶解度预测的研究,并且该结构可以轻松应用于蛋白质的广泛任务中,例如蛋白质功能预测,蛋白质-蛋白质相互作用预测,蛋白质折叠和药物设计。


2


模型


这项工作中,作者将蛋白质溶解度预测任务转换为基于图的回归问题。给定一个由????个氨基酸组成的蛋白质序列,整个蛋白质因此可以表示为拓扑属性图????(????,????),其中F代表所有残基(节点)的特征集,????代表残基接触(边缘)。根据预测的蛋白质接触图,通过图卷积神经网络模型输出预测的溶解度。


GraphSol模型包括三个部分。如图1所示,第一部分是图卷积网络(GCN),它在迭代过程中从其节点和边缘聚合蛋白质结构信息。第二部分是一个自注意层,它将不同大小的节点隐藏状态转换为具有固定大小的图形表示向量。最后,这个固定大小向量将经过全连接层以预测蛋白质的溶解度。

image.png

图1 GraphSol


3


实验


数据集


为了训练模型,作者使用了eSOL数据集,共有2737种蛋白质序列。从这些序列中,随机选择75%(2052个蛋白)作为训练集,其余685个蛋白用作独立测试。对于外部独立测试,作者选择了从酿酒酵母中收集的另一个蛋白质数据集。该数据集是通过包含108种具有相应3D结构的蛋白质而得出的。数据集考虑了如表1所示的四种节点特征。

image.png

表1 数据集节点特征


实验结果


作者测试了eSOL数据集上GraphSol模型的性能。如表2所示,对于5折CV和独立测试,获得的R2值分别为0.476±0.014和0.483。当通过0.5的临界值将数据集分为两个离散状态(可溶或不可溶)时,对于5折CV和独立测试,AUC值分别为0.855和0.866, CV和独立测试的相似结果表明了GraphSol模型的鲁棒性。为了表明特征组的重要性,作者在消融研究中通过3种方式评估了性能。如表2所示,当将单个要素组用作节点要素时,在独立测试中,HHM产生的R2最高。预测的结构特征组(SPIDER3)的性能最差。相反,当去除单个基团时,去除SPIDER3导致最大的下降,这可能是因为SPIDER3提供了唯一的结构信息,而其他功能则具有补充功能。当通过递归添加特征组来评估模型时,模型会随着每个特征组的添加而显示出递增的性能。添加SPIDER3特征后,性能迅速提高,这反映了溶解度和结构特征之间的关系。

image.png

表3 方法比较


4


总结


这项研究中,作者提出了一种基于序列的预测蛋白质溶解度的方法GraphSol。与其他方法相比,GraphSol利用了预测的蛋白质接触图,该图在连接蛋白质拓扑属性和注意力图神经网络中发挥了关键作用。作者指出,残基之间的预测接触概率比离散状态更能表示成对关系,这种方法在蛋白质功能预测、蛋白质相互作用预测、蛋白质折叠和药物设计等蛋白质属性预测方面具有潜在的应用价值。


目录
相关文章
|
6月前
|
编解码 人工智能 自然语言处理
扩散模型的多元化应用:药物发现、文本生成、时间序列预测等
AlphaFold3是DeepMind的蛋白质结构预测软件,它引入扩散模型以提升预测准确性。扩散模型通过逐步添加和去除噪声来理解和生成数据,应用广泛,包括图像、音频、文本和时间序列数据的处理。在图像领域,它们擅长合成、编辑和超分辨率;在文本处理中,扩散模型在代码合成和问答任务中表现出色;在音频和视频生成方面也有重要应用;同时,它们在时间序列预测和增强模型鲁棒性方面也展现出潜力。随着技术发展,扩散模型将在更多领域发挥作用。
204 0
|
6月前
|
机器学习/深度学习 传感器 自然语言处理
时间序列预测的零样本学习是未来还是炒作:TimeGPT和TiDE的综合比较
最近时间序列预测预测领域的最新进展受到了各个领域(包括文本、图像和语音)成功开发基础模型的影响,例如文本(如ChatGPT)、文本到图像(如Midjourney)和文本到语音(如Eleven Labs)。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现,这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。
124 1
|
6月前
马尔可夫转换模型研究交通伤亡人数事故时间序列预测
马尔可夫转换模型研究交通伤亡人数事故时间序列预测
|
6月前
R语言马尔可夫转换模型研究交通伤亡人数事故预测
R语言马尔可夫转换模型研究交通伤亡人数事故预测
|
6月前
|
机器学习/深度学习 存储 算法
基于多模态融合与图神经网络的用户精准感知系统研究
基于多模态融合与图神经网络的用户精准感知系统研究
205 0
|
机器学习/深度学习
kears搭建lstm实现用电量预测时间序列预测
kears搭建lstm实现用电量预测时间序列预测
65 0
|
机器学习/深度学习
分类预测 | MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入分类预测
分类预测 | MATLAB实现NGO-DBN北方苍鹰优化深度置信网络多特征输入分类预测
|
机器学习/深度学习 人工智能 数据可视化
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模
|
机器学习/深度学习 人工智能 算法
准确率达 95%,机器学习预测复杂新材料合成
准确率达 95%,机器学习预测复杂新材料合成
186 0
|
机器学习/深度学习 传感器 算法
【NARX回归预测】基于NARX结合RNN实现光伏数据回归预测附matlab代码
【NARX回归预测】基于NARX结合RNN实现光伏数据回归预测附matlab代码