J. Cheminform. | GraphSol:预测接触图助力蛋白质溶解度预测

简介: J. Cheminform. | GraphSol:预测接触图助力蛋白质溶解度预测

image.png今天给大家介绍中山大学杨跃东教授课题组发表在Journal of Cheminformatics上的一篇论文。该论文指出蛋白质的溶解度对于生产新的可溶性蛋白质非常重要,但是目前预测蛋白质溶解度的方法大多基于氨基酸的一维嵌入,仅限于捕获空间结构信息。针对上述问题,作者开发了一种新的结构感知方法——GraphSol,通过注意力图卷积网络(GCN)预测蛋白质的溶解度,其中蛋白质拓扑结构属性图是通过预测序列的接触图构建的,结果显示GraphSol明显优于其他基于序列的方法。


1


介绍


近20年来,蛋白质的溶解度在生物技术和制药工业的蛋白质生产中起着重要作用。现有的预测蛋白质溶解度的计算方法主要是:基于物理的方法和基于机器/深度学习的方法。在基于物理的技术方面,大多数工作集中在利用分子动力学模拟来评估(聚集和溶解状态间)的自由能差,但这些方法通常准确性有限。而对于机器/深度学习技术,大部分方法主要基于LSTM和CNN,没有利用蛋白质分子的空间信息。


随着蛋白质结构预测的最新发展,蛋白质接触图的预测效果得到改善,预测的蛋白质接触图可以高精度地表示2D结构特征。在这项研究中,作者通过结合预测的接触图和图神经网络,以新颖的结构感知方法GraphSol预测蛋白质的溶解度。作者表明这是第一项通过图神经网络对蛋白质进行基于序列的溶解度预测的研究,并且该结构可以轻松应用于蛋白质的广泛任务中,例如蛋白质功能预测,蛋白质-蛋白质相互作用预测,蛋白质折叠和药物设计。


2


模型


这项工作中,作者将蛋白质溶解度预测任务转换为基于图的回归问题。给定一个由????个氨基酸组成的蛋白质序列,整个蛋白质因此可以表示为拓扑属性图????(????,????),其中F代表所有残基(节点)的特征集,????代表残基接触(边缘)。根据预测的蛋白质接触图,通过图卷积神经网络模型输出预测的溶解度。


GraphSol模型包括三个部分。如图1所示,第一部分是图卷积网络(GCN),它在迭代过程中从其节点和边缘聚合蛋白质结构信息。第二部分是一个自注意层,它将不同大小的节点隐藏状态转换为具有固定大小的图形表示向量。最后,这个固定大小向量将经过全连接层以预测蛋白质的溶解度。

image.png

图1 GraphSol


3


实验


数据集


为了训练模型,作者使用了eSOL数据集,共有2737种蛋白质序列。从这些序列中,随机选择75%(2052个蛋白)作为训练集,其余685个蛋白用作独立测试。对于外部独立测试,作者选择了从酿酒酵母中收集的另一个蛋白质数据集。该数据集是通过包含108种具有相应3D结构的蛋白质而得出的。数据集考虑了如表1所示的四种节点特征。

image.png

表1 数据集节点特征


实验结果


作者测试了eSOL数据集上GraphSol模型的性能。如表2所示,对于5折CV和独立测试,获得的R2值分别为0.476±0.014和0.483。当通过0.5的临界值将数据集分为两个离散状态(可溶或不可溶)时,对于5折CV和独立测试,AUC值分别为0.855和0.866, CV和独立测试的相似结果表明了GraphSol模型的鲁棒性。为了表明特征组的重要性,作者在消融研究中通过3种方式评估了性能。如表2所示,当将单个要素组用作节点要素时,在独立测试中,HHM产生的R2最高。预测的结构特征组(SPIDER3)的性能最差。相反,当去除单个基团时,去除SPIDER3导致最大的下降,这可能是因为SPIDER3提供了唯一的结构信息,而其他功能则具有补充功能。当通过递归添加特征组来评估模型时,模型会随着每个特征组的添加而显示出递增的性能。添加SPIDER3特征后,性能迅速提高,这反映了溶解度和结构特征之间的关系。

image.png

表3 方法比较


4


总结


这项研究中,作者提出了一种基于序列的预测蛋白质溶解度的方法GraphSol。与其他方法相比,GraphSol利用了预测的蛋白质接触图,该图在连接蛋白质拓扑属性和注意力图神经网络中发挥了关键作用。作者指出,残基之间的预测接触概率比离散状态更能表示成对关系,这种方法在蛋白质功能预测、蛋白质相互作用预测、蛋白质折叠和药物设计等蛋白质属性预测方面具有潜在的应用价值。


目录
相关文章
|
机器学习/深度学习 SQL 分布式计算
Spark核心原理与应用场景解析:面试经验与必备知识点解析
本文深入探讨Spark核心原理(RDD、DAG、内存计算、容错机制)和生态系统(Spark SQL、MLlib、Streaming),并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作,帮助读者准备面试,同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。
1362 0
|
人工智能 JavaScript Linux
Nuxt.js在centos7上的发布部署
Nuxt.js在centos7上的发布部署
321 0
Nuxt.js在centos7上的发布部署
|
Linux
Linux操作系统调优相关工具(三)查看IO运行状态相关工具 查看哪个磁盘或分区最繁忙?
Linux操作系统调优相关工具(三)查看IO运行状态相关工具 查看哪个磁盘或分区最繁忙?
336 0
|
12月前
|
Ubuntu 网络安全 虚拟化
VMware虚拟机ping不通原因排查及分析
下面以 VMware 虚拟机为例进行介绍。
5297 3
|
运维 自然语言处理 Cloud Native
云栖实录 | 智能运维年度重磅发布及大模型实践解读
阿里云大数据运维团队重磅发布云原生大规模集群场景的 GitOps 方案,该方案基于 OAM 云原生模型,促进研发与运维人员协作,同时兼顾变更的过程管理和终态管理,可实现变更的自动化、代码化、透明化。此外,阿里云大数据运维团队分享了大模型在大数据智能运维场景的应用实践,通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了在智能问答和智能诊断方面知识的关联性和检索精度,并基于多智能体框架建立高效的数据分析和决策支持系统。
|
前端开发 计算机视觉 Python
flask+python 实时视频流输出到前台
该文章介绍了如何使用Flask和Python实现实时视频流输出到网页前端,包括后端通过OpenCV捕获摄像头视频流、处理并编码为JPEG格式,然后以HTTP响应的形式发送给前端显示的完整示例代码和运行效果。
flask+python 实时视频流输出到前台
|
12月前
|
存储 关系型数据库 MySQL
智能调度、秒级弹性|一文带你探索Compaction Service的进化之路
ADB MySQL的Compaction Service功能通过将Compaction任务从存储节点解耦至独立的弹性资源池执行,解决了资源隔离性弱、并发度低等问题,实现了资源消耗降低50%,任务执行时间平均减少40%,并支持按量付费,提升了系统的稳定性和成本效益。
|
XML 前端开发 Java
怎样将MultipartFile和File互转
该文介绍了如何在Java开发中优雅地转换MultipartFile和File。MultipartFile是Spring框架用于接收上传文件的类,而File是操作系统文件的代表。文章提供了三种将MultipartFile转换为File的方法:使用`transferTo`方法、FileOutputStream和Java NIO。另外,还介绍了在测试场景下将File转换为MultipartFile,通过MockMultipartFile实现。
1357 1
|
11月前
|
人工智能 资源调度 监控
破解人才管理难题,人力资源驾驶舱助力企业效能升级
易知微推出的企业人力资源管理驾驶舱,整合多源数据,实现数据互通与智能分析,提升决策效率。通过3D饼图等可视化形式,覆盖员工招聘、人才盘点、绩效薪酬管理等场景,简化中小企业日常事务,提高管理效率,助力企业实现数字化转型与管理升级。点击链接体验:[企业人力资源管理驾驶舱](https://easyv.cloud/m/market/387.html?t=gzh)。
破解人才管理难题,人力资源驾驶舱助力企业效能升级
|
11月前
|
存储 人工智能 前端开发
【AI系统】LLVM IR 基本概念
本文深入探讨了LLVM的IR(中间表示)概念,解释了其在编译器工作原理中的重要性及应用方式。LLVM IR作为一种适中抽象级别的表示形式,能有效捕捉源代码信息,支持编译器的灵活操作与优化。文章进一步分析了LLVM IR的不同表现形式,包括内存中的编译中间语言、硬盘上的二进制格式和人类可读的文本格式,以及通过具体示例展示了如何使用Clang将C语言程序编译为LLVM IR。此外,还详细解析了LLVM IR的基本语法、条件语句、循环结构和指针操作等内容。
278 3