Nat. Commun. | 可多层次预测多肽-蛋白质相互作用的深度学习框架

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | 可多层次预测多肽-蛋白质相互作用的深度学习框架

image.png

本次报道的论文来自清华大学的曾坚阳老师团队发表在nature communications上的A deep-learning framework for multi-level peptide–protein interaction prediction。文章提出了一个可多层次预测多肽-蛋白相互作用的深度学习框架(CAMP)。该模型包括二元多肽-蛋白相互作用预测和相应的多肽结合残基鉴定,通过综合测试指标表明,CAMP可以成功地捕获多肽和蛋白质之间的二元相互作用,并识别参与相互作用的多肽上的结合残基。此外,CAMP在二元多肽-蛋白相互作用预测方面优于其他最先进的方法。模型可以作为多肽-蛋白相互作用预测和鉴定多肽中重要结合残基的有用工具,从而促进多肽药物的发现过程。


1


研究背景


多肽通过与多种蛋白质相互作用,参与许多细胞过程,如程序性细胞死亡、基因表达调控和信号转导,在人类生理中发挥重要作用。目前有两种主流的蛋白质-配体相互作用的预测方法,分别是基于序列的和基于结构的方法。然而,现有的方法主要集中于识别蛋白质表面的多肽结合残基,基于序列的方法无法进行大规模计算,基于结构的方法需要用到三维结构信息,但计算获得三维结构信息非常昂贵和耗时。在这里作者提出了CAMP,一种深度学习框架,用于同时预测多肽-蛋白相互作用(pepPIs)和识别多肽序列的结合残基。


2


模型介绍


CAMP利用两个多通道特征提取器来分别处理输入的多肽-蛋白对的特征轮廓。每个提取器包含一个数值通道和三个分类通道。数值通道用于提取预先定义的密集特征(即蛋白质位置特异性评分矩阵(PSSM)和蛋白质和多肽序列中每个残基的内在无序趋势)。每个分类通道包含一个self-learning word embedding层,它具有输入多肽或蛋白质的分类特征之一(即原始氨基酸、二级结构、极性和亲水性特性)。接下来,CAMP利用两个卷积神经网络(CNN)模块,分别提取多肽和蛋白质的隐藏特征。此外,CAMP采用self-attention机制来学习残基之间的长期依赖关系,以及蛋白质和多肽的单个残基对最终相互作用预测的贡献。最后,CAMP结合了所有提取的特征,并使用三个完全连接的层来预测给定的多肽-蛋白对之间是否存在相互作用。

image.png

图1. CAMP流程图。a. 数据收集和标签提取的工作流程  b . CAMP的网络架构


3


结果


CAMP在二进制交互预测方面优于baseline方法


pepPIs的二元分类是CAMP的主要目标。作者比较了CAMP的分类性能与其他最先进的baseline方法进行比较,所有的预测方法均通过交叉验证在基准数据集上进行评估。图2显示,CAMP始终优于最先进的baseline方法,在ROC特征曲线下面积(AUC)和精度召回率曲线下面积(AUPR)方面分别增加了10%和15%。此外,作者还注意到,在“New Peptide Setting”的数据划分下的模型性能似乎比在其他设置中更好,这可以解释为在基准集中的多肽之间的相似性少于蛋白质,因此基于相似性聚类后,训练和测试集中的多肽分布没有太大变化。这些测试结果表明,在所有交叉验证设置下,CAMP都可以比baseline方法获得更好的性能和鲁棒性。


image.png

图2. 通过三种设置下的交叉验证,CAMP和baseline模型的AUC和AUPR


描述多肽上的结合残基的新见解


作者设计了一个监督预测模块来从多肽序列中识别结合残基,首先利用来自PepBDB的相互作用信息构建了一套合格的多肽结合残基标签。在这些监督信息的支持下,CAMP的平均AUC为0.806,Matthes相关系数(MCC)为 0.514(图3a,3b)。作者为了进一步证明CAMP在结合残基预测中的性能,还选择了4个代表性病例,并将预测残基与真实的相互作用残基进行比较(图3c,3d,3e,3f)。测试结果表明,CAMP可以准确地预测结合残基,从而为进一步理解多肽与其伴侣蛋白的相互作用机制提供可靠的证据。

image.png

图3. 通过5倍交叉验证,对CAMP对基准数据集上多肽结合残基鉴定的性能评价


CAMP在其他基准数据集上的通用性


首先在来自PDB的额外独立数据集上评估了CAMP,并遵循与构建之前的基准数据集相同的策略。为了证明CAMP在二进制交互预测方面的鲁棒性,作者评估了CAMP和基线模型在不同正负比的测试数据集的多个不同的变化上的性能。每个模型首先在完整的基准数据集上进行训练,然后使用一个集成版本(即来自五个模型的平均预测)对额外的测试数据集进行预测。图4a和4b显示,CAMP在所有场景下都取得了最好的结果,表明CAMP的性能优于baseline方法。同时,还评估了CAMP对多肽结合残基鉴定的预测结果。从PepBDB中获得了多肽序列的注释结合残基。图4c和4d显示,CAMP能够在上述额外的数据集上保持其预测能力。

image.png

图4. CAMP的鲁棒性测试


CAMP在三个相关任务中的扩展应用


作者进一步研究了CAMP在三个相关任务中的应用潜力,即预测peptide-PBD(蛋白结合域)相互作用预测、结合亲和力评估和多肽的虚拟筛选。作者将CAMP与两种HSM模型进行了比较,即HSM-ID和HSM-D预测peptide-PBD相互作用。在这里,比较了CAMP和HSM模型在预测peptide-PBD相互作用方面的性能。特别是,在HSM论文中使用相同的数据集和8倍交叉验证设置来评估CAMP的性能。图5显示,除PDZ族外,所有结构域族的CAMP均显著优于HSM-ID和HSM-D。

image.png

图5. CAMP、HSM-ID和HSM-D跨8个族的模型性能


4


总结


作者开发了一个可多层次预测多肽-蛋白相互作用的深度学习框架(CAMP),包括二元相互作用预测和多肽结合残基预测。方法使用多通道特征提取器分别处理数值特征和分类特征,以避免多源特征的不一致性。此外,作者还提出了四个具有代表性的案例来可视化多肽结合残基鉴定任务的结果。同时,验证了CAMP在peptide-PBD相互作用预测、多肽-蛋白对的结合亲和力评估和多肽的虚拟筛选方面的应用潜力。这些结果表明,CAMP可以提供准确的多肽-蛋白相互作用预测,并为理解多肽结合机制提供有用的见解。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
基于阿里云,构建一个企业web应用上云经典架构,让IT从业者体验企业级架构的实战训练。
目录
相关文章
|
24天前
|
机器学习/深度学习 API 语音技术
|
5天前
|
机器学习/深度学习 人工智能 算法
深度学习在图像识别中的应用与挑战移动应用开发的未来:跨平台框架与原生操作系统的融合
【4月更文挑战第30天】 随着人工智能的迅猛发展,深度学习技术已成为图像识别领域的核心竞争力。本文章将探讨深度学习在图像识别中的应用,并分析其面临的主要挑战。我们将从卷积神经网络(CNN)的基础架构出发,讨论其在图像分类、目标检测和语义分割等方面的应用案例,同时指出数据偏差、模型泛化能力以及对抗性攻击等问题对图像识别准确性的影响。通过实例分析和最新研究成果,本文旨在为读者提供一个关于深度学习在图像处理领域内应用的全面视角。
|
24天前
|
机器学习/深度学习 PyTorch API
|
5月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
【深度学习】Tensorflow、MindSpore框架介绍及张量算子操作实战(超详细 附源码)
【深度学习】Tensorflow、MindSpore框架介绍及张量算子操作实战(超详细 附源码)
67 0
|
10月前
|
机器学习/深度学习 移动开发 算法
Python垃圾识别系统,TensorFlow+Django网页框架+深度学习模型+卷积网络【完整代码】
垃圾识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对5种垃圾数据集进行训练,最后得到一个识别精度较高的模型。并基于Django,开发网页端操作平台,实现用户上传一张垃圾图片识别其名称。
167 0
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
深度学习Pytorch框架Tensor张量
深度学习Pytorch框架Tensor张量
47 0
|
9月前
|
机器学习/深度学习 算法 PyTorch
深度学习框架Pytorch学习笔记
深度学习框架Pytorch学习笔记
|
26天前
|
Linux 虚拟化
VMware workstation 中centos7虚拟机在nat模式下怎么配置网卡,指定我想要的IP并且可以联网
https://blog.csdn.net/2302_78534730/article/details/132825156?spm=1001.2014.3001.5502
135 0
|
3月前
|
弹性计算 Linux 网络安全
三步搭建VPC专有网络NAT网关,配置SNAT和DNAT规则(补充版)
申明:该文档参考于用户 “帅宝宝”的文档进行的优化,新增永久生效的方式
293 1
|
9月前
|
弹性计算 运维 网络架构
【运维知识进阶篇】用阿里云配置NAT网关配置
【运维知识进阶篇】用阿里云配置NAT网关配置
336 0