Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测

2020年1月6日哈佛医学院Mohammed AlQuraishi和Peter K. Sorger研究团队合作在Nature methods上发表题Biophysical prediction of protein–peptide interactions and signaling networks using machine learning的研究成果。该研究利用机器学习方法能够准确地预测多蛋白家族间的球形蛋白结合域(PBD)-肽相互作用的亲和性。


image.png

image.png

1


研究背景


在哺乳动物细胞中,许多信号转导是由球形蛋白结合域(PBD)与伴侣蛋白中非结构化肽基序之间的弱蛋白-蛋白相互作用介导的。这些PBD(已知1800多种)的数量和多样性,低结合亲和力和结合特性对微小序列变异的敏感性,对PBD特异性和PBD创建的网络的实验和计算分析提出了重大挑战。在这里,研究者介绍了一种定制的机器学习方法,即分层统计机器建模(HSM),能够准确预测跨多个蛋白质家族的PBD-肽相互作用的亲和力。通过在现代机器学习框架内合成生物物理实验,HSM优于现有的计算方法和高通量实验分析。HSM模型可以在三个空间尺度上以熟悉的生物物理术语来解释:蛋白质-肽结合的能量学、蛋白质-蛋白质相互作用的多齿组织和信号网络的整体架构。


2


模型设计和方法


研究者为六个常见的PBD家族构建了HSM模型,这些家族涉及磷酸酪氨酸,多脯氨酸和C端肽位点(PDZ, SH2, SH3, WW, WH1, PTB; n = 823个域),以及酪氨酸激酶和蛋白质酪氨酸磷酸酶(TK,PTP; n = 143个域;如图1a所示)。在人类蛋白质组中,估计含有PBD的蛋白质总数约为104个蛋白质(图1b),它们参与了〜105-106个相互作用(图1c)。本文研究的8个域占人类PBDs总数的39%左右。原则上,相同的建模框架适用于所有剩余的人类PBD,但是数据稀缺(每个家庭报告的互动少于100个)使评估模型性能变得困难。在开始机器学习之前,研究者执行组合的序列/结构比对,使给定的PBD家族和肽类的所有残基位置对应,从而形成一个统一的残基坐标系统。然后,HSM学习一个伪哈密顿量,该伪哈密顿量将各个残基和残基对映射成结合能,并遵循两个约束条件:(1)在PBD族中,相同位置的残基或残基对始终贡献相同的能量,并且(2)在PBD族中,残基对能量来自固定的势能池。针对第一个限制,研究者提出适用于一个PBD家族中的所有域的模型描述为独立域的HSM (HSM/ID)(图1d)。针对第二个限制,通过迫使HSM模型学习一组残基-残基电位的形式来正式化不同类型的蛋白质之间的相互作用是由相对有限的一组相互作用表面介导的这一观察结果(图1d)。

image.png

图1. PBD和建模框架


3


训练和验证


为了训练HSM模型,研究者组装了一个约2×106PBD-肽相互作用的数据集,该数据集主要来自基于阵列的分析;将数据二值化以允许将来自不同实验方法的值进行合并,从而产生3–5%的正相互作用。采用AUC和Recall作为评价指标,和对比方法的比较结果如下图所示

image.png

图2. 模型性能和新预测的PPIs。


4


信号网络的视角。


许多蛋白质包含具有和不具有共生肽位点的多个不同类别的PBD。为了研究涉及这种结合类型的网络,研究者生成了一个高蛋白人类PPI预测(HSM/P,P> 0.7)的蛋白质组范围的节点边图,其中节点对应于蛋白质,相互作用对应边(图6)。


image.png

image.png

图3. 人类PBD介导的PPI网络的层次组织。


5


讨论


因为已学习的伪哈密顿量是HSM的基础,所以可以用熟悉的特定位置的结合能来解释已学习的相互作用。因此,HSM能够通过促进对PBD和/或肽功能的理解和预测,在三个空间尺度上提供结构上的洞察力:残基/共复合体水平;蛋白质水平,通过量化在多齿状相互作用中单个PBDs和配体的相对贡献和网络级,通过支持大规模建模信息传输从细胞表面到细胞结构和功能的决定因素。


通过将学习的能量与从晶体结构推断出的见解进行比较,可以最容易地说明HSM捕获的生物物理细节,如本文通过分析SH3域(研究者建模的八类PBD /酶之一)所说明的那样。研究者发现,HSM提供了对与从晶体结构获得的接触区域极为相似的接触区域的洞察力,同时还提供了仅从所有已知SH3结构的全面图获得的更广泛的合成。

————————————————

版权声明:本文为CSDN博主「DrugAI」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/u012325865/article/details/105683758图3. 人类PBD介导的PPI网络的层次组织。


5


讨论


因为已学习的伪哈密顿量是HSM的基础,所以可以用熟悉的特定位置的结合能来解释已学习的相互作用。因此,HSM能够通过促进对PBD和/或肽功能的理解和预测,在三个空间尺度上提供结构上的洞察力:残基/共复合体水平;蛋白质水平,通过量化在多齿状相互作用中单个PBDs和配体的相对贡献和网络级,通过支持大规模建模信息传输从细胞表面到细胞结构和功能的决定因素。


通过将学习的能量与从晶体结构推断出的见解进行比较,可以最容易地说明HSM捕获的生物物理细节,如本文通过分析SH3域(研究者建模的八类PBD /酶之一)所说明的那样。研究者发现,HSM提供了对与从晶体结构获得的接触区域极为相似的接触区域的洞察力,同时还提供了仅从所有已知SH3结构的全面图获得的更广泛的合成。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
机器学习/深度学习 数据可视化
生物统计学下的机器学习(3)
生物统计学下的机器学习(3)
198 0
|
机器学习/深度学习
生物统计学下的机器学习(2)
生物统计学下的机器学习(2)
194 0
|
机器学习/深度学习 知识图谱
生物统计学下的机器学习(1)
生物统计学下的机器学习(1)
194 0
|
机器学习/深度学习 人工智能 算法
Mila唐建团队开源大分子机器学习平台TorchProtein:分析蛋白质序列及结构数据,仅需一两行代码
Mila唐建团队开源大分子机器学习平台TorchProtein:分析蛋白质序列及结构数据,仅需一两行代码
345 0
|
机器学习/深度学习
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测
|
机器学习/深度学习 算法
阿旭机器学习实战【4】KNN算法实战练习1:利用KNN算法预测某人对你喜欢程度
阿旭机器学习实战【4】KNN算法实战练习1:利用KNN算法预测某人对你喜欢程度
阿旭机器学习实战【4】KNN算法实战练习1:利用KNN算法预测某人对你喜欢程度
|
机器学习/深度学习 移动开发 Windows
机器学习奥林匹克-身体健康与幸福之心脏病预测
机器学习奥林匹克-身体健康与幸福之心脏病预测
414 0
机器学习奥林匹克-身体健康与幸福之心脏病预测
|
机器学习/深度学习 数据处理
机器学习——PM2.5预测白话
本项目仅用于参考,提供思路和想法并非标准答案!请谨慎抄袭!
419 0
机器学习——PM2.5预测白话
|
机器学习/深度学习 数据采集 人工智能
就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵
本文使用机器学习建模对 FIFA 2022世界杯结果进行了预测,赛后将其与真实结果进行比较,可以看出:小组赛到1/4决赛的预测准确率很高,半决赛和决赛的预测准确率为0,冠亚季军无一预测准确。
139 0
就离谱!使用机器学习预测2022世界杯:小组赛挺准,但冠亚季军都错了 ⛵
|
机器学习/深度学习 算法
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
235 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)