Nat. Mach. Intel. | 突变后蛋白蛋白结合力的拓扑网络树预测模型

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Mach. Intel. | 突变后蛋白蛋白结合力的拓扑网络树预测模型

今天给大家介绍密歇根州立大学数学系Guowei Wei教授团队2020年2月14日发表在Nature Machine Intelligence上的文章:A topology-based network tree for the prediction of protein–protein binding affinity changes following mutation. 这篇文章将拓扑表示法与深度学习算法相结合,构建了一个基于拓扑的网络树,用于预测突变后蛋白-蛋白相互作用结合亲和力的变化。


image.png

image.png

1. 研究背景

预测蛋白质间相互作用的能力对于了解人体广泛的生物学活动和功能以及指导药物发现至关重要。尽管一些研究者在开发合适的计算方法方面做了很大的努力,但预测突变后蛋白质间相互作用的亲和力变化仍然是一个严峻的挑战。在最近的蛋白质-配体结合亲和力预测的世界大赛中,代数拓扑是一种很有前途的简化生物结构复杂性的方法。因此作者引入元素和特异位点的持久同源性(代数拓扑的一个新分支)来简化蛋白质-蛋白质复合物的结构复杂性,并将关键的生物信息嵌入到拓扑不变量中。作者还提出了一种新的深度学习算法NetTree,该算法利用到了卷积神经网络和梯度增强树。然后将拓扑表示法与NetTree相结合,构建了一个基于拓扑的网络树(TopNetTree),用于预测蛋白质间相互作用。对主要基准数据集的测试表明,所提出的基于拓扑的网络树在预测方面是对当前技术水平的重要改进。


2.TopNetTree模型

这一部分介绍TopNetTree模型及其在PPI预测中的应用。如图1所示, TopNetTree由两个主要模块组成:基于拓扑的特征生成和CNN辅助的梯度提升树(GBT)模型(图1)。对于特征生成,作者主要使用特定于元素和特定位置的持久同源性来捕获结构特征,这种特征通过化学-物理描述符得到了增强,而对于学习模型,作者使用了由CNN输入作为预测因子的GBT。作者通过三个常用的PPI基准数据集证明了提出的TopNetTree的性能。

image.png

图1. TopNetTree模型的框架。H0特征由CNN处理,该CNN的平层输出(连同H1, H2和辅助特征)一起输入到GBT模型中,以进行最终预测。


2.1 PPIs的拓扑表示


原子之间的成对相互作用以0维同调群(H0)为特征。高维度的同源群编码PPI复合物中的高阶模式。如图2所示,通过基于欧氏距离(De)的过滤生成的1维同调群(H1)表征了环状或隧道状结构,而2维同调群(H2)描述了PPI配合物中的腔体结构。

image.png

图2. 与突变相关的拓扑条码变化。野生型中的亮氨酸残基突变为丙氨酸。在突变残基的12埃截止范围内产生碳原子的条形码。


2.2 拓扑条形码的向量化


向量化的一种方法是将过滤参数的范围离散各个容器中,并记录每个容器中条形码的行为(有关过滤和持久性的说明,请参见图3)。该方法为每个拓扑条形码提供了三个特征向量。注意,对于不同的离散化,这种出生和死亡的描述可能不是稳定的。向量化的另一种方法是总结条形码统计信息,包括条形码长度,出生值和死亡值的总和,最大值,最小值,均值和标准值。本文使用这种方法对通过alpha复杂过滤获得的H1和H2条形码进行矢量化处理,因为这些高维条形码比0维条形码稀疏。

image.png

图3. 过滤和持久性。平面上一组点的过滤和H1持续图的说明。


2.3 机器学习模型


预测PPIs突变后的结合亲和力变化的一个主要挑战是,由于3D结构,数据高度复杂,而数据集相对较小。作者设计了一个混合的机器学习算法,它结合了CNN和GBT来克服这个困难。通过CNN模块将三维结构的拓扑简化描述转化为简洁的特征;在此基础上,建立了具有过拟合控制能力的稳健预测模型。


2.3.1 TopGBT模型


在这项工作中,作者使用GBT根据当前对训练数据的预测误差将树添加到集成中。当存在中等数量的特征时,此方法(基于拓扑的GBT或TopGBT)效果很好,并且对于超参数调整和过拟合相对健壮。


2.3.2 TopCNN模型


作者使用基于拓扑的CNN(TopCNN)作为中间模型;具体来说,作者将向量化的H0特征输入CNN中,以提取下游模型的高级特征。


2.3.3 TopNetTree模型


CNN可以自动从H0中提取高级功能。这些CNN提取的特征与由高维拓扑条码H1和H2构造的特征相结合,作为GBT的输入。具体来说,作者建立了一个以PPI为标签的监督CNN模型。训练模型后,作者将平层神经输入到GBT模型中以对其重要性进行排名。基于重要性,CNN功能的子集与其他功能(例如H1和H2条码的统计信息)结合在一起,用于最终的GBT模型,如图1所示。


2.4 PPIs模型的性能


作者考虑了三个数据集:AB-Bind数据集,SKEMPI数据集和SKEMPI 2.0数据集,以验证所提出的TopNetTree模型。两个评估指标(Rp和均方根误差RMSE)用于评估预测的质量。


2.4.1 突变后AB-Bind自由能变化的预测


本文的模型在AB-Bind S645数据集上的Rp达到了0.65,这比表1所示的其他现有方法明显好。与非机器学习方法(如Rosetta和bASA)相比,本文的方法在Rp方面的准确度提高了100%,这表明本文基于拓扑的机器学习方法对PPI系统具有更好的预测能力。本文的方法比Rp = 0.53的最高分数(由mCSM-AB给出)的准确度高约22%,这说明了TopNetTree的强大预测能力。Pires等人发现,从数据集中排除非结合部分将显著提高预测模型的性能。在本文的案例中,如图4所示,相同处理的Rp从0.65增至0.68。作者还使用其余样本作为训练集,对同源结构进行了盲法测试,达到了0.55的Rp,如图4所示。


表1. 在AB-Bind S645数据集上多种方法的Rp指标的对比

image.png

image.png

图4. TopNetTree模型的数据和结果. a, 在AB-Bind S645数据集上的十折交叉结果。b, 在AB-Bind S645数据集上出去27个非结合位点的十折交叉结果。c, 与同源结构相关的AB-Bind子集的盲预测。d, 结合亲和度随AB-Bind数据集突变而变化的分布,这些数据集按残基区域类型和丙氨酸突变分组。e, 不同残差区域类型的预测结果。


2.4.2 SKEMPI数据集上的性能


表2显示了十折交叉验证中的皮尔逊相关系数。发现所提出的TopNetTree比最佳方法准确度高15%。


表2. SKeMPi数据集中1131个突变的单点突变的各种方法的Rp值比较

image.png

2.4.3 SKEMPI 2.0数据集上的性能


作者将TopNetTree模型应用于集S4947,S4169和S8338三个变体数据集。作者使用十折交叉验证测试了S4947集,实现了平均Rp为0.82和1.11 kcal mol-1的RMSE. 作者遵循在mCSM-PPI2一文中对S4169和S833848集使用的十折分层交叉验证方法。对于S4169组,本模型获得了0.79的平均Rp和1.13 kcal mol-1的RMSE。最后,对于S8338组,本文的方法获得的平均Rp为0.85和1.11 kcal mol-1的RMSE。

image.png

图5. 使用10折交叉验证的性能评估。a, S4947数据集。b, S4169数据集。c, S8338。


3.结论

从多方面的努力研究PPI的重要性可见一斑,包括量子力学,分子力学,生物化学,生物物理学和分子生物学。例如,在常用PPI数据库AB-Bind的交叉验证中,预测的值与实验数据之间的Rp值仅为0.53。


最近已证明拓扑在简化生物分子结构复杂性方面出奇地有效。它主要在赢得了计算机辅助药物设计的全球竞赛。因此,利用拓扑结构了解PPI至关重要。在这项工作中,作者提出用于预测的TopNetTrees。具体来说,引入了元素和位点特定的持久同源性来表征PPI。此外,作者提出了机器学习算法(CNN辅助GBT)与拓扑方法配对以预测PPI。并且证明了提出的TopNetTree达到了0.65的Rp,这比AB-Bind数据集的先前最佳结果约好22%。对于另一个基准PPI数据集SKEMPI,本方法明显优于相关文献中的最新技术。



相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
2月前
|
C++
基于Reactor模型的高性能网络库之地址篇
这段代码定义了一个 InetAddress 类,是 C++ 网络编程中用于封装 IPv4 地址和端口的常见做法。该类的主要作用是方便地表示和操作一个网络地址(IP + 端口)
156 58
|
2月前
|
网络协议 算法 Java
基于Reactor模型的高性能网络库之Tcpserver组件-上层调度器
TcpServer 是一个用于管理 TCP 连接的类,包含成员变量如事件循环(EventLoop)、连接池(ConnectionMap)和回调函数等。其主要功能包括监听新连接、设置线程池、启动服务器及处理连接事件。通过 Acceptor 接收新连接,并使用轮询算法将连接分配给子事件循环(subloop)进行读写操作。调用链从 start() 开始,经由线程池启动和 Acceptor 监听,最终由 TcpConnection 管理具体连接的事件处理。
55 2
|
2月前
基于Reactor模型的高性能网络库之Tcpconnection组件
TcpConnection 由 subLoop 管理 connfd,负责处理具体连接。它封装了连接套接字,通过 Channel 监听可读、可写、关闭、错误等
68 1
|
2月前
|
JSON 监控 网络协议
干货分享“对接的 API 总是不稳定,网络分层模型” 看电商 API 故障的本质
本文从 OSI 七层网络模型出发,深入剖析电商 API 不稳定的根本原因,涵盖物理层到应用层的典型故障与解决方案,结合阿里、京东等大厂架构,详解如何构建高稳定性的电商 API 通信体系。
|
4月前
|
域名解析 网络协议 安全
计算机网络TCP/IP四层模型
本文介绍了TCP/IP模型的四层结构及其与OSI模型的对比。网络接口层负责物理网络接口,处理MAC地址和帧传输;网络层管理IP地址和路由选择,确保数据包准确送达;传输层提供端到端通信,支持可靠(TCP)或不可靠(UDP)传输;应用层直接面向用户,提供如HTTP、FTP等服务。此外,还详细描述了数据封装与解封装过程,以及两模型在层次划分上的差异。
638 13
|
4月前
|
网络协议 中间件 网络安全
计算机网络OSI七层模型
OSI模型分为七层,各层功能明确:物理层传输比特流,数据链路层负责帧传输,网络层处理数据包路由,传输层确保端到端可靠传输,会话层管理会话,表示层负责数据格式转换与加密,应用层提供网络服务。数据在传输中经过封装与解封装过程。OSI模型优点包括标准化、模块化和互操作性,但也存在复杂性高、效率较低及实用性不足的问题,在实际中TCP/IP模型更常用。
482 10
|
2月前
基于Reactor模型的高性能网络库之Poller(EpollPoller)组件
封装底层 I/O 多路复用机制(如 epoll)的抽象类 Poller,提供统一接口支持多种实现。Poller 是一个抽象基类,定义了 Channel 管理、事件收集等核心功能,并与 EventLoop 绑定。其子类 EPollPoller 实现了基于 epoll 的具体操作,包括事件等待、Channel 更新和删除等。通过工厂方法可创建默认的 Poller 实例,实现多态调用。
191 60
|
2月前
基于Reactor模型的高性能网络库之Channel组件篇
Channel 是事件通道,它绑定某个文件描述符 fd,注册感兴趣的事件(如读/写),并在事件发生时分发给对应的回调函数。
154 60
|
2月前
|
安全 调度
基于Reactor模型的高性能网络库之核心调度器:EventLoop组件
它负责:监听事件(如 I/O 可读写、定时器)、分发事件、执行回调、管理事件源 Channel 等。
167 57
|
2月前
基于Reactor模型的高性能网络库之时间篇
是一个用于表示时间戳(精确到微秒)**的简单封装类
124 57

热门文章

最新文章