Nat. Mach. Intel. | 突变后蛋白蛋白结合力的拓扑网络树预测模型

简介: Nat. Mach. Intel. | 突变后蛋白蛋白结合力的拓扑网络树预测模型

今天给大家介绍密歇根州立大学数学系Guowei Wei教授团队2020年2月14日发表在Nature Machine Intelligence上的文章:A topology-based network tree for the prediction of protein–protein binding affinity changes following mutation. 这篇文章将拓扑表示法与深度学习算法相结合,构建了一个基于拓扑的网络树,用于预测突变后蛋白-蛋白相互作用结合亲和力的变化。


image.png

image.png

1. 研究背景

预测蛋白质间相互作用的能力对于了解人体广泛的生物学活动和功能以及指导药物发现至关重要。尽管一些研究者在开发合适的计算方法方面做了很大的努力,但预测突变后蛋白质间相互作用的亲和力变化仍然是一个严峻的挑战。在最近的蛋白质-配体结合亲和力预测的世界大赛中,代数拓扑是一种很有前途的简化生物结构复杂性的方法。因此作者引入元素和特异位点的持久同源性(代数拓扑的一个新分支)来简化蛋白质-蛋白质复合物的结构复杂性,并将关键的生物信息嵌入到拓扑不变量中。作者还提出了一种新的深度学习算法NetTree,该算法利用到了卷积神经网络和梯度增强树。然后将拓扑表示法与NetTree相结合,构建了一个基于拓扑的网络树(TopNetTree),用于预测蛋白质间相互作用。对主要基准数据集的测试表明,所提出的基于拓扑的网络树在预测方面是对当前技术水平的重要改进。


2.TopNetTree模型

这一部分介绍TopNetTree模型及其在PPI预测中的应用。如图1所示, TopNetTree由两个主要模块组成:基于拓扑的特征生成和CNN辅助的梯度提升树(GBT)模型(图1)。对于特征生成,作者主要使用特定于元素和特定位置的持久同源性来捕获结构特征,这种特征通过化学-物理描述符得到了增强,而对于学习模型,作者使用了由CNN输入作为预测因子的GBT。作者通过三个常用的PPI基准数据集证明了提出的TopNetTree的性能。

image.png

图1. TopNetTree模型的框架。H0特征由CNN处理,该CNN的平层输出(连同H1, H2和辅助特征)一起输入到GBT模型中,以进行最终预测。


2.1 PPIs的拓扑表示


原子之间的成对相互作用以0维同调群(H0)为特征。高维度的同源群编码PPI复合物中的高阶模式。如图2所示,通过基于欧氏距离(De)的过滤生成的1维同调群(H1)表征了环状或隧道状结构,而2维同调群(H2)描述了PPI配合物中的腔体结构。

image.png

图2. 与突变相关的拓扑条码变化。野生型中的亮氨酸残基突变为丙氨酸。在突变残基的12埃截止范围内产生碳原子的条形码。


2.2 拓扑条形码的向量化


向量化的一种方法是将过滤参数的范围离散各个容器中,并记录每个容器中条形码的行为(有关过滤和持久性的说明,请参见图3)。该方法为每个拓扑条形码提供了三个特征向量。注意,对于不同的离散化,这种出生和死亡的描述可能不是稳定的。向量化的另一种方法是总结条形码统计信息,包括条形码长度,出生值和死亡值的总和,最大值,最小值,均值和标准值。本文使用这种方法对通过alpha复杂过滤获得的H1和H2条形码进行矢量化处理,因为这些高维条形码比0维条形码稀疏。

image.png

图3. 过滤和持久性。平面上一组点的过滤和H1持续图的说明。


2.3 机器学习模型


预测PPIs突变后的结合亲和力变化的一个主要挑战是,由于3D结构,数据高度复杂,而数据集相对较小。作者设计了一个混合的机器学习算法,它结合了CNN和GBT来克服这个困难。通过CNN模块将三维结构的拓扑简化描述转化为简洁的特征;在此基础上,建立了具有过拟合控制能力的稳健预测模型。


2.3.1 TopGBT模型


在这项工作中,作者使用GBT根据当前对训练数据的预测误差将树添加到集成中。当存在中等数量的特征时,此方法(基于拓扑的GBT或TopGBT)效果很好,并且对于超参数调整和过拟合相对健壮。


2.3.2 TopCNN模型


作者使用基于拓扑的CNN(TopCNN)作为中间模型;具体来说,作者将向量化的H0特征输入CNN中,以提取下游模型的高级特征。


2.3.3 TopNetTree模型


CNN可以自动从H0中提取高级功能。这些CNN提取的特征与由高维拓扑条码H1和H2构造的特征相结合,作为GBT的输入。具体来说,作者建立了一个以PPI为标签的监督CNN模型。训练模型后,作者将平层神经输入到GBT模型中以对其重要性进行排名。基于重要性,CNN功能的子集与其他功能(例如H1和H2条码的统计信息)结合在一起,用于最终的GBT模型,如图1所示。


2.4 PPIs模型的性能


作者考虑了三个数据集:AB-Bind数据集,SKEMPI数据集和SKEMPI 2.0数据集,以验证所提出的TopNetTree模型。两个评估指标(Rp和均方根误差RMSE)用于评估预测的质量。


2.4.1 突变后AB-Bind自由能变化的预测


本文的模型在AB-Bind S645数据集上的Rp达到了0.65,这比表1所示的其他现有方法明显好。与非机器学习方法(如Rosetta和bASA)相比,本文的方法在Rp方面的准确度提高了100%,这表明本文基于拓扑的机器学习方法对PPI系统具有更好的预测能力。本文的方法比Rp = 0.53的最高分数(由mCSM-AB给出)的准确度高约22%,这说明了TopNetTree的强大预测能力。Pires等人发现,从数据集中排除非结合部分将显著提高预测模型的性能。在本文的案例中,如图4所示,相同处理的Rp从0.65增至0.68。作者还使用其余样本作为训练集,对同源结构进行了盲法测试,达到了0.55的Rp,如图4所示。


表1. 在AB-Bind S645数据集上多种方法的Rp指标的对比

image.png

image.png

图4. TopNetTree模型的数据和结果. a, 在AB-Bind S645数据集上的十折交叉结果。b, 在AB-Bind S645数据集上出去27个非结合位点的十折交叉结果。c, 与同源结构相关的AB-Bind子集的盲预测。d, 结合亲和度随AB-Bind数据集突变而变化的分布,这些数据集按残基区域类型和丙氨酸突变分组。e, 不同残差区域类型的预测结果。


2.4.2 SKEMPI数据集上的性能


表2显示了十折交叉验证中的皮尔逊相关系数。发现所提出的TopNetTree比最佳方法准确度高15%。


表2. SKeMPi数据集中1131个突变的单点突变的各种方法的Rp值比较

image.png

2.4.3 SKEMPI 2.0数据集上的性能


作者将TopNetTree模型应用于集S4947,S4169和S8338三个变体数据集。作者使用十折交叉验证测试了S4947集,实现了平均Rp为0.82和1.11 kcal mol-1的RMSE. 作者遵循在mCSM-PPI2一文中对S4169和S833848集使用的十折分层交叉验证方法。对于S4169组,本模型获得了0.79的平均Rp和1.13 kcal mol-1的RMSE。最后,对于S8338组,本文的方法获得的平均Rp为0.85和1.11 kcal mol-1的RMSE。

image.png

图5. 使用10折交叉验证的性能评估。a, S4947数据集。b, S4169数据集。c, S8338。


3.结论

从多方面的努力研究PPI的重要性可见一斑,包括量子力学,分子力学,生物化学,生物物理学和分子生物学。例如,在常用PPI数据库AB-Bind的交叉验证中,预测的值与实验数据之间的Rp值仅为0.53。


最近已证明拓扑在简化生物分子结构复杂性方面出奇地有效。它主要在赢得了计算机辅助药物设计的全球竞赛。因此,利用拓扑结构了解PPI至关重要。在这项工作中,作者提出用于预测的TopNetTrees。具体来说,引入了元素和位点特定的持久同源性来表征PPI。此外,作者提出了机器学习算法(CNN辅助GBT)与拓扑方法配对以预测PPI。并且证明了提出的TopNetTree达到了0.65的Rp,这比AB-Bind数据集的先前最佳结果约好22%。对于另一个基准PPI数据集SKEMPI,本方法明显优于相关文献中的最新技术。



相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
8月前
|
存储 机器学习/深度学习 监控
网络管理监控软件的 C# 区间树性能阈值查询算法
针对网络管理监控软件的高效区间查询需求,本文提出基于区间树的优化方案。传统线性遍历效率低,10万条数据查询超800ms,难以满足实时性要求。区间树以平衡二叉搜索树结构,结合节点最大值剪枝策略,将查询复杂度从O(N)降至O(logN+K),显著提升性能。通过C#实现,支持按指标类型分组建树、增量插入与多维度联合查询,在10万记录下查询耗时仅约2.8ms,内存占用降低35%。测试表明,该方案有效解决高负载场景下的响应延迟问题,助力管理员快速定位异常设备,提升运维效率与系统稳定性。
351 4
|
网络协议 安全 网络安全
NAT网络地址转换
NAT(网络地址转换)是一种关键的网络技术,通过将内部私有地址转换为外部公网地址,实现多设备共享单一公网IP上网。它不仅解决了IPv4地址不足的问题,还增强了网络安全,隐藏了内部网络结构。NAT主要分为静态NAT、动态NAT和NAPT(网络地址端口转换)三种类型,广泛应用于家庭和企业网络中。然而,NAT也存在对某些应用不友好、增加延迟及与IPv6不兼容等缺点。
1787 14
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
441 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
网络虚拟化
生成树协议(STP)及其演进版本RSTP和MSTP,旨在解决网络中的环路问题,提高网络的可靠性和稳定性
生成树协议(STP)及其演进版本RSTP和MSTP,旨在解决网络中的环路问题,提高网络的可靠性和稳定性。本文介绍了这三种协议的原理、特点及区别,并提供了思科和华为设备的命令示例,帮助读者更好地理解和应用这些协议。
1028 4
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
1191 1
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
2352 2
|
运维 负载均衡 安全
|
网络协议 安全 网络安全
Cisco-网络端口地址转换NAPT配置
Cisco-网络端口地址转换NAPT配置
476 1
|
安全 网络安全 数据安全/隐私保护
Cisco-网络地址转换动态NAT
Cisco-网络地址转换动态NAT
339 1