生物医药领域-分子对接SOTA模型洞察

简介: 该文介绍了分子对接的作用过程、应用场景及分类,总结了现有软件的核心内容与评估指标,并分析了KarmaDock、DiffBindFR和RosettaVS三种最新模型的细节、性能和应用领域。研究指出,未来应关注模型长板特征,开发超大规模虚拟筛选平台以提升药物发现效率。

该洞察介绍了分子对接的作用过程、应用场景、分类,简要总结了现有分子对接软件的核心内容及评估指标。此外,调研了近两年发表的3种SOTA模型(KarmaDock、DiffBindFR、RosettaVS),对其具体细节、性能精度、应用领域等进行了分析说明,并总结了几点对未来工作的启示。

1、背景介绍

分子对接定义:受体和配体之间通过能量匹配、空间匹配和化学性质匹配而相互识别形成分子复合物,并预测复合物结构的一种计算技术。也即,将配体分子放置到受体大分子的活性位点中,观察小分子与受体结合构象及预测作用能的过程。其目的是从小分子数据库中发现合适的化合物作为受体大分子的配体。

•分子对接常用于研究药物和受体相互作用,一般过程包括确定受体的活性位点、定义活性口袋,根据受体活性位点与药物分子的性质和形状的互补性,调整受体活性位点柔性残基或药物的构象,计算对接时不同取向的药物与受体的相互作用能量来评估受体与配体的作用方式等。其他应用场景还包括:酶机理研究,先导化合物优化,先导分子鉴定/虚拟筛选等。

•从对接对象角度可将分子对接分为五类:大分子受体蛋白质与小分子配体间的对接,蛋白质与蛋白质间的对接,蛋白质与DNA分子间的对接,蛋白质与RNA分子间的对接,以及蛋白质与多肽间的对接。

•根据受体配体构象特征又可将分子对接分为三类:刚性对接,半柔性对接及柔性对接。刚性对接中受体和配体都看作是刚性的、不发生构象变化的。半柔性对接将受体看作是刚性的,而配体小分子在对接过程中通过平动、转动及可旋转二面角扭转等产生多种构象。柔性对接中则受体及配体均是柔性的。

2、现有软件性能评估:

•过去的20年已涌现出了大量的分子对接软件,比如Auto Dock、GOLD、DOCK、Flex X、Glide等,其中既有商业软件也有学术软件,使用占比如右图所示。 •采样算法与打分函数是对接软件最核心的部分。前者决定了对接软件的采样性能;后者用于近似预测两个分子相互作用后的结合亲和力,其对复合物结合亲合力排序的预测精度为打分性能,用预测的结合亲和力(打分值)与实验值之间的皮尔逊相关系(rp)与史皮尔曼等级相关系数(rs)来评价。 •打分最佳结合构象通常不是实际最好的结合构象,之间差距巨大,这主要是因为打分函数存在缺陷。因此,有必要考察一致率以评估打分最佳与实际最佳的一致性。一致率用SRtsp/SRbp来定义,其中SRtsp与SRbp分别是打分最佳与实际最佳结合构象的成功率。 •打分性能的评估也表明,同一软件对不同蛋白家族的打分性能差异很大,因此不同蛋白的对接研究可能需要使用不同的软件。评价结果还发现,没有一个软件可以在采样性能与打分性能两样优于其它软件,因此最好的虚拟筛选解决方案是组合使用几种不同的对接软件

3、SOTA模型分析

KarmaDock:针对超大规模虚拟筛选的基于深度学习的分子对接方法(Nat. Comput. Sci.  2023)


        目前,深度学习在保证对接速度和精度的平衡方面仍存在挑战。大多数模型将结合构象和结合强度的预测视为两个独立的任务,使得在预测蛋白配体结合时无法同时获取结合亲和力,这对于大规模虚拟筛选不够友好。KarmaDock利用深度学习技术,特别是几何深度学习,来预测蛋白质和配体间的结合姿势。该方法能够处理配体的灵活性,并考虑蛋白质口袋的复杂性以提高对接准确性。

KarmaDock的架构包括两个编码器(Graph Transformer (GT) 和 Geometric Vector Perceptrons (GVP))、一个混合密度网络(MDN)模块进行打分和一个EGNN模块进行对接。KarmaDock不仅要生成结合姿态,还要基于生成的结合姿态给出蛋白质和配体之间的结合强度打分,因而在对接能力和筛选能力方面均表现出强劲的性能。从精度上来看,KarmaDock的性能在三种数据集划分方法下均超过了传统的对接软件,至少提高了14.9%/22.3%的成功率;从速度的角度上看,KarmaDock在PDBbind测试集上较传统对接软件实现了至少163.06倍的加速。该方法还通过减少计算资源的需求,提高了对接过程的效率。

应用场景:药物设计、大规模虚拟筛选、生物分子研究等。

DiffBindFR:基于扩散模型的柔性分子对接方法(Chem. Sci.  2024)

      现有的柔性分子对接方法受限于计算复杂度,仅能考虑少量侧链构象变化。DiffBindFR 使用基于消息传递的 SE(3)-等变网络编码蛋白质口袋和配体分子之间全原子的复杂相互作用。整个模型将柔性对接定义为学习四个变量(配体旋转、平移、可旋转键扭转和口袋侧链扭转)在其切空间中的联合去噪过程的问题,可生成多个对接构象,利用confidence model挑选出排名第一的构象作为最终对接结果输出。

在PDBbind测试集上,DiffBindFR在分子对接成功率上超越了传统对接方法和深度学习方法,能够高精度预测蛋白配体结合口袋中残基的侧链构象,且该方法生成的口袋-配体复合物的全原子模型具有很好的物理合理性。此外,交叉对接是更能检验柔性对接方法应用潜力的任务,而该方法在交叉对接中也展现出了优异的性能(比如能够处理AlphaFold2预测的蛋白质结构中侧链构象阻挡配体分子进入正确结合位置的问题)。

应用场景:药物设计、虚拟筛选、结构基药物设计、交叉对接等。

RosettaVS:一种高精度基于结构的虚拟筛选方法(Nature Communications 2024)

      为了能够针对超大化合物库进行筛选,研究人员采用了两种策略。首先,开发了一种改进的对接协议 RosettaVS,它实现了两种高速配体对接模式:虚拟筛选快速版 (VSX) 专为快速初步筛选而设计,虚拟筛选高精度版 (VSH) 是一种更准确的方法,用于对初始筛选中的最佳匹配进行最终排序。基于此,研究人员还开发了一个开源AI加速虚拟筛选平台 (OpenVS) ,该平台使用主动学习技术在对接计算过程中同时训练目标特定的神经网络,以高效地分类和选择最有希望的化合物进行昂贵的对接计算。

 RosettaVS在多个基准测试集上表现出了优异的性能,包括CASF2016和DUD数据集。它在区分天然结合姿势和诱饵结构方面取得了领先的成绩,并且在预测配体结合亲和力方面也显示出了高准确性。利用OpenVS平台,研究人员成功从数十亿种化合物库中筛选出了具有个位数微摩尔结合亲和力的命中化合物,且筛选过程在不到七天内完成,显示了其高效的筛选能力。

应用场景:药物发现、先导化合物优化、蛋白质功能研究等。

4、启发或建议

  • 实际应用中,在一个分子对接模型中采样性能与打分性能往往不能兼顾,最好的解决方案是几种不同模型组合使用,因此我们在模型迁移选择上应该重点关注模型的长板特征而非综合性能
  • 在药物发现应用领域,除了分子对接模型的开发以外,超大规模虚拟筛选的开源、可扩展平台的开发也至关重要。OpenVS开创了这一新方向,充分彰显了高通量优势和巨大应用潜力,有望推动学界业界更广泛地应用和优化这一技术,从而为海量先导化合物库的高效筛选提供理想解决方案。

5、参考文献

[1] Physical Chemistry Chemical Physics, 2016, 18(18): 12964-12975.

[2] Nature Computational Science, 2023, 3(9): 789-804.

[3] Chemical Science, 2024, 15(21): 7926-7942.

[4] Nature Communications, 2024, 15(1): 7761.

相关文章
|
机器学习/深度学习 数据可视化 算法
Pytorch CIFAR10图像分类 Swin Transformer篇(二)
Pytorch CIFAR10图像分类 Swin Transformer篇(二)
|
机器学习/深度学习 人工智能 算法
PeptideBERT:基于Transformer用于肽性质预测的语言模型
本文介绍了PeptideBERT模型及其在昇腾设备上的部署方法。PeptideBERT是一种基于Transformer架构的蛋白质语言模型,通过微调预训练模型ProtBERT,可预测肽的溶血性、溶解性和抗非特异性吸附性等关键性质。其输入表示包括词嵌入、物理化学属性编码和位置编码,并采用多头自注意力机制捕捉序列依赖关系。
|
9月前
|
存储 并行计算 算法
【前推回代法】含有分布式电源的三相不平衡配电网潮流计算【IEEE33节点】(Matlab代码实现)
【前推回代法】含有分布式电源的三相不平衡配电网潮流计算【IEEE33节点】(Matlab代码实现)
378 0
|
测试技术 Shell
MindIE LLM场景快速上手实验
MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。
940 3
|
缓存 算法 编译器
C/C++编译器内存优化技术:内存优化关注程序对内存的访问和使用,以提高内存访问速度和减少内存占用。
C/C++编译器内存优化技术:内存优化关注程序对内存的访问和使用,以提高内存访问速度和减少内存占用。
726 0
|
存储 监控 数据挖掘
计算机网络的功能
计算机网络支持信息交换、资源共享、分布式处理、可靠性增强及集中管理。信息交换涵盖多种媒体形式,促进远程协作;资源共享降低用户成本,提高效率;分布式处理提升计算能力;冗余机制保障系统稳定;集中管理简化网络维护,确保安全运行。
788 2
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的革命性进展####
【10月更文挑战第24天】 本文探讨了深度学习如何彻底改变图像识别领域,从早期的挑战到最新的技术突破。通过回顾关键算法的发展历程、分析当前最前沿的应用实例,并展望其对未来社会的影响,本文旨在为读者提供一个全面而深入的理解框架。 ####
|
存储 Unix Linux
揭秘Linux硬件组成:从内核魔法到设备树桥梁,打造你的超级系统,让你的Linux之旅畅通无阻,震撼体验来袭!
【8月更文挑战第5天】Linux作为顶级开源操作系统,凭借其强大的功能和灵活的架构,在众多领域大放异彩。本文首先概述了Linux的四大核心组件:内核、Shell、文件系统及应用程序,并深入探讨了内核的功能模块,如存储、CPU及进程管理等。接着介绍了设备树(Device Tree),它是连接硬件与内核的桥梁,通过DTS/DTB文件描述硬件信息,实现了跨平台兼容。此外,还简要介绍了Linux如何通过本地总线高效管理硬件资源,并阐述了文件系统与磁盘管理机制。通过这些内容,读者可以全面了解Linux的硬件组成及其核心技术。
328 3
|
达摩院 供应链 JavaScript
网络流问题--仓储物流调度【数学规划的应用(含代码)】阿里达摩院MindOpt
本文通过使用MindOpt工具优化仓储物流调度问题,旨在提高物流效率并降低成本。首先,通过考虑供需匹配、运输时间与距离、车辆容量、仓库储存能力等因素构建案例场景。接着,利用数学规划方法,包括线性规划和网络流问题,来建立模型。在网络流问题中,通过定义节点(资源)和边(资源间的关系),确保流量守恒和容量限制条件下找到最优解。文中还详细介绍了MindOpt Studio云建模平台和MindOpt APL建模语言的应用,并通过实例展示了如何声明集合、参数、变量、目标函数及约束条件,并最终解析了求解结果。通过这些步骤,实现了在满足各仓库需求的同时最小化运输成本的目标。
|
搜索推荐
Stable Diffusion 人物发型提示词大全,中英文列表!
使用发型提示词能更精确描述所需图像的发型特征,如卷发、短发、颜色和风格。结合正负提示词,确保生成图片符合预期。尝试使用工具如[PromptChoose](https://promptchoose.com/)来创建个性化图像描述,包含多种发型选项,如刘海、马尾、波浪发型等,以增强图像细节和个性化。负面提示词防止不合适内容。利用提示词工具可提高生成图片的准确性和满足度。