吉林大学团队使用 AI 分析大量生物数据,探索蛋白质变构过程的动态相互作用

简介: 吉林大学团队使用 AI 分析大量生物数据,探索蛋白质变构过程的动态相互作用

蛋白质变构是由空间远程蛋白质内通讯促进的生物过程,其中配体结合或远处位点的氨基酸变化会远程影响活性位点。分子动力学(MD)模拟提供了一种强大的计算方法来探测变构效应。然而,当前的 MD 模拟无法达到整个变构过程的时间尺度。深度学习的出现使得评估空间短程和远程通信以理解变构成为可能。为此,吉林大学和密苏里大学的研究人员合作,开发了基于图神经网络的神经关系推理模型,该模型采用编码器-解码器架构同时推断潜在相互作用,以探索蛋白质变构过程作为相互作用残基的动态网络。从 MD 轨迹中,该模型成功地学习了可以介导 Pin1、SOD1 和 MEK1 系统中远距离位点之间的变构通信的远程相互作用和途径。此外,该模型可以在 MD 模拟轨迹中更早地发现变构相关的相互作用,并比其他方法更准确地预测突变后的相对自由能变化。该研究以「Neural relational inference to learn long-range allosteric interactions in proteins from molecular dynamics simulations」为题,于 2022 年 3 月 29 日发布在《Nature Communications》。分子动力学模拟可以直接探测生物分子运动,但由于模拟的时间尺度有限,以及 3D 轨迹数据的高维和复杂性,可能无法捕获有意义的功能信息。此外,许多具有挑战性的 MD 分析问题缺乏合适的方法来探测远程通信。例如,变构通讯在蛋白质中是众所周知的,但了解信号如何在蛋白质内或跨不同蛋白质分子长距离传输,几十年来一直是一个具有挑战性的问题。用于模拟蛋白质变构通信的计算技术,依赖于图论指标来识别两个远端活性位点之间的远程耦合。一般来说,一个蛋白质可以映射到一个图上,其中每个节点代表一个残基,每个加权边代表两个节点之间的相互作用。蛋白质中变构位点和活性位点之间的最短路径,对于在变构通讯中传播信号可能很重要。早期的图形模型使用静态晶体结构来计算一个残基和其他残基之间的最短路径,这可能无法解释动态蛋白质中潜在接触的全部范围以及相关的变构行为。后来,MD 模拟的动态信息被用来破译基于图论的变构机制。一种众所周知的变构方法,扰动响应扫描(PRS),使用基于 Hessian 的弹性网络模型(ENM)来获得位置的相关动态。然而,这两种模型都基于假设设置,即在蛋白质中残基的所有 Cα 原子上应用外力矢量。此外,由于以下原因,这些方法可能无法很好地检测变构和活性位点之间假设的相关动力学:(i)模拟时间尺度可能太短而无法实现矩阵分解的足够信噪比;(ii)变构位点的扰动与其活性位点的响应之间可能存在延迟,因此线性相关性可能无法很好地反映它;(iii)Hessian 方法和其他类似方法很难区分与变构通信相关的因果关系和非因果关系。因此,为了获得对变构通信的更多见解,需要开发进一步的模型。深度学习的出现为探索变构效应提供了新的机会。新兴的图神经网络 (GNN) 旨在对图中的数据系统进行建模,并在解决许多与图相关的问题方面取得了巨大成功。最近,GNN 通过使用具有消息传递或注意机制的隐式交互模型,帮助实现了在交通场景、动态物理系统和计算机视觉任务中对复杂动态系统进行建模的长期研究目标。更值得注意的是一个无监督的神经关系推理(NRI)模型,它可以推断出明确的交互结构,同时预测物理模拟中的动态模型,例如篮球运动员在球场上的运动。该模型使用运动捕捉数据训练一种变分自动编码器来模拟输入系统的动态,其中学习的嵌入(潜在代码)将底层交互转换为可解释的图结构,并预测与时间相关的动态。NRI 不需要大量的输入数据或先验知识,并且它不假设任何线性相关性来检测因果关系。例如,它成功地区分篮球运动员偏爱右手焦点还是左手焦点,仅依靠运动状态而不了解潜在的相互作用。NRI 模型适用于学习 MD 模拟中生物大分子的模拟运动轨迹,其中生物分子由化学键连接的原子形成,其运动规律由牛顿力学描述。

图 1:通过重建 MD 模拟轨迹来推断交互图的过程。(来源:论文)

在这项研究中,该团队调整了 NRI 模型,以了解变构途径如何介导从配体结合或突变位点到蛋白质活性中心的远程调节。基于 MD 模拟的轨迹,研究人员将蛋白质变构过程制定为相互作用残基的动态网络。该模型使用 GNN 通过最小化重建和模拟轨迹之间的重建误差来学习网络动态的嵌入;然后,NRI 模型推断出由潜在变量表示的残基之间的边。学习嵌入本质上抽象了关键残基在构象转变中的重要作用,这有助于破译蛋白质变构的机制。研究人员对三种变构系统进行了MD模拟,即(i)配体结合诱导的Pin1变构调节,(ii)G93A 肌萎缩侧索硬化相关突变引起的SOD1构象转变,以及(iii)致癌突变激活MEK1。研究人员还利用相应的轨迹来训练 NRI 模型,并通过将其与三种常规方法(约束网络分析、Hessian 的导数中心性度量和动态耦合指数)进行比较来评估模型性能。这项研究是首次尝试使用 GNN,尤其是 NRI,来分析生物系统中的 MD 模拟。图 2:Pin1 中配体结合或突变后蛋白质灵活性和相互作用模式的变化。(来源:论文)探索 Pin1、SOD1 和 MEK1 系统的变构远程相互作用的三个案例研究,证明该 NRI 模型可以通过嵌入重建的 MD 轨迹有效地生成与蛋白质慢动作相关的相互作用图。相互作用图中变构位点和活性位点之间的最短路径,可以揭示介导变构通讯的途径。此外,该模型可以使用比其他方法更短的模拟,来捕捉变构相关的相互作用和动态运动的趋势。近期,人类 Pin1 的两种不同的变构机制,已经使用计算方法得到了很好的研究。令人欣慰的是,该团队的一些发现与近期其他团队的一些结果一致,这表明正变构配体 FFpSPR 的存在通过两种途径增强了 WW 域和 PPIase 域之间的域间相互作用。Path1 从 WW 背面发出并通过域间界面和 PPIase 核心传播到催化位点;Path2 从 WW 前袋发出,并通过结合的底物 α1 和 α1 核心界面传播到催化回路。该结果不仅显示了增强的域间接触,而且还确定了从 WW 通过 α1 和 α2-3 螺旋,以催化环结束的另一种开放通信途径。图 3:介导 Pin1 中域间变构通信的通路,从最短通路计算中获得。(来源:论文)此外,研究人员研究了正负配体对良好分离结构构象转变的影响。负机制的结果证实了最近的发现,即负变构配体 pCdc25C 结合减少了 PPIase 域中的域内接触。在考虑蛋白质设计时,源自最短路径的变构途径提供了有价值的信息。改变变构途径中的残基以改变蛋白质的生物学功能和调节特性是可能的。该团队展示的一个例子是 Pin1 中的残基 I28,已知变构的影响出现在 T29 旁边。示例性残基 T29 是上图 3a 中确定的一个途径上的关键残基。图 4:SOD1 中 G93A 突变后残基/结构域之间相互作用的变化。另外,αA-螺旋中的残基 R49 和 K57 都出现在两个激活的 MEK1 的变构途径上。由于 αA-螺旋是与激酶结构域其余部分相互作用的关键界面,残基 R49 和 K57 的突变可能会导致螺旋结构的显着改变,从而诱导 ERK 磷酸化。图 5:MEK1 活性突变后域通信的变化。(来源:论文)同时,激活片段中的残基 G213 和 D217 在两个激活的 MEK1 的通路上显示出显着的高频率,这证实了它们在变构通讯中作为全局介导位点的作用。该区域的突变确实导致 MAPK 通路的组成型激活。因此,该 NRI 模型学习的变构途径可能会通过有针对性的设计显着减少对突变筛选的需求。这种方法可用于一般突变效应预测,以及设计能够调节蛋白质功能的变构药物的指南,具有比传统药物更高的特异性和更低的毒性。由于能量势垒较大,生物分子的构象变化通常发生在毫秒或更长的时间尺度内,这在数百纳秒到数十微秒的 MD 模拟中通常是无法实现的。另一方面,导致长期构象变化的驱动力和潜在的域间/域内相互作用早在构象变化在轨迹中显现之前就显现出来了。图 6:基于 NRI 的方法的自由能分数计算性能评估。(来源:论文)据报道,MD 模拟的许多分析方法已被用于根据基于位置协方差的度量来识别变构重要性。该研究比较了基于 NRI 的模型和其他 MD 方法(约束网络分析、Hessian 的导数中心性度量和动态耦合指数)。当前的 NRI 模型确实比其他方法需要更多的时间来计算。然而,NRI 模型的优势不是计算时间,而是它识别其他方法可能错过的一些远程交互的潜力。这并不意味着替代其他方法,但新方法确实是对它们的补充。新的 NRI 模型的优点如下:(i)新模型足够灵敏,可以在观察到完整的构象转变之前更早地捕获变构信号;(ii)新模型可以清楚地呈现蛋白质生物学功能过程中的相互作用模式和信号传递途径;(iii)新模型在估计突变后的自由能变化方面具有巨大潜力。该模型不限于变构调节。许多其他生物和制药过程,例如蛋白质折叠/展开、蛋白质激活或药物分子结合靶点也可以通过 NRI 模型表示为动态相互作用图。特别是,NRI 模型在探测非周期性生物分子运动时很有吸引力。与相互作用不随时间变化的周期性物理运动不同,蛋白质在执行功能期间通常伴随着相当大的构象和相互作用变化。在这些情况下使用 NRI 将随着时间的推移检索交互。研究人员相信,可以开发 NRI 模型来恢复执行蛋白质功能过程中每个时间间隔的残基之间的相互作用。可以为此目的应用其他 NRI 方法,例如动态 NRI。未来的研究包括使这个模型更健壮、计算更高效、生物学上更可解释,这将导致一个有用的软件工具用于分析 MD 轨迹。论文链接:https://www.nature.com/articles/s41467-022-29331-3相关报道:https://techxplore.com/news/2022-05-ai-large-amounts-biological.html

相关文章
|
1月前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
1月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
62 6
|
13天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
68 7
【AI系统】数据并行
|
15天前
|
人工智能
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
|
18天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
35 7
|
1月前
|
人工智能 算法 BI
聚焦AI与BI融合,引领数智化新潮流 | 【瓴羊数据荟】瓴羊数据Meet Up城市行第一站完美收官!
当BI遇见AI,洞见变得触手可及 —— 瓴羊「数据荟」数据Meet Up城市行·杭州站启幕,欢迎参与。
415 5
聚焦AI与BI融合,引领数智化新潮流 | 【瓴羊数据荟】瓴羊数据Meet Up城市行第一站完美收官!
|
22天前
|
存储 人工智能 编译器
【AI系统】昇腾数据布局转换
华为昇腾NPU采用独特的NC1HWC0五维数据格式,旨在优化AI处理器的矩阵乘法运算和访存效率。此格式通过将C维度分割为C1份C0,适应达芬奇架构的高效计算需求,支持FP16和INT8数据类型。此外,昇腾还引入了NZ分形格式,进一步提升数据搬运和矩阵计算效率。AI编译器通过智能布局转换,确保在不同硬件上达到最优性能。
45 3
|
25天前
|
人工智能 自然语言处理 Swift
探索面向开放型问题的推理模型Marco-o1,阿里国际AI团队最新开源!
阿里国际AI团队发布的新模型Marco-o1,不仅擅长解决具有标准答案的学科问题(如代码、数学等),更强调开放式问题的解决方案。该模型采用超长CoT数据微调、MCTS扩展解空间等技术,提升了模型在翻译任务及复杂问题解决上的表现。研究团队还开源了部分数据和模型,供社区使用和进一步研究。
|
1月前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
1月前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
下一篇
DataWorks