吉林大学团队使用 AI 分析大量生物数据，探索蛋白质变构过程的动态相互作用-阿里云开发者社区

吉林大学团队使用 AI 分析大量生物数据，探索蛋白质变构过程的动态相互作用

2023-05-16 205

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 吉林大学团队使用 AI 分析大量生物数据，探索蛋白质变构过程的动态相互作用

蛋白质变构是由空间远程蛋白质内通讯促进的生物过程，其中配体结合或远处位点的氨基酸变化会远程影响活性位点。分子动力学（MD）模拟提供了一种强大的计算方法来探测变构效应。然而，当前的 MD 模拟无法达到整个变构过程的时间尺度。深度学习的出现使得评估空间短程和远程通信以理解变构成为可能。为此，吉林大学和密苏里大学的研究人员合作，开发了基于图神经网络的神经关系推理模型，该模型采用编码器-解码器架构同时推断潜在相互作用，以探索蛋白质变构过程作为相互作用残基的动态网络。从 MD 轨迹中，该模型成功地学习了可以介导 Pin1、SOD1 和 MEK1 系统中远距离位点之间的变构通信的远程相互作用和途径。此外，该模型可以在 MD 模拟轨迹中更早地发现变构相关的相互作用，并比其他方法更准确地预测突变后的相对自由能变化。该研究以「Neural relational inference to learn long-range allosteric interactions in proteins from molecular dynamics simulations」为题，于 2022 年 3 月 29 日发布在《Nature Communications》。分子动力学模拟可以直接探测生物分子运动，但由于模拟的时间尺度有限，以及 3D 轨迹数据的高维和复杂性，可能无法捕获有意义的功能信息。此外，许多具有挑战性的 MD 分析问题缺乏合适的方法来探测远程通信。例如，变构通讯在蛋白质中是众所周知的，但了解信号如何在蛋白质内或跨不同蛋白质分子长距离传输，几十年来一直是一个具有挑战性的问题。用于模拟蛋白质变构通信的计算技术，依赖于图论指标来识别两个远端活性位点之间的远程耦合。一般来说，一个蛋白质可以映射到一个图上，其中每个节点代表一个残基，每个加权边代表两个节点之间的相互作用。蛋白质中变构位点和活性位点之间的最短路径，对于在变构通讯中传播信号可能很重要。早期的图形模型使用静态晶体结构来计算一个残基和其他残基之间的最短路径，这可能无法解释动态蛋白质中潜在接触的全部范围以及相关的变构行为。后来，MD 模拟的动态信息被用来破译基于图论的变构机制。一种众所周知的变构方法，扰动响应扫描（PRS），使用基于 Hessian 的弹性网络模型（ENM）来获得位置的相关动态。然而，这两种模型都基于假设设置，即在蛋白质中残基的所有 Cα 原子上应用外力矢量。此外，由于以下原因，这些方法可能无法很好地检测变构和活性位点之间假设的相关动力学：（i）模拟时间尺度可能太短而无法实现矩阵分解的足够信噪比；（ii）变构位点的扰动与其活性位点的响应之间可能存在延迟，因此线性相关性可能无法很好地反映它；（iii）Hessian 方法和其他类似方法很难区分与变构通信相关的因果关系和非因果关系。因此，为了获得对变构通信的更多见解，需要开发进一步的模型。深度学习的出现为探索变构效应提供了新的机会。新兴的图神经网络 (GNN) 旨在对图中的数据系统进行建模，并在解决许多与图相关的问题方面取得了巨大成功。最近，GNN 通过使用具有消息传递或注意机制的隐式交互模型，帮助实现了在交通场景、动态物理系统和计算机视觉任务中对复杂动态系统进行建模的长期研究目标。更值得注意的是一个无监督的神经关系推理（NRI）模型，它可以推断出明确的交互结构，同时预测物理模拟中的动态模型，例如篮球运动员在球场上的运动。该模型使用运动捕捉数据训练一种变分自动编码器来模拟输入系统的动态，其中学习的嵌入（潜在代码）将底层交互转换为可解释的图结构，并预测与时间相关的动态。NRI 不需要大量的输入数据或先验知识，并且它不假设任何线性相关性来检测因果关系。例如，它成功地区分篮球运动员偏爱右手焦点还是左手焦点，仅依靠运动状态而不了解潜在的相互作用。NRI 模型适用于学习 MD 模拟中生物大分子的模拟运动轨迹，其中生物分子由化学键连接的原子形成，其运动规律由牛顿力学描述。

图 1：通过重建 MD 模拟轨迹来推断交互图的过程。（来源：论文）

在这项研究中，该团队调整了 NRI 模型，以了解变构途径如何介导从配体结合或突变位点到蛋白质活性中心的远程调节。基于 MD 模拟的轨迹，研究人员将蛋白质变构过程制定为相互作用残基的动态网络。该模型使用 GNN 通过最小化重建和模拟轨迹之间的重建误差来学习网络动态的嵌入；然后，NRI 模型推断出由潜在变量表示的残基之间的边。学习嵌入本质上抽象了关键残基在构象转变中的重要作用，这有助于破译蛋白质变构的机制。研究人员对三种变构系统进行了MD模拟，即（i）配体结合诱导的Pin1变构调节，（ii）G93A 肌萎缩侧索硬化相关突变引起的SOD1构象转变，以及（iii）致癌突变激活MEK1。研究人员还利用相应的轨迹来训练 NRI 模型，并通过将其与三种常规方法（约束网络分析、Hessian 的导数中心性度量和动态耦合指数）进行比较来评估模型性能。这项研究是首次尝试使用 GNN，尤其是 NRI，来分析生物系统中的 MD 模拟。图 2：Pin1 中配体结合或突变后蛋白质灵活性和相互作用模式的变化。（来源：论文）探索 Pin1、SOD1 和 MEK1 系统的变构远程相互作用的三个案例研究，证明该 NRI 模型可以通过嵌入重建的 MD 轨迹有效地生成与蛋白质慢动作相关的相互作用图。相互作用图中变构位点和活性位点之间的最短路径，可以揭示介导变构通讯的途径。此外，该模型可以使用比其他方法更短的模拟，来捕捉变构相关的相互作用和动态运动的趋势。近期，人类 Pin1 的两种不同的变构机制，已经使用计算方法得到了很好的研究。令人欣慰的是，该团队的一些发现与近期其他团队的一些结果一致，这表明正变构配体 FFpSPR 的存在通过两种途径增强了 WW 域和 PPIase 域之间的域间相互作用。Path1 从 WW 背面发出并通过域间界面和 PPIase 核心传播到催化位点；Path2 从 WW 前袋发出，并通过结合的底物 α1 和 α1 核心界面传播到催化回路。该结果不仅显示了增强的域间接触，而且还确定了从 WW 通过 α1 和 α2-3 螺旋，以催化环结束的另一种开放通信途径。图 3：介导 Pin1 中域间变构通信的通路，从最短通路计算中获得。（来源：论文）此外，研究人员研究了正负配体对良好分离结构构象转变的影响。负机制的结果证实了最近的发现，即负变构配体 pCdc25C 结合减少了 PPIase 域中的域内接触。在考虑蛋白质设计时，源自最短路径的变构途径提供了有价值的信息。改变变构途径中的残基以改变蛋白质的生物学功能和调节特性是可能的。该团队展示的一个例子是 Pin1 中的残基 I28，已知变构的影响出现在 T29 旁边。示例性残基 T29 是上图 3a 中确定的一个途径上的关键残基。图 4：SOD1 中 G93A 突变后残基/结构域之间相互作用的变化。另外，αA-螺旋中的残基 R49 和 K57 都出现在两个激活的 MEK1 的变构途径上。由于 αA-螺旋是与激酶结构域其余部分相互作用的关键界面，残基 R49 和 K57 的突变可能会导致螺旋结构的显着改变，从而诱导 ERK 磷酸化。图 5：MEK1 活性突变后域通信的变化。（来源：论文）同时，激活片段中的残基 G213 和 D217 在两个激活的 MEK1 的通路上显示出显着的高频率，这证实了它们在变构通讯中作为全局介导位点的作用。该区域的突变确实导致 MAPK 通路的组成型激活。因此，该 NRI 模型学习的变构途径可能会通过有针对性的设计显着减少对突变筛选的需求。这种方法可用于一般突变效应预测，以及设计能够调节蛋白质功能的变构药物的指南，具有比传统药物更高的特异性和更低的毒性。由于能量势垒较大，生物分子的构象变化通常发生在毫秒或更长的时间尺度内，这在数百纳秒到数十微秒的 MD 模拟中通常是无法实现的。另一方面，导致长期构象变化的驱动力和潜在的域间/域内相互作用早在构象变化在轨迹中显现之前就显现出来了。图 6：基于 NRI 的方法的自由能分数计算性能评估。（来源：论文）据报道，MD 模拟的许多分析方法已被用于根据基于位置协方差的度量来识别变构重要性。该研究比较了基于 NRI 的模型和其他 MD 方法（约束网络分析、Hessian 的导数中心性度量和动态耦合指数）。当前的 NRI 模型确实比其他方法需要更多的时间来计算。然而，NRI 模型的优势不是计算时间，而是它识别其他方法可能错过的一些远程交互的潜力。这并不意味着替代其他方法，但新方法确实是对它们的补充。新的 NRI 模型的优点如下：（i）新模型足够灵敏，可以在观察到完整的构象转变之前更早地捕获变构信号；（ii）新模型可以清楚地呈现蛋白质生物学功能过程中的相互作用模式和信号传递途径；（iii）新模型在估计突变后的自由能变化方面具有巨大潜力。该模型不限于变构调节。许多其他生物和制药过程，例如蛋白质折叠/展开、蛋白质激活或药物分子结合靶点也可以通过 NRI 模型表示为动态相互作用图。特别是，NRI 模型在探测非周期性生物分子运动时很有吸引力。与相互作用不随时间变化的周期性物理运动不同，蛋白质在执行功能期间通常伴随着相当大的构象和相互作用变化。在这些情况下使用 NRI 将随着时间的推移检索交互。研究人员相信，可以开发 NRI 模型来恢复执行蛋白质功能过程中每个时间间隔的残基之间的相互作用。可以为此目的应用其他 NRI 方法，例如动态 NRI。未来的研究包括使这个模型更健壮、计算更高效、生物学上更可解释，这将导致一个有用的软件工具用于分析 MD 轨迹。论文链接：https://www.nature.com/articles/s41467-022-29331-3相关报道：https://techxplore.com/news/2022-05-ai-large-amounts-biological.html